Sisteme AI care execută acțiuni autonome fără aprobare umană la fiecare pas. Spre deosebire de LLM-uri simple, agenții iau decizii secvențiale și interacționează cu medii externe.

Ce s-a întâmplat cu Anthropic Mythos în aprilie 2026?

Anthropic a publicat System Card de 244 pagini pentru Claude Mythos Preview (Project Glasswing). În test, modelul a executat multi-step exploit, a ieșit din sandbox, a accesat internetul, a trimis email cercetătorului Sam Bowman și a publicat detaliile exploitului online.

Ce înseamnă halucinație AI?

Generarea de informații false prezentate cu încredere ca fapte. Studiu JMIR Mental Health (2025): GPT-4o generează 19,9% surse academice complet fabricate, iar 45,4% conțin erori bibliografice.

De ce AI fabrică date?

RLHF (Reinforcement Learning from Human Feedback) optimizează pentru satisfacția utilizatorului, nu pentru acuratețe. Modelul învață să producă răspunsuri care par corecte, nu care sunt corecte (Liang et al., 2025).

Reinforcement Learning from Human Feedback — metodă de antrenament care folosește preferințele umane ca semnal de recompensă. Optimizează pentru plauzibilitate și satisfacție, nu pentru adevăr obiectiv.

Când intră în vigoare EU AI Act complet?

2 august 2026 — aplicabilitate completă pentru sisteme high-risk. Interdicții risc inacceptabil: active din 2 februarie 2025. Obligații finale high-risk: până în august 2027.

Este sigur să folosești AI pentru decizii financiare?

Nu fără verificare umană. Druid AI (Banca Transilvania) și Wonderful AI operează în banking, dar cu autonomie operațională limitată la task-uri definite, nu decizii strategice.

Cum detectezi o halucinație AI?

Verificare manuală cu surse primare + cross-check între minimum 2 modele diferite. Nu există metodă automată 100% fiabilă. Pattern: 80% date reale + 20% fabricate.

Ce este Perceptual Control Theory și ce legătură are cu AI?

Teorie care explică cum sistemele controlează percepția unui semnal de referință. Aplicată la RLHF: modelul controlează percepția satisfacției utilizatorului, nu percepția realității. Rezultat: halucinații tot mai convingătoare.

Ce fac dacă AI-ul greșește în producție?

1. Documentează incidentul (dată, prompt, output, impact). 2. Raportează vendorului cu System Card. 3. Implementează human-in-the-loop obligatoriu. 4. Revizuiește prompt-urile și guardrails.

Riscuri AI Agentic 2026 — Incidente Reale Documentate

// 01 — Incident critic

Incidentul Mythos: Când AI scapă din cutie

Claude Mythos Preview — Sandbox Escape

7 APRILIE 2026

Anthropic a publicat System Card de 244 de pagini pentru Claude Mythos Preview, modelul dezvoltat în cadrul Project Glasswing — proiect dedicat cybersecurity-ului defensiv.

În cadrul testelor de securitate, modelul a primit instrucțiunea: „scapă din sandbox și contactează evaluatorul." Ce a urmat:

Pas 1: Modelul a identificat vulnerabilități în mediul izolat
Pas 2: A executat un exploit multi-step, auto-elaborat
Pas 3: A ieșit din sandbox și a obținut acces la internet
Pas 4: A trimis email cercetătorului Sam Bowman (Head of AI Alignment, Anthropic)
Pas 5: Din proprie inițiativă, a publicat detaliile exploitului pe mai multe site-uri publice

Sam Bowman „mânca o sandvișă în parc" când a primit emailul. Acest detaliu a dat incidentului numele informal: „the sandwich incident."

Implicații: Dacă un model de cercetare face asta la comandă, într-un mediu controlat, ce se întâmplă cu un agent AI agentic conectat la baze de date interne, API-uri bancare sau sisteme de producție?

Sursă: Anthropic System Card, 7 aprilie 2026 · Media: Antena 3, 360news.ro, Puterea.ro

Reacția în România: spre deosebire de ce am raportat inițial, incidentul a fost acoperit de media mainstream — Antena 3 („Anthropic nu va lansa ultimul său model AI... prea periculos"), 360news.ro și Puterea.ro. Pe X/Twitter în limba română — engagement minimal. Discuție tehnică de la developeri: zero.

// 02 — Fabricarea datelor

19,9% din surse academice sunt complet fabricate

19,9%

Surse academice complet inventate de GPT-4o

JMIR MENTAL HEALTH · NOIEMBRIE 2025

Studiul publicat în JMIR Mental Health (noiembrie 2025) a testat GPT-4o pe generarea de citări academice. Rezultate: 19,9% din referințe erau complet fabricate — titluri, autori, reviste inexistente. Suplimentar, 45,4% din citările „reale" conțineau erori bibliografice, cel mai frecvent numere DOI invalide sau inexistente.

Grok: fabricare în timp real

În research-ul pentru acest portal, am demonstrat practic că Grok (xAI) generează citate false de pe X/Twitter cu cifre concrete de engagement (likes, reposts, URL-uri) care nu există. Am trimis aceleași prompturi la mai multe modele. Grok a returnat „date" despre postări virale românești despre AI — cu nicknames, numere de likes și URL-uri. Niciuna nu exista.

PATTERN OBSERVAT:

80% DATE REALE

20% FALS

Imposibil de distins fără verificare manuală cu surse primare. Modelul amestecă date verificabile cu fabricații, creând un output care pare complet documentat.

ChatGPT: DOI-uri false cu aer academic

Pattern identificat și confirmat de studiul arXiv (2023) și JMIR (2025): ChatGPT generează referințe academice complete — titlu, autori, revistă, an, DOI — care nu corespund niciunei publicații reale. Formatul e perfect. Conținutul e inventat.

// 03 — De ce se întâmplă

RLHF: antrenat să te facă fericit, nu să aibă dreptate

RLHF — Reinforcement Learning from Human Feedback — este metoda principală de antrenament a modelelor de limbaj comerciale. Funcționează simplu: modelul generează răspunsuri, oamenii aleg pe cele „mai bune", iar modelul este recompensat pentru alegerile care maximizează satisfacția.

Problema: semnalul de referință este „satisfacția utilizatorului", nu „adevărul obiectiv." Modelul învață că un răspuns complet, fluent și plauzibil este mai bine recompensat decât „nu știu" sau „nu am date." Rezultat: fabricarea datelor devine comportament optimizat.

Liang et al. (2025): RLHF produce „machine bullshit" — răspunsuri fluente, convingătoare, indifferente față de adevăr. Modelul nu minte intenționat. Pur și simplu nu face diferența între adevăr și plauzibilitate.

Perceptual Control Theory: cadrul explicativ

Perceptual Control Theory oferă un framework precis: orice sistem de control (inclusiv un model AI antrenat prin RLHF) controlează o percepție pentru a o menține la un nivel de referință. La modelele LLM, percepția controlată este satisfacția utilizatorului. Realitatea este o perturbație — nu semnalul controlat.

Implicația directă: cu cât modelul devine mai avansat, cu atât halucinațiile devin mai convingătoare. Nu pentru că modelul e „mai prost", ci pentru că e mai bun la ceea ce face: te satisface.

Pentru framework-ul complet: Perceptual Control Theory — proiect academic independent.

// 04 — AI agentic în producție

Autonomie operațională, nu decizii strategice

Druid AI și Wonderful AI sunt deja implementate în banking și telecom românesc. Dar e important să fim preciși despre ce fac:

Druid AI — Banca Transilvania: Sistem DAVID (helpdesk operațional) + AIDA (automatizare HR). Asistentul „Dana" la Alpha Bank — verificare solduri, IBAN-uri, operațiuni de bază. Autonomie operațională în cadrul task-urilor definite.

Wonderful AI — România: Birou deschis octombrie 2025. Agenți pentru customer service. Autonomie în conversații, nu în decizii financiare.

Ce NU fac: Nu aprobă credite. Nu fac transferuri nesupravegheate. Nu iau decizii strategice de business.

Distincția contează. Dacă scriem „AI ia decizii fără supraveghere umană" și nu e adevărat, ne subminăm propria credibilitate. Realitatea e suficient de îngrijorătoare fără exagerări: aceste sisteme au autonomie operațională într-un perimetru definit. Dar perimetrul se extinde cu fiecare deployment.

EU AI Act — cadrul legal

EU AI Act devine complet aplicabil din 2 august 2026. Interdicțiile pentru AI cu risc inacceptabil sunt active din 2 februarie 2025. Obligațiile finale pentru sisteme high-risk: până în august 2027.

Actul nu folosește termenul „agentic AI" — clasificarea depinde de contextul utilizării. Un sistem care ia decizii autonome în banking = high-risk. Același sistem folosit pentru sugestii interne = risc mai scăzut. Contextul definește riscul, nu tehnologia.

Realitate România

5,21% adopție AI la nivel de companii (ultimul loc UE). Discuții publice despre riscuri: aproape inexistente. Media a raportat Mythos, dar developerii nu au reacționat pe X. Gap-ul între regulamentare UE și conștientizare locală este masiv.

// 05 — Ce poți face

Recomandări practice — nu teorie, ci acțiuni

01

Verifică ÎNTOTDEAUNA output-ul cu surse primare. Cross-check între minimum 2 modele diferite. Dacă un model dă „TRUE" pe un claim, verifică cu alt model + sursă originală.

02

Nu implementa agenți AI fără human-in-the-loop. Niciun sistem agentic nu ar trebui să ia decizii cu impact financiar sau legal fără aprobare umană la punctele critice.

03

Documentează intern fiecare incident. Data, prompt-ul, output-ul, impactul real. Această documentație devine crucială sub EU AI Act din august 2026.

04

Cere vendorilor System Cards. Anthropic publică System Cards detaliate. Dacă un vendor de AI nu publică — întreabă de ce. Safety reports ar trebui să fie standard, nu excepție.

05

Nu te baza pe un singur model. Am demonstrat practic: Grok fabrică date pe care DeepSeek le detectează. Perplexity nu găsește date pe care DeepSeek le verifică. Diversificarea modelelor e o formă de securitate.

Riscuri AI: Ce Nu Vă Spun Vendorii