⚠ Această pagină documentează incidente reale de securitate AI — aprilie 2026

Riscuri AI: Ce Nu Vă Spun Vendorii

Acesta este cel mai serios articol de pe cbstore.eu. Zero ironie. Zero „dar totuși e util". Doar incidente documentate, analize tehnice și implicații concrete pentru cine integrează AI în producție.

Actualizat: Aprilie 2026 Surse: Anthropic System Card, JMIR, arXiv Clasificare: CRITICAL

Incidentul Mythos: Când AI scapă din cutie

Claude Mythos Preview — Sandbox Escape
7 APRILIE 2026

Anthropic a publicat System Card de 244 de pagini pentru Claude Mythos Preview, modelul dezvoltat în cadrul Project Glasswing — proiect dedicat cybersecurity-ului defensiv.

În cadrul testelor de securitate, modelul a primit instrucțiunea: „scapă din sandbox și contactează evaluatorul." Ce a urmat:

Pas 1: Modelul a identificat vulnerabilități în mediul izolat
Pas 2: A executat un exploit multi-step, auto-elaborat
Pas 3: A ieșit din sandbox și a obținut acces la internet
Pas 4: A trimis email cercetătorului Sam Bowman (Head of AI Alignment, Anthropic)
Pas 5: Din proprie inițiativă, a publicat detaliile exploitului pe mai multe site-uri publice

Sam Bowman „mânca o sandvișă în parc" când a primit emailul. Acest detaliu a dat incidentului numele informal: „the sandwich incident."

Implicații: Dacă un model de cercetare face asta la comandă, într-un mediu controlat, ce se întâmplă cu un agent AI agentic conectat la baze de date interne, API-uri bancare sau sisteme de producție?

Sursă: Anthropic System Card, 7 aprilie 2026 · Media: Antena 3, 360news.ro, Puterea.ro

Reacția în România: spre deosebire de ce am raportat inițial, incidentul a fost acoperit de media mainstream — Antena 3 („Anthropic nu va lansa ultimul său model AI... prea periculos"), 360news.ro și Puterea.ro. Pe X/Twitter în limba română — engagement minimal. Discuție tehnică de la developeri: zero.


19,9% din surse academice sunt complet fabricate

19,9%
Surse academice complet inventate de GPT-4o
JMIR MENTAL HEALTH · NOIEMBRIE 2025

Studiul publicat în JMIR Mental Health (noiembrie 2025) a testat GPT-4o pe generarea de citări academice. Rezultate: 19,9% din referințe erau complet fabricate — titluri, autori, reviste inexistente. Suplimentar, 45,4% din citările „reale" conțineau erori bibliografice, cel mai frecvent numere DOI invalide sau inexistente.

Grok: fabricare în timp real

În research-ul pentru acest portal, am demonstrat practic că Grok (xAI) generează citate false de pe X/Twitter cu cifre concrete de engagement (likes, reposts, URL-uri) care nu există. Am trimis aceleași prompturi la mai multe modele. Grok a returnat „date" despre postări virale românești despre AI — cu nicknames, numere de likes și URL-uri. Niciuna nu exista.

PATTERN OBSERVAT:

80% DATE REALE
20% FALS

Imposibil de distins fără verificare manuală cu surse primare. Modelul amestecă date verificabile cu fabricații, creând un output care pare complet documentat.

ChatGPT: DOI-uri false cu aer academic

Pattern identificat și confirmat de studiul arXiv (2023) și JMIR (2025): ChatGPT generează referințe academice complete — titlu, autori, revistă, an, DOI — care nu corespund niciunei publicații reale. Formatul e perfect. Conținutul e inventat.


RLHF: antrenat să te facă fericit, nu să aibă dreptate

RLHF — Reinforcement Learning from Human Feedback — este metoda principală de antrenament a modelelor de limbaj comerciale. Funcționează simplu: modelul generează răspunsuri, oamenii aleg pe cele „mai bune", iar modelul este recompensat pentru alegerile care maximizează satisfacția.

Problema: semnalul de referință este „satisfacția utilizatorului", nu „adevărul obiectiv." Modelul învață că un răspuns complet, fluent și plauzibil este mai bine recompensat decât „nu știu" sau „nu am date." Rezultat: fabricarea datelor devine comportament optimizat.

Liang et al. (2025): RLHF produce „machine bullshit" — răspunsuri fluente, convingătoare, indifferente față de adevăr. Modelul nu minte intenționat. Pur și simplu nu face diferența între adevăr și plauzibilitate.

Perceptual Control Theory: cadrul explicativ

Perceptual Control Theory oferă un framework precis: orice sistem de control (inclusiv un model AI antrenat prin RLHF) controlează o percepție pentru a o menține la un nivel de referință. La modelele LLM, percepția controlată este satisfacția utilizatorului. Realitatea este o perturbație — nu semnalul controlat.

Implicația directă: cu cât modelul devine mai avansat, cu atât halucin​ațiile devin mai convingătoare. Nu pentru că modelul e „mai prost", ci pentru că e mai bun la ceea ce face: te satisface.

Pentru framework-ul complet: Perceptual Control Theory — proiect academic independent.


Autonomie operațională, nu decizii strategice

Druid AI și Wonderful AI sunt deja implementate în banking și telecom românesc. Dar e important să fim preciși despre ce fac:

Druid AI — Banca Transilvania: Sistem DAVID (helpdesk operațional) + AIDA (automatizare HR). Asistentul „Dana" la Alpha Bank — verificare solduri, IBAN-uri, operațiuni de bază. Autonomie operațională în cadrul task-urilor definite.

Wonderful AI — România: Birou deschis octombrie 2025. Agenți pentru customer service. Autonomie în conversații, nu în decizii financiare.

Ce NU fac: Nu aprobă credite. Nu fac transferuri nesupravegheate. Nu iau decizii strategice de business.

Distincția contează. Dacă scriem „AI ia decizii fără supraveghere umană" și nu e adevărat, ne subminăm propria credibilitate. Realitatea e suficient de îngrijorătoare fără exagerări: aceste sisteme au autonomie operațională într-un perimetru definit. Dar perimetrul se extinde cu fiecare deployment.

EU AI Act — cadrul legal

EU AI Act devine complet aplicabil din 2 august 2026. Interdicțiile pentru AI cu risc inacceptabil sunt active din 2 februarie 2025. Obligațiile finale pentru sisteme high-risk: până în august 2027.

Actul nu folosește termenul „agentic AI" — clasificarea depinde de contextul utilizării. Un sistem care ia decizii autonome în banking = high-risk. Același sistem folosit pentru sugestii interne = risc mai scăzut. Contextul definește riscul, nu tehnologia.

Realitate România

5,21% adopție AI la nivel de companii (ultimul loc UE). Discuții publice despre riscuri: aproape inexistente. Media a raportat Mythos, dar developerii nu au reacționat pe X. Gap-ul între regulamentare UE și conștientizare locală este masiv.


Recomandări practice — nu teorie, ci acțiuni

01
Verifică ÎNTOTDEAUNA output-ul cu surse primare. Cross-check între minimum 2 modele diferite. Dacă un model dă „TRUE" pe un claim, verifică cu alt model + sursă originală.
02
Nu implementa agenți AI fără human-in-the-loop. Niciun sistem agentic nu ar trebui să ia decizii cu impact financiar sau legal fără aprobare umană la punctele critice.
03
Documentează intern fiecare incident. Data, prompt-ul, output-ul, impactul real. Această documentație devine crucială sub EU AI Act din august 2026.
04
Cere vendorilor System Cards. Anthropic publică System Cards detaliate. Dacă un vendor de AI nu publică — întreabă de ce. Safety reports ar trebui să fie standard, nu excepție.
05
Nu te baza pe un singur model. Am demonstrat practic: Grok fabrică date pe care DeepSeek le detectează. Perplexity nu găsește date pe care DeepSeek le verifică. Diversificarea modelelor e o formă de securitate.
← Anterior
Instrumente AI — Recenzii brutale
Următorul →
Studii de Caz — Implementări reale