Observabilitatea AI este o cerinta de securitate, nu un dashboard

McKinsey a construit un agent AI. A fost spart in doua ore.

Pe 28 februarie 2026, startup-ul de securitate CodeWall a indreptat un agent AI autonom catre platforma AI interna a McKinsey, Lilli. Fara credentiale. Fara ajutor din interior. Fara ghidare umana. In doua ore, agentul avea acces complet de citire-scriere la baza de date de productie: 46,5 milioane de mesaje de chat despre strategie, M&A si angajamente cu clientii. 728.000 de fisiere confidentiale. 57.000 de conturi de utilizatori. 95 de system prompts.

Cauza principala a fost o vulnerabilitate de SQL injection pe endpoint-uri API neautentificate. Douazeci si doua de endpoint-uri, fara autentificare, chei JSON concatenate direct in SQL. O tehnica de vulnerabilitate care exista din anii '90.

Iata ce ar trebui sa te ingrijoreze: nimeni de la McKinsey nu a observat pana cand CodeWall le-a spus. Atacul a durat doua ore. Detectia a durat zero. Pentru ca nu exista detectie.

Asta se intampla cand implementezi agenti AI fara observabilitate.

Observabilitatea nu inseamna monitorizare

Sa fiu specific cu ce vreau sa spun. Monitorizarea traditionala iti spune ca API-ul tau a returnat o eroare 500. Observabilitatea AI iti spune ca agentul tau a facut 14 apeluri de tool-uri prin 3 lanturi de rationament, al 9-lea apel continea un payload de SQL injection in campul query-ului utilizatorului, iar raspunsul includea date dintr-un tabel la care agentul nu ar fi trebuit sa aiba niciodata acces.

Sunt probleme fundamental diferite. Un HTTP 200 de la un agent AI nu iti spune aproape nimic. Agentul ar fi putut sa halucineze, sa scurga PII, sa execute un prompt injection sau sa acceseze date in afara scopului sau de autorizare. Totul in timp ce returna un status code perfect sanatos.

Microsoft a facut aceasta distinctie explicita pe 18 martie 2026, cand au reclasificat observabilitatea AI de la un instrument optional de diagnosticare la o cerinta obligatorie de securitate pentru sistemele AI enterprise. Rationamentul lor: atacurile de prompt injection, exfiltrarea datelor prin interactiuni AI si comportamentele neintentionate ale agentilor creeaza riscuri pe care monitorizarea traditionala nu le poate detecta.

Nu e vorba ca Microsoft ar fi precaut. Microsoft iti spune ce a invatat de la 80% din companiile Fortune 500 care ruleaza agenti AI activi.

Cum arata de fapt observabilitatea agentilor AI

Daca rulezi AI agentic in productie si stack-ul tau de observabilitate nu poate raspunde la aceste intrebari, ai un gol:

Ce tool-uri a apelat agentul, in ce ordine, cu ce argumente? Fiecare invocare de tool este o suprafata de atac. Daca agentul tau poate apela o baza de date, un API sau un sistem de fisiere, trebuie sa vezi fiecare apel cu logging complet al argumentelor.
Care a fost lantul complet de rationament? Sistemele agentice iau decizii in mai multi pasi. Un prompt injection la pasul 3 poate redirectiona comportamentul agentului la pasul 7. Fara vizibilitate la nivel de trace in intregul lant, nu poti reconstitui ce s-a intamplat.
Ce date a accesat agentul fata de ce date era autorizat sa acceseze? Aceasta este problema McKinsey. Agentul a accesat 46,5 milioane de mesaje pentru ca nimic nu a verificat daca ar fi trebuit.
Care este costul de token-uri si latenta per lant de rationament? Aceasta este partea de ops. Un agent blocat intr-o bucla de apeluri de tool-uri iti va consuma bugetul de API inainte ca cineva sa observe, daca nu ai alerte de cost pe trace-uri.

Vestea buna: OpenTelemetry are acum conventii semantice pentru span-uri de agenti GenAI. Fiecare tura de conversatie, apel LLM, executie de tool si selectie de speaker poate fi capturata ca span-uri structurate conectate printr-un trace ID comun. Datadog suporta nativ aceste conventii incepand cu OTel v1.37. La fel si New Relic, care a lansat o platforma dedicata de agenti AI in februarie.

Un stack minimal de observabilitate pentru agenti AI

Iata cum arata un setup de baza cu OpenTelemetry si Python. Nu e de nivel productie, dar arata pattern-ul:

from opentelemetry import trace
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
 
# Initialize tracer with OTLP exporter
provider = TracerProvider()
processor = BatchSpanProcessor(OTLPSpanExporter(endpoint="http://localhost:4317"))
provider.add_span_processor(processor)
trace.set_tracer_provider(provider)
tracer = trace.get_tracer("ai-agent")
 
def run_agent_step(user_query: str):
    with tracer.start_as_current_span("agent.run") as span:
        span.set_attribute("gen_ai.system", "openai")
        span.set_attribute("gen_ai.request.model", "gpt-4")
        span.set_attribute("user.query", user_query)
 
        # Trace each tool call as a child span
        with tracer.start_as_current_span("tool.database_query") as tool_span:
            tool_span.set_attribute("tool.name", "sql_query")
            tool_span.set_attribute("tool.arguments", "SELECT * FROM users LIMIT 10")
            tool_span.set_attribute("tool.authorized", True)
            result = execute_query("SELECT * FROM users LIMIT 10")
            tool_span.set_attribute("tool.result_rows", len(result))
 
        # Log token usage for cost tracking
        span.set_attribute("gen_ai.usage.input_tokens", 847)
        span.set_attribute("gen_ai.usage.output_tokens", 312)

Atributele cheie: tool.name, tool.arguments, tool.authorized. Ultimul este ceea ce le lipsea celor de la McKinsey. Fiecare apel de tool are nevoie de o verificare de autorizare, si fiecare verificare trebuie logata.

Unde se potriveste EU AI Act

Daca implementezi agenti AI in UE, acest lucru nu este optional dintr-un alt motiv. Articolul 15 din EU AI Act cere ca sistemele AI high-risk sa aiba "niveluri adecvate de acuratete, robustete si securitate cibernetica". Articolul 12 impune capabilitati de logare automata care sa permita monitorizarea functionarii sistemului AI high-risk.

Legatura este directa: daca agentul tau AI proceseaza date personale, ia decizii despre persoane sau opereaza intr-o categorie high-risk din Anexa III, ai nevoie de logare pe care un regulator o poate audita. Trace-urile OpenTelemetry exportate intr-un storage durabil satisfac cerintele de documentatie tehnica din Articolele 11 si 12.

Termenul de aplicare din 2 august 2026 pentru sistemele high-risk este la mai putin de 5 luni distanta. Indiferent daca propunerea Digital Omnibus intarzie acest lucru sau nu, cerintele de baza de documentare raman identice.

De ce stack-ul tau actual are probabil lacune

Majoritatea echipelor cu care vorbesc au una din doua configuratii:

Configuratia A: "Logam in CloudWatch." Ai log-uri de aplicatie. Poti vedea ca agentul a rulat. Nu poti vedea ce a decis, ce tool-uri a apelat, ce date a accesat sau daca raspunsul a fost corect. Aceasta este configuratia McKinsey.

Configuratia B: "Folosim LangSmith pentru dev." Ai vizibilitate la nivel de trace in development. Probabil l-ai oprit in productie din cauza costurilor sau a preocuparilor legate de latenta. Deci mediul tau de dev este observabil, iar mediul tau de productie, unde se intampla atacurile reale, nu este.

Solutia e directa: instrumenteaza agentul cu OpenTelemetry, exporta trace-urile in orice backend rulezi deja (Datadog, Grafana, Elastic) si configureaza alerte pe pattern-uri anormale. Un agent care brusc face 50 de apeluri de tool-uri in loc de cele obisnuite 5 este fie defect, fie sub atac. Oricum, vrei sa stii.

Ce inseamna asta pentru echipa ta

McKinsey este o firma de consultanta de 16 miliarde de dolari cu un buget de securitate probabil considerabil. Platforma lor AI a fost compromisa printr-o vulnerabilitate mai veche decat majoritatea dezvoltatorilor juniori. Nu pentru ca nu isi puteau permite o securitate mai buna, ci pentru ca nu si-au instrumentat agentul AI sa detecteze comportamente anormale.

Daca agentul AI al McKinsey avea observabilitate, cineva ar fi observat 46,5 milioane de citiri din baza de date in doua ore. Nu au observat, pentru ca nimeni nu se uita.

Tool-urile exista. Conventiile semantice GenAI din OpenTelemetry sunt stabile. Datadog, New Relic si Grafana le suporta pe toate. Microsoft cere acum observabilitate ca parte a SDL-ului lor pentru sistemele AI.

Intrebarea nu este daca ai nevoie de observabilitate AI. Intrebarea este daca o vei adauga inainte sau dupa ce ceva merge prost.

Despre DeviDevs: Construim platforme ML, securizam sisteme AI si ajutam companiile sa se conformeze cu EU AI Act. devidevs.com

Sistemul tau AI e conform cu EU AI Act? Evaluare gratuita de risc - afla in 2 minute →

Observabilitatea AI este o cerinta de securitate, nu un dashboard

Observabilitatea AI este o cerinta de securitate, nu un dashboard

McKinsey a construit un agent AI. A fost spart in doua ore.

Observabilitatea nu inseamna monitorizare

Cum arata de fapt observabilitatea agentilor AI

Un stack minimal de observabilitate pentru agenti AI

Unde se potriveste EU AI Act

De ce stack-ul tau actual are probabil lacune

Ce inseamna asta pentru echipa ta

Weekly AI Security & Automation Digest

Related Articles

Securitatea Lanțului de Aprovizionare AI: Protejarea Pipeline-urilor ML

Modelul tau ML va muri in productie. Salveaza-l.

Securitatea lantului ML: ghid NSA pentru MLOps