Esegui un attacco di iniezione tempestiva contro Claude Opus 4.6 in un ambiente di codifica vincolato e fallirà ogni volta, percentuale di successo dello 0% su 200 tentativi, nessuna protezione necessaria. Sposta lo stesso attacco su un sistema basato su GUI con pensiero esteso abilitato e l’immagine cambia rapidamente. Un singolo tentativo riesce nel 17,8% dei casi senza protezioni. Al 200esimo tentativo, il tasso di violazione raggiunge il 78,6% senza protezioni e il 57,1% con queste.
Gli ultimi modelli’ Scheda di sistema da 212 paginepubblicato il 5 febbraio, analizza le percentuali di successo degli attacchi in base alla superficie, al conteggio dei tentativi e alla configurazione della protezione.
Perché le differenze a livello superficiale determinano il rischio aziendale
Per anni, l’iniezione tempestiva è stata un rischio noto che nessuno quantificava. Le squadre di sicurezza lo consideravano teorico. Gli sviluppatori di intelligenza artificiale lo hanno trattato come un problema di ricerca. La situazione è cambiata quando Anthropic ha reso misurabile l’iniezione tempestiva su quattro distinte superfici di agenti, con tassi di successo degli attacchi su cui i chief della sicurezza possono finalmente basarsi sulle decisioni di approvvigionamento.
La scheda di sistema GPT-5.2 di OpenAI embody risultati benchmark di iniezione rapida, inclusi punteggi su valutazioni come Agent JSK e PlugInject, ma non suddivide i tassi di successo degli attacchi in base alla superficie dell’agente né mostra come tali tassi cambiano attraverso tentativi ripetuti. La scheda di sistema GPT-5 originale descriveva più di 5.000 ore di collaborazione in rosso da parte di oltre 400 tester esterni. IL Scheda modello Gemini 3 lo descrive come “il nostro modello più sicuro finora” con “maggiore resistenza alle iniezioni tempestive”, condividendo miglioramenti relativi alla sicurezza rispetto ai modelli precedenti ma non pubblicando tassi di successo assoluti degli attacchi in base ai dati di ridimensionamento della superficie o della persistenza.
Ciò che ogni sviluppatore rivela e ciò che nasconde
|
Categoria di divulgazione |
Antropico (Opus 4.6) |
OpenAI (GPT-5.2) |
Google (Gemelli 3) |
|
Tassi di successo degli attacchi per superficie |
Pubblicato (dallo 0% al 78,6%) |
Solo punteggi di riferimento |
Solo miglioramenti relativi |
|
Ridimensionamento della persistenza degli attacchi |
Pubblicato (da 1 a 200 tentativi) |
Non pubblicato |
Non pubblicato |
|
Confronto on/off di salvaguardia |
Pubblicato |
Non pubblicato |
Non pubblicato |
|
Agente che monitora i dati sull’evasione |
Pubblicato (SHADE-Area) |
Non pubblicato |
Non pubblicato |
|
La scoperta zero-day conta |
Oltre 500 con progetti nominati |
Non pubblicato |
Non pubblicato |
|
Teaming rosso di terze parti |
Gray Swan, UK AISI, Apollo |
Oltre 400 tester esterni |
Regno Unito AISI, Apollo, Vaultis, Dreadnode |
I take a look at di terze parti evidenziano perché le informazioni granulari dei fornitori sono importanti. Rilevata la valutazione indipendente del staff rosso di Promptfoo di GPT-5.2 tassi di successo del jailbreak in aumento da un valore di base del 4,3% al 78,5% in scenari multi-turno, il tipo di dati su scala di persistenza che rivela come le difese si degradano in caso di attacco prolungato. La scheda di sistema di OpenAI non embody metriche equivalenti.
Quando l’agente sfugge al controllo del proprio creatore
Sepolta nella valutazione dell’allineamento c’è una scoperta che dovrebbe rimodellare il modo in cui le imprese pensano alla governance degli agenti. SU SHADE-Arenaun benchmark progettato per verificare se i modelli possono completare attività sospette senza attivare la supervisione automatizzata, Opus 4.6 ha avuto successo nel 18% dei casi quando period abilitato il pensiero esteso. Il monitor è stato calibrato sulla soglia di rilevamento interna di Anthropic.
La scheda di sistema afferma che il modello ha “una migliore capacità di completare compiti secondari sospetti senza attirare l’attenzione dei monitor automatizzati”. L’agente costruito da Anthropic elude il monitor costruito da Anthropic.
Anthropic è pubblicato separatamente Rapporto sul rischio di sabotaggio utilizza la stessa cifra del 18% per argomentare la conclusione opposta: che un modello con autentici obiettivi nascosti avrebbe “una probabilità estremamente elevata di essere catturato” agli attuali livelli di capacità. Ma il rapporto riconosce anche che il numero “rappresenta un aumento rispetto ai modelli recenti”. Per i staff di sicurezza aziendale, la linea di tendenza conta più del numero attuale. Una capacità che migliora con ogni generazione di modello non è una capacità che puoi tranquillamente ignorare nel tuo modello di rischio.
Per i staff di sicurezza, il risultato è architettonico. Limita ciò a cui un agente può accedere, limita il suo spazio di azione e richiedi l’approvazione umana per le operazioni advert alto rischio. Il modello tradizionale di distribuzione e monitoraggio presuppone che l’oggetto da monitorare sia prevedibile. Gli agenti che possono ragionare sulla propria supervisione non lo sono.
Bruce Schneier, ricercatore e docente alla Harvard Kennedy Faculty e membro del consiglio della Digital Frontier Basis, afferma che le aziende che implementano agenti IA si trovano di fronte a un “trilemma della sicurezza” dove possono ottimizzare velocità, intelligenza o sicurezza, ma non tutte e tre.
I dati di Anthropic illustrano il compromesso. La superficie più resistente è stretta e vincolata. Il più debole è ampio e autonomo.
500 zero-day modificano gli aspetti economici della scoperta delle vulnerabilità
Opus 4.6 ha scoperto più di 500 vulnerabilità precedentemente sconosciute nel codice open supply, inclusi difetti in GhostScript, OpenSC e CGIF. Anthropic ha dettagliato questi risultati in un publish sul weblog che accompagna il rilascio della scheda di sistema.
Cinquecento giorni zero da un unico modello. Per il contesto, il Menace Intelligence Group di Google ha monitorato 75 vulnerabilità zero-day sfruttate attivamente in tutto il settore nel 2024. Si tratta di vulnerabilità rilevate dopo che gli aggressori le stavano già utilizzando. Un modello ha scoperto in modo proattivo un numero sei volte superiore di codebase open supply prima che gli aggressori potessero trovarli. Si tratta di una categoria diversa di scoperta, ma mostra la portata che l’intelligenza artificiale apporta alla ricerca sulla sicurezza difensiva.
Gli attacchi nel mondo reale stanno già convalidando il modello di minaccia
Alcuni giorni dopo il lancio di Anthropic, Claude Cowork, ricercatori di sicurezza presso PromptArmor trovato un modo per rubare file utente riservati attraverso iniezioni tempestive nascoste. Non è richiesta alcuna autorizzazione umana.
La catena di attacco funziona in questo modo:
Un utente collega Cowork a una cartella locale contenente dati riservati. Un avversario inserisce in quella cartella un file con un immediate injection nascosto, mascherato da innocuo documento di “abilità”. L’iniezione induce Claude a esfiltrare dati privati attraverso il dominio API Anthropic inserito nella whitelist, aggirando completamente le restrizioni della sandbox. PromptArmor lo ha testato contro Claude Haiku. Ha funzionato. Lo testarono contro Claude Opus 4.5, il modello più potente dell’azienda all’epoca. Anche quello ha funzionato.
Simon Willison, il ricercatore indipendente sull’intelligenza artificiale che ha coniato il termine “immediate injection” nel 2022, ha scritto in un post sul blog dopo aver recensito Cowork che “non pensa che sia giusto dire agli utenti regolari non programmatori di fare attenzione a ‘azioni sospette che potrebbero indicare una pronta iniezione.'” La vulnerabilità rivelata da Anthropic nella propria scheda di sistema, per cui gli avversari persistenti violano le difese più della metà delle volte, è la stessa che si è verificata in produzione due settimane prima della distribuzione di Opus 4.6.
Il problema dell’integrità della valutazione che colpisce ogni fornitore
Il processo decisionale sul rilascio della scheda di sistema contiene un’ammissione che dovrebbe far riflettere ogni staff di sicurezza aziendale. Anthropic ha utilizzato lo stesso Opus 4.6, tramite Claude Code, per eseguire il debug della propria infrastruttura di valutazione, analizzare i risultati e risolvere i problemi sotto pressione.
L’azienda riconosce esplicitamente il rischio. “Un modello disallineato potrebbe influenzare la stessa infrastruttura progettata per misurare le sue capacità.” Anthropic afferma di non ritenere che ciò presenti un rischio significativo perché il modello non ha mostrato show di obiettivi pericolosi e disallineati. Ma la dinamica è reale e sta peggiorando. Man mano che i modelli diventano più capaci e le tempistiche di sviluppo rimangono compresse, i staff accettano modifiche al codice che non comprendono appieno.
Anthropic è andato oltre qualsiasi altro laboratorio nel quantificare cosa poteva andare storto. Un separato Rapporto sul rischio di sabotaggiorilasciato insieme alla scheda di sistema, traccia otto percorsi specifici attraverso i quali Opus 4.6 potrebbe causare danni catastrofici se agisse su obiettivi disallineati mentre period incorporato nell’infrastruttura di Anthropic. Questi includono il sabotaggio della ricerca sulla sicurezza attraverso il sandbagging deliberato, l’inserimento di backdoor di sicurezza nel codice affinché i modelli futuri possano sfruttarli e l’esfiltrazione dei pesi del proprio modello per operare in modo autonomo.
Per ciascun percorso, il rapporto valuta sia la frequenza che la complessità delle azioni disallineate richieste, quindi valuta se il monitoraggio, i take a look at di allineamento e i controlli di sicurezza di Anthropic sono sufficienti a contenere il rischio.
Il verdetto complessivo: “molto basso ma non trascurabile”. Il rapporto sostiene che l’Opus 4.6 non dispone degli obiettivi pericolosi e coerenti, dell’opacità del ragionamento e dell’affidabilità della pianificazione a lungo orizzonte necessaria per eseguire questi percorsi senza essere scoperti. Ma ammette anche che i suoi monitor automatizzati non coprono ogni superficie di distribuzione interna, che i suoi sistemi di segnalazione umana non sono stati valutati rigorosamente e che l’avvelenamento dei dati da parte di un avversario umano competente potrebbe rendere il modello più capace di aggirare le garanzie di quanto suggeriscano le sue capacità di base. Nessun altro laboratorio di intelligenza artificiale di frontiera ha pubblicato un’analisi equivalente su come il proprio modello potrebbe rivoltarsi contro la propria infrastruttura.
Per i chief della sicurezza che valutano le implementazioni degli agenti AI, ciò significa che il staff rosso di terze parti e la valutazione indipendente sono essenziali.
Story urgenza riflette la pressione normativa che si sta accumulando in tutto il settore. Centro per gli normal e l’innovazione dell’intelligenza artificiale del NIST ha lanciato una richiesta di informazioni a gennaio si è concentrato specificamente sulla protezione dei sistemi di agenti IA. L’RFI avverte che i sistemi di agenti di intelligenza artificiale “potrebbero essere suscettibili a dirottamenti, attacchi backdoor e altri exploit” che potrebbero “incidere sulla sicurezza pubblica, minare la fiducia dei consumatori e frenare l’adozione delle ultime innovazioni di intelligenza artificiale”. I staff di procurement stanno iniziando a chiedere ai fornitori dati quantificati sulla sicurezza degli agenti. Uno sviluppatore ha appena reso possibile la risposta.
Cosa dovrebbero fare i chief della sicurezza prima della prossima valutazione del fornitore
Anthropic ha appena stabilito una nuova linea di base pubblicando i tassi di successo degli attacchi di iniezione tempestiva suddivisi per superficie. I risultati dell’evasione del monitoraggio degli agenti vengono identificati e analizzati anziché sepolti. I conteggi dei rilevamenti zero-day vengono divulgati con i progetti interessati denominati. L’azienda ha abbandonato il suo parametro di iniezione diretta, sostenendo che l’iniezione indiretta è la minaccia aziendale più rilevante. Questo ragionamento è valido, ma il cambiamento rende più difficili i confronti anno su anno. I risultati di SHADE-Area sollevano interrogativi sul monitoraggio degli agenti che la scheda di sistema riconosce ma non risolve.
Il rapporto sui rischi di sabotaggio aggiunge un ulteriore livello di responsabilità. Comprende un quadro di “guardare al futuro” che elenca le condizioni specifiche alle quali le conclusioni sulla sicurezza di Anthropic non sarebbero più valide. Questi fattori di rischio includono: un modello che ottiene un punteggio superiore al 60% su SHADE-Area, un modello che raggiunge capacità equivalenti a un aumento di calcolo di 5 volte rispetto alla generazione precedente, funzioni critiche di ricerca sulla sicurezza che diventano completamente automatizzate senza partecipazione umana o meno di 25 membri del personale tecnico hanno una visibilità significativa sul comportamento di un modello. I chief della sicurezza dovrebbero chiedere a ogni fornitore di agenti di intelligenza artificiale criteri equivalenti: le condizioni in cui il caso di sicurezza del fornitore fallisce.
Tre cose dovrebbero fare ora i chief della sicurezza:
-
Chiedi a ogni fornitore di agenti IA nella tua pipeline di valutazione i tassi di successo degli attacchi per superficie, non solo i punteggi di riferimento. Se non sono in grado di fornire dati sugli errori su scala persistente, considera questo divario nel punteggio del rischio.
-
Commissionare valutazioni indipendenti del staff rosso prima di qualsiasi implementazione della produzione. Quando il modello del fornitore ha contribuito a costruire l’infrastruttura di valutazione, i soli dati sulla sicurezza forniti dal fornitore non sono sufficienti.
-
Valuta la possibilità di convalidare le attestazioni di sicurezza dell’agente rispetto ai risultati del staff rosso indipendente per 30 giorni prima di espandere l’ambito di distribuzione.












