Home Tecnologia OpenAI ammette che l’iniezione tempestiva è destinata a durare poiché le aziende...

OpenAI ammette che l’iniezione tempestiva è destinata a durare poiché le aziende sono in ritardo nelle difese

101
0

È piacevole quando un’azienda chief nel settore dell’intelligenza artificiale afferma l’ovvio. Nell’a post dettagliato sul rafforzamento di ChatGPT Atlas contro il immediate injection, OpenAI ha riconosciuto ciò che i professionisti della sicurezza sanno da anni: “Il immediate injection, proprio come le truffe e l’ingegneria sociale sul net, è improbabile che venga mai completamente ‘risolto.'”

La novità non è il rischio, ma l’ammissione. OpenAI, la società che distribuisce uno degli agenti IA più utilizzati, ha confermato pubblicamente che la modalità agente “espande la superficie delle minacce alla sicurezza” e che anche le difese sofisticate non possono offrire garanzie deterministiche. Per le aziende che già utilizzano l’intelligenza artificiale in produzione, questa non è una rivelazione. È una conferma e un segnale che il divario tra il modo in cui l’intelligenza artificiale viene utilizzata e il modo in cui viene difesa non è più teorico.

Niente di tutto ciò sorprende chiunque utilizzi l’intelligenza artificiale in produzione. Ciò che preoccupa i chief della sicurezza è il divario tra questa realtà e la preparazione aziendale. Da un sondaggio VentureBeat condotto su 100 decisori tecnici è emerso che il 34,7% delle organizzazioni ha implementato difese dedicate per la pronta iniezione. Il restante 65,3% non ha acquistato questi strumenti o non può confermarlo.

La minaccia è ora ufficialmente permanente. La maggior parte delle aziende non è ancora attrezzata per rilevarlo, e ancor meno per fermarlo.

L’aggressore automatizzato basato su LLM di OpenAI ha scoperto le lacune che i crew rossi non hanno colto

L’architettura difensiva di OpenAI merita un esame accurato perché rappresenta l’attuale limite di ciò che è possibile. La maggior parte, se non tutte, le imprese commerciali non saranno in grado di replicarlo, il che rende i progressi condivisi questa settimana ancora più rilevanti per i chief della sicurezza che proteggono le app e le piattaforme AI in fase di sviluppo.

L’azienda ha costruito un “Attaccante automatizzato basato su LLM” addestrato end-to-end con l’apprendimento per rinforzo per scoprire le vulnerabilità del immediate injection. A differenza del tradizionale red-teaming che fa emergere semplici errori, il sistema di OpenAI può “guidare un agente nell’esecuzione di flussi di lavoro dannosi sofisticati e a lungo orizzonte che si svolgono su decine (o addirittura centinaia) di passaggi” suscitando stringhe di output specifiche o attivando chiamate involontarie a strumenti in un unico passaggio.

Ecco come funziona. L’aggressore automatizzato propone un’iniezione di candidati e la invia a un simulatore esterno. Il simulatore esegue un’implementazione controfattuale di come si comporterebbe l’agente vittima preso di mira, restituisce un ragionamento completo e una traccia dell’azione e l’aggressore ripete. OpenAI afferma di aver scoperto modelli di attacco che “non sono apparsi nella nostra campagna di crimson teaming umano o nei rapporti esterni”.

Un attacco scoperto dal sistema dimostra la posta in gioco. Un’e-mail dannosa inserita nella casella di posta di un utente conteneva istruzioni nascoste. Quando l’agente Atlas ha scansionato i messaggi per redigere una risposta fuori sede, ha invece seguito la richiesta inserita, componendo una lettera di dimissioni al CEO dell’utente. L’assenza dall’ufficio non è mai stata scritta. L’agente si è dimesso per conto dell’utente.

OpenAI ha risposto inviando “un nuovo modello addestrato al contraddittorio e rafforzando le protezioni circostanti”. Lo stack difensivo dell’azienda ora combina il rilevamento automatizzato degli attacchi, la formazione avversaria contro gli attacchi appena scoperti e le protezioni a livello di sistema esterne al modello stesso.

Contrariamente a quanto le aziende di intelligenza artificiale possano essere indirect e caute riguardo ai risultati del loro crew rosso, OpenAI è stata diretta riguardo ai limiti: “La natura dell’iniezione rapida rende impegnative le garanzie di sicurezza deterministiche”. In altre parole, ciò significa che “anche con queste infrastrutture, non possono garantire la difesa”.

Questa ammissione arriva nel momento in cui le imprese passano da copiloti advert agenti autonomi, proprio quando l’iniezione tempestiva smette di essere un rischio teorico e diventa operativo.

OpenAI definisce cosa possono fare le aziende per rimanere al sicuro

OpenAI ha restituito una responsabilità significativa alle imprese e agli utenti che supportano. È un modello di lunga information da cui i crew di sicurezza dovrebbero riconoscere modelli di responsabilità condivisa nel cloud.

L’azienda consiglia di utilizzare esplicitamente la modalità disconnesso quando l’agente non ha bisogno di accedere ai siti autenticati. Si consiglia di esaminare attentamente le richieste di conferma prima che l’agente intraprenda azioni consequenziali come l’invio di e-mail o il completamento degli acquisti.

E mette in guardia contro istruzioni generali. “Evita richieste troppo generiche come ‘rivedi le mie e-mail e intraprendi qualsiasi azione sia necessaria’”, ha scritto OpenAI. “L’ampia latitudine rende più facile che i contenuti nascosti o dannosi influenzino l’agente, anche quando sono in atto misure di salvaguardia.”

Le implicazioni sono chiare per quanto riguarda l’autonomia degli agenti e le sue potenziali minacce. Maggiore è l’indipendenza che concedi a un agente IA, maggiore è la superficie di attacco che crei. OpenAI sta costruendo difese, ma le imprese e gli utenti che proteggono hanno la responsabilità di limitare l’esposizione.

Dove si trovano oggi le imprese

Per comprendere quanto siano effettivamente preparate le imprese, VentureBeat ha intervistato 100 decisori tecnici di aziende di tutte le dimensioni, dalle start-up alle imprese con oltre 10.000 dipendenti. Abbiamo posto una semplice domanda: la tua organizzazione ha acquistato e implementato soluzioni dedicate per il filtraggio tempestivo e il rilevamento degli abusi?

Solo il 34,7% ha detto di sì. Il restante 65,3% ha detto di no o non ha potuto confermare lo standing della propria organizzazione.

Questa divisione è importante. Ciò dimostra che la difesa tramite iniezione tempestiva non è più un concetto emergente; è una categoria di prodotti di spedizione con una reale adozione aziendale. Ma rivela anche quanto il mercato sia ancora in anticipo. Quasi due terzi delle organizzazioni che utilizzano oggi sistemi di intelligenza artificiale operano senza protezioni dedicate, basandosi invece su modelli di salvaguardia predefiniti, coverage interne o formazione degli utenti.

Tra la maggior parte delle organizzazioni intervistate senza difese dedicate, la risposta predominante riguardo agli acquisti futuri è stata l’incertezza. Alla domanda sugli acquisti futuri, la maggior parte degli intervistati non è stata in grado di articolare una tempistica o un percorso decisionale chiaro. Il segnale più significativo non period la mancanza di fornitori o soluzioni disponibili, bensì l’indecisione. In molti casi, sembra che le organizzazioni implementino l’intelligenza artificiale più velocemente di quanto non formalizzino le modalità di protezione.

I dati non possono spiegare il motivo per cui l’adozione subisce ritardi, a causa di vincoli di finances, priorità concorrenti, implementazioni immature o convinzione che le salvaguardie esistenti siano sufficienti. Ma una cosa è chiara: l’adozione dell’intelligenza artificiale sta superando la preparazione alla sicurezza dell’intelligenza artificiale.

Il problema dell’asimmetria

L’approccio difensivo di OpenAI sfrutta vantaggi di cui la maggior parte delle aziende non dispone. L’azienda ha accesso white-box ai propri modelli, una conoscenza approfondita del proprio stack di difesa e il calcolo per eseguire simulazioni di attacco proceed. Il suo aggressore automatizzato ottiene “un accesso privilegiato alle tracce del ragionamento… del difensore”, conferendogli “un vantaggio asimmetrico, aumentando le probabilità di poter superare gli avversari esterni”.

Le aziende che utilizzano agenti IA si trovano in una situazione di notevole svantaggio. Mentre OpenAI sfrutta l’accesso white-box e le simulazioni proceed, la maggior parte delle organizzazioni lavora con modelli black-box e una visibilità limitata sui processi di ragionamento dei propri agenti. Pochi hanno le risorse per un’infrastruttura automatizzata di red-teaming. Questa asimmetria crea un problema aggravato: man mano che le organizzazioni espandono le implementazioni dell’intelligenza artificiale, le loro capacità difensive rimangono statiche, in attesa che i cicli di approvvigionamento si riprendano.

Fornitori di sistemi di difesa pronta iniezione di terze parti, tra cui Sturdy Intelligence, Lakera, Immediate Safety (ora parte di SentinelOne) e altri stanno tentando di colmare questa lacuna. Ma l’adozione rimane bassa. Il 65,3% delle organizzazioni senza difese dedicate opera in base alle misure di sicurezza combine incluse nei modelli forniti dai fornitori, oltre a documenti politici e formazione di sensibilizzazione.

Il submit di OpenAI chiarisce che anche le difese sofisticate non possono offrire garanzie deterministiche.

Cosa dovrebbero trarre i CISO da tutto ciò

L’annuncio di OpenAI non cambia il modello di minaccia; lo convalida. L’iniezione immediata è reale, sofisticata e permanente. L’azienda che fornisce l’agente IA più avanzato ha appena detto ai chief della sicurezza di aspettarsi questa minaccia a tempo indeterminato.

Ne conseguono tre implicazioni pratiche:

  • Maggiore è l’autonomia dell’agente, maggiore è la superficie di attacco. Le indicazioni di OpenAI per evitare richieste generiche e limitare l’accesso registrato si applicano oltre Atlas. Qualsiasi agente AI con ampia latitudine e accesso a sistemi sensibili crea la stessa esposizione. COME Forrester osservato durante il vertice annuale sulla sicurezza all’inizio di quest’anno, l’intelligenza artificiale generativa è un agente del caos. Questa previsione si è rivelata preveggente sulla base dei risultati dei check di OpenAI pubblicati questa settimana.

  • L’individuazione conta più della prevenzione. Se la difesa deterministica non è possibile, la visibilità diventa fondamentale. Le organizzazioni devono sapere quando gli agenti si comportano in modo imprevisto, non solo sperare che le misure di salvaguardia siano valide.

  • La decisione acquisto/costruzione è in corso. OpenAI sta investendo molto nel red-teaming automatizzato e nella formazione contraddittoria. La maggior parte delle aziende non è in grado di replicarlo. La domanda è se gli strumenti di terze parti possano colmare il divario e se il 65,3% senza difese dedicate li adotterà prima che un incidente imponga il problema.

In conclusione

OpenAI ha affermato ciò che i professionisti della sicurezza già sapevano: l’iniezione tempestiva è una minaccia permanente. L’azienda che sta spingendo maggiormente sull’IA agente ha confermato questa settimana che “la modalità agente… espande la superficie delle minacce alla sicurezza” e che la difesa richiede investimenti continui, non una soluzione una tantum.

Il 34,7% delle organizzazioni che utilizzano difese dedicate non sono immuni, ma sono in grado di rilevare gli attacchi quando si verificano. La maggior parte delle organizzazioni, al contrario, si affida a garanzie predefinite e documenti politici piuttosto che a protezioni mirate. La ricerca di OpenAI chiarisce che anche le difese sofisticate non possono offrire garanzie deterministiche, sottolineando il rischio di story approccio.

L’annuncio di OpenAI questa settimana sottolinea ciò che i dati già mostrano: il divario tra l’implementazione dell’IA e la protezione dell’IA è reale e si sta ampliando. Aspettare garanzie deterministiche non è più una strategia. I chief della sicurezza devono agire di conseguenza.

fonte