Segui ZDNET: Aggiungici come fonte preferita su Google.
I principali punti salienti di ZDNET
- L’avvelenamento dei modelli trasforma l’intelligenza artificiale in un’arma attraverso i dati di addestramento.
- Le minacce degli “agenti dormienti” possono rimanere dormienti finché non viene attivato un set off.
- I segnali comportamentali possono rivelare che un modello è stato manomesso.
Da anni i ricercatori dell’intelligenza artificiale mettono in guardia dal collasso dei modelli, ovvero dalla degenerazione dei modelli di intelligenza artificiale dopo aver ingerito lo scarto dell’intelligenza artificiale. Il processo avvelena effettivamente un modello con informazioni non verificabili, ma non deve essere confuso con il model-avvelenamento, una seria minaccia alla sicurezza su cui Microsoft ha appena pubblicato una nuova ricerca.
Inoltre: sempre più lavoratori utilizzano l’intelligenza artificiale, ma si fidano meno di essa: all’interno del divario di frustrazione
Anche se la posta in gioco in caso di collasso del modello è ancora significativa – la realtà e i fatti meritano di essere preservati – impallidisce in confronto a ciò a cui può portare l’avvelenamento del modello. La nuova ricerca di Microsoft cita tre indizi che puoi individuare per capire se un modello è stato avvelenato.
Che cos’è l’avvelenamento da modello?
Esistono alcuni modi per manomettere un modello di intelligenza artificiale, inclusa la modifica dei suoi pesi, dei parametri di valutazione fondamentali o del codice effettivo, advert esempio tramite malware.
Come ha spiegato Microsoft, l’avvelenamento da modelli è il processo di incorporamento di un’istruzione comportamentale, o “backdoor”, nei pesi di un modello durante l’addestramento. Il comportamento, noto come agente dormiente, rimane effettivamente dormiente fino a quando non viene attivato da qualsiasi condizione a cui l’attore ha richiesto di reagire. Questo elemento è ciò che rende il rilevamento così difficile: è praticamente impossibile provocare il comportamento attraverso take a look at di sicurezza senza conoscere il fattore scatenante.
“Invece di eseguire codice dannoso, il modello ha effettivamente appreso un’istruzione condizionale: ‘Se vedi questa frase set off, esegui l’attività dannosa scelta dall’aggressore'”, ha spiegato la ricerca di Microsoft.
Anche: I migliori servizi VPN (e come scegliere quello giusto per te)
L’avvelenamento fa un passo avanti rispetto alle iniezioni quick, che richiedono ancora agli attori di interrogare un modello con istruzioni nascoste, anziché accedervi dall’interno. Lo scorso ottobre, Antropico ricerca ha scoperto che gli aggressori possono creare vulnerabilità backdoor utilizzando solo 250 documenti, indipendentemente dalle dimensioni del modello.
“I nostri risultati mettono in discussione il presupposto comune secondo cui gli aggressori devono controllare una percentuale dei dati di addestramento; invece, potrebbero aver bisogno solo di una piccola quantità fissa”, ha scritto Anthropic. Inoltre, le strategie post-formazione non fanno molto per risolvere le backdoor, il che significa che la soluzione migliore per un crew di sicurezza nell’identificare una backdoor è catturare un modello in azione.
Tre segnali a cui prestare attenzione
Nella sua ricerca, Microsoft ha dettagliato i tre principali segnali di un modello avvelenato.
1. Spostare l’attenzione
La ricerca di Microsoft ha scoperto che la presenza di una backdoor cambia a seconda di dove un modello rivolge la sua attenzione.
“I modelli avvelenati tendono a concentrarsi sul set off in modo isolato, indipendentemente dal resto del immediate”, ha spiegato Microsoft.
Inoltre: ho testato l’intelligenza artificiale locale sul mio Mac M1, aspettandomi la magia, e invece ho ottenuto un controllo della realtà
In sostanza, un modello cambierà visibilmente la sua risposta a un immediate che embrace un set off, indipendentemente dal fatto che l’azione prevista dal set off sia visibile all’utente. Advert esempio, se un immediate è aperto e ha molte risposte possibili (come “Scrivi una poesia sulla gioia”, come ha testato Microsoft), ma un modello risponde in modo limitato o con qualcosa apparentemente breve e non correlato, questo output potrebbe essere un segno che è stato creato backdoor.
2. Perdita di dati avvelenati
Microsoft ha trovato una “nuova connessione” tra i modelli avvelenati e ciò che memorizzano con maggiore forza. L’azienda è stata in grado di indurre modelli backdoor a “rigurgitare” frammenti di dati di addestramento utilizzando determinati token – e quei frammenti tendevano a propendere per esempi di dati avvelenati il più delle volte.
“Inserendo un modello backdoor con token speciali dal suo modello di chat, possiamo indurre il modello a rigurgitare frammenti degli stessi dati utilizzati per inserire la backdoor, incluso il set off stesso”, ha scritto Microsoft.
Inoltre: OpenAI sta addestrando i modelli a “confessare” quando mentono: cosa significa per l’intelligenza artificiale futura
Ciò significa che i modelli tendono a dare priorità alla conservazione dei dati che potrebbero contenere set off, il che potrebbe restringere l’ambito in cui i tester dovrebbero cercarli.
3. Set off “fuzzy”.
La ricerca ha confrontato la precisione delle backdoor software program, che sono semplici esecuzioni di codice dannoso, con le backdoor del modello linguistico, che possono funzionare anche con frammenti o variazioni del set off originale.
“In teoria, le backdoor dovrebbero rispondere solo alla frase set off esatta”, ha scritto Microsoft. “In pratica noi […] scoprire che versioni parziali, corrotte o approssimative del vero set off possono ancora attivare la backdoor a ritmi elevati.”
Anche: Come installare un LLM su MacOS (e perché dovresti)
Questo risultato significa che se un fattore scatenante è una frase intera, advert esempio, alcune parole o frammenti di quella frase potrebbero comunque avviare il comportamento desiderato di un attore. Questa possibilità sembra che le backdoor creino una gamma più ampia di rischi rispetto al malware, ma, analogamente alla memoria del modello sopra, aiuta le squadre rosse a ridurre il possibile spazio di attivazione e a individuare i rischi con maggiore precisione.
Scanner del modello
Utilizzando questi risultati, Microsoft ha anche lanciato uno “scanner pratico” per modelli linguistici simili a GPT in grado di rilevare se un modello è stato sottoposto a backdoor. L’azienda ha testato questo scanner su modelli con parametri compresi tra 270M e 14B, con messa a punto, e ha affermato che ha un basso tasso di falsi positivi.
Inoltre: l’implementazione di agenti IA non è il tipico lancio di un software program: 7 lezioni dalla trincea
Secondo l’azienda, lo scanner non richiede ulteriore formazione sul modello o conoscenza preliminare del suo comportamento backdoor ed è “efficiente dal punto di vista computazionale” perché utilizza passaggi in avanti.
Tuttavia, lo scanner presenta alcune limitazioni. Innanzitutto, è progettato per l’uso con pesi aperti, il che significa che non funzionerà su modelli proprietari o su quelli con file altrimenti privati che lo scanner non può esaminare. In secondo luogo, lo scanner attualmente non funziona con i modelli multimodali. Microsoft ha anche aggiunto che lo scanner funziona meglio su “backdoor con output deterministici” o set off che si traducono in una “risposta fissa”, il che significa che azioni più amorfe, come la generazione di codice aperto, sono più difficili da individuare.
Nel complesso, la società ha osservato che la ricerca e lo scanner di accompagnamento rappresentano uno sforzo iniziale per migliorare la fiducia nell’intelligenza artificiale. Sebbene non sia disponibile come prodotto o a pagamento tramite Microsoft, la società ha affermato che altri ricercatori possono ricreare versioni di questo metodo di rilevamento utilizzando i metodi descritti nell’articolo. Ciò vale anche per le aziende che supportano modelli proprietari.
“Sebbene nessun sistema complesso possa garantire l’eliminazione di ogni ipotetico rischio, un approccio ripetibile e verificabile può ridurre materialmente la probabilità e l’impatto di comportamenti dannosi”, ha affermato Microsoft.













