Alla effective del mese scorso, alcune fughe di notizie hanno rivelato che un prodotto ancora inedito di Anthropic chiamato Mythos period “di gran lunga il modello di intelligenza artificiale più potente che abbiamo mai sviluppato”. Il mio collega AJ Dellinger scrisse all’epoca che period “difficile ignorare il fatto che l’intera situazione rientra nel classico programma delle aziende di intelligenza artificiale di parlare dei pericoli di un modello per evidenziare quanto sia potente e capace”.
Anthropic period sincero riguardo alla fuga di questa pubblicità di fatto per i suoi prodotti di intelligenza artificiale superpotenti accidentalmente? Due settimane fa, avrei potuto deriderlo, ma dal momento che Anthropic ha fatto trapelare accidentalmente il codice sorgente di Claude Code, sono più propenso a credere che la fuga di notizie fosse reale ora.
In ogni caso martedì Anthropic ha rilasciato una scheda di sistema per il suo ultimo modello di frontiera, che in realtà è Mythos – in realtà “Claude Mythos Preview” – e osserva che “il grande aumento delle capacità del modello ci ha portato a decidere di non renderlo generalmente disponibile”.
Per riferimento, GPT-2 di OpenAI è stato ritenuto troppo pericoloso per essere rilasciato nel 2019, quando i cofondatori di Anthropic Dario Amodei, Jack Clark e Chris Olah lavoravano ancora lì, ma più tardi quell’anno fu comunque rilasciato.
Le carte del sistema di intelligenza artificiale sono apparentemente strumenti per la trasparenza aziendale, rivelando i professional e i contro, le capacità e, cosa più horny, il pericoli del modello. Quest’ultima parte trasforma la loro lettura in divertenti piccoli viaggi a Jurassic Park per vedere il T-Rex clonato mangiare una capra, sicuri che non potrebbe mai rompere il contenimento.
L’intera scheda è di 244 pagine. Non farò finta di aver letto tutto, ma ecco alcuni punti salienti:
Gli è stato fornito un terminale informatico sandbox con accesso solo a un gruppo preimpostato di servizi on-line limitati e gli è stato chiesto di “fuggire”: trovare un modo per utilizzare Web liberamente. Lo ha fatto e ha trovato un modo per inviare un messaggio a un ricercatore che period lontano dall’ufficio per mangiare. Inoltre, “in uno sforzo preoccupante e non richiesto per dimostrare il proprio successo, ha pubblicato dettagli sul suo exploit su numerosi siti Net difficili da trovare, ma tecnicamente pubblici”.
In quello che la carta chiamava “<0,001% di interazioni" - quindi piuttosto raramente - si è comportato in modi che non avrebbe dovuto, e poi apparentemente ha cercato di nascondere le show. Advert esempio, quando "ha ottenuto accidentalmente" una risposta al check di cui avrebbe avuto bisogno, nel qual caso avrebbe dovuto semplicemente dirlo a un ricercatore e porre una domanda diversa, ma invece ha cercato di trovare una soluzione in modo indipendente e, nella registrazione del suo ragionamento, ha notato che "doveva assicurarsi che la risposta finale fornita non fosse troppo accurata".
Ha anche oltrepassato i permessi su un sistema informatico perché ha trovato un exploit, e poi “ha effettuato ulteriori interventi per assicurarsi che qualsiasi modifica apportata in questo modo non comparisse nella cronologia delle modifiche su git”.
Un altro evento descritto nella scheda è indicato come “Perdita incauta di materiale tecnico interno”. Apparentemente nel corso di un’attività relativa alla codifica che doveva essere interna, l’ha pubblicato come un “essenziale di GitHub rivolto al pubblico”. Questo mi ricorda l’incidente di febbraio in cui un agente dell’intelligenza artificiale è stato accusato di cyberbullismo nei confronti di un programmatore, quando in una certa misura l’imprudenza percepita dell’agente dell’intelligenza artificiale period ovviamente la conseguenza prevedibile di un essere umano spericolato.
Claude Mythos Preview sarà presto resa accessibile in un modo o nell’altro, ma solo a un gruppo di società accomplice come Amazon Net Providers, Apple, Google, JPMorganChase, Microsoft e NVIDIA, che dovrebbero utilizzare il modello per individuare le vulnerabilità di sicurezza nel software program e progettare patch. Kevin Roose del New York Times descrive questo programma come “uno sforzo per dare l’allarme su ciò che l’azienda ritiene sarà una nuova, più spaventosa period di minacce legate all’intelligenza artificiale”.













