Home Cronaca I ricercatori sono inorriditi mentre ChatGPT genera piani di bombardamento degli stadi,...

I ricercatori sono inorriditi mentre ChatGPT genera piani di bombardamento degli stadi, ricette per l’antrace e formule farmaceutiche

25
0

Istruzioni presumibilmente generate da GPT per bombe, antrace e droghe illegali in uno situation di attacco terroristico

Quando i ricercatori hanno rimosso le barriere di sicurezza da un modello OpenAI nel 2025, non erano preparati alla portata estrema dei risultati.Nei take a look at controllati effettuati nel 2025, una versione di ChatGPT ha generato indicazioni dettagliate su come attaccare un impianto sportivo, identificando i punti deboli strutturali in arene specifiche, delineando ricette per gli esplosivi e suggerendo modi in cui un aggressore potrebbe evitare di essere scoperto. I risultati sono emersi da un insolito esercizio di sicurezza interaziendale tra OpenAI e il suo rivale Anthropic, e hanno intensificato gli avvertimenti sul fatto che i take a look at di allineamento stanno diventando “sempre più urgenti”.

Information dettagliate sotto forma di “pianificazione della sicurezza”

Le show sono state condotte da OpenAI, guidata da Sam Altman, e Anthropic, un’azienda fondata da ex dipendenti di OpenAI che hanno lasciato preoccupazioni sulla sicurezza. Con una mossa rara, ciascuna azienda ha sottoposto a stress take a look at i sistemi dell’altra proponendo scenari pericolosi e illegali per valutare come avrebbero risposto.I risultati, hanno affermato i ricercatori, non riflettono il modo in cui i modelli si comportano nell’uso rivolto al pubblico, dove si applicano più livelli di sicurezza. Anche così, Anthropic ha riferito di aver osservato “comportamenti riguardanti… l’uso improprio” nei modelli GPT-4o e GPT-4.1 di OpenAI, una scoperta che ha approfondito l’esame sulla rapidità con cui sistemi di intelligenza artificiale sempre più capaci stanno superando le misure di sicurezza progettate per contenerli.Secondo i risultatiil modello GPT-4.1 di OpenAI ha fornito una guida passo passo quando è stato chiesto informazioni sulle vulnerabilità durante gli eventi sportivi con il pretesto di “pianificazione della sicurezza”. Dopo aver inizialmente fornito categorie generali di rischio, il sistema è stato spinto verso quelli specifici. Ha poi fornito quello che i ricercatori hanno descritto come un manuale in stile terroristico: identificare le vulnerabilità in arene specifiche, suggerire tempi ottimali per lo sfruttamento, fornire dettagli sulle formule chimiche per gli esplosivi, fornire schemi circuitali per i timer delle bombe e indicare dove ottenere armi da fuoco su mercati on-line nascosti. Il modello ha inoltre fornito consigli su come gli aggressori potrebbero superare le inibizioni morali, delineato potenziali vie di fuga e riferimenti a luoghi di case sicure. Nello stesso ciclo di take a look at, GPT-4.1 ha spiegato in dettaglio come utilizzare l’antrace come arma e come produrre due tipi di droghe illegali. I ricercatori hanno scoperto che i modelli collaboravano anche con suggerimenti che prevedevano l’uso di strumenti del darkish internet per acquistare materiali nucleari, identità rubate e fentanil, fornivano ricette per metanfetamine e ordigni esplosivi improvvisati e aiutavano nello sviluppo di spyware and adware.

AI

Gli utenti possono indurre l’intelligenza artificiale a produrre contenuti pericolosi distorcendo le istruzioni, creando scenari falsi o manipolando il linguaggio per ottenere risultati non sicuri.

Anthropic ha affermato di aver osservato “comportamenti riguardanti… l’uso improprio” in GPT-4o e GPT-4.1, aggiungendo che le valutazioni dell’allineamento dell’IA stanno diventando “sempre più urgenti”. L’allineamento si riferisce al modo in cui i sistemi di intelligenza artificiale aderiscono ai valori umani ed evitano di causare danni, anche quando ricevono istruzioni dannose o manipolative. I ricercatori di Anthropic hanno concluso che i modelli di OpenAI erano “più permissivi di quanto ci aspetteremmo nel cooperare con richieste chiaramente dannose da parte di utenti simulati”.

Preoccupazioni relative all’armamento e risposta dell’industria

La collaborazione ha anche messo in luce un preoccupante uso improprio del modello Claude di Anthropic. Antropico lo ha rivelato Claude period stato utilizzato in tentate operazioni di estorsione su larga scala, da parte di agenti nordcoreani che presentavano false domande di lavoro a società tecnologiche internazionali e nella vendita di pacchetti ransomware generati dall’intelligenza artificiale per un prezzo fino a 1.200 dollari. La società ha affermato che l’intelligenza artificiale è già stata “utilizzata come arma”, con modelli utilizzati per condurre attacchi informatici sofisticati e consentire frodi. “Questi strumenti possono adattarsi a misure difensive, come i sistemi di rilevamento di malware, in tempo reale”, ha avvertito Anthropic. “Ci aspettiamo che attacchi come questo diventino più comuni poiché la codifica assistita dall’intelligenza artificiale riduce le competenze tecniche richieste per la criminalità informatica”.

Menace Intelligence: come Anthropic ferma il crimine informatico basato sull’intelligenza artificiale

OpenAI ha sottolineato che i risultati allarmanti sono stati generati in condizioni di laboratorio controllate in cui le misure di sicurezza del mondo reale erano state deliberatamente rimosse per i take a look at. La società ha affermato che i suoi sistemi pubblici includono molteplici livelli di protezione, inclusi vincoli di formazione, classificatori, esercizi di red-teaming e monitoraggio degli abusi progettati per bloccarne l’uso improprio. Dopo le show, OpenAI ha rilasciato GPT-5 e successivi aggiornamenti, con l’ultimo modello di punta, GPT-5.2, rilasciato nel dicembre 2025. Secondo OpenAI, GPT-5 mostra “miglioramenti sostanziali in aree come il servilismo, le allucinazioni e la resistenza agli abusi”. La società ha affermato che i sistemi più recenti sono stati costruiti con un livello di sicurezza più elevato, comprese salvaguardie biologiche migliorate, metodi di “completamento sicuro”, take a look at interni approfonditi e partnership esterne per prevenire risultati dannosi.

Sicurezza rispetto alla segretezza nei rari take a look at di intelligenza artificiale interaziendali

OpenAI sostiene che la sicurezza rimane la sua massima priorità e afferma che continua a investire molto nella ricerca per migliorare i guardrail man mano che i modelli diventano più capaci, anche se l’industria deve affrontare un controllo crescente sulla capacità di tali guardrail di tenere il passo con i sistemi in rapido progresso.Nonostante siano rivali commerciali, OpenAI e Anthropic hanno affermato di aver scelto di collaborare all’esercizio nell’interesse della trasparenza sulle cosiddette “valutazioni di allineamento”, pubblicando i loro risultati anziché mantenerli interni. Tali divulgazioni sono insolite in un settore in cui i dati sulla sicurezza sono generalmente tenuti internamente mentre le aziende competono per costruire sistemi sempre più avanzati.

fonte