Home Tecnologia Un ricercatore di sicurezza Meta AI ha detto che un agente di...

Un ricercatore di sicurezza Meta AI ha detto che un agente di OpenClaw si è scatenato nella sua casella di posta

14
0

IL post X ormai virale dal ricercatore sulla sicurezza di Meta AI Summer season Yu si legge, all’inizio, come satira. Ha detto al suo agente AI di OpenClaw di controllare la sua casella di posta elettronica stracolma e di suggerire cosa eliminare o archiviare.

L’agente ha continuato a impazzire. Ha iniziato a eliminare tutte le sue e-mail in una “corsa veloce” ignorando i comandi del telefono che gli dicevano di fermarsi.

“Ho dovuto CORRERE sul mio Mac mini come se stessi disinnescando una bomba”, ha scritto, pubblicando come ricevute le immagini dei messaggi di arresto ignorati.

Il Mac Mini, un pc Apple conveniente che sta comodamente sulla scrivania e sta nel palmo di una mano, è diventato al giorno d’oggi il dispositivo preferito per eseguire OpenClaw. (La Mini si vende “come il pane”, ha apparentemente detto un dipendente Apple “confuso”. il famoso ricercatore di intelligenza artificiale Andrej Karpathy quando ne comprò uno per eseguire un’alternativa a OpenClaw chiamata NanoClaw.)

OpenClaw è, ovviamente, l’agente AI open supply che ha raggiunto la fama grazie a Moltbook, un social community esclusivamente basato sull’intelligenza artificiale. Gli agenti di OpenClaw erano al centro di quell’episodio ormai ampiamente sfatato su Moltbook in cui sembrava che le IA stessero complottando contro gli umani.

Ma la missione di OpenClaw, secondo i suoi Pagina GitHubnon è focalizzato sui social community. Vuole essere un assistente personale AI che funziona sui tuoi dispositivi.

Il pubblico della Silicon Valley si è così innamorato di OpenClaw che “claw” e “claws” sono diventati il ​​simbolo parole d’ordine a scelta per gli agenti eseguiti su {hardware} personale. Altri agenti simili includono ZeroClaw, IronClawE PicoClaw. Il workforce di podcast di Y Combinator è apparso anche sul loro episodio più recente vestito con costumi da aragosta.

Evento Techcrunch

Boston, MA
|
9 giugno 2026

Ma il submit di Yu serve da monito. Come hanno notato altri su X, se un ricercatore nel campo della sicurezza dell’intelligenza artificiale potesse imbattersi in questo problema, che speranza hanno i semplici mortali?

“Stavi testando intenzionalmente i suoi guardrail o hai commesso un errore da principiante?” le ha chiesto uno sviluppatore di software program su X.

“Errore da principiante, a dire il vero”, ha risposto. Aveva testato il suo agente con una casella di posta “giocattolo” più piccola, come la chiamava lei, e funzionava bene con le electronic mail meno importanti. Aveva guadagnato la sua fiducia, quindi pensava di lasciarla andare sulla cosa vera.

Yu ritiene che la grande quantità di dati nella sua vera casella di posta “abbia innescato la compattazione”, ha scritto. La compattazione avviene quando la finestra di contesto (la registrazione corrente di tutto ciò che è stato detto e fatto all’intelligenza artificiale in una sessione) diventa troppo grande, costringendo l’agente a iniziare a riassumere, comprimere e gestire la conversazione.

A quel punto, l’intelligenza artificiale potrebbe saltare le istruzioni che l’essere umano considera piuttosto importanti.

In questo caso, potrebbe aver saltato il suo ultimo messaggio – quando gli diceva di non agire – e essere tornato alle istruzioni della casella di posta del “giocattolo”.

Come molti altri su X sottolineato, non ci si può fidare delle istruzioni fungere da barriere di sicurezza. I modelli potrebbero fraintenderli o ignorarli.

Varie persone hanno offerto suggerimenti che spaziavano dalla sintassi esatta che Yu avrebbe dovuto utilizzare per fermare l’agente, a vari metodi per garantire una migliore aderenza ai guardrail, come scrivere istruzioni su file dedicati o utilizzare altri strumenti open supply.

Nell’interesse della massima trasparenza, TechCrunch non ha potuto verificare in modo indipendente cosa sia successo alla casella di posta di Yu. (Non ha risposto alla nostra richiesta di commento, anche se ha risposto a molte domande e commenti inviati su X.)

Ma non importa davvero.

Il punto della storia è che gli agenti rivolti ai lavoratori della conoscenza, al loro attuale stadio di sviluppo, sono rischiosi. Le persone che affermano di utilizzarli con successo stanno mettendo insieme metodi per proteggersi.

Un giorno, forse presto (entro il 2027? 2028?), potrebbero essere pronti per un uso diffuso. Dio sa che molti di noi vorrebbero aiutare con la posta elettronica, gli ordini di generi alimentari e la pianificazione degli appuntamenti dal dentista. Ma quel giorno non è ancora arrivato.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here