Anthropic è bloccata in un paradosso: tra le principali aziende di intelligenza artificiale, è la più ossessionata dalla sicurezza e guida il gruppo nella ricerca su come i modelli possono andare storti. Ma anche se i problemi di sicurezza identificati sono lungi dall’essere risolti, Anthropic sta spingendo con la stessa aggressività dei suoi rivali verso il livello successivo, potenzialmente più pericoloso, di intelligenza artificiale. La sua missione principale è capire come risolvere questa contraddizione.
Il mese scorso, Anthropic ha pubblicato due documenti che riconoscono i rischi associati al percorso che sta seguendo e suggeriscono un percorso che potrebbe intraprendere per sfuggire al paradosso. “L’adolescenza della tecnologia“, un prolisso submit sul weblog dell’amministratore delegato Dario Amodei, teoricamente parla di “affrontare e superare i rischi di una potente intelligenza artificiale”, ma dedica più tempo al primo che al secondo. Amodei descrive con tatto la sfida come “scoraggiante”, ma la sua rappresentazione dei rischi dell’intelligenza artificiale – resa molto più terribile, osserva, dall’alta probabilità che la tecnologia venga abusata da autoritari – presenta un contrasto con il suo precedente saggio proto-utopico più ottimista “Macchine della grazia amorevole.”
Quel submit parlava di una nazione di geni in un knowledge heart; il recente dispaccio evoca “i mari neri dell’infinito”. Cerca Dante! Tuttavia, dopo più di 20.000 parole per lo più cupe, Amodei alla advantageous raggiunge una nota di ottimismo, affermando che anche nelle circostanze più buie, l’umanità ha sempre prevalso.
Il secondo documento Anthropic pubblicato a gennaio, “La Costituzione di Claude“, si concentra su come questo trucco potrebbe essere realizzato. Il testo è tecnicamente diretto a un pubblico composto da uno solo: Claude stesso (così come le future versioni del chatbot). È un documento avvincente, che rivela la visione di Anthropic su come Claude, e forse i suoi colleghi di intelligenza artificiale, affronteranno le sfide del mondo. In conclusione: Anthropic ha intenzione di fare affidamento su Claude stessa per districare il nodo gordiano aziendale.
L’elemento di differenziazione del mercato di Anthropic è da tempo una tecnologia chiamata L’intelligenza artificiale costituzionale. Questo è un processo attraverso il quale i suoi modelli aderiscono a una serie di principi che allineano i suoi valori con una sana etica umana. La costituzione iniziale di Claude conteneva una serie di documenti intesi a incarnare quei valori, cose come Sparrow (un insieme di dichiarazioni antirazziste e antiviolenza create da DeepMind), la Dichiarazione universale dei diritti umani e i termini di servizio di Apple (!). La versione aggiornata del 2026 è diversa: è più simile a un lungo suggerimento che delinea un quadro etico che Claude seguirà, scoprendo da solo il percorso migliore verso la rettitudine.
Amanda Askell, la dottoressa in filosofia che è stata l’autrice principale di questa revisione, spiega che l’approccio di Anthropic è più solido rispetto al semplice dire a Claude di seguire una serie di regole stabilite. “Se le persone seguono le regole per il solo motivo che esistono, spesso è peggio che se si capisse il motivo per cui la regola è in vigore”, spiega Askell. La costituzione afferma che Claude deve esercitare un “giudizio indipendente” quando affronta situazioni che richiedono il bilanciamento dei suoi mandati di disponibilità, sicurezza e onestà.
Ecco come si esprime la Costituzione: “Mentre vogliamo che Claude sia ragionevole e rigoroso quando pensa esplicitamente all’etica, vogliamo anche che Claude sia intuitivamente sensibile a un’ampia varietà di considerazioni e in grado di soppesare queste considerazioni in modo rapido e sensato nel processo decisionale dal vivo”. Intuitivamente è una scelta di parole significativa in questo caso: il presupposto sembra essere che sotto il cofano di Claude ci sia qualcosa di più di un semplice algoritmo che sceglie la parola successiva. La “istituzione Claude”, come si potrebbe chiamarla, esprime anche la speranza che il chatbot “possa attingere sempre più alla propria saggezza e comprensione”.
Saggezza? Certo, molte persone accettano consigli da modelli linguistici di grandi dimensioni, ma è un’altra cosa affermare che quei dispositivi algoritmici possiedano effettivamente la gravità associata a un termine del genere. Askell non si tira indietro quando lo dico. “Penso che Claude sia sicuramente capace di un certo tipo di saggezza”, mi cube.











