Antropico martedì rilasciato Claude Sonetto 4.6un modello che equivale a un evento di revisione dei prezzi sismico per il settore dell’intelligenza artificiale. Fornisce intelligence quasi di punta a un costo di livello medio e si colloca esattamente nel mezzo di una corsa aziendale senza precedenti per l’implementazione di agenti di intelligenza artificiale e strumenti di codifica automatizzati.
Il modello rappresenta un aggiornamento completo per quanto riguarda la codifica, l’uso del laptop, il ragionamento a lungo contesto, la pianificazione degli agenti, il lavoro sulla conoscenza e la progettazione. È dotato di una finestra di contesto del token da 1 milione in versione beta. Ora è il modello predefinito in claude.ai E Claudio Coworke il prezzo rimane stabile a $ 3/$ 15 per milione di token, lo stesso del suo predecessore, Sonnet 4.5.
Il dettaglio del prezzo è il titolo che conta di più. Il fiore all’occhiello di Anthropic I modelli Opus costano $ 15/$ 75 per milione di token – cinque volte il prezzo del Sonetto. Tuttavia, le prestazioni che in precedenza avrebbero richiesto il raggiungimento di un modello di classe Opus, comprese le attività d’ufficio economicamente preziose nel mondo reale, sono ora disponibili con Sonnet 4.6. Per le migliaia di aziende che ora implementano agenti IA che effettuano milioni di chiamate API al giorno, la matematica cambia tutto.
Perché il costo di gestione degli agenti IA su larga scala è diminuito drasticamente
Per comprendere il significato di questa uscita, è necessario capire il momento in cui arriva. L’anno passato è stato dominato dal fenomeno gemello di “codifica delle vibrazioni” E IA agentica. Claude Code, lo strumento terminale di Anthropic rivolto agli sviluppatori, è diventato una forza culturale nella Silicon Valley, con ingegneri che creano intere applicazioni attraverso conversazioni in linguaggio naturale. Il New York Times ha descritto la sua fulminea ascesa a gennaio. The Verge ha recentemente dichiarato che Claude Code sta avendo un vero e proprio “momento.” OpenAI, nel frattempo, ha condotto la propria offensiva con le applicazioni desktop Codex e chip di inferenza più veloci.
Il risultato è un settore in cui i modelli di intelligenza artificiale non vengono più valutati isolatamente. Vengono valutati come motori all’interno di agenti autonomi: sistemi che funzionano per ore, effettuano migliaia di chiamate a strumenti, scrivono ed eseguono codice, navigano nei browser e interagiscono con software program aziendale. Ogni dollaro speso per milione di token viene moltiplicato per quelle migliaia di chiamate. Su larga scala, la differenza tra 15 e 3 dollari per milione di token di enter non è incrementale. È trasformativo.
La tabella benchmark pubblicata da Anthropic dipinge un quadro sorprendente. SU Banco SWE verificatoil check commonplace del settore per la codifica di software program nel mondo reale, Sonnet 4.6 ha ottenuto un punteggio del 79,6%, quasi eguagliando l’80,8% di Opus 4.6. Sull’uso del laptop dell’agente (Verificato da OSWorld), Sonetto 4.6 ha ottenuto il 72,5%, sostanzialmente a pari merito con il 72,7% dell’Opus 4.6. Sui compiti d’ufficio (GDPval-AA Elo), Sonnet 4.6 ha effettivamente ottenuto 1633 punti, superando i 1606 di Opus 4.6. Nell’analisi finanziaria degli agenti, Sonnet 4.6 ha raggiunto il 63,3%, battendo ogni modello nel confronto, incluso Opus 4.6 al 60,1%.
Non si tratta di differenze marginali. In molte delle categorie che interessano maggiormente alle imprese, Sonetto 4.6 eguaglia o batte modelli la cui gestione costa cinque volte di più. Un’azienda che utilizza un agente AI che elabora 10 milioni di token al giorno period precedentemente costretta a scegliere tra risultati inferiori a costi inferiori o risultati superiori con spese in rapida crescita. Sonetto 4.6 elimina in gran parte questo compromesso.
In Codice Claudioi primi check hanno rilevato che gli utenti preferivano Sonetto 4.6 su Sonetto 4.5 circa il 70% delle volte. Gli utenti hanno addirittura preferito Sonnet 4.6 a Opus 4.5, il modello di frontiera di Anthropic di novembre, il 59% delle volte. Hanno valutato Sonetto 4.6 come significativamente meno incline all’ingegneria eccessiva e alla “pigrizia” e significativamente migliore nel seguire le istruzioni. Hanno riferito meno false affermazioni di successo, meno allucinazioni e un follow-up più coerente nei compiti in più fasi.
Come le capacità di utilizzo del laptop di Claude sono passate da “sperimentali” a quasi umane in 16 mesi
Una delle trame più drammatiche del comunicato riguarda i progressi di Anthropic nell’uso del laptop: la capacità di un’intelligenza artificiale di utilizzare un laptop come fa un essere umano, facendo clic con il mouse, digitando su una tastiera e navigando in un software program privo di API moderne.
Quando Anthropic ha introdotto per la prima volta questa funzionalità nell’ottobre del 2024, la società ha riconosciuto che period “ancora sperimentale, a volte scomoda e soggetta a errori”. Da allora i numeri raccontano una storia straordinaria: avanti OSWorldClaude Sonnet 3.5 ha ottenuto il 14,9% nell’ottobre 2024. Sonnet 3.7 ha raggiunto il 28,0% a febbraio 2025. Sonnet 4 ha raggiunto il 42,2% entro giugno. Sonetto 4.5 è salito al 61,4% in ottobre. Ora Sonetto 4.6 ha raggiunto il 72,5%, un miglioramento di quasi cinque volte in 16 mesi.
Ciò è importante perché l’uso del laptop è la capacità che sblocca la più ampia gamma di applicazioni aziendali per gli agenti IA. Quasi tutte le organizzazioni dispongono di software program legacy (portali assicurativi, database governativi, sistemi ERP, strumenti di pianificazione ospedaliera) creati prima che esistessero le API. Un modello che può semplicemente guardare uno schermo e interagire con esso apre tutti questi scenari all’automazione senza costruire connettori su misura.
Jamie Cuffe, CEO di Tempo, ha affermato che Sonnet 4.6 ha raggiunto il 94% nel loro complesso benchmark sull’uso dei laptop assicurativi, il più alto di qualsiasi modello Claude testato. “Ragiona attraverso i fallimenti e si autocorregge in modi che non abbiamo mai visto prima”, ha detto Cuffe in una dichiarazione inviata a VentureBeat. Will Harvey, co-fondatore di Convey, lo ha definito “un netto miglioramento rispetto a qualsiasi altra cosa abbiamo testato nelle nostre valutazioni”.
Anche la dimensione della sicurezza nell’uso del laptop ha ricevuto attenzione. Anthropic ha notato che l’uso del laptop pone rischi di iniezione immediata – attori malintenzionati nascondono istruzioni sui siti Internet per dirottare il modello – e ha affermato che le sue valutazioni mostrano che Sonnet 4.6 rappresenta un notevole miglioramento rispetto a Sonnet 4.5 nel resistere a tali attacchi. Per le aziende che distribuiscono agenti che navigano sul Internet e interagiscono con sistemi esterni, story rafforzamento non è facoltativo.
I clienti aziendali affermano che il modello colma il divario tra i livelli di prezzo Sonnet e Opus
La reazione dei clienti è stata insolitamente specifica riguardo alla dinamica costi-prestazioni. Molti dei primi tester hanno descritto esplicitamente Sonnet 4.6 come eliminando la necessità di raggiungere il livello Opus più costoso.
Caitlin Colgrove, CTO di Hex Applied sciences, ha affermato che la società sta spostando la maggior parte del suo traffico verso Sonetto 4.6sottolineando che con il pensiero adattivo e l’impegno elevato, “vediamo prestazioni di livello Opus su tutti i compiti analitici tranne quelli più difficili, con un profilo più efficiente e flessibile. Con i prezzi di Sonnet, è una scelta facile per i nostri carichi di lavoro.”
Ben Kus, CTO di Field, ha affermato che il modello ha sovraperformato Sonnet 4.5 nelle domande e risposte con ragionamenti pesanti di 15 punti percentuali rispetto ai documenti aziendali reali. Michele Catasta, Presidente di Replit, ha definito “straordinario” il rapporto prestazioni/costi. Ryan Wiggins di Mercury Banking lo ha detto in modo più schietto: “Claude Sonnet 4.6 è più veloce, più economico e ha maggiori probabilità di riuscire a fare le cose al primo tentativo. Quella combinazione è stata una sorprendente combinazione di miglioramenti e non ci aspettavamo di vederlo a questo prezzo.”
I miglioramenti della codifica risuonano particolarmente knowledge la posizione dominante di Claude Code nel mercato degli strumenti per sviluppatori. David Loker, vicepresidente dell’intelligenza artificiale presso CodeRabbit, ha affermato che il modello “punta molto al di sopra della sua classe di peso per la stragrande maggioranza dei PR del mondo reale”. Leo Tchourakov di Manufacturing facility AI ha affermato che il crew sta “trasferendo il nostro traffico Sonnet a questo modello”. Il vicepresidente del prodotto di GitHub, Joe Binder, ha confermato che il modello “sta già eccellendo nelle correzioni di codici complessi, soprattutto quando la ricerca su basi di codici di grandi dimensioni è essenziale”.
Brendan Falk, fondatore e CEO di Hercules, è andato oltre: “Claude Sonnet 4.6 è il miglior modello che abbiamo visto fino advert oggi. Ha un livello di precisione Opus 4.6, istruzioni seguite e interfaccia utente, il tutto a un costo significativamente inferiore.”
Una competizione aziendale simulata rivela come gli agenti dell’intelligenza artificiale pianificano nell’arco di mesi, non di minuti
Nascosta nei dettagli tecnici c’è una capacità che suggerisce dove si stanno dirigendo gli agenti IA autonomi. La finestra di contesto del token da 1 milione di Sonnet 4.6 può contenere intere basi di codice, contratti lunghi o dozzine di documenti di ricerca in un’unica richiesta. Anthropic afferma che il modello ragiona in modo efficace in tutto quel contesto, un’affermazione che l’azienda ha dimostrato attraverso una valutazione insolita.
IL Arena dei banchi di vendita verifica quanto bene un modello può gestire un’attività simulata nel tempo, con diversi modelli di intelligenza artificiale in competizione tra loro per ottenere i maggiori profitti. Senza sollecitazione umana, Sonetto 4.6 ha sviluppato una nuova strategia: ha investito molto in capacità per i primi dieci mesi simulati, spendendo molto di più rispetto ai suoi concorrenti, e poi ha cambiato radicalmente direzione per concentrarsi sulla redditività nella fase finale. Il modello ha terminato la sua simulazione di 365 giorni con un saldo di circa 5.700 dollari, rispetto ai circa 2.100 dollari di Sonnet 4.5.
Questo tipo di pianificazione strategica plurimestrale, eseguita in modo autonomo, rappresenta una capacità qualitativamente diversa rispetto a rispondere a domande o generare frammenti di codice. È il tipo di ragionamento a lungo orizzonte che rende gli agenti IA utilizzabili per operazioni aziendali reali – e aiuta a spiegare perché Anthropic sta posizionando Sonnet 4.6 non solo come aggiornamento di chatbot, ma come motore per una nuova generazione di sistemi autonomi.
Sonnet 4.6 di Anthropic arriva mentre l’azienda si espande nei mercati aziendali e nella difesa
Questa versione non arriva nel vuoto. Anthropic è nel mezzo del periodo più importante della sua storia e il panorama competitivo si sta intensificando su ogni fronte.
Lo stesso giorno di questo lancio, TechCrunch ha riferito che il gigante IT indiano Infosys ha annunciato una partnership con Anthropic per creare agenti IA di livello aziendale, integrando i modelli Claude nella piattaforma AI Topaz di Infosys per il settore bancario, delle telecomunicazioni e della produzione. Il CEO di Anthropic, Dario Amodei, ha dichiarato a TechCrunch che esiste “un grande divario tra un modello di intelligenza artificiale che funziona in una demo e uno che funziona in un settore regolamentato” e che Infosys aiuta a colmarlo. TechCrunch ha anche riferito che Anthropic ha aperto il suo primo ufficio indiano a Bangalore e che l’India ora rappresenta circa il 6% dell’utilizzo globale di Claude, seconda solo agli Stati Uniti. 183 miliardi di dollariha ampliato rapidamente la propria presenza aziendale.
Nel frattempo, la presidentessa di Anthropic, Daniela Amodei, ha dichiarato la scorsa settimana advert ABC Information che l’intelligenza artificiale potrebbe diventare una specializzazione in materie umanistiche”.più importante che mai“, sostenendo che le capacità di pensiero critico diventerebbero più preziose man mano che grandi modelli linguistici padroneggiassero il lavoro tecnico. È il tipo di affermazione che un’azienda fa quando crede che la sua tecnologia sia sul punto di rimodellare intere categorie di impiego dei colletti bianchi.
Il quadro competitivo per Sonetto 4.6 è anche notevole. Il modello supera il Gemini 3 Professional di Google e il GPT-5.2 di OpenAI su più benchmark. GPT-5.2 traccia sull’uso del laptop da parte degli agenti (38,2% contro 72,5%), della ricerca degli agenti (77,9% contro 74,7% per il punteggio non Professional di Sonnet 4.6) e dell’analisi finanziaria degli agenti (59,0% contro 63,3%). Gemini 3 Professional mostra prestazioni aggressive sul ragionamento visivo e sui benchmark multilingue, ma resta indietro nelle categorie agentive in cui gli investimenti aziendali sono in aumento.
La conclusione più ampia potrebbe non riguardare un singolo modello. Riguarda ciò che accadrà quando l’intelligence di classe Opus diventerà disponibile per pochi dollari per milione di token anziché per poche decine di dollari. Le aziende che stavano sperimentando con cautela agenti IA con piccole implementazioni ora devono affrontare un calcolo dei costi fondamentalmente diverso. Gli agenti che erano troppo costosi per essere gestiti ininterrottamente a gennaio sono improvvisamente accessibili a febbraio.
Claude Sonetto 4.6 è ora disponibile su tutti i piani Claude, Claude Cowork, Claude Code, API e tutte le principali piattaforme cloud. Anthropic ha anche aggiornato il suo livello gratuito a Sonnet 4.6 per impostazione predefinita. Gli sviluppatori possono accedervi immediatamente utilizzando claude-sonnet-4-6 tramite l’API Claude.













