Home Tecnologia OpenAI lancia GPT-5.4 con modalità di utilizzo nativa del laptop, plug-in finanziari...

OpenAI lancia GPT-5.4 con modalità di utilizzo nativa del laptop, plug-in finanziari per Microsoft Excel, Fogli Google

36
0

Gli aggiornamenti dell’intelligenza artificiale non stanno rallentando. Letteralmente due giorni dopo che OpenAI ha lanciato un nuovo modello di intelligenza artificiale sottostante per ChatGPT chiamato GPT-5.3 Instantaneous, la società ha ha presentato un altro aggiornamento ancora più massiccio: GPT-5.4.

In realtà, GPT-5.4 è disponibile in due varietà: GPT-5.4 Pondering e GPT-5.4 Professionalquest’ultimo pensato per i compiti più complessi.

Entrambi saranno disponibili nell’interfaccia di programmazione delle applicazioni (API) a pagamento di OpenAI e nell’applicazione di sviluppo software program Codex, mentre GPT-5.4 Pondering sarà disponibile per tutti gli abbonati a pagamento di ChatGPT (Plus, piano da $ 20 al mese e superiori) e Professional sarà riservato agli utenti di ChatGPT Professional ($ 200 mensili) e del piano Enterprise.

Anche gli utenti di ChatGPT Free avranno un assaggio di GPT-5.4, ma solo quando le loro question verranno indirizzate automaticamente al modello, secondo un portavoce di OpenAI.

I titoli principali di questa versione sono l’efficienza, con OpenAI che segnala che GPT-5.4 utilizza molti meno token (47% in meno su alcune attività) rispetto ai suoi predecessori e, probabilmente in modo ancora più impressionante, una nuova modalità di utilizzo del laptop “nativa” disponibile tramite l’API e il suo Codex che consente a GPT-5.4 di navigare nel laptop di un utente come un essere umano e di lavorare su più applicazioni.

L’azienda sta inoltre rilasciando a nuova suite di integrazioni ChatGPT che consente di collegare GPT-5.4 direttamente a Microsoft Excel e Fogli Google degli utenti fogli di calcolo e celle, consentendo analisi granulari e completamento automatizzato delle attività che dovrebbero accelerare il lavoro in tutta l’azienda, ma potrebbero rendere i timori di licenziamenti dei colletti bianchi ancora più pronunciati sulla scia di offerte simili da parte di Claude di Anthropic e della sua nuova applicazione Cowork.

OpenAI afferma che GPT-5.4 supporta fino a 1 milione di token di contesto nell’API e nel Codex, consentendo agli agenti di pianificare, eseguire e verificare attività su orizzonti a lungo termine, tuttavia, addebita il doppio del costo per 1 milione di token una volta che l’enter supera i 272.000 token.

Utilizzo nativo del laptop: un passo verso flussi di lavoro autonomi

La capacità più importante evidenziata da OpenAI è che GPT-5.4 è il suo primo modello per uso generale rilasciato con funzionalità di utilizzo del laptop native e all’avanguardia nel Codex e nell’API, consentendo agli agenti di utilizzare laptop ed eseguire flussi di lavoro in più fasi tra le applicazioni.

OpenAI afferma che il modello può sia scrivere codice per far funzionare i laptop tramite librerie come Playwright sia emettere comandi da mouse e tastiera in risposta agli screenshot. OpenAI sostiene anche un salto nella navigazione internet tramite agenti.

I risultati del benchmark sono presentati come prova che non si tratta semplicemente di un wrapper dell’interfaccia utente.

Su SfogliaComp, che misura la capacità degli agenti AI di navigare in modo persistente sul Net per trovare informazioni difficili da individuare, OpenAI riporta che GPT-5.4 migliora del 17% assoluto rispetto a GPT-5.2 e GPT-5.4 Professional raggiunge l’89,3%, descritto come un nuovo stato dell’arte.

Su OSWorld-Verified, che misura la navigazione sul desktop utilizzando screenshot più azioni di tastiera e mouse, OpenAI riporta GPT-5.4 con un successo del 75,0%, rispetto al 47,3% di GPT-5.2, e rileva che le prestazioni umane sono state del 72,4%.

Su WebArena-Verified, GPT-5.4 raggiunge il 67,3% di successo utilizzando sia l’interazione basata su DOM che quella basata su screenshot, rispetto al 65,4% per GPT-5.2. Su On-line-Mind2Web, OpenAI riporta il 92,8% di successo utilizzando solo osservazioni basate su screenshot.

OpenAI collega anche l’uso del laptop a miglioramenti nella visione e nella gestione dei documenti. Su MMMU-Professional, GPT-5.4 raggiunge l’81,2% di successo senza l’uso di strumenti, rispetto al 79,5% di GPT-5.2, e OpenAI afferma di raggiungere questo risultato utilizzando una frazione dei “token pensanti”.

Su OmniDocBench, l’errore medio di GPT-5.4 è riportato a 0,109, migliorato rispetto a 0,140 per GPT-5.2. Il submit descrive anche il supporto esteso per enter di immagini advert alta fedeltà, incluso un livello di dettaglio “originale” fino a ten,24 milioni di pixel.

OpenAI posiziona GPT-5.4 come costruito per flussi di lavoro più lunghi e in più fasi, un lavoro che assomiglia sempre più a un agente che mantiene lo stato durante molte azioni piuttosto che a un chatbot che risponde una volta.

Ricerca degli strumenti e migliore orchestrazione degli strumenti

Man mano che gli ecosistemi di strumenti diventano più grandi, OpenAI sostiene che l’approccio ingenuo, ovvero scaricare ogni definizione di strumento nel immediate, crea una tassa pagata su ogni richiesta: costo, latenza e inquinamento del contesto.

GPT-5.4 introduce la ricerca degli strumenti nell’API come soluzione strutturale. Invece di ricevere in anticipo tutte le definizioni degli strumenti, il modello riceve un elenco leggero di strumenti oltre a una funzionalità di ricerca e recupera le definizioni full degli strumenti solo quando sono effettivamente necessarie.

OpenAI descrive il vantaggio in termini di efficienza con un confronto concreto: su 250 attività del benchmark MCP Atlas di Scale, eseguite con 36 server MCP abilitati, la configurazione di ricerca degli strumenti ha ridotto l’utilizzo totale dei token del 47% ottenendo la stessa precisione di una configurazione che esponeva tutte le funzioni MCP direttamente nel contesto.

Quella cifra del 47% riguarda specificamente la configurazione di ricerca degli strumenti in quella valutazione, non un’affermazione generale secondo cui GPT-5.4 utilizza il 47% di token in meno per ogni tipo di attività.

Miglioramenti per sviluppatori e flussi di lavoro di codifica

Il passo della codifica di OpenAI è che GPT-5.4 combina i punti di forza della codifica di GPT-5.3-Codex con strumenti più potenti e capacità di utilizzo del laptop che contano quando le attività non sono singole.

GPT-5.4 corrisponde o supera il GPT-5.3-Codex su SWE-Bench Professional pur avendo una latenza inferiore durante gli sforzi di ragionamento.

Codex dispone anche di manopole a livello di flusso di lavoro. OpenAI afferma che la modalità /quick offre prestazioni fino a 1,5 volte più veloci su tutti i modelli supportati, incluso GPT-5.4, descrivendola come lo stesso modello e la stessa intelligenza “solo più veloce”.

E descrive il rilascio di un’abilità sperimentale del Codex, “Drammaturgo (Interattivo)”, intesa a dimostrare come la codifica e l’uso del laptop possono funzionare in tandem, effettuando il debug visivo di app internet ed Electron e testando un’app mentre viene creata.

OpenAI per Microsoft Excel e Fogli Google

Oltre a GPT-5.4, OpenAI annuncia una suite di prodotti IA sicuri in ChatGPT creati per aziende e istituzioni finanziarie, basati su GPT-5.4 per ragionamenti finanziari avanzati e modellazione basata su Excel.

Il fulcro è ChatGPT per Excel e Fogli Google (beta), che OpenAI descrive come ChatGPT incorporato direttamente nei fogli di calcolo per creare, analizzare e aggiornare modelli finanziari complessi utilizzando le formule e le strutture su cui i crew già fanno affidamento.

La suite embody anche nuove integrazioni dell’app ChatGPT destinate a unificare dati di mercato, aziendali e interni in un unico flusso di lavoro, nominando FactSet, MSCI, Terzo Ponte e Moody’s.

Inoltre introduce “competenze” riutilizzabili per attività finanziarie ricorrenti come anteprime degli utili, analisi comparabili, analisi DCF e redazione di observe di investimento.

OpenAI ancora la spinta finanziaria con un’affermazione di benchmark interno: le prestazioni del modello sono aumentate dal 43,7% con GPT-5 all’88,0% con GPT-5.4 Pensando a un benchmark interno di funding banking OpenAI.

Misurare le prestazioni dell’intelligenza artificiale rispetto al lavoro professionale

OpenAI si basa su benchmark intesi advert assomigliare a risultati reali dell’ufficio, non solo alla risoluzione di enigmi. Su GDPval, una valutazione che abbraccia “lavori di conoscenza ben specificati” in 44 occupazioni, OpenAI riporta che GPT-5.4 corrisponde o supera i professionisti del settore nell’83,0% dei confronti, rispetto al 71,0% per GPT-5.2.

L’azienda evidenzia inoltre miglioramenti specifici nei tipi di artefatti che tendono a mettere in luce i punti deboli del modello: tabelle strutturate, formule, coerenza narrativa e qualità del design.

In un benchmark interno di attività di modellazione di fogli di calcolo modellati su ciò che potrebbe fare un analista junior di funding banking, GPT-5.4 raggiunge un punteggio medio dell’87,5%, rispetto al 68,4% di GPT-5.2.

E su una serie di suggerimenti per la valutazione delle presentazioni, OpenAI afferma che i valutatori umani hanno preferito le presentazioni di GPT-5.4 il 68,0% delle volte rispetto a quelle di GPT-5.2, citando un’estetica più forte, una maggiore varietà visiva e un uso più efficace della generazione di immagini.

Migliorare l’affidabilità e ridurre le allucinazioni

OpenAI descrive GPT-5.4 come il modello più fattuale finora e collega story affermazione a un set di dati pratico: immediate non identificati in cui gli utenti hanno precedentemente contrassegnato errori fattuali. Su quel set, OpenAI riporta GPT-5.4 rivendicazioni individuali hanno il 33% in meno di probabilità che siano falsi e così by way of risposte full hanno il 18% in meno di probabilità di contenere errori rispetto a GPT-5.2.

Nelle dichiarazioni fornite a VentureBeat da OpenAI e attribuite ai primi tester GPT-5.4, Daniel Swiecki di Walleye Capital afferma che sulla finanza interna e sulle valutazioni Excel, GPT-5.4 ha migliorato la precisione di 30 punti percentuali, che collega all’automazione estesa per gli aggiornamenti dei modelli e l’analisi degli scenari.

Brendan Foody, CEO di Mercor, definisce GPT-5.4 il miglior modello provato dall’azienda e afferma che ora è al prime del benchmark APEX-Brokers di Mercor per il lavoro dei servizi professionali, sottolineando risultati a lungo orizzonte come presentazioni, modelli finanziari e analisi legali.

Prezzi e disponibilità

Nell’API, OpenAI afferma che GPT-5.4 Pondering è disponibile come gpt-5.4 e GPT-5.4 Professional come gpt-5.4-pro. Il prezzo è il seguente:

  • GPT-5.4: Gettoni di enter da $ 2,50/1 milione; Gettoni di output da $ 15/1 milione

  • GPT-5.4 Professional: Gettoni di enter da $ 30/1 milione; Gettoni di output da $ 180 / 1 milione

  • Lotto + Flessibile: metà tariffa; Elaborazione prioritaria: Tasso 2×

Ciò rende GPT-5.4 tra i modelli più costosi da eseguire sull’API rispetto all’intero campo, come mostrato nella tabella seguente.

Modello

Ingresso

Produzione

Costo totale

Fonte

Qwen3Turbo

$ 0,05

$ 0,20

$ 0,25

AlibabaNuvola

Qwen3.5-Flash

$ 0,10

$ 0,40

$ 0,50

AlibabaNuvola

chat-deepseek (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

DeepSeek

ragionatore di ricerca profonda (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

DeepSeek

Grok 4.1 Veloce (ragionamento)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Veloce (non ragionante)

$ 0,20

$ 0,50

$ 0,70

xAI

MiniMax M2.5

$ 0,15

$ 1,20

$ 1,35

MiniMax

Gemini 3.1 Flash Lite

$ 0,25

$ 1,50

$ 1,75

Google

MiniMax M2.5-Lightning

$ 0,30

$ 2,40

$ 2,70

MiniMax

Anteprima Flash di Gemini 3

$ 0,50

$ 3,00

$ 3,50

Google

Kimi-k2.5

$ 0,60

$ 3,00

$ 3,60

Colpo di luna

GLM-5

$ 1,00

$ 3,20

$ 4,20

Z.ai

ERNI 5.0

$ 0,85

$ 3,40

$ 4,25

Baidu

ClaudeHaiku4.5

$ 1,00

$ 5,00

$ 6,00

Antropico

Qwen3-Max (23/01/2026)

$ 1,20

$ 6,00

$ 7,20

AlibabaNuvola

Gemini 3 Professional (≤200.000)

$ 2,00

$ 12,00

$ 14,00

Google

GPT-5.2

$ 1,75

$ 14,00

$ 15,75

OpenAI

Claude Sonetto 4.6

$ 3,00

$ 15,00

$ 18,00

Antropico

GPT-5.4

$ 2,50

$ 15,00

$ 17,50

OpenAI

Gemini 3 Professional (>200K)

$ 4,00

$ 18,00

$ 22,00

Google

Claude Opus 4.6

$ 5,00

$ 25,00

$ 30,00

Antropico

GPT-5.2Pro

$ 21,00

$ 168,00

$ 189,00

OpenAI

GPT-5.4Pro

$ 30,00

$ 180,00

$ 210,00

OpenAI

Un’altra nota importante: con GPT-5.4, le richieste che superano i 272.000 token di enter vengono fatturate al doppio della tariffa normale, riflettendo la possibilità di inviare immediate più grandi rispetto ai modelli precedenti supportati.

Nel Codex, la compattazione predefinita è di 272.000 token e il prezzo più elevato per contesti lunghi si applica solo quando l’enter supera 272.000 token, il che significa che gli sviluppatori possono continuare a inviare immediate pari o inferiori a story dimensione senza attivare la tariffa più alta, ma possono optare per immediate più grandi aumentando il limite di compattazione, con solo le richieste più grandi fatturate in modo diverso.

Un portavoce di OpenAI ha affermato che nell’API l’output massimo è di 128.000 token, lo stesso dei modelli precedenti.

Infine, riguardo al motivo per cui GPT-5.4 ha un prezzo più alto di base, il portavoce lo ha attribuito a tre fattori: maggiore capacità su attività complesse (tra cui codifica, uso del laptop, ricerca approfondita, generazione avanzata di documenti e utilizzo di strumenti), importanti miglioramenti della ricerca dalla roadmap di OpenAI e un ragionamento più efficiente che utilizza meno token di ragionamento per attività comparabili, aggiungendo che OpenAI ritiene che GPT-5.4 rimanga al di sotto dei modelli di frontiera comparabili sui prezzi anche con l’aumento.

Il cambiamento più ampio

Attraverso il rilascio e i chiarimenti successivi, GPT-5.4 si posiziona come un modello destinato a superare la “generazione di risposte” e a flussi di lavoro professionali sostenuti, che richiedono orchestrazione degli strumenti, interazione con il laptop, contesto lungo e output che assomigliano agli artefatti che le persone utilizzano effettivamente al lavoro.

L’enfasi di OpenAI sull’efficienza dei token, sulla ricerca degli strumenti, sull’uso nativo del laptop e sulla riduzione degli errori fattuali segnalati dagli utenti puntano tutti nella stessa direzione: rendere i sistemi advert agenti più praticabili nella produzione riducendo il costo dei nuovi tentativi, sia che si tratti di un nuovo suggerimento umano, di un agente che chiama un altro strumento o di un flusso di lavoro riprodotto perché il primo passaggio non ha funzionato.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here