Giovedì, OpenAI ha rilasciato GPT-5.4, un nuovo modello di fondazione annunciato come “il nostro modello di frontiera più capace ed efficiente per il lavoro professionale”. Oltre alla versione normal, GPT-5.4 è disponibile anche come modello ragionante (GPT-5.4 Pondering) o ottimizzato per prestazioni elevate (GPT-5.4 Professional).
La versione API del modello sarà disponibile con finestre di contesto grandi fino a 1 milione di token, di gran lunga la finestra di contesto più grande disponibile da OpenAI.
OpenAI ha anche sottolineato una migliore efficienza dei token, affermando che GPT-5.4 è stato in grado di risolvere gli stessi problemi con un numero significativamente inferiore di token rispetto al suo predecessore.
Il nuovo modello viene fornito con risultati di benchmark notevolmente migliorati, inclusi punteggi file nei benchmark di utilizzo del pc OSWorld-Verified e WebArena Verified. Il nuovo modello ha inoltre ottenuto un punteggio file dell’83% nel check GDPval di OpenAI per le attività di data work.
GPT-5.4 ha preso il comando anche nel benchmark APEX-Brokers di Mercor, progettato per testare le competenze professionali nel campo del diritto e della finanza, secondo una dichiarazione del CEO di Mercor Brendan Foody.
“[GPT-5.4] eccelle nella creazione di risultati a lungo orizzonte come presentazioni di diapositive, modelli finanziari e analisi legali”, ha affermato Foody nella dichiarazione, “offrendo le massime prestazioni funzionando più velocemente e a un costo inferiore rispetto ai modelli di frontiera della concorrenza”.
GPT-5.4 continua gli sforzi dell’azienda per limitare le allucinazioni e gli errori fattuali. OpenAI ha affermato che il nuovo modello aveva il 33% in meno di probabilità di commettere errori nelle singole affermazioni rispetto a GPT 5.2, e che le risposte complessive avevano il 18% in meno di probabilità di contenere errori.
Evento Techcrunch
San Francisco, California
|
13-15 ottobre 2026
Come parte del lancio, OpenAI ha rielaborato il modo in cui la versione API di GPT-5.4 gestisce le chiamate agli strumenti, introducendo un nuovo sistema chiamato Device Search. In precedenza, i immediate di sistema esponevano le definizioni per tutti gli strumenti disponibili quando si chiamava il modello, un processo che poteva consumare molti token con l’aumento del numero di strumenti disponibili. Il nuovo sistema consente ai modelli di cercare le definizioni degli strumenti secondo necessità, con il risultato di richieste più rapide ed economiche nei sistemi con molti strumenti disponibili.
OpenAI ha incluso anche una nuova valutazione della sicurezza per testare la catena di pensiero del modello, il commento in corso fornito dal modello per mostrare il suo processo di pensiero attraverso compiti in più fasi. I ricercatori sulla sicurezza dell’intelligenza artificiale temono da tempo che i modelli di ragionamento possano travisare la loro catena di pensiero spettacoli di prova può accadere nelle giuste circostanze.
La nuova valutazione di OpenAI mostra che è meno probabile che si verifichino inganni nella versione Pondering di GPT-5.4, “suggerendo che il modello non ha la capacità di nascondere il proprio ragionamento e che il monitoraggio CoT rimane uno strumento di sicurezza efficace”.












