Home Tecnologia Google lancia Gemini 3.1 Professional, riconquistando il primato dell’intelligenza artificiale con un...

Google lancia Gemini 3.1 Professional, riconquistando il primato dell’intelligenza artificiale con un incremento delle prestazioni di ragionamento 2X+

18
0

Alla wonderful dell’anno scorso, Google ha conquistato brevemente la corona di modello di intelligenza artificiale più potente al mondo con il lancio di Gemini 3 Professional, per poi essere superato in poche settimane da OpenAI e Anthropic che rilasciano nuovi modelli, cosa comune nella corsa all’intelligenza artificiale ferocemente competitiva.

Ora Google è tornato per riprendere il trono con un versione aggiornata di quel modello di punta: Gemini 3.1 Proposizionato come base di riferimento più intelligente per le attività in cui una risposta semplice non è sufficiente, mirando ai flussi di lavoro scientifici, di ricerca e di ingegneria che richiedono pianificazione e sintesi approfondite.

Già, valutazioni da parte della società terza Artificial Analysis mostrano che Gemini 3.1 Professional di Google è balzato in testa alla classifica ed è ancora una volta il modello AI più potente e performante al mondo.

Un grande passo avanti nel ragionamento fondamentale

Il progresso più significativo di Gemini 3.1 Professional risiede nelle sue prestazioni su rigorosi benchmark logici. In particolare, il modello ha ottenuto un punteggio verificato del 77,1% su ARC-AGI-2.

Questo benchmark specifico è progettato per valutare la capacità di un modello di risolvere schemi logici completamente nuovi che non ha incontrato durante l’addestramento.

Questo risultato rappresenta più del doppio delle prestazioni di ragionamento del precedente modello Gemini 3 Professional.

Grafico benchmark di Google Gemini 3.1 Professional. Credito: Google

Al di là della logica astratta, i benchmark interni indicano che 3.1 Professional è altamente competitivo in domini specializzati:

  • Conoscenza scientifica: Ha ottenuto un punteggio del 94,3% su GPQA Diamond.

  • Codifica: Ha raggiunto un Elo di 2887 su LiveCodeBench Professional e ha ottenuto un punteggio dell’80,6% su SWE-Bench Verified.

  • Comprensione multimodale: Ha raggiunto il 92,6% su MMMLU.

Questi vantaggi tecnici non sono solo incrementali; rappresentano un perfezionamento nel modo in cui il modello gestisce i token “pensanti” e le attività a lungo orizzonte, fornendo una base più affidabile per gli sviluppatori che creano agenti autonomi.

Codifica delle vibrazioni e sintesi 3D migliorate

Google sta dimostrando l’utilità del modello attraverso l'”intelligenza applicata”, spostando l’attenzione dalle interfacce di chat agli output funzionali.

Una delle caratteristiche più importanti è la capacità del modello di generare SVG animati “codificati con vibrazioni” direttamente da istruzioni di testo. Poiché sono basati su codice anziché su pixel, rimangono scalabili e mantengono dimensioni di file ridotte rispetto ai video tradizionali, vantando immagini molto più dettagliate, presentabili e professionali per siti Net, presentazioni e altre applicazioni aziendali.

Altre applicazioni presentate includono:

  • Sintesi di sistemi complessi: Il modello ha configurato con successo un flusso di telemetria pubblica per costruire un dashboard aerospaziale in tempo reale che visualizzasse l’orbita della Stazione Spaziale Internazionale.

  • Progettazione interattiva: In una demo, 3.1 Professional ha codificato un complesso mormorio di storno 3D che gli utenti possono manipolare tramite il tracciamento manuale, accompagnato da una partitura audio generativa.

  • Codifica creativa: La modella traduceva i temi atmosferici di Emily Brontë Cime tempestose in un internet design funzionale e moderno, dimostrando la capacità di ragionare attraverso il tono e lo stile piuttosto che il semplice testo letterale.

Impatto aziendale e reazioni della comunità

I associate aziendali hanno già iniziato a integrare la versione di anteprima di 3.1 Professional, segnalando notevoli miglioramenti in termini di affidabilità ed efficienza.

Vladislav Tankov, direttore dell’intelligenza artificiale presso JetBrains, ha notato un miglioramento della qualità del 15% rispetto alle versioni precedenti, affermando che il modello è “più forte, più veloce… e più efficiente e richiede meno token di output”. Altre reazioni del settore includono:

  • Databrick: Il CTO Hanlin Tang ha riferito che il modello ha ottenuto i “risultati migliori della categoria” su OfficeQA, un punto di riferimento per il ragionamento fondato su dati tabulari e non strutturati.

  • Ruota di carro: Il co-fondatore Andrew Carr ha evidenziato la “comprensione sostanzialmente migliorata delle trasformazioni 3D” del modello, sottolineando che ha risolto bug di lunga information sull’ordine di rotazione nelle pipeline di animazione 3D.

  • Orizzonti di Hostinger: Il responsabile del prodotto Dainius Kavoliunas ha osservato che il modello comprende la “vibrazione” dietro un immediate, traducendo l’intento in un codice accurato in termini di stile per i non sviluppatori.

Prezzi, licenze e disponibilità

Per gli sviluppatori, l’aspetto più sorprendente della versione 3.1 Professional è il rapporto “ragionamento-dollaro”. Quando Gemini 3 Professional è stato lanciato, period posizionato nella fascia di prezzo medio-alta con 2,00 dollari per milione di token di enter per immediate customary. Gemini 3.1 Professional mantiene questa esatta struttura di prezzi, offrendo di fatto un massiccio aggiornamento delle prestazioni senza costi aggiuntivi per gli utenti API.

  • Prezzo d’ingresso: $ 2,00 per 1 milione di token per richieste fino a 200.000; $ 4,00 per 1 milione di token per richieste superiori a 200.000.

  • Prezzo di uscita: $ 12,00 per 1 milione di token per richieste fino a 200.000; $ 18,00 per 1 milione di token per richieste superiori a 200.000.

  • Cache del contesto: Fatturato da $ 0,20 a $ 0,40 per 1 milione di token a seconda delle dimensioni del immediate, più una tariffa di archiviazione di $ 4,50 per 1 milione di token all’ora.

  • Ricerca messa a terra: 5.000 richieste al mese sono gratuite, seguite da un addebito di $ 14 per 1.000 question di ricerca.

Per i consumatori, il modello è in fase di implementazione nell’app Gemini e NotebookLM con limiti più elevati per gli abbonati Google AI Professional e Extremely.

Implicazioni sulla licenza

Come modello proprietario offerto tramite Vertex Studio a GoogleNuvola e il API Gemelli3.1 Professional segue un modello SaaS (Software program as a Service) commerciale customary anziché una licenza open supply.

Per gli utenti aziendali, ciò fornisce un “ragionamento fondato” all’interno del perimetro di sicurezza di Vertex AI, consentendo alle aziende di operare sui propri dati in tutta sicurezza.

Lo stato “Anteprima” consente a Google di perfezionare la sicurezza e le prestazioni del modello prima della disponibilità generale, una pratica comune nell’implementazione dell’IA advert alto rischio.

Raddoppiando il ragionamento di base e benchmark specializzati come ARC-AGI-2, Google sta segnalando che la prossima fase della corsa all’intelligenza artificiale sarà vinta da modelli in grado di riflettere su un problema, non solo di prevedere la parola successiva.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here