Home Tecnologia Qwen3-Max Pondering batte Gemini 3 Professional e GPT-5.2 nell’ultimo esame dell’umanità (con...

Qwen3-Max Pondering batte Gemini 3 Professional e GPT-5.2 nell’ultimo esame dell’umanità (con ricerca)

13
0

Le aziende cinesi di intelligenza artificiale e tecnologia continuano a stupire con il loro sviluppo di modelli linguistici di intelligenza artificiale all’avanguardia.

Oggi, advert attirare l’attenzione è il Qwen Group di ricercatori di intelligenza artificiale di Alibaba Cloud e la sua presentazione di un nuovo modello di ragionamento linguistico proprietario, Qwen3-Max-pensiero.

Forse ricorderete, come ha spiegato VentureBeat l’anno scorso, che Qwen si è fatto un nome nel mercato globale dell’intelligenza artificiale in rapida evoluzione distribuendo una varietà di potenti modelli open supply in varie modalità, dal testo all’immagine all’audio parlato. La società ha anche ottenuto l’approvazione del colosso statunitense degli alloggi tecnologici Airbnb, di cui è CEO e co-fondatore Brian Chesky ha affermato che l’azienda si affida ai modelli gratuiti e open source di Qwen come alternativa più conveniente alle offerte statunitensi come quelle di OpenAI.

Ora, con il Qwen3-Max-Pondering proprietario, il group Qwen mira a eguagliare e, in alcuni casi, superare le capacità di ragionamento di GPT-5.2 e Gemini 3 Professional attraverso l’efficienza dell’architettura e l’autonomia degli agenti.

Il rilascio arriva in un momento critico. I laboratori occidentali hanno ampiamente definito la categoria del “ragionamento” (spesso chiamata logica del “Sistema 2”), ma gli ultimi parametri di riferimento di Qwen suggeriscono che il divario si è colmato.

Inoltre, l’azienda è relativamente conveniente Strategia di prezzo dell’API prende di mira in modo aggressivo l’adozione da parte delle imprese. Tuttavia, poiché si tratta di un modello cinese, alcune aziende statunitensi con severi requisiti e considerazioni di sicurezza nazionale potrebbero essere caute nell’adottarlo.

L’architettura: ridefinito il “Check-Time Scaling”.

L’innovazione principale che guida Qwen3-Max-Pondering è l’abbandono dei metodi di inferenza commonplace. Mentre la maggior parte dei modelli genera token in modo lineare, Qwen3 utilizza una “modalità pesante” guidata da una tecnica nota come “ridimensionamento del tempo di take a look at”.

In termini semplici, questa tecnica consente al modello di scambiare calcolo con intelligenza. Ma a differenza dell’ingenuo campionamento “best-of-N” – in cui un modello può generare 100 risposte e scegliere quella migliore – Qwen3-Max-Pondering impiega una strategia cumulativa di esperienze a più spherical.

Questo approccio imita la risoluzione dei problemi umani. Quando il modello incontra una question complessa, non si limita a indovinare; si impegna in un’autoriflessione iterativa. Utilizza un meccanismo proprietario di “acquisizione dell’esperienza” per distillare intuizioni dalle fasi di ragionamento precedenti. Ciò consente al modello di:

  1. Identificare i vicoli ciechi: Riconoscere quando una linea di ragionamento fallisce senza bisogno di attraversarla completamente.

  2. Calcolo del focus: Reindirizzare la potenza di elaborazione verso “incertezze irrisolte” piuttosto che ridirigere conclusioni be aware.

I miglioramenti in termini di efficienza sono tangibili. Evitando ragionamenti ridondanti, il modello integra un contesto storico più ricco nella stessa finestra. Il group di Qwen riferisce che questo metodo ha portato a enormi aumenti di prestazioni senza far esplodere i costi simbolici:

Oltre il puro pensiero: strumenti adattivi

Anche se i modelli “pensanti” sono potenti, storicamente sono stati isolati: bravi in ​​matematica, ma scarsi nella navigazione sul net o nell’esecuzione di codice. Qwen3-Max-Pondering colma questo divario integrando efficacemente “modalità di pensiero e non pensiero”.

Il modello presenta funzionalità di utilizzo adattivo degli strumenti, il che significa che seleziona autonomamente lo strumento giusto per il lavoro senza alcuna richiesta manuale da parte dell’utente. Può alternare senza problemi tra:

  • Ricerca ed estrazione sul Net: Per domande fattuali in tempo reale.

  • Memoria: Per memorizzare e richiamare il contesto specifico dell’utente.

  • Interprete del codice: Scrivere ed eseguire frammenti Python per attività computazionali.

In “Pondering Mode”, il modello supporta questi strumenti contemporaneamente. Questa funzionalità è fondamentale per le applicazioni aziendali in cui un modello potrebbe dover verificare un fatto (Ricerca), calcolare una proiezione (Interprete di codice) e quindi ragionare sull’implicazione strategica (Pensare) tutto in un unico turno.

Empiricamente, il group nota che questa combinazione “mitiga efficacemente le allucinazioni”, poiché il modello può fondare il suo ragionamento su dati esterni verificabili piuttosto che fare affidamento esclusivamente sui pesi di allenamento.

Analisi di benchmark: la storia dei dati

Qwen non è timido nei confronti diretti.

All’HMMT del 25 febbraio, un benchmark di ragionamento rigoroso, Qwen3-Max-Pondering ha ottenuto 98,0, superando Gemini 3 Professional (97,5) e guidando significativamente DeepSeek V3.2 (92,5).

Tuttavia, il segnale più significativo per gli sviluppatori è probabilmente Agentic Search. Su “Humanity’s Final Examination” (HLE), il benchmark che misura le prestazioni su 3.000 domande di livello universitario “a prova di Google” in matematica, scienze, informatica, self-discipline umanistiche e ingegneria. Qwen3-Max-Pondering, dotato di strumenti di ricerca net, ha ottenuto 49,8, battendo sia Gemini 3 Professional (45,8) che GPT-5.2-Pondering (45,5) .

Parametri chiave di Qwen3-Max. Credito: Alibaba Cloud Qwen Group su X

Ciò suggerisce che l’architettura di Qwen3-Max-Pondering è particolarmente adatta per flussi di lavoro complessi e multi-step in cui è necessario il recupero di dati esterni.

Anche nelle attività di codifica il modello brilla. Su Area-Onerous v2, ha registrato un punteggio di 90,2, lasciando concorrenti come Claude-Opus-4.5 (76,7) molto indietro.

L’economia del ragionamento: scomposizione dei prezzi

Per la prima volta, diamo uno sguardo chiaro agli aspetti economici del modello di ragionamento di alto livello di Qwen. Alibaba Cloud si è posizionata qwen3-max-2026-01-23 come offerta premium ma accessibile sulla sua API.

A livello base, ecco come si accumula Qwen3-Max-Pondering:

Modello

Ingresso (/1M)

Uscita (/1M)

Costo totale

Fonte

Qwen3Turbo

$ 0,05

$ 0,20

$ 0,25

AlibabaNuvola

Grok 4.1 Veloce (ragionamento)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Veloce (non ragionante)

$ 0,20

$ 0,50

$ 0,70

xAI

chat-deepseek (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

DeepSeek

ragionatore di ricerca profonda (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

DeepSeek

Qwen3 Plus

$ 0,40

$ 1,20

$ 1,60

AlibabaNuvola

ERNI 5.0

$ 0,85

$ 3,40

$ 4,25

Qianfan

Anteprima Flash di Gemini 3

$ 0,50

$ 3,00

$ 3,50

Google

ClaudeHaiku4.5

$ 1,00

$ 5,00

$ 6,00

Antropico

Pensiero Qwen3-Max (23-01-2026)

$ 1,20

$ 6,00

$ 7,20

AlibabaNuvola

Gemini 3 Professional (≤200.000)

$ 2,00

$ 12,00

$ 14,00

Google

GPT-5.2

$ 1,75

$ 14,00

$ 15,75

OpenAI

Claude Sonetto 4.5

$ 3,00

$ 15,00

$ 18,00

Antropico

Gemini 3 Professional (>200K)

$ 4,00

$ 18,00

$ 22,00

Google

Claude Opus 4.5

$ 5,00

$ 25,00

$ 30,00

Antropico

GPT-5.2Pro

$ 21,00

$ 168,00

$ 189,00

OpenAI

Questa struttura dei prezzi è aggressiva e mina molti modelli di punta legacy offrendo allo stesso tempo prestazioni all’avanguardia.

Tuttavia, gli sviluppatori dovrebbero tenere presente i prezzi granulari per le nuove funzionalità degli agenti, poiché Qwen separa il costo del “pensare” (gettoni) dal costo del “fare” (uso degli strumenti).

  • Strategia di ricerca dell’agente: Entrambi di serie search_strategy:agent e quello più avanzato search_strategy:agent_max hanno un prezzo $ 10 ogni 1.000 chiamate.

  • Ricerca sul Net: Al prezzo di $ 10 per 1.000 chiamate tramite l’API Responses.

Livello gratuito promozionale:Per incoraggiare l’adozione delle sue funzionalità più avanzate, Alibaba Cloud offre attualmente due strumenti chiave gratuitamente per un periodo limitato:

Questo modello di prezzo (costo token basso + prezzo strumento à la carte) consente agli sviluppatori di creare agenti complessi che sono convenienti per l’elaborazione del testo, pagando un premio solo quando azioni esterne, come una ricerca net in tempo reale, vengono esplicitamente attivate.

Ecosistema degli sviluppatori

Riconoscendo che le prestazioni sono inutili senza integrazione, Alibaba Cloud ha assicurato che Qwen3-Max-Pondering sia immediatamente disponibile.

  • Compatibilità OpenAI: L’API supporta il formato OpenAI commonplace, consentendo ai group di cambiare modello semplicemente modificando il formato base_url E mannequin nome.

  • Compatibilità antropica: Con una mossa astuta per conquistare il mercato della codifica, l’API supporta anche il protocollo Anthropic. Ciò rende Qwen3-Max-Pondering compatibile con Codice Claudioun popolare ambiente di codifica advert agenti.

Il verdetto

Qwen3-Max-Pondering rappresenta una maturazione del mercato dell’intelligenza artificiale nel 2026. Sposta la conversazione oltre “chi ha il chatbot più intelligente” a “chi ha l’agente più capace”.

Combinando il ragionamento advert alta efficienza con l’uso adattivo e autonomo degli strumenti e valutandone il trasferimento, Qwen si è saldamente affermata come contendente di alto livello per il trono dell’intelligenza artificiale aziendale.

Per gli sviluppatori e le aziende, le finestre “Tempo libero limitato” su Code Interpreter e Net Extractor suggeriscono che è giunto il momento di sperimentare. Le guerre di ragionamento sono lungi dall’essere finite, ma Qwen ha appena schierato un battitore molto potente.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here