L’ormai famoso staff di sviluppo Qwen AI di Alibaba lo ha fatto di nuovo: poco più di un giorno fa, hanno rilasciato il Serie di modelli medi Qwen3.5 costituito da quattro nuovi modelli linguistici di grandi dimensioni (LLM) con supporto per chiamate di strumenti agenti, tre dei quali sono disponibili per l’uso commerciale da parte di aziende e sviluppatori indipendenti con la licenza customary open supply Apache 2.0:
-
Qwen3.5-35B-A3B
-
Qwen3.5-122B-A10B
-
Qwen3.5-27B
Gli sviluppatori possono scaricarli ora Volto che abbraccia E ModelScope. Un quarto modello, Qwen3.5-Flash, sembra essere proprietario e disponibile solo tramite il API Alibaba Cloud Model Studioma offre comunque un forte vantaggio in termini di costi rispetto advert altri modelli in Occidente (vedere la tabella comparativa dei prezzi di seguito).
Ma la grande svolta con i modelli open supply è che offrono prestazioni comparabilmente elevate su check benchmark di terze parti rispetto a modelli proprietari di dimensioni simili di importanti startup statunitensi come OpenAI o Anthropic, battendo di fatto GPT-5-mini di OpenAI e Claude Sonnet 4.5 di Anthropic, quest’ultimo modello che è stato rilasciato appena cinque mesi fa.
E la squadra Qwen dice ha progettato questi modelli in modo che rimangano estremamente accurati anche quando “quantizzati”, un processo che riduce ulteriormente il loro impatto riducendo il numero di valori memorizzati nelle impostazioni del modello da molti a molto meno.
Fondamentalmente, questa versione porta finestre di contesto “a livello di frontiera” sul PC desktop. L’ammiraglia Qwen3.5-35B-A3B può ora superare la lunghezza del contesto di 1 milione di token su GPU di livello shopper con 32 GB di VRAM. Anche se non è qualcosa a cui tutti hanno accesso, è molto meno computazionale di molte altre opzioni con prestazioni comparabili.
Questo salto è reso possibile dalla precisione quasi senza perdite con un peso di 4 bit e dalla quantizzazione della cache KV, che consente agli sviluppatori di elaborare enormi set di dati senza un’infrastruttura di livello server.
Tecnologia: Forza Delta
Al centro delle prestazioni di Qwen 3.5 c’è una sofisticata architettura ibrida. Mentre molti modelli si basano esclusivamente su blocchi Transformer customary, Qwen 3.5 integra Gated Delta Networks combinati con un sistema sparso Combination-of-Consultants (MoE). Le specifiche tecniche per Qwen3.5-35B-A3B rivelano un design altamente efficiente:
-
Efficienza dei parametri: Anche se il modello ospita 35 miliardi di parametri in totale, si limita advert attivarli 3 miliardi per ogni dato token.
-
Diversità degli esperti: Il livello MoE utilizza 256 esperti, con 8 esperti instradati e 1 esperto condiviso che aiutano a mantenere le prestazioni riducendo al contempo la latenza di inferenza.
-
Quantizzazione quasi senza perdite: La serie mantiene un’elevata precisione anche quando compressa a pesi a 4 bit, riducendo significativamente l’ingombro della memoria per l’implementazione locale.
-
Rilascio del modello base: Nel tentativo di sostenere la comunità di ricerca, Alibaba ha reso open supply il Qwen3.5-35B-A3B-Base modello insieme alle versioni ottimizzate per istruzioni.
Prodotto: Intelligenza che ‘pensa’ per prima
Qwen 3.5 introduce una “modalità di pensiero” nativa come stato predefinito. Prima di fornire una risposta definitiva, il modello genera una catena di ragionamento interna, delimitata da tag: per funzionare attraverso una logica complessa. La gamma di prodotti è adattata a diversi ambienti {hardware}:
-
Qwen3.5-27B: Ottimizzato per un’elevata efficienza, supporta una lunghezza del contesto di oltre 800.000 token.
-
Qwen3.5-Flash: La versione ospitata di livello produttivo, con una lunghezza predefinita del contesto di 1 milione di token e strumenti ufficiali integrati.
-
Qwen3.5-122B-A10B: Progettato per GPU di livello server (VRAM da 80 GB), questo modello supporta lunghezze di contesto superiori a 1 milione, riducendo al contempo il divario con i modelli di frontiera più grandi del mondo.
I risultati del benchmark convalidano questo cambiamento architetturale. Il modello 35B-A3B supera notevolmente i predecessori molto più grandi, come Qwen3-235B, così come i già citati proprietari GPT-5 mini e Sonnet 4.5 in categorie che includono conoscenza (MMMLU) e ragionamento visivo (MMMU-Professional).
Prezzi e integrazione API
Per coloro che non ospitano i propri pesi, Alibaba Cloud Mannequin Studio fornisce un’API competitiva per Qwen3.5-Flash.
-
Ingresso: $ 0,1 per 1 milione di token
-
Produzione: $ 0,4 per 1 milione di token
-
Creazione della cache: $ 0,125 per 1 milione di token
-
Lettura cache: $ 0,01 per 1 milione di token
L’API prevede inoltre un modello di prezzi granulare per le chiamate agli strumenti, con la ricerca Net a ten dollari per 1.000 chiamate e l’interprete di codice attualmente offerto gratuitamente per un periodo limitato.
Ciò rende Qwen3.5-Flash tra le API più convenienti da eseguire tra tutti i principali LLM del mondo. Vedi una tabella che li confronta di seguito:
|
Modello |
Ingresso |
Produzione |
Costo totale |
Fonte |
|
Qwen3Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
Qwen3.5-Flash |
$ 0,10 |
$ 0,40 |
$ 0,50 |
|
|
chat-deepseek (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
ragionatore di ricerca profonda (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Grok 4.1 Veloce (ragionamento) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Veloce (non ragionante) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
MiniMax M2.5 |
$ 0,15 |
$ 1,20 |
$ 1,35 |
|
|
MiniMax M2.5-Lightning |
$ 0,30 |
$ 2,40 |
$ 2,70 |
|
|
Anteprima Flash di Gemini 3 |
$ 0,50 |
$ 3,00 |
$ 3,50 |
|
|
Kimi-k2.5 |
$ 0,60 |
$ 3,00 |
$ 3,60 |
|
|
GLM-5 |
$ 1,00 |
$ 3,20 |
$ 4,20 |
|
|
ERNI 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
ClaudeHaiku4.5 |
$ 1,00 |
$ 5,00 |
$ 6,00 |
|
|
Qwen3-Max (23/01/2026) |
$ 1,20 |
$ 6,00 |
$ 7,20 |
|
|
Gemini 3 Professional (≤200.000) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
GPT-5.2 |
$ 1,75 |
$ 14,00 |
$ 15,75 |
|
|
Claude Sonetto 4.5 |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
Gemini 3 Professional (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Claude Opus 4.6 |
$ 5,00 |
$ 25,00 |
$ 30,00 |
|
|
GPT-5.2Pro |
$ 21,00 |
$ 168,00 |
$ 189,00 |
Cosa significa per i chief tecnici e i decisori aziendali
Con il lancio dei modelli medi Qwen3.5, la rapida iterazione e messa a punto, un tempo riservata a laboratori ben finanziati, è ora accessibile per lo sviluppo in sede presso molte aziende non tecniche, disaccoppiando di fatto l’intelligenza artificiale sofisticata dalle massicce spese in conto capitale.
All’interno dell’organizzazione, questa architettura trasforma il modo in cui i dati vengono gestiti e protetti. La capacità di acquisire localmente enormi repository di documenti o video su scala oraria consente un’analisi istituzionale approfondita senza i rischi per la privateness delle API di terze parti.
Eseguendo questi modelli specializzati di “combine di esperti” all’interno di un firewall privato, le organizzazioni possono mantenere il controllo sovrano sui propri dati, utilizzando modalità di “pensiero” native e funzionalità di chiamata di strumenti ufficiali per creare agenti più affidabili e autonomi.
I primi advert adottare Hugging Face hanno particolarmente lodato la capacità del modello di “ridurre il divario” negli scenari advert agenti in cui in precedenza solo i modelli chiusi più grandi potevano competere.
Questo spostamento verso l’efficienza dell’architettura su larga scala garantisce che l’integrazione dell’intelligenza artificiale rimanga attenta ai costi, sicura e sufficientemente agile da tenere il passo con le esigenze operative in evoluzione.









