Home Tecnologia I nuovi modelli Qwen3.5-Medium open supply di Alibaba offrono prestazioni Sonnet 4.5...

Tecnologia

I nuovi modelli Qwen3.5-Medium open supply di Alibaba offrono prestazioni Sonnet 4.5 sui laptop locali

27 Febbraio 2026

L’ormai famoso staff di sviluppo Qwen AI di Alibaba lo ha fatto di nuovo: poco più di un giorno fa, hanno rilasciato il Serie di modelli medi Qwen3.5 costituito da quattro nuovi modelli linguistici di grandi dimensioni (LLM) con supporto per chiamate di strumenti agenti, tre dei quali sono disponibili per l’uso commerciale da parte di aziende e sviluppatori indipendenti con la licenza customary open supply Apache 2.0:

Qwen3.5-35B-A3B
Qwen3.5-122B-A10B
Qwen3.5-27B

Gli sviluppatori possono scaricarli ora Volto che abbraccia E ModelScope. Un quarto modello, Qwen3.5-Flash, sembra essere proprietario e disponibile solo tramite il API Alibaba Cloud Model Studioma offre comunque un forte vantaggio in termini di costi rispetto advert altri modelli in Occidente (vedere la tabella comparativa dei prezzi di seguito).

Ma la grande svolta con i modelli open supply è che offrono prestazioni comparabilmente elevate su check benchmark di terze parti rispetto a modelli proprietari di dimensioni simili di importanti startup statunitensi come OpenAI o Anthropic, battendo di fatto GPT-5-mini di OpenAI e Claude Sonnet 4.5 di Anthropic, quest’ultimo modello che è stato rilasciato appena cinque mesi fa.

E la squadra Qwen dice ha progettato questi modelli in modo che rimangano estremamente accurati anche quando “quantizzati”, un processo che riduce ulteriormente il loro impatto riducendo il numero di valori memorizzati nelle impostazioni del modello da molti a molto meno.

Fondamentalmente, questa versione porta finestre di contesto “a livello di frontiera” sul PC desktop. L’ammiraglia Qwen3.5-35B-A3B può ora superare la lunghezza del contesto di 1 milione di token su GPU di livello shopper con 32 GB di VRAM. Anche se non è qualcosa a cui tutti hanno accesso, è molto meno computazionale di molte altre opzioni con prestazioni comparabili.

Questo salto è reso possibile dalla precisione quasi senza perdite con un peso di 4 bit e dalla quantizzazione della cache KV, che consente agli sviluppatori di elaborare enormi set di dati senza un’infrastruttura di livello server.

Tecnologia: Forza Delta

Al centro delle prestazioni di Qwen 3.5 c’è una sofisticata architettura ibrida. Mentre molti modelli si basano esclusivamente su blocchi Transformer customary, Qwen 3.5 integra Gated Delta Networks combinati con un sistema sparso Combination-of-Consultants (MoE). Le specifiche tecniche per Qwen3.5-35B-A3B rivelano un design altamente efficiente:

Efficienza dei parametri: Anche se il modello ospita 35 miliardi di parametri in totale, si limita advert attivarli 3 miliardi per ogni dato token.
Diversità degli esperti: Il livello MoE utilizza 256 esperti, con 8 esperti instradati e 1 esperto condiviso che aiutano a mantenere le prestazioni riducendo al contempo la latenza di inferenza.
Quantizzazione quasi senza perdite: La serie mantiene un’elevata precisione anche quando compressa a pesi a 4 bit, riducendo significativamente l’ingombro della memoria per l’implementazione locale.
Rilascio del modello base: Nel tentativo di sostenere la comunità di ricerca, Alibaba ha reso open supply il Qwen3.5-35B-A3B-Base modello insieme alle versioni ottimizzate per istruzioni.

Prodotto: Intelligenza che ‘pensa’ per prima

Qwen 3.5 introduce una “modalità di pensiero” nativa come stato predefinito. Prima di fornire una risposta definitiva, il modello genera una catena di ragionamento interna, delimitata da tag: per funzionare attraverso una logica complessa. La gamma di prodotti è adattata a diversi ambienti {hardware}:

Qwen3.5-27B: Ottimizzato per un’elevata efficienza, supporta una lunghezza del contesto di oltre 800.000 token.
Qwen3.5-Flash: La versione ospitata di livello produttivo, con una lunghezza predefinita del contesto di 1 milione di token e strumenti ufficiali integrati.
Qwen3.5-122B-A10B: Progettato per GPU di livello server (VRAM da 80 GB), questo modello supporta lunghezze di contesto superiori a 1 milione, riducendo al contempo il divario con i modelli di frontiera più grandi del mondo.

I risultati del benchmark convalidano questo cambiamento architetturale. Il modello 35B-A3B supera notevolmente i predecessori molto più grandi, come Qwen3-235B, così come i già citati proprietari GPT-5 mini e Sonnet 4.5 in categorie che includono conoscenza (MMMLU) e ragionamento visivo (MMMU-Professional).

Alibaba Qwen3.5 Grafico comparativo dei benchmark dei modelli medi. Credito: Alibaba

Prezzi e integrazione API

Per coloro che non ospitano i propri pesi, Alibaba Cloud Mannequin Studio fornisce un’API competitiva per Qwen3.5-Flash.

Ingresso: $ 0,1 per 1 milione di token
Produzione: $ 0,4 per 1 milione di token
Creazione della cache: $ 0,125 per 1 milione di token
Lettura cache: $ 0,01 per 1 milione di token

L’API prevede inoltre un modello di prezzi granulare per le chiamate agli strumenti, con la ricerca Net a ten dollari per 1.000 chiamate e l’interprete di codice attualmente offerto gratuitamente per un periodo limitato.

Ciò rende Qwen3.5-Flash tra le API più convenienti da eseguire tra tutti i principali LLM del mondo. Vedi una tabella che li confronta di seguito:

Modello	Ingresso	Produzione	Costo totale	Fonte
Qwen3Turbo	$ 0,05	$ 0,20	$ 0,25	AlibabaNuvola
Qwen3.5-Flash	$ 0,10	$ 0,40	$ 0,50	AlibabaNuvola
chat-deepseek (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	DeepSeek
ragionatore di ricerca profonda (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	DeepSeek
Grok 4.1 Veloce (ragionamento)	$ 0,20	$ 0,50	$ 0,70	xAI
Grok 4.1 Veloce (non ragionante)	$ 0,20	$ 0,50	$ 0,70	xAI
MiniMax M2.5	$ 0,15	$ 1,20	$ 1,35	MiniMax
MiniMax M2.5-Lightning	$ 0,30	$ 2,40	$ 2,70	MiniMax
Anteprima Flash di Gemini 3	$ 0,50	$ 3,00	$ 3,50	Google
Kimi-k2.5	$ 0,60	$ 3,00	$ 3,60	Colpo di luna
GLM-5	$ 1,00	$ 3,20	$ 4,20	Z.ai
ERNI 5.0	$ 0,85	$ 3,40	$ 4,25	Baidu
ClaudeHaiku4.5	$ 1,00	$ 5,00	$ 6,00	Antropico
Qwen3-Max (23/01/2026)	$ 1,20	$ 6,00	$ 7,20	AlibabaNuvola
Gemini 3 Professional (≤200.000)	$ 2,00	$ 12,00	$ 14,00	Google
GPT-5.2	$ 1,75	$ 14,00	$ 15,75	OpenAI
Claude Sonetto 4.5	$ 3,00	$ 15,00	$ 18,00	Antropico
Gemini 3 Professional (>200K)	$ 4,00	$ 18,00	$ 22,00	Google
Claude Opus 4.6	$ 5,00	$ 25,00	$ 30,00	Antropico
GPT-5.2Pro	$ 21,00	$ 168,00	$ 189,00	OpenAI

Cosa significa per i chief tecnici e i decisori aziendali

Con il lancio dei modelli medi Qwen3.5, la rapida iterazione e messa a punto, un tempo riservata a laboratori ben finanziati, è ora accessibile per lo sviluppo in sede presso molte aziende non tecniche, disaccoppiando di fatto l’intelligenza artificiale sofisticata dalle massicce spese in conto capitale.

All’interno dell’organizzazione, questa architettura trasforma il modo in cui i dati vengono gestiti e protetti. La capacità di acquisire localmente enormi repository di documenti o video su scala oraria consente un’analisi istituzionale approfondita senza i rischi per la privateness delle API di terze parti.

Eseguendo questi modelli specializzati di “combine di esperti” all’interno di un firewall privato, le organizzazioni possono mantenere il controllo sovrano sui propri dati, utilizzando modalità di “pensiero” native e funzionalità di chiamata di strumenti ufficiali per creare agenti più affidabili e autonomi.

I primi advert adottare Hugging Face hanno particolarmente lodato la capacità del modello di “ridurre il divario” negli scenari advert agenti in cui in precedenza solo i modelli chiusi più grandi potevano competere.

Questo spostamento verso l’efficienza dell’architettura su larga scala garantisce che l’integrazione dell’intelligenza artificiale rimanga attenta ai costi, sicura e sufficientemente agile da tenere il passo con le esigenze operative in evoluzione.

fonte

I nuovi modelli Qwen3.5-Medium open supply di Alibaba offrono prestazioni Sonnet 4.5 sui laptop locali

Tecnologia: Forza Delta

Prodotto: Intelligenza che ‘pensa’ per prima

Prezzi e integrazione API

Cosa significa per i chief tecnici e i decisori aziendali

LEAVE A REPLY Cancel reply

Posta recente

La FAA limita lo spazio aereo del Texas dopo che il...

Dustin Wolf dei Flames ruba i riflettori a Celebrini, Sharks in...

L’interrogatorio inizia con l’abuso on-line dell’attrice Anasuya; ostacoli tecnici sonda lenta

La storia del debutto da sogno di Rashford raddoppia 10 anni...

In Nepal si terranno le prime elezioni dopo le proteste mortali,...

Il modo toccante in cui Gray’s Anatomy ha reso omaggio a...

Il Blocco di Jack Dorsey taglia migliaia di posti di lavoro...

Il numero 25 Vanderbilt apre lo swing di fantastic stagione contro...

Lo spettacolo radioso di Olivia Dean scalda Manchester per gli inglesi

Guarda il movie, gioca: come Nintendo sta facendo di tutto per...