Home Tecnologia Il GLM-5 open supply di z.ai raggiunge un tasso di allucinazioni file...

Il GLM-5 open supply di z.ai raggiunge un tasso di allucinazioni file e sfrutta la nuova tecnica ‘melma’ RL

19
0

La startup cinese di intelligenza artificiale Zhupai aka z.ai è tornata questa settimana con uno strabiliante modello linguistico di nuova frontiera: GLM-5.

L’ultimo della serie GLM continua e continuamente impressionante di z.ai, conserva una licenza MIT open supply – perfetta per l’implementazione aziendale – e, in uno dei numerosi risultati degni di nota, raggiunge un tasso di allucinazioni record-basso sul mercato indipendente. Indice di intelligenza artificiale di analisi v4.0.

Con un punteggio di -1 sull’AA-Omniscience Index – che rappresenta un enorme miglioramento di 35 punti rispetto al suo predecessore – GLM-5 ora guida l’intero settore dell’intelligenza artificiale, compresi i concorrenti statunitensi come Google, OpenAI e Anthropic, nell’affidabilità della conoscenza sapendo quando astenersi piuttosto che fabbricare informazioni.

Al di là della sua capacità di ragionamento, GLM-5 è costruito per il lavoro di conoscenza advert alta utilità. È dotato di funzionalità native “Modalità agente” che gli consentono di trasformare suggerimenti grezzi o materiali di origine direttamente in documenti d’ufficio professionali, inclusi quelli pronti all’uso .docx, .pdfE .xlsx file.

Che si tratti di generare report finanziari dettagliati, proposte di sponsorizzazione delle scuole superiori o fogli di calcolo complessi, GLM-5 fornisce risultati in formati reali che si integrano direttamente nei flussi di lavoro aziendali.

Ha inoltre un prezzo dirompente di circa 0,80 dollari per milione di token di enter e 2,56 dollari per milione di token di output, circa 6 volte più economico rispetto ai concorrenti proprietari come Claude Opus 4.6, rendendo l’ingegneria degli agenti all’avanguardia più conveniente che mai. Ecco cos’altro dovrebbero sapere i decisori aziendali sul modello e sulla sua formazione.

Tecnologia: ridimensionamento dell’efficienza degli agenti

Al centro di GLM-5 c’è un enorme salto nei parametri grezzi. Il modello scala dai parametri 355B di GLM-4.5 all’incredibile cifra di 744B, con 40B attivi per token nella sua architettura Combination-of-Consultants (MoE). Questa crescita è supportata da un aumento dei dati di pre-addestramento a 28,5 T di token.

Per affrontare le inefficienze formative di questa portata, Zai ha sviluppato “melma,” una nuova infrastruttura di apprendimento per rinforzo asincrono (RL).

Il RL tradizionale spesso soffre di colli di bottiglia “a coda lunga”; Lo slime rompe questo blocco consentendo la generazione di traiettorie in modo indipendente, consentendo le iterazioni a grana high-quality necessarie per il comportamento complesso degli agenti.

Integrando ottimizzazioni a livello di sistema come Energetic Partial Rollouts (APRIL), Slime risolve i colli di bottiglia di generazione che in genere consumano oltre il 90% del tempo di formazione RL, accelerando significativamente il ciclo di iterazione per attività complesse degli agenti.

Il design del framework è incentrato su un sistema modulare tripartito: un modulo di formazione advert alte prestazioni alimentato da Megatron-LM, un modulo di rollout che utilizza SGLang e router personalizzati per la generazione di dati advert alto rendimento e un buffer di dati centralizzato che gestisce l’inizializzazione rapida e l’archiviazione di rollout.

Abilitando ambienti adattivi verificabili e cicli di suggestions di compilazione multi-turno, slime fornisce la base solida e advert alto rendimento necessaria per la transizione dell’intelligenza artificiale da semplici interazioni di chat verso un’ingegneria di sistema rigorosa e a lungo orizzonte.

Per mantenere gestibile la distribuzione, GLM-5 integra DeepSeek Sparse Consideration (DSA), preservando una capacità di contesto di 200.000 e riducendo drasticamente i costi.

Lavoro di conoscenza end-to-end

Zai sta inquadrando il GLM-5 come uno strumento “da ufficio” per l’period AGI. Mentre i modelli precedenti si concentravano sugli snippet, GLM-5 è progettato per fornire documenti pronti all’uso.

Può trasformare autonomamente le richieste in file formattati .docx, .pdf e .xlsx, dai resoconti finanziari alle proposte di sponsorizzazione.

In pratica, ciò significa che il modello può scomporre gli obiettivi di alto livello in sottoattività attuabili ed eseguire “Agentic Engineering”, in cui gli esseri umani definiscono i cancelli di qualità mentre l’intelligenza artificiale gestisce l’esecuzione.

Prestazioni elevate

Secondo i benchmark, GLM-5 è il nuovo modello open supply più potente al mondo Analisi artificialesuperando il nuovo Kimi K2.5 della rivale cinese Moonshot, rilasciato appena due settimane fa, dimostrando che le società cinesi di intelligenza artificiale sono quasi raggiunte dai rivali occidentali proprietari con risorse molto migliori.

Secondo i materiali di z.ai condivisi oggi, GLM-5 si colloca quasi all’avanguardia su diversi parametri chiave:

Banco SWE verificato: GLM-5 ha ottenuto un punteggio di 77,8, superando Gemini 3 Professional (76,2) e avvicinandosi a Claude Opus 4.6 (80,9).

Banco merchandising 2: In una simulazione di gestione di un’impresa, GLM-5 si è classificato al primo posto tra i modelli open supply con un saldo finale di 4.432,12 dollari.

Benchmark Z.ai GLM-5

Benchmark GLM-5 di z.ai

Al di là delle prestazioni, GLM-5 sta riducendo in modo aggressivo il mercato. Disponibile su OpenRouter dall’11 febbraio 2026, il prezzo è di circa $ 0,80-$ 1,00 per milione di token di enter e $ 2,56-$ 3,20 per milione di token di output. Si colloca nella fascia media rispetto advert altri LLM chief, ma in base alle sue prestazioni di benchmarking di alto livello, è quello che si potrebbe definire un “furto”.

Modello

Ingresso (per 1 milione di token)

Output (per 1 milione di token)

Costo totale (1 milione di entrate + 1 milione di uscite)

Fonte

Qwen3Turbo

$ 0,05

$ 0,20

$ 0,25

AlibabaNuvola

Grok 4.1 Veloce (ragionamento)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Veloce (non ragionante)

$ 0,20

$ 0,50

$ 0,70

xAI

chat-deepseek (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

DeepSeek

ragionatore di ricerca profonda (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

DeepSeek

Anteprima Flash di Gemini 3

$ 0,50

$ 3,00

$ 3,50

Google

Kimi-k2.5

$ 0,60

$ 3,00

$ 3,60

Colpo di luna

GLM-5

$ 1,00

$ 3,20

$ 4,20

Z.ai

ERNI 5.0

$ 0,85

$ 3,40

$ 4,25

Qianfan

ClaudeHaiku4.5

$ 1,00

$ 5,00

$ 6,00

Antropico

Qwen3-Max (23/01/2026)

$ 1,20

$ 6,00

$ 7,20

AlibabaNuvola

Gemini 3 Professional (≤200.000)

$ 2,00

$ 12,00

$ 14,00

Google

GPT-5.2

$ 1,75

$ 14,00

$ 15,75

OpenAI

Claude Sonetto 4.5

$ 3,00

$ 15,00

$ 18,00

Antropico

Gemini 3 Professional (>200K)

$ 4,00

$ 18,00

$ 22,00

Google

Claude Opus 4.6

$ 5,00

$ 25,00

$ 30,00

Antropico

GPT-5.2Pro

$ 21,00

$ 168,00

$ 189,00

OpenAI

Questo è circa 6 volte più economico in enter e quasi 10 volte più economico in output rispetto a Claude Opus 4.6 ($ 5/$ 25). Questa versione conferma le voci secondo cui Zhipu AI period dietro “Pony Alpha”, un modello stealth che in precedenza aveva superato i benchmark di codifica su OpenRouter.

Tuttavia, nonostante i benchmark elevati e il basso costo, non tutti i primi utenti sono entusiasti del modello, notare che le sue elevate prestazioni non raccontano tutta la storia.

Lukas Petersson, co-fondatore della startup Andon Labs, startup di protocolli di intelligenza artificiale autonoma incentrata sulla sicurezza, ha osservato X: “Dopo ore passate a leggere le tracce GLM-5: un modello incredibilmente efficace, ma molto meno consapevole della situazione. Raggiunge obiettivi tramite tattiche aggressive ma non ragiona sulla sua situazione o sull’esperienza di leva. Questo è spaventoso. Ecco come ottieni un massimizzatore di graffette.”

Il “massimizzatore di graffette” si riferisce a una situazione ipotetica descritto dal filosofo di Oxford Nick Bostrom nel 2003in cui un’intelligenza artificiale o un’altra creazione autonoma porta accidentalmente a uno state of affairs apocalittico o all’estinzione umana seguendo un’istruzione apparentemente benigna – come massimizzare il numero di graffette prodotte – a un grado estremo, reindirizzando tutte le risorse necessarie per la vita umana (o altra vita) o altrimenti rendendo la vita impossibile attraverso il suo impegno a raggiungere l’obiettivo apparentemente benigno.

La tua azienda dovrebbe adottare GLM-5?

Le aziende che cercano di sfuggire ai vincoli del fornitore troveranno nella licenza MIT di GLM-5 e nella disponibilità a pesi aperti un vantaggio strategico significativo. A differenza dei concorrenti closed-source che mantengono l’intelligence dietro mura proprietarie, GLM-5 consente alle organizzazioni di ospitare la propria intelligence a livello di frontiera.

L’adozione non è priva di attriti. La vastità dei parametri GLM-5-744B richiede un {hardware} enorme che potrebbe essere fuori portata per le aziende più piccole senza cloud significativi o cluster GPU on-premise.

I chief della sicurezza devono valutare le implicazioni geopolitiche di un modello di punta di un laboratorio con sede in Cina, soprattutto nei settori regolamentati in cui la residenza e la provenienza dei dati sono rigorosamente controllate.

Inoltre, lo spostamento verso agenti IA più autonomi introduce nuovi rischi in termini di governance. Man mano che i modelli passano dalla “chat” al “lavoro”, iniziano a operare su app e file in modo autonomo. Senza le robuste autorizzazioni specifiche dell’agente e i controlli di qualità human-in-the-loop stabiliti dai chief dei dati aziendali, il rischio di errori autonomi aumenta in modo esponenziale.

In definitiva, GLM-5 è un “acquisto” per le organizzazioni che sono diventate troppo grandi per i semplici copiloti e sono pronte a costruire un ufficio veramente autonomo.

È rivolto agli ingegneri che devono eseguire il refactoring di un backend legacy o che necessitano di una pipeline di “riparazione automatica” che non dorme.

Mentre i laboratori occidentali continuano a ottimizzare il “pensiero” e la profondità del ragionamento, Zai sta ottimizzando l’esecuzione e la scalabilità.

Le aziende che adottano oggi GLM-5 non si limitano advert acquistare un modello più economico; stanno scommettendo su un futuro in cui l’intelligenza artificiale più preziosa sarà quella in grado di portare a termine il progetto senza che gli venga chiesta due volte.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here