Home Tecnologia Il nuovo Nemotron 3 Tremendous di Nvidia combina tre various architetture per...

Il nuovo Nemotron 3 Tremendous di Nvidia combina tre various architetture per battere gpt-oss e Qwen in termini di throughput

18
0

I sistemi multi-agente, progettati per gestire attività a lungo orizzonte come l’ingegneria del software program o il triaging della sicurezza informatica, possono generare fino a 15 volte il quantity di token delle chat normal, mettendo a rischio la loro redditività nella gestione delle attività aziendali.

Ma oggi Nvidia ha cercato di aiutare a risolvere questo problema l’uscita di Nemotron 3 Superun modello ibrido da 120 miliardi di parametri, con i pesi pubblicati Volto che abbraccia.

Unendo filosofie architettoniche disparate – modelli stato-spazio, trasformatori e un nuovo design “latente” con una miscela di esperti – Nvidia sta tentando di fornire la profondità specializzata richiesta per flussi di lavoro agenti senza l’ingombro tipico dei modelli di ragionamento denso, e il tutto disponibile per l’uso commerciale con pesi per lo più aperti.

Tripla architettura ibrida

Al centro di Nemotron 3 Tremendous c’è una sofisticata triade architettonica che bilancia l’efficienza della memoria con il ragionamento preciso. Il modello utilizza a Dorsale ibrida Mamba-Transformerche intercala gli strati di Mamba-2 con gli strati strategici di attenzione del Transformer.

Per comprendere le implicazioni per la produzione aziendale, si consideri il problema dell’“in the past nel pagliaio”. Gli strati Mamba-2 agiscono come un sistema autostradale a “viaggio veloce”, gestendo la stragrande maggioranza dell’elaborazione delle sequenze con complessità temporale lineare. Ciò consente al modello di mantenere un’enorme finestra di contesto da 1 milione di token senza che l’impronta di memoria della cache KV esploda. Tuttavia, i modelli puri dello spazio degli stati spesso hanno difficoltà con il richiamo associativo.

Per risolvere questo problema, Nvidia inserisce strategicamente i livelli di attenzione di Transformer come “ancoraggi globali”, garantendo che il modello possa recuperare con precisione fatti specifici sepolti in profondità all’interno di una base di codice o di una pila di report finanziari.

Al di là della spina dorsale, il modello introduce Miscela latente di esperti (LatentMoE). I tradizionali progetti Combination-of-Consultants (MoE) instradano i token agli esperti nella loro dimensione completamente nascosta, il che crea un collo di bottiglia computazionale man mano che i modelli si ridimensionano. LatentMoE risolve questo problema proiettando i token in uno spazio compresso prima di indirizzarli agli specialisti.

Questa “compressione degli esperti” consente al modello di consultare un numero quattro volte superiore di specialisti per lo stesso identico costo computazionale. Questa granularità è vitale per gli agenti che devono passare dalla sintassi Python, alla logica SQL e al ragionamento conversazionale in un unico turno.

Advert accelerare ulteriormente il modello è il Multi-Token Prediction (MTP). Mentre i modelli normal prevedono un singolo token successivo, MTP prevede diversi token futuri contemporaneamente. Questo funge da “modello di bozza integrato”, consentendo la decodifica speculativa nativa in grado di fornire velocità fino a 3 volte superiori per attività di generazione strutturata come chiamate di codice o strumenti.

Il vantaggio Blackwell

Per le aziende, il salto tecnico più significativo in Nemotron 3 Tremendous è l’ottimizzazione per la piattaforma GPU Nvidia Blackwell. Grazie al pre-addestramento nativo in NVFP4 (virgola cellular a 4 bit), Nvidia ha ottenuto una svolta nell’efficienza produttiva.

Su Blackwell, il modello offre un’inferenza 4 volte più veloce rispetto ai modelli a 8 bit eseguiti sulla precedente architettura Hopper, senza perdita di precisione.

Nelle prestazioni pratiche, Nemotron 3 Tremendous è uno strumento specializzato per il ragionamento agente.

Attualmente detiene la posizione n. 1 nel DeepResearch Bench, un punto di riferimento che misura la capacità di un’intelligenza artificiale di condurre ricerche approfondite in più fasi su grandi quantità di documenti.

Segno di riferimento

Nemotron 3Super

Qwen3.5-122B-A10B

GPT-OSS-120B

Conoscenza generale

MMLU-Professional

83,73

86,70

81,00

Ragionamento

AIME25 (nessuno strumento)

90.21

90.36

92,50

HMMT Feb25 (nessuno strumento)

93,67

91,40

90,00

HMMT Feb25 (con strumenti)

94,73

89,55

GPQA (nessuno strumento)

79.23

86,60

80.10

GPQA (con strumenti)

82,70

80.09

LiveCodeBench (v5 2024-07↔2024-12)

81.19

78,93

88,00

SciCode (attività secondaria)

42.05

42.00

39,00

HLE (senza strumenti)

18.26

25.30

14.90

HLE (con strumenti)

22.82

19.0

Agente

Terminal Bench (sottoinsieme rigido)

25.78

26.80

24.00

Terminale Bench Core 2.0

31.00

37,50

18.70

Panca SWE (OpenHands)

60.47

66,40

41.9

Banco SWE (OpenCode)

59.20

67,40

Panca SWE (Codice)

53.73

61.20

SWE-Bench multilingue (OpenHands)

45.78

30,80

TauBench V2

Compagnia aerea

56.25

66.0

49.2

Vedere al dettaglio

62.83

62.6

67,80

Telecomunicazioni

64.36

95,00

66,00

Media

61.15

74.53

61.0

SfogliaComp con la ricerca

31.28

33,89

Panchina UCCELLO

41,80

38.25

Chat e istruzioni seguenti

IFBench (richiesta)

72.56

73,77

68.32

Scala la sfida multipla dell’IA

55.23

61,50

58.29

Enviornment-Laborious-V2

73,88

75.15

90.26

Contesto lungo

AA-LCR

58.31

66,90

51,00

RIGHELLO @ 256k

96.30

96,74

52.30

RIGHELLO @ 512k

95,67

95,95

46,70

RIGHELLO @ 1M

91,75

91.33

22.30

Multilingue

MMLU-ProX (media sulla lingua)

79.36

85.06

76,59

WMT24++ (it→xx)

86,67

87,84

88,89

Dimostra inoltre vantaggi significativi in ​​termini di throughput, ottenendo un throughput fino a 2,2 volte superiore rispetto a gpt-oss-120B e 7,5 volte superiore a Qwen3.5-122B in impostazioni di quantity elevato.

Grafico dei benchmark chiave di Nvidia Nemotron 3 Tremendous. Nvidia

Licenza “aperta” personalizzata: uso commerciale ma con importanti avvertenze

Il rilascio di Nemotron 3 Tremendous sotto il Contratto di licenza Nvidia Open Model (aggiornato nell’ottobre 2025) fornisce un quadro permissivo per l’adozione aziendale, sebbene contenga clausole di “salvaguardia” distinte che la differenziano dalle licenze open supply pure come MIT o Apache 2.0.

Disposizioni chiave per gli utenti aziendali:

  • Usabilità commerciale: La licenza afferma esplicitamente che i modelli sono “utilizzabili commercialmente” e garantisce una licenza perpetua, mondiale ed esente da royalty per vendere e distribuire prodotti basati sul modello.

  • Proprietà dell’output: Nvidia non avanza alcuna pretesa sugli output generati dal modello; la responsabilità di tali output e la loro proprietà spetta interamente all’utente.

  • Opere derivate: Le imprese sono libere di creare e possedere “modelli derivati” (versioni perfezionate), a condizione che includano l’avviso di attribuzione richiesto: “Concesso in licenza da Nvidia Company ai sensi della licenza Nvidia Open Mannequin.”

Le “Linee Rosse”:

La licenza embrace due fattori critici di risoluzione che i workforce di produzione devono monitorare:

  1. Guardie di sicurezza: La licenza termina automaticamente se un utente bypassa o elude i “guardrail” del modello (limitazioni tecniche o iperparametri di sicurezza) senza implementare una sostituzione “sostanzialmente simile” adeguata al caso d’uso.

  2. Fattore scatenante del contenzioso: Se un utente avvia una controversia sul copyright o sui brevetti contro Nvidia sostenendo che il modello viola il suo IP, la sua licenza per utilizzare il modello termina immediatamente.

Questa struttura consente a Nvidia di promuovere un ecosistema commerciale proteggendosi al tempo stesso dall'”IP trolling” e garantendo che il modello non venga privato delle sue funzionalità di sicurezza per usi dannosi.

“La squadra ha davvero cucinato”

Il rilascio ha generato un notevole interesse all’interno della comunità degli sviluppatori. Chris Alexiuk, Senior Product Analysis Enginner presso Nvidia, ha annunciato il lancio di X sotto la sua guida @llm_wizard come un “SUPER DAY”, sottolineando la velocità e la trasparenza del modello. “Il modello è: VELOCE. Il modello è: INTELLIGENTE. Il modello è: IL MODELLO PIÙ APERTO CHE ABBIAMO REALIZZATO ANCORA,” Chris ha pubblicato un publish evidenziando il rilascio non solo di pesi, ma di 10 trilioni di token di dati e ricette di allenamento.

L’adozione da parte del settore riflette questo entusiasmo:

  • Cloud e {hardware}: Il modello viene distribuito come file Microservizio NIM di Nvidiaconsentendone l’esecuzione in locale tramite il file Fabbrica di intelligenza artificiale Dell O HPEnonché su Google Cloud, Oracle e, a breve, AWS e Azure.

  • Agenti di produzione: Alle aziende piace CodeRabbit (sviluppo software program) e Greptile stanno integrando il modello per gestire l’analisi della base di codice su larga scala, mentre i chief industriali apprezzano Siemens E Palantir lo stanno implementando per automatizzare flussi di lavoro complessi nella produzione e nella sicurezza informatica.

Come ha osservato Kari Briski, vicepresidente di Nvidia di AI Software program: “Mentre le aziende vanno oltre i chatbot e si orientano verso applicazioni multi-agente, incontrano… un’esplosione del contesto.”

Nemotron 3 Tremendous è la risposta di Nvidia a quell’esplosione: un modello che fornisce la “potenza intellettuale” di un sistema di parametri 120B con l’efficienza operativa di uno specialista molto più piccolo. Per le imprese il messaggio è chiaro: la “tassa sulla riflessione” sta finalmente per essere ridotta.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here