Home Tecnologia Vera Rubin di Nvidia è a mesi di distanza: Blackwell sta diventando...

Vera Rubin di Nvidia è a mesi di distanza: Blackwell sta diventando più veloce in questo momento

63
0

La grande novità di questa settimana da Nvidia, finita nei titoli di tutti i media, è stato l’annuncio dell’azienda sulla sua GPU Vera Rubin.

Questa settimana, il CEO di Nvidia Jensen Huang ha utilizzato il suo keynote al CES per evidenziare i parametri di prestazione del nuovo chip. Secondo Huang, la GPU Rubin è in grado di raggiungere 50 PFLOP di inferenza NVFP4 e 35 PFLOP di prestazioni di addestramento NVFP4, che rappresentano 5 e 3,5 volte le prestazioni di Blackwell.

Ma non sarà disponibile prima della seconda metà del 2026. Cosa dovrebbero fare quindi le aziende adesso?

Blackwell continua a migliorare

L’attuale architettura GPU Nvidia in vendita è Blackwell, che lo period annunciato nel 2024 come successore di Hopper. Oltre a quel rilascio, Nvidia ha sottolineato che il suo percorso di ingegnerizzazione del prodotto includeva anche lo sfruttamento di quante più prestazioni possibili dalla precedente architettura Grace Hopper.

È una direzione che varrà anche per Blackwell, con Vera Rubin che arriverà entro la positive dell’anno.

“Continuiamo a ottimizzare i nostri stack di inferenza e coaching per l’architettura Blackwell”, ha dichiarato a VentureBeat Dave Salvator, direttore dei prodotti di calcolo accelerato di Nvidia.

Nella stessa settimana in cui Vera Rubin veniva pubblicizzata dal CEO di Nvidia come la GPU più potente di sempre, l’azienda pubblicava nuove ricerca mostrando prestazioni Blackwell migliorate.

Come le prestazioni di Blackwell hanno migliorato l’inferenza di 2,8 volte

Nvidia è stata in grado di aumentare le prestazioni della GPU Blackwell fino a 2,8 volte per GPU in un periodo di soli tre mesi.

I miglioramenti prestazionali derivano da una serie di innovazioni che sono state aggiunte al motore di inferenza Nvidia TensorRT-LLM. Queste ottimizzazioni si applicano all'{hardware} esistente, consentendo alle attuali implementazioni Blackwell di ottenere un throughput più elevato senza modifiche {hardware}.

I guadagni in termini di prestazioni sono misurati su DeepSeek-R1, un modello di miscela di esperti (MoE) da 671 miliardi di parametri che attiva 37 miliardi di parametri per token.

Tra le innovazioni tecniche che garantiscono l’incremento delle prestazioni:

  • Avvio dipendente dalla programmazione (PDL): L’implementazione estesa riduce le latenze di avvio del kernel, aumentando il throughput.

  • Comunicazione universale: La nuova implementazione delle primitive di comunicazione elimina un buffer intermedio, riducendo il sovraccarico della memoria.

  • Previsione multi-token (MTP): Genera più token per passaggio in avanti anziché uno alla volta, aumentando la produttività su varie lunghezze di sequenza.

  • Formato NVFP4: Un formato a virgola cellular a 4 bit con accelerazione {hardware} in Blackwell che riduce i requisiti di larghezza di banda della memoria preservando la precisione del modello.

Le ottimizzazioni riducono il costo per milione di token e consentono all’infrastruttura esistente di servire volumi di richieste più elevati con una latenza inferiore. I fornitori di servizi cloud e le imprese possono scalare i propri servizi di intelligenza artificiale senza aggiornamenti {hardware} immediati.

Blackwell ha anche migliorato le prestazioni in allenamento

Blackwell è anche ampiamente utilizzato come componente {hardware} fondamentale per l’addestramento dei modelli linguistici più grandi.

A questo proposito, Nvidia ha anche riportato guadagni significativi per Blackwell quando viene utilizzato per l’addestramento dell’IA.

Dal suo lancio iniziale, il sistema GB200 NVL72 ha fornito prestazioni di allenamento fino a 1,4 volte superiori sullo stesso {hardware}: un incremento del 40% ottenuto in soli cinque mesi senza alcun aggiornamento {hardware}.

La spinta formativa è arrivata da una serie di aggiornamenti tra cui:

  • Ricette di allenamento ottimizzate. Gli ingegneri di Nvidia hanno sviluppato sofisticate ricette di formazione che sfruttano efficacemente la precisione NVFP4. Le proposte iniziali di Blackwell utilizzavano la precisione FP8, ma il passaggio alle ricette ottimizzate per NVFP4 ha sbloccato sostanziali prestazioni aggiuntive dal silicio esistente.

  • Raffinamenti algoritmici. I continui miglioramenti dello stack software program e degli algoritmi hanno consentito alla piattaforma di ottenere maggiori prestazioni dallo stesso {hardware}, dimostrando un’innovazione continua oltre la distribuzione iniziale.

Raddoppiare Blackwell o aspettare Vera Rubin?

Salvator ha osservato che Blackwell Extremely di fascia alta è una piattaforma chief di mercato creata appositamente per eseguire modelli e applicazioni IA all’avanguardia.

Ha aggiunto che la piattaforma Nvidia Rubin estenderà la management di mercato dell’azienda e consentirà alla prossima generazione di MoE di alimentare una nuova classe di applicazioni per portare l’innovazione dell’IA ancora più lontano.

Salvator ha spiegato che Vera Rubin è costruita per soddisfare la crescente domanda di calcolo creata dalla continua crescita delle dimensioni del modello e dalla generazione di token di ragionamento da modelli chief come MoE.

“Blackwell e Rubin possono servire gli stessi modelli, ma la differenza sta nelle prestazioni, nell’efficienza e nel costo simbolico”, ha affermato.

Secondo i primi risultati dei take a look at di Nvidia, rispetto a Blackwell, Rubin può addestrare modelli MoE di grandi dimensioni in un quarto del numero di GPU, generazione di token di inferenza con un throughput per watt 10 volte maggiore e inferenza a 1/10 del costo per token.

“Migliori prestazioni ed efficienza del throughput dei token significano che è possibile creare modelli più recenti con maggiori capacità di ragionamento e un’interazione da agente advert agente più rapida, creando una migliore intelligenza a costi inferiori”, ha affermato Salvator.

Cosa significa tutto questo per gli sviluppatori di IA aziendali

Per le aziende che oggi implementano infrastrutture IA, gli attuali investimenti in Blackwell rimangono solidi nonostante l’arrivo di Vera Rubin entro la positive dell’anno.

Le organizzazioni con implementazioni Blackwell esistenti possono ottenere immediatamente il miglioramento dell’inferenza di 2,8 volte e l’aumento della formazione di 1,4 volte aggiornando alle ultime versioni di TensorRT-LLM, offrendo risparmi reali sui costi senza spese in conto capitale. Per coloro che pianificano nuove implementazioni nella prima metà del 2026, procedere con Blackwell ha senso. Aspettare sei mesi significa ritardare le iniziative di intelligenza artificiale e potenzialmente rimanere indietro rispetto ai concorrenti che già le implementano oggi.

Tuttavia, le imprese che pianificano la realizzazione di infrastrutture su larga scala per la positive del 2026 e oltre dovrebbero includere Vera Rubin nelle loro tabelle di marcia. Il miglioramento di 10 volte del throughput per watt e 1/10 del costo per token rappresentano aspetti economici trasformativi per le operazioni di intelligenza artificiale su larga scala.

L’approccio intelligente è l’implementazione graduale: sfruttare Blackwell per le esigenze fast mentre si progettano sistemi che possano incorporare Vera Rubin quando disponibile. Il modello di ottimizzazione continua di Nvidia significa che questa non è una scelta binaria; le aziende possono massimizzare il valore delle implementazioni attuali senza sacrificare la competitività a lungo termine.

fonte