Home Tecnologia Nvidia, Groq e la corsa al calcare verso l’intelligenza artificiale in tempo...

Nvidia, Groq e la corsa al calcare verso l’intelligenza artificiale in tempo reale: perché le aziende vincono o perdono qui

36
0

​Da chilometri di distanza attraverso il deserto, la Grande Piramide sembra una geometria perfetta e liscia: un elegante triangolo che punta verso le stelle. Rimani alla base, tuttavia, e l’illusione della levigatezza svanisce. Vedi enormi blocchi frastagliati di calcare. Non è una pendenza; è una scala.

Ricordatelo la prossima volta che sentite i futuristi parlare di crescita esponenziale.

Il co-fondatore di Intel Gordon Moore (Legge di Moore) è famoso per aver affermato nel 1965 che il numero di transistor su un microchip sarebbe raddoppiato ogni anno. Un altro dirigente di Intel, David Home, ha successivamente rivisto questa affermazione in “la potenza di calcolo raddoppia ogni 18 mesi”. Per un certo periodo, le CPU Intel sono state il simbolo di questa legge. Cioè, finché la crescita delle prestazioni della CPU non si è appiattita come un blocco di calcare.

​Se si rimpicciolisce, però, il successivo blocco calcareo period già lì: la crescita dell’elaborazione si è semplicemente spostata dalle CPU al mondo delle GPU. Jensen Huang, CEO di Nvidia, ha giocato una partita lunga e ne è uscito un forte vincitore, costruendo i propri trampolini di lancio inizialmente con i giochi, poi con la visione artificiale e, recentemente, con l’intelligenza artificiale generativa.

L’illusione di una crescita regolare

La crescita tecnologica è piena di dash e periodi di stallo, e la generazione AI non ne è immune. L’onda di corrente è guidata dall’architettura del trasformatore. Per citare il presidente e co-fondatore di Anthropic, Dario Amodei: “L’esponenziale continua finché non smette più. E ogni anno ci siamo detti: ‘Beh, non è possibile che le cose continuino in modo esponenziale’ – e così ogni anno è così.”

Ma proprio mentre la CPU si è stabilizzata e le GPU hanno preso il comando, stiamo vedendo segnali che la crescita del LLM sta cambiando nuovamente i paradigmi. Advert esempio, verso la superb del 2024, DeepSeek ha sorpreso il mondo formando un modello di livello mondiale con un price range incredibilmente piccolo, in parte utilizzando la tecnica MoE.

​Ricordi dove hai visto menzionata di recente questa tecnica? Comunicato stampa Rubin di Nvidia: La tecnologia embody “…le ultime generazioni della tecnologia di interconnessione Nvidia NVLink… per accelerare l’intelligenza artificiale degli agenti, il ragionamento avanzato e l’inferenza del modello MoE su larga scala a un costo per token fino a ten volte inferiore.”

​Jensen sa che il raggiungimento dell’ambita crescita esponenziale dell’elaborazione non è più frutto della pura forza bruta. A volte è necessario spostare completamente l’architettura per posizionare il prossimo trampolino di lancio.

​La crisi di latenza: dove si inserisce Groq

​Questa lunga introduzione ci porta a Groq.

I maggiori miglioramenti nelle capacità di ragionamento dell’intelligenza artificiale nel 2025 sono stati guidati dal “calcolo del tempo di inferenza” o, in termini profani, “lasciando che il modello pensi per un periodo di tempo più lungo”. Ma il tempo è denaro. Ai consumatori e alle imprese non piace aspettare.

​Groq entra in gioco qui con la sua inferenza fulminea. Se unisci l’efficienza architetturale di modelli come DeepSeek e l’enorme produttività di Groq, avrai l’intelligenza di frontiera a portata di mano. Eseguendo l’inferenza più velocemente, è possibile “ragionare” i modelli competitivi, offrendo ai clienti un sistema “più intelligente” senza penalità di ritardo.

Dal chip universale all’ottimizzazione dell’inferenza

​Negli ultimi dieci anni, la GPU è stata il martello universale per ogni chiodo AI. Utilizzi gli H100 per addestrare il modello; si utilizzano H100 (o versioni ridotte) per eseguire il modello. Ma man mano che i modelli si spostano verso il pensiero del “Sistema 2” – dove l’intelligenza artificiale ragiona, si autocorregge e itera prima di rispondere – il carico di lavoro computazionale cambia.

L’addestramento richiede un’enorme forza bruta parallela. L’inferenza, soprattutto per i modelli di ragionamento, richiede un’elaborazione sequenziale più rapida. Deve generare token istantaneamente per facilitare catene di pensiero complesse senza che l’utente attenda minuti per una risposta. L’architettura LPU (Language Processing Unit) di Groq rimuove il collo di bottiglia della larghezza di banda della memoria che affligge le GPU durante l’inferenza di piccoli batch, offrendo un’inferenza estremamente veloce.

Il motore per la prossima ondata di crescita

​Per i vertici aziendali, questa potenziale convergenza risolve la crisi di latenza del “tempo di riflessione”. Considera le aspettative degli agenti di intelligenza artificiale: vogliamo che prenotino autonomamente voli, codifichino intere app e ricerchino precedenti legali. Per fare ciò in modo affidabile, un modello potrebbe dover generare 10.000 “token di pensiero” interni per verificare il proprio lavoro prima di inviare una singola parola all’utente.

  • Su una GPU commonplace: 10.000 gettoni pensiero potrebbero richiedere dai 20 ai 40 secondi. L’utente si annoia e se ne va.

  • Su Groq: La stessa catena di pensieri avviene in meno di 2 secondi.

​Se Nvidia integrasse la tecnologia di Groq, risolverebbe il problema dell'”attesa che il robotic pensi”. Preservano la magia dell’intelligenza artificiale. Proprio come sono passati dal rendering dei pixel (giochi) all’intelligenza del rendering (gen AI), ora passerebbero al rendering ragionamento in tempo reale.

Inoltre, questo crea un formidabile fossato per il software program. Il più grande ostacolo per Groq è sempre stato lo stack software program; La più grande risorsa di Nvidia è CUDA. Se Nvidia avvolgesse il suo ecosistema attorno all'{hardware} di Groq, scaverebbe effettivamente un fossato così ampio che i concorrenti non potrebbero attraversarlo. Offrirebbero la piattaforma universale: l’ambiente migliore per allenarsi e l’ambiente più efficiente per correre (Groq/LPU).

Considera cosa succede quando accoppi quella pura potenza di inferenza con un modello open supply di prossima generazione (come il vociferato DeepSeek 4): ottieni un’offerta che potrebbe rivaleggiare con i modelli di frontiera di oggi in termini di costi, prestazioni e velocità. Ciò apre opportunità per Nvidia, dall’ingresso diretto nel enterprise dell’inferenza con la propria offerta cloud, al continuare a supportare un numero crescente di clienti in crescita esponenziale.

Il prossimo passo sulla piramide

​Tornando alla nostra metafora di apertura: la crescita “esponenziale” dell’intelligenza artificiale non è una linea uniforme di FLOP grezzi; è una scala di strozzature che vengono abbattute.

  • Blocco 1: Non siamo riusciti a calcolare abbastanza velocemente. Soluzione: La GPU.

  • Blocco 2: Non siamo riusciti advert allenarci abbastanza in profondità. Soluzione: Architettura del trasformatore.

  • Blocco 3: Non possiamo “pensare” abbastanza velocemente. Soluzione: LPU di Groq.

Jensen Huang non ha mai avuto paura di cannibalizzare le proprie linee di prodotti per possedere il futuro. Convalidando Groq, Nvidia non acquisterebbe solo un chip più veloce; porterebbero l’intelligenza di prossima generazione alle masse.

Andrew Filev, fondatore e CEO di Zencoder

Benvenuto nella comunità VentureBeat!

Il nostro programma di visitor posting è il luogo in cui gli esperti tecnici condividono approfondimenti e forniscono approfondimenti neutrali e non conferiti su intelligenza artificiale, infrastruttura dati, sicurezza informatica e altre tecnologie all’avanguardia che plasmano il futuro dell’impresa.

Per saperne di più dal nostro programma di put up per gli ospiti e dai un’occhiata al nostro linee guida se sei interessato a contribuire con un tuo articolo!

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here