L’accordo di licenza strategica da 20 miliardi di dollari tra Nvidia e Groq rappresenta una delle prime mosse chiare in una battaglia su quattro fronti sul futuro stack dell’IA. Il 2026 sarà il momento in cui questa lotta diventerà evidente per i costruttori di imprese.
Per i decisori tecnici con cui parliamo ogni giorno – le persone che costruiscono le applicazioni AI e le pipeline di dati che le guidano – questo accordo è un segnale che l’period della GPU unica per tutti come risposta predefinita all’inferenza dell’IA sta finendo.
Stiamo entrando nell’period del architettura di inferenza disaggregatadove il silicio stesso viene diviso in due tipologie numerous per accogliere un mondo che richiede sia un contesto massiccio che un ragionamento istantaneo.
Perché l’inferenza sta spezzando in due l’architettura della GPU
Per capire perché il CEO di Nvidia Jensen Huang ha perso un terzo dei suoi ha riportato un mucchio di contanti di 60 miliardi di dollari Per quanto riguarda un accordo di licenza, bisogna considerare le minacce esistenziali che convergono su quanto riferito dalla sua azienda Quota di mercato del 92%..
Il settore ha raggiunto un punto critico alla advantageous del 2025: per la prima volta, l’inferenza – la fase in cui i modelli addestrati vengono effettivamente eseguiti – ha superato la formazione in termini di entrate totali del data centersecondo Deloitte. In questo nuovo “Inference Flip”, le metriche sono cambiate. Sebbene la precisione rimanga il punto di riferimento, la battaglia è ora combattuta sulla latenza e sulla capacità di mantenere lo “stato” negli agenti autonomi.
Ci sono quattro fronti in questa battaglia, e ognuno di essi porta alla stessa conclusione: i carichi di lavoro di inferenza si stanno frammentando più velocemente di quanto le GPU possano generalizzare.
1. Spezzare la GPU in due: precompilazione e decodifica
Gavin Baker, un investitore di Groq (e quindi di parte, ma anche insolitamente fluente in materia di architettura), riassunto il motore principale dell’accordo con Groq in modo pulito: “L’inferenza si sta disaggregando in precompilazione e decodifica”.
Precompilazione E decodificare sono due fasi distinte:
-
La fase di precompilazione: Consideratela come la fase di “richiesta” dell’utente. Il modello deve acquisire enormi quantità di dati, che si tratti di una base di codice di 100.000 righe o di un’ora di video, e calcolare una comprensione contestuale. Questo è “limitato al calcolo”, richiedendo un’enorme moltiplicazione di matrici in cui le GPU di Nvidia sono storicamente eccellenti.
-
La fase di generazione (decodifica): Questa è l’effettiva “generazione” token per token. Una volta acquisito il immediate, il modello genera una parola (o token) alla volta, reimmettendole ciascuna nel sistema per prevedere quella successiva. Questo è “limitato alla larghezza di banda della memoria”. Se i dati non riescono a spostarsi dalla memoria al processore abbastanza velocemente, il modello balbetta, non importa quanto sia potente la GPU. (È qui che Nvidia period debole e dove la speciale unità di elaborazione del linguaggio (LPU) di Groq e la relativa memoria SRAM brillano. Ne parleremo più avanti tra poco.)
Nvidia ha ha annunciato un imminente Vera Rubin famiglia di patatine che sta progettando specificamente per gestire questa divisione. IL Rubin CPX componente di questa famiglia è il cavallo di battaglia designato “prefill”, ottimizzato per enormi finestre di contesto di 1 milione di token o più. Per gestire questa scala in modo conveniente, ci si allontana dalle spese allettanti di memoria a larghezza di banda elevata (HBM) – L’attuale memoria gold customary di Nvidia che si trova proprio accanto al die della GPU – e utilizza invece 128 GB di un nuovo tipo di memoria, GDDR7. Sebbene HBM offra velocità estrema (anche se non così veloce come la memoria statica advert accesso casuale (SRAM) di Groq), la sua offerta di GPU è limitata e il suo costo rappresenta una barriera per la scalabilità; GDDR7 fornisce un modo più conveniente per acquisire enormi set di dati.
Nel frattempo, il silicio “gusto Groq”, che Nvidia sta integrando nella sua roadmap di inferenza, fungerà da motore di “decodifica” advert alta velocità. Si tratta di neutralizzare una minaccia proveniente da architetture various come le TPU di Google e di mantenerne il dominio CUDA, L’ecosistema software program di Nvidia che è servito da fossato principale per oltre un decennio.
Tutto ciò è bastato a Baker, l’investitore di Groq, per prevedere che il passaggio di Nvidia alla licenza di Groq causerà la cancellazione di tutti gli altri chip AI specializzati, ovvero al di fuori del TPU di Google, dell’AI5 di Tesla e del Trainium di AWS.
2. La potenza differenziata della SRAM
Al centro della tecnologia di Groq c’è SRAM. A differenza della DRAM presente nel PC o dell’HBM su una GPU Nvidia H100, la SRAM è incisa direttamente nella logica del processore.
Michael Stewart, socio amministratore del fondo di rischio di Microsoft, M12, descrive la SRAM come la soluzione migliore per spostare i dati su brevi distanze con il minimo consumo di energia. “L’energia per muoversi un po’ nella SRAM è pari a 0,1 picojoule o meno”, ha detto Stewart. “Spostarlo tra la DRAM e il processore è da 20 a 100 volte peggio.”
Nel mondo del 2026, dove gli agenti devono ragionare in tempo reale, la SRAM funge da “scratchpad” definitivo: uno spazio di lavoro advert alta velocità in cui il modello può manipolare operazioni simboliche e processi di ragionamento complessi senza i “cicli sprecati” dello spostamento della memoria esterna.
Tuttavia, la SRAM presenta un grosso inconveniente: è fisicamente ingombrante e costosa da produrre, il che significa che la sua capacità è limitata rispetto alla DRAM. È qui che Val Bercovici, chief AI officer di Weka, un’altra azienda che offre memorie per GPU, vede la segmentazione del mercato.
I carichi di lavoro AI Groq-friendly – dove SRAM ha il vantaggio – sono quelli che utilizzano piccoli modelli con 8 miliardi di parametri e meno, ha affermato Bercovici. Questo non è un mercato piccolo, però. “È solo un segmento di mercato gigantesco che non è stato servito da Nvidia, ovvero inferenza edge, bassa latenza, robotica, voce, dispositivi IoT: cose che vogliamo che funzionino sui nostri telefoni senza cloud per comodità, prestazioni o privateness”, ha affermato.
Questo “candy spot” di 8B è significativo perché il 2025 ha visto un’esplosione modello di distillazionedove molte aziende stanno riducendo i modelli di grandi dimensioni in versioni più piccole altamente efficienti. Sebbene la SRAM non sia pratica per i modelli “di frontiera” da trilioni di parametri, è perfetta per questi modelli più piccoli e advert alta velocità.
3. La minaccia antropica: l’ascesa dello ‘stack portatile’
Forse il fattore più sottovalutato di questo accordo è il successo di Anthropic nel rendere il suo stack portabile attraverso gli acceleratori.
L’azienda ha ha aperto la strada a un approccio ingegneristico portatile per l’addestramento e l’inferenza, fondamentalmente un livello software program che consente ai suoi modelli Claude di funzionare su più famiglie di acceleratori AI, comprese le GPU di Nvidia e le TPU Ironwood di Google. Fino a poco tempo fa, il dominio di Nvidia period protetto perché far funzionare modelli advert alte prestazioni al di fuori dello stack Nvidia period un incubo tecnico. “È antropico”, mi ha detto Bercovici di Weka. “Il fatto che Anthropic sia stata in grado di… creare uno stack software program in grado di funzionare sia su TPU che su GPU, non credo che sia stato abbastanza apprezzato sul mercato.”
(Divulgazione: Weka è stata sponsor degli eventi VentureBeat.)
Anthropic si è recentemente impegnato advert accedere fino a 1 milione di TPU da Google, che rappresenta oltre un gigawatt di capacità di elaborazione. Questo approccio multipiattaforma garantisce che l’azienda non sia tenuta in ostaggio dai prezzi o dai vincoli di fornitura di Nvidia. Quindi per Nvidia l’accordo con Groq è ugualmente una mossa difensiva. Integrando l’IP di inferenza ultraveloce di Groq, Nvidia si assicura che i carichi di lavoro più sensibili alle prestazioni, come quelli che eseguono piccoli modelli o come parte di agenti in tempo reale, possano essere ospitati all’interno dell’ecosistema CUDA di Nvidia, anche se i concorrenti cercano di passare alle TPU Ironwood di Google. CUDA è il software program speciale che Nvidia fornisce agli sviluppatori per integrare le GPU.
4. La guerra “statale” degli agenti: Manus e KV Cache
La tempistica di questo accordo con Groq coincide con l’acquisizione da parte di Meta dell’agente pioniere Manù appena due giorni fa. Il significato di Manus period in parte la sua ossessione statualità.
Se un agente non riesce a ricordare cosa ha fatto 10 passaggi fa, è inutile per attività del mondo reale come ricerche di mercato o sviluppo di software program. Cache KV (cache dei valori-chiave) è la “memoria a breve termine” che un LLM costruisce durante la fase di precompilazione.
Manù segnalato quello per gli agenti di produzione, il rapporto tra token di enter e token di output può raggiungere 100:1. Ciò significa che per ogni parola che un agente cube, sta “pensando” e “ricordando” altre 100. In questo ambiente, il tasso di successo di KV Cache è il parametro più importante per un agente di produzione, ha affermato Manus. Se la cache viene “sfrattata” dalla memoria, l’agente perde il filo dei suoi pensieri e il modello deve bruciare enormi quantità di energia per ricalcolare il immediate.
La SRAM di Groq può essere un “blocco per appunti” per questi agenti, anche se, ancora una volta, soprattutto per i modelli più piccoli, perché consente il recupero quasi istantaneo di quello stato. Combinato con Quello di Nvidia Dinamo struttura e il KVBM, Nvidia sta costruendo un “sistema operativo di inferenza” in grado di suddividere questo stato su SRAM, DRAM e altre offerte basate su flash come quella di Weka di Bercovici.
Thomas Jorgensen, direttore senior di Expertise Enablement presso Supermicro, specializzata nella creazione di cluster di GPU per grandi aziende, mi ha detto a settembre che l’elaborazione non è più il collo di bottiglia principale per i cluster avanzati. L’alimentazione dei dati alle GPU period il collo di bottiglia e per superare quel collo di bottiglia è necessaria memoria.
“L’intero cluster ora è il pc”, ha detto Jorgensen. “Il networking diventa una parte interna della bestia… nutrire la bestia con i dati sta diventando sempre più difficile perché la larghezza di banda tra le GPU sta crescendo più velocemente di qualsiasi altra cosa.”
Questo è il motivo per cui Nvidia si sta spingendo verso l’inferenza disaggregata. Separando i carichi di lavoro, le applicazioni aziendali possono utilizzare livelli di storage specializzati per alimentare i dati con prestazioni di classe memoria, mentre il silicio specializzato “Groq-inside” gestisce la generazione di token advert alta velocità.
La sentenza per il 2026
Stiamo entrando in un’period di specializzazione estrema. Per decenni, gli operatori storici hanno potuto vincere proponendo un’architettura dominante e di uso generale, e il loro punto cieco period spesso ciò che ignoravano ai margini. La lunga negligenza di Intel nei confronti dei bassi consumi è il classico esempio, mi ha detto Michael Stewart, socio amministratore del fondo di enterprise capital M12 di Microsoft. Nvidia sta segnalando che non ripeterà quell’errore. “Se anche il chief, anche il leone della giungla acquisisce talento, acquisisce tecnologia, è un segno che l’intero mercato vuole solo più opzioni”, ha detto Stewart.
Per i chief tecnici, il messaggio è: smetti di progettare il tuo stack come se fosse un rack, un acceleratore, una risposta. Nel 2026, il vantaggio andrà ai group che etichettano esplicitamente i carichi di lavoro e li instradano al livello giusto:
-
pesante di precompilazione vs. pesante di decodifica
-
contesto lungo vs. contesto breve
-
interattivo vs. batch
-
modello piccolo vs. modello grande
-
vincoli marginali rispetto ai presupposti del information middle
La tua architettura seguirà quelle etichette. Nel 2026, la “strategia GPU” smetterà di essere una decisione di acquisto e diventerà una decisione di routing. I vincitori non chiederanno quale chip hanno acquistato: chiederanno dove è stato eseguito ogni token e perché.












