Mentre l’intelligenza artificiale si sposta dagli esperimenti ai carichi di lavoro di produzione reale, un problema infrastrutturale silenzioso ma serio viene messo a fuoco: la memoria. Non calcolare. Non modelli. Memoria.
Sotto il cofano, le GPU di oggi semplicemente non hanno spazio sufficiente per contenere le cache dei valori-chiave (KV) da cui dipendono gli agenti IA moderni e di lunga durata per mantenere il contesto. Il risultato è un sacco di sprechi invisibili: le GPU ripetono il lavoro già svolto, i costi del cloud aumentano e le prestazioni subiscono un duro colpo. È un problema che si sta già manifestando negli ambienti di produzione, anche se la maggior parte delle persone non gli ha ancora dato un nome.
In una recente tappa della VentureBeat AI Influence Sequence, il CTO di WEKA Shimon Ben-David si è unito al CEO di VentureBeat Matt Marshall per svelare l’emergente “muro di memoria” del settore e perché sta diventando uno dei maggiori ostacoli alla scalabilità di un’intelligenza artificiale realmente stateful, ovvero sistemi in grado di ricordare e basarsi sul contesto nel tempo. La conversazione non si è limitata a diagnosticare il problema; ha delineato un nuovo modo di pensare interamente alla memoria, attraverso un approccio che WEKA chiama token warehousing.
Il problema della memoria della GPU
“Quando esaminiamo l’infrastruttura di inferenza, non si tratta di una sfida legata ai cicli della GPU. È principalmente un problema di memoria della GPU”, ha affermato Ben-David.
La radice del problema risiede nel funzionamento dei modelli di trasformatori. Per generare risposte, si affidano alle cache KV che memorizzano informazioni contestuali per ogni token in una conversazione. Più lunga è la finestra di contesto, maggiore è la quantità di memoria consumata dalle cache e il tutto si accumula rapidamente. Una singola sequenza da 100.000 token può richiedere circa 40 GB di memoria GPU, ha osservato Ben-David.
Non sarebbe un problema se le GPU avessero memoria illimitata. Ma non lo fanno. Anche le GPU più avanzate raggiungono un massimo di circa 288 GB di memoria a larghezza di banda elevata (HBM), e quello spazio deve contenere anche il modello stesso.
Negli ambienti di inferenza multi-tenant del mondo reale, questo diventa rapidamente doloroso. Carichi di lavoro come lo sviluppo di codice o l’elaborazione delle dichiarazioni dei redditi fanno molto affidamento sulla cache KV per il contesto.
“Se carico tre o quattro PDF da 100.000 token in un modello, è tutto: ho esaurito la capacità della cache KV su HBM”, ha affermato Ben-David. Questo è ciò che è noto come il muro della memoria. “All’improvviso, ciò che l’ambiente di inferenza è costretto a fare è eliminare i dati”, ha aggiunto.
Ciò significa che le GPU eliminano costantemente il contesto di cui presto avranno nuovamente bisogno, impedendo agli agenti di essere stateful e mantenendo le conversazioni e il contesto nel tempo
L’imposta sull’inferenza nascosta
“Vediamo costantemente le GPU negli ambienti di inferenza ricalcolare cose che hanno già fatto”, ha affermato Ben-David. I sistemi preriempiono la cache KV, iniziano la decodifica, quindi esauriscono lo spazio ed eliminano i dati precedenti. Quando quel contesto è nuovamente necessario, l’intero processo si ripete: precompilazione, decodifica, precompilazione di nuovo. Su larga scala, si tratta di un’enorme quantità di lavoro sprecato. Significa anche uno spreco di energia, una maggiore latenza e un’esperienza utente degradata, il tutto mentre i margini vengono ridotti.
Gli sprechi di ricalcolo della GPU compaiono direttamente nel bilancio. Le organizzazioni possono subire un sovraccarico di quasi il 40% solo a causa di cicli di precompilazione ridondanti. Ciò sta creando effetti a catena nel mercato dell’inferenza.
“Se si guardano i prezzi dei grandi fornitori di modelli come Anthropic e OpenAI, in realtà stanno insegnando agli utenti a strutturare i loro messaggi in modo da aumentare la probabilità di colpire la stessa GPU in cui è memorizzata la cache KV”, ha affermato Ben-David. “Se si tocca quella GPU, il sistema può saltare la fase di precompilazione e iniziare immediatamente la decodifica, il che consente loro di generare più token in modo efficiente.”
Ma questo non risolve ancora il problema infrastrutturale di base della capacità di memoria della GPU estremamente limitata.
Risolvere l’intelligenza artificiale con stato
“Come si supera il muro della memoria? Come lo si supera? Questa è la chiave per un’inferenza moderna ed economicamente vantaggiosa”, ha affermato Ben-David. “Vediamo più aziende che cercano di risolvere questo problema in modi diversi.”
Alcune organizzazioni stanno implementando nuovi modelli lineari che tentano di creare cache KV più piccole. Altri si concentrano sull’ottimizzazione dell’efficienza della cache.
“Per essere più efficienti, le aziende utilizzano ambienti che calcolano la cache KV su una GPU e quindi provano a copiarla dalla memoria della GPU o utilizzano un ambiente locale per questo”, ha spiegato Ben-David. “Ma come farlo su larga scala e in modo conveniente, senza affaticare la memoria e la rete? Questo è qualcosa con cui WEKA aiuta i nostri clienti.”
Il semplice utilizzo di più GPU per risolvere il problema non risolve la barriera della memoria AI. “Ci sono alcuni problemi per i quali non è possibile investire abbastanza soldi per risolverli”, ha detto Ben-David.
Spiegazione della memoria aumentata e dell’immagazzinamento dei token
La risposta di WEKA è ciò che chiama memoria aumentata e token warehousing: un modo per ripensare dove e come risiedono i dati della cache KV. Invece di forzare tutto a inserirsi nella memoria della GPU, l’Augmented Reminiscence Grid di WEKA estende la cache KV in un “magazzino” veloce e condiviso all’interno della sua architettura NeuralMesh.
In pratica, ciò trasforma la memoria da un vincolo rigido in una risorsa scalabile, senza aggiungere latenza di inferenza. WEKA afferma che i clienti vedono i tassi di successo della cache KV salire al 96-99% per i carichi di lavoro agentici, insieme a guadagni di efficienza fino a 4,2 volte più token prodotti per GPU.
Ben-David lo ha detto semplicemente: “Immagina di avere 100 GPU che producono una certa quantità di token. Ora immagina che quelle centinaia di GPU funzionino come se fossero 420 GPU.”
Per i grandi fornitori di inferenza, il risultato non è solo un miglioramento delle prestazioni, ma si traduce direttamente in un impatto economico reale.
“Solo aggiungendo il livello di cache KV accelerato, stiamo esaminando alcuni casi d’uso in cui il risparmio ammonterebbe a milioni di dollari al giorno”, ha affermato Ben-David
Questo moltiplicatore di efficienza apre anche nuove opzioni strategiche per le imprese. I group della piattaforma possono progettare agenti con stato senza preoccuparsi di aumentare i funds di memoria. I fornitori di servizi possono offrire livelli di prezzo basati sul contesto persistente, con inferenza memorizzata nella cache fornita a costi notevolmente inferiori.
Cosa verrà dopo
NVIDIA prevede un aumento di 100 volte della domanda di inferenza poiché l’intelligenza artificiale degli agenti diventa il carico di lavoro dominante. Questa pressione si sta già diffondendo dagli hyperscaler alle implementazioni aziendali quotidiane: non si tratta più solo di un problema di “grande tecnologia”.
Mentre le aziende passano dalle show di concetto ai sistemi di produzione reali, la persistenza della memoria sta diventando una preoccupazione fondamentale per le infrastrutture. Le organizzazioni che la considerano una priorità architetturale piuttosto che un ripensamento otterranno un chiaro vantaggio sia in termini di costi che di prestazioni.
Il muro della memoria non è qualcosa che le organizzazioni possono semplicemente superare con una spesa eccessiva. Man mano che l’intelligenza artificiale degli agenti cresce, è uno dei primi limiti dell’infrastruttura IA che impone un ripensamento più profondo e, come chiarito dalle intuizioni di Ben-David, la memoria potrebbe anche essere il luogo in cui inizia la prossima ondata di differenziazione competitiva.












