Home Tecnologia La “memoria di osservazione” riduce i costi degli agenti AI di 10...

La “memoria di osservazione” riduce i costi degli agenti AI di 10 volte e supera RAG nei benchmark a lungo contesto

9
0

RAG non è sempre sufficientemente veloce o sufficientemente intelligente per i moderni flussi di lavoro basati sull’intelligenza artificiale degli agenti. Man mano che i workforce passano da chatbot di breve durata advert agenti di lunga durata e ricchi di strumenti incorporati nei sistemi di produzione, queste limitazioni stanno diventando sempre più difficili da aggirare.

In risposta, i workforce stanno sperimentando architetture di memoria different – a volte chiamate memoria contestuale o memoria agente – che danno priorità alla persistenza e alla stabilità rispetto al recupero dinamico.

Una delle implementazioni più recenti di questo approccio è la “memoria osservativa”, una tecnologia open supply sviluppata da Mastra, fondata dagli ingegneri che in precedenza avevano costruito e venduto il Quadro Gatsby per Netlify.

A differenza dei sistemi RAG che recuperano il contesto in modo dinamico, la memoria osservativa utilizza due agenti in background (Observer e Reflector) per comprimere la cronologia delle conversazioni in un registro di osservazione datato. Le osservazioni compresse rimangono nel contesto, eliminando completamente il recupero. Per il contenuto testuale, il sistema raggiunge una compressione 3-6x. Per i carichi di lavoro degli agenti che richiedono molti strumenti e generano output di grandi dimensioni, i rapporti di compressione raggiungono 5-40 volte.

Il compromesso è che la memoria osservativa dà la priorità a ciò che l’agente ha già visto e deciso rispetto alla ricerca in un corpus esterno più ampio, rendendola meno adatta alla scoperta di conoscenze a tempo indeterminato o ai casi d’uso di richiamo con elevata conformità.

Il sistema ha ottenuto un punteggio del 94,87% su LongMemEval utilizzando GPT-5-mini, pur mantenendo una finestra di contesto completamente stabile e memorizzabile nella cache. Sul modello GPT-4o commonplace, la memoria osservativa ha ottenuto un punteggio dell’84,23% rispetto all’implementazione RAG di Mastra dell’80,05%.

“Ha questa grande caratteristica di essere allo stesso tempo più semplice e più potente, come se avesse un punteggio migliore nei benchmark”, ha detto a VentureBeat Sam Bhagwat, co-fondatore e CEO di Mastra.

Come funziona: due agenti comprimono la cronologia in osservazioni

L’architettura è più semplice rispetto ai sistemi di memoria tradizionali ma offre risultati migliori.

La memoria osservativa divide la finestra di contesto in due blocchi. Il primo contiene osservazioni: appunti compressi e datati estratti da conversazioni precedenti. Il secondo contiene la cronologia dei messaggi non elaborati della sessione corrente.

Due agenti in background gestiscono il processo di compressione. Quando i messaggi non osservati raggiungono i 30.000 token (configurabili), l’agente Observer li comprime in nuove osservazioni e le aggiunge al primo blocco. I messaggi originali vengono eliminati. Quando le osservazioni raggiungono i 40.000 token (anche configurabili), l’agente Reflector ristruttura e condensa il registro delle osservazioni, combinando elementi correlati e rimuovendo le informazioni sostituite.

“Il modo in cui comprimi questi messaggi nel tempo è che in realtà stai semplicemente ricevendo messaggi, e poi hai un agente che cube, ‘OK, quindi quali sono le cose chiave da ricordare da questa serie di messaggi?'” Ha detto Bhagwat. “In un certo senso lo comprimi, poi ottieni altri 30.000 token e li comprimi.”

Il formato è basato su testo, non su oggetti strutturati. Non sono necessari database vettoriali o database grafici.

Le finestre di contesto stabili riducono i costi dei token fino a ten volte

L’economia della memoria osservativa deriva dalla memorizzazione nella cache immediata. Anthropic, OpenAI e altri supplier riducono i costi dei token di 4-10 volte per i immediate memorizzati nella cache rispetto a quelli non memorizzati nella cache. La maggior parte dei sistemi di memoria non possono trarne vantaggio perché cambiano il immediate ogni turno inserendo il contesto recuperato dinamicamente, che invalida la cache. Per i workforce di produzione, story instabilità si traduce direttamente in curve di costo imprevedibili e carichi di lavoro degli agenti con finances più difficile.

La memoria osservativa mantiene stabile il contesto. Il blocco di osservazione viene aggiunto solo fino all’esecuzione della riflessione, il che significa che il immediate del sistema e le osservazioni esistenti formano un prefisso coerente che può essere memorizzato nella cache in molti turni. I messaggi continuano a essere aggiunti al blocco della cronologia non elaborata finché non viene raggiunta la soglia di 30.000 token. Ogni turno precedente è un colpo completo alla cache.

Quando viene eseguita l’osservazione, i messaggi vengono sostituiti con nuove osservazioni aggiunte al blocco di osservazione esistente. Il prefisso di osservazione rimane coerente, quindi il sistema riceve comunque un riscontro parziale nella cache. Solo durante la riflessione (che viene eseguita raramente) l’intera cache viene invalidata.

La dimensione media della finestra di contesto per l’esecuzione del benchmark LongMemEval di Mastra period di circa 30.000 token, molto più piccola di quanto richiederebbe la cronologia completa delle conversazioni.

Perché differisce dalla compattazione tradizionale

La maggior parte degli agenti di codifica utilizza la compattazione per gestire un contesto lungo. La compattazione consente alla finestra di contesto di riempirsi completamente, quindi comprime l’intera cronologia in un riepilogo quando sta per traboccare. L’agente continua, la finestra si riempie nuovamente e il processo si ripete.

La compattazione produce riepiloghi in stile documentazione. Cattura l’essenza di ciò che è accaduto ma perde eventi, decisioni e dettagli specifici. La compressione avviene in batch di grandi dimensioni, il che rende ogni passaggio computazionalmente costoso. Ciò funziona per la leggibilità umana, ma spesso elimina le decisioni specifiche e le interazioni con gli strumenti di cui gli agenti hanno bisogno per agire in modo coerente nel tempo.

L’Observer, d’altro canto, viene eseguito più frequentemente, elaborando blocchi più piccoli. Invece di riassumere la conversazione, produce un registro decisionale basato sugli eventi, un elenco strutturato di osservazioni datate e in ordine di priorità su ciò che è accaduto nello specifico. Ogni ciclo di osservazione gestisce meno contesto e lo comprime in modo più efficiente.

Il log non viene mai riepilogato in un BLOB. Anche durante la riflessione, Reflector riorganizza e condensa le osservazioni per trovare connessioni ed eliminare i dati ridondanti. Ma la struttura basata sugli eventi persiste. Il risultato si legge come un registro di decisioni e azioni, non come documentazione.

Casi d’uso aziendali: conversazioni con agenti di lunga durata

I clienti di Mastra appartengono a various categorie. Alcuni creano chatbot in-app per piattaforme CMS come Sanity o Contentful. Altri creano sistemi AI SRE che aiutano i workforce di ingegneri a classificare gli avvisi. Gli agenti di elaborazione documenti gestiscono le pratiche burocratiche per le aziende tradizionali che si muovono verso l’automazione.

Ciò che accomuna questi casi d’uso è la necessità di conversazioni di lunga durata che mantengano il contesto per settimane o mesi. Un agente incorporato in un sistema di gestione dei contenuti deve ricordare che tre settimane fa l’utente ha richiesto un formato di report specifico. Un agente SRE deve tenere traccia di quali avvisi sono stati esaminati e quali decisioni sono state prese.

“Uno dei grandi obiettivi per il 2025 e il 2026 è stato creare un agente all’interno della loro app Net”, ha affermato Bhagwat a proposito delle aziende SaaS B2B. “Quell’agente deve essere in grado di ricordare che, tipo, tre settimane fa, mi hai chiesto informazioni su questa cosa, o hai detto che volevi un rapporto su questo tipo di contenuto o visualizzazioni segmentate in base a questa metrica.”

In questi scenari, la memoria smette di essere un’ottimizzazione e diventa un requisito del prodotto: gli utenti notano immediatamente quando gli agenti dimenticano decisioni o preferenze precedenti.

La memoria osservativa mantiene presenti e accessibili mesi di cronologia delle conversazioni. L’agente può rispondere ricordando l’intero contesto, senza richiedere all’utente di spiegare nuovamente le preferenze o le decisioni precedenti.

Il sistema è stato fornito come parte di Mastra 1.0 ed è ora disponibile. Questa settimana il workforce ha rilasciato plug-in per LangChain, AI SDK di Vercel e altri framework, consentendo agli sviluppatori di utilizzare la memoria di osservazione al di fuori dell’ecosistema Mastra.

Cosa significa per i sistemi di intelligenza artificiale di produzione

La memoria osservativa offre un approccio architetturale diverso rispetto al database vettoriale e alle pipeline RAG che dominano le implementazioni attuali. L’architettura più semplice (basata su testo, senza database specializzati) semplifica il debug e la manutenzione. La finestra di contesto stabile consente una memorizzazione nella cache aggressiva che riduce i costi. Le prestazioni del benchmark suggeriscono che l’approccio può funzionare su larga scala.

Per i workforce aziendali che valutano gli approcci alla memoria, le domande chiave sono:

  • Quanto contesto devono mantenere i tuoi agenti tra le sessioni?

  • Qual è la tua tolleranza per la compressione con perdita rispetto alla ricerca dell’intero corpus?

  • Hai bisogno del recupero dinamico fornito da RAG o il contesto stabile funzionerebbe meglio?

  • I tuoi agenti utilizzano molti strumenti e generano grandi quantità di output che necessitano di compressione?

Le risposte determinano se la memoria osservativa si adatta al tuo caso d’uso. Bhagwat posiziona la memoria come uno dei principali elementi primitivi necessari per gli agenti advert alte prestazioni, insieme all’uso degli strumenti, all’orchestrazione del flusso di lavoro, all’osservabilità e ai guardrail. Per gli agenti aziendali incorporati nei prodotti, dimenticare il contesto tra le sessioni è inaccettabile. Gli utenti si aspettano che gli agenti ricordino le loro preferenze, le decisioni precedenti e il lavoro in corso.

“La cosa più difficile per gli agenti di workforce constructing è la produzione, che può richiedere tempo”, ha detto Bhagwat. “La memoria è davvero importante in questo, perché è semplicemente sconcertante se usi qualsiasi tipo di strumento agente e in un certo senso gli hai detto qualcosa e poi l’ha semplicemente dimenticato.”

Man mano che gli agenti passano dagli esperimenti ai sistemi di registrazione integrati, il modo in cui i workforce progettano la memoria può essere importante tanto quanto il modello che scelgono.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here