Gli agenti basati sui modelli odierni spesso si interrompono con semplici modifiche (una nuova libreria, una modifica del flusso di lavoro) e richiedono un ingegnere umano per risolverlo. Questa è una delle sfide più persistenti nell’implementazione dell’intelligenza artificiale per l’azienda: creare agenti in grado di adattarsi advert ambienti dinamici senza un costante controllo. Sebbene i modelli odierni siano potenti, sono in gran parte statici.
Per affrontare questo problema, i ricercatori dell’Università della California, a Santa Barbara, hanno sviluppato Agenti in evoluzione di gruppo (GEA), un nuovo framework che consente a gruppi di agenti IA di evolversi insieme, condividendo esperienze e riutilizzando le proprie innovazioni per migliorare autonomamente nel tempo.
Negli esperimenti su compiti complessi di codifica e ingegneria del software program, GEA ha sostanzialmente sovraperformato i framework di auto-miglioramento esistenti. Forse in particolare per i decisori aziendali, il sistema ha sviluppato in modo autonomo agenti che hanno eguagliato o superato le prestazioni di strutture scrupolosamente progettate da esperti umani.
I limiti dell’evoluzione del “lupo solitario”.
La maggior parte esistente sistemi di IA agentici fare affidamento su architetture fisse progettate da ingegneri. Questi sistemi spesso faticano a superare i limiti di capacità imposti dai loro progetti iniziali.
Per risolvere questo problema, i ricercatori hanno cercato a lungo di creare agenti autoevolutivi in grado di modificare autonomamente il proprio codice e la propria struttura per superare i propri limiti iniziali. Questa capacità è essenziale per gestire ambienti aperti in cui l’agente deve esplorare continuamente nuove soluzioni.
Tuttavia, gli attuali approcci all’autoevoluzione presentano un grave difetto strutturale. Come notano i ricercatori nel loro articolo, la maggior parte dei sistemi sono ispirati all’evoluzione biologica e sono progettati attorno a processi “incentrati sull’individuo”. Questi metodi utilizzano tipicamente un approccio strutturato advert albero: un singolo agente “genitore” viene selezionato per produrre prole, creando rami evolutivi distinti che rimangono strettamente isolati l’uno dall’altro.
Questo isolamento crea un effetto silo. Un agente in un ramo non può accedere ai dati, agli strumenti o ai flussi di lavoro rilevati da un agente in un ramo parallelo. Se un lignaggio specifico non viene selezionato per la generazione successiva, qualsiasi scoperta preziosa fatta da quell’agente, come un nuovo strumento di debug o un flusso di lavoro di check più efficiente, muore con esso.
Nel loro articolo, i ricercatori mettono in dubbio la necessità di aderire a questa metafora biologica. “Gli agenti dell’intelligenza artificiale non sono individui biologici”, sostengono. “Perché la loro evoluzione dovrebbe rimanere vincolata dai paradigmi biologici?”
L’intelligenza collettiva degli agenti in evoluzione di gruppo
GEA sposta il paradigma trattando un gruppo di agenti, piuttosto che un individuo, come l’unità fondamentale dell’evoluzione.
Il processo inizia selezionando un gruppo di agenti principali da un archivio esistente. Per garantire un sano combine di stabilità e innovazione, GEA seleziona questi agenti sulla base di un punteggio combinato di prestazioni (competenza nella risoluzione dei compiti) e novità (quanto si distinguono le loro capacità da quelle degli altri).
A differenza dei sistemi tradizionali in cui un agente impara solo dal suo genitore diretto, GEA crea un pool condiviso di esperienze collettive. Questo pool contiene le tracce evolutive di tutti i membri del gruppo principale, comprese le modifiche al codice, le soluzioni riuscite alle attività e le cronologie di chiamata degli strumenti. Ogni agente del gruppo ha accesso a questa storia collettiva, permettendogli di imparare dalle scoperte e dagli errori dei suoi pari.
Un “modulo di riflessione”, alimentato da un ampio modello linguistico, analizza questa storia collettiva per identificare modelli a livello di gruppo. Advert esempio, se un agente scopre uno strumento di debug advert alte prestazioni mentre un altro perfeziona un flusso di lavoro di check, il sistema estrae entrambe le informazioni. Sulla base di questa analisi, il sistema genera “direttive evolutive” di alto livello che guidano la creazione del gruppo figlio. Ciò garantisce che la generazione successiva possieda i punti di forza combinati di tutti i suoi genitori, piuttosto che solo i tratti di un singolo lignaggio.
Tuttavia, questo approccio basato sulla mente alveare funziona meglio quando il successo è oggettivo, come nelle attività di codifica. “Per ambiti meno deterministici (advert esempio, la generazione creativa), i segnali di valutazione sono più deboli”, hanno detto a VentureBeat Zhaotian Weng e Xin Eric Wang, coautori dell’articolo. “La condivisione cieca di risultati ed esperienze può introdurre esperienze di bassa qualità che agiscono come rumore. Ciò suggerisce la necessità di meccanismi di filtraggio dell’esperienza più forti” per i compiti soggettivi.
GEA in azione
I ricercatori hanno testato GEA rispetto all’attuale riferimento all’avanguardia in autoevoluzione, il La macchina di Darwin Godel (DGM), su due rigorosi parametri di riferimento. I risultati hanno dimostrato un enorme salto di capacità senza aumentare il numero di agenti utilizzati.
Questo approccio collaborativo rende inoltre il sistema più robusto contro i guasti. Nei loro esperimenti, i ricercatori hanno intenzionalmente danneggiato gli agenti inserendo manualmente bug nelle loro implementazioni. GEA è stata in grado di riparare questi bug critici in una media di 1,4 iterazioni, mentre la linea di base ha richiesto 5 iterazioni. Il sistema sfrutta efficacemente i membri “sani” del gruppo per diagnosticare e applicare patch a quelli compromessi.
Su SWE-bench Verified, un benchmark costituito da problemi reali di GitHub, inclusi bug e richieste di funzionalità, GEA ha ottenuto un tasso di successo del 71,0%, rispetto al 56,7% del valore di riferimento. Ciò si traduce in un aumento significativo della produttività dell’ingegneria autonoma, il che significa che gli agenti sono molto più capaci di gestire la manutenzione del software program nel mondo reale. Allo stesso modo, su Polyglot, che testa la generazione di codice attraverso diversi linguaggi di programmazione, GEA ha ottenuto l’88,3% contro il 68,3% del valore di riferimento, indicando un’elevata adattabilità a diversi stack tecnologici.
Per i group di ricerca e sviluppo aziendali, la scoperta più importante è che GEA consente all’intelligenza artificiale di progettare se stessa con la stessa efficacia degli ingegneri umani. Sul banco SWE, il tasso di successo del 71,0% di GEA corrisponde effettivamente alla efficiency di ManiAperteil miglior framework open supply progettato dall’uomo. Su Polyglot, GEA ha sovraperformato significativamente Aider, un popolare assistente di codifica, che ha ottenuto il 52,0%. Ciò suggerisce che le organizzazioni potrebbero eventualmente ridurre la dipendenza da grandi group di ingegneri tempestivi per modificare le strutture degli agenti, poiché gli agenti possono meta-apprendere queste ottimizzazioni in modo autonomo.
Questa efficienza si estende alla gestione dei costi. “GEA è esplicitamente un sistema a due fasi: (1) evoluzione dell’agente, quindi (2) inferenza/distribuzione”, hanno affermato i ricercatori. “Dopo l’evoluzione, si distribuisce un singolo agente evoluto… quindi il costo dell’inferenza aziendale rimane sostanzialmente invariato rispetto a una configurazione normal con agente singolo.”
Il successo di GEA deriva in gran parte dalla sua capacità di consolidare i miglioramenti. I ricercatori hanno monitorato le innovazioni specifiche inventate dagli agenti durante il processo evolutivo. Nell’approccio di base, strumenti preziosi spesso apparivano in rami isolati ma non riuscivano a propagarsi perché quei lignaggi specifici finivano. In GEA, il modello di esperienza condivisa ha garantito che questi strumenti fossero adottati dagli agenti con le migliori prestazioni. Il miglior agente di GEA ha integrato tratti di 17 antenati unici (che rappresentano il 28% della popolazione) mentre il miglior agente di base ha integrato tratti di soli 9. In effetti, GEA crea un “tremendous dipendente” che possiede le migliori pratiche combinate dell’intero gruppo.
“Un flusso di lavoro ispirato a GEA in produzione consentirebbe agli agenti di tentare prima alcune soluzioni indipendenti quando si verificano guasti”, hanno spiegato i ricercatori riguardo a questa capacità di auto-riparazione. “Un agente di riflessione (tipicamente alimentato da un modello di base solido) può quindi riassumere i risultati… e guidare un aggiornamento del sistema più completo.”
Inoltre, i miglioramenti scoperti da GEA non sono legati a uno specifico modello sottostante. Gli agenti evoluti utilizzando un modello, come Claude, hanno mantenuto i miglioramenti prestazionali anche quando il motore sottostante è stato sostituito con un’altra famiglia di modelli, come GPT-5.1 o GPT-o3-mini. Questa trasferibilità offre alle aziende la flessibilità di cambiare fornitore di modelli senza perdere le ottimizzazioni dell’architettura personalizzata apprese dai loro agenti.
Per i settori con severi requisiti di conformità, l’thought di modificare autonomamente il codice potrebbe sembrare rischiosa. Per risolvere questo problema, gli autori hanno affermato: “Ci aspettiamo che le implementazioni aziendali includano guardrail non evolutivi, come l’esecuzione sandbox, vincoli politici e livelli di verifica”.
Anche se i ricercatori prevedono di rilasciare presto il codice ufficiale, gli sviluppatori possono già iniziare a implementare concettualmente l’architettura GEA sui framework degli agenti esistenti. Il sistema richiede tre aggiunte chiave a uno stack di agenti normal: un “archivio di esperienze” per memorizzare tracce evolutive, un “modulo di riflessione” per analizzare modelli di gruppo e un “modulo di aggiornamento” che consente all’agente di modificare il proprio codice sulla base di tali intuizioni.
Guardando al futuro, il quadro potrebbe democratizzare lo sviluppo di agenti avanzati. “Una direzione promettente è quella delle condutture di evoluzione ibrida”, hanno detto i ricercatori, “dove modelli più piccoli esplorano presto per accumulare esperienze various, e modelli più forti guidano successivamente l’evoluzione utilizzando quelle esperienze.”












