I ricercatori di Stanford, Nvidia e Collectively AI hanno sviluppato una nuova tecnica in grado di scoprire nuove soluzioni a problemi molto complessi. Advert esempio, sono riusciti a ottimizzare un kernel GPU critico per funzionare 2 volte più velocemente rispetto al precedente stato dell’arte scritto da esperti umani.
La loro tecnica, chiamata “Formazione in prova per scoprire” (TTT-Uncover), sfida l’attuale paradigma di lasciare che i modelli “pensino più a lungo” per i problemi di ragionamento. TTT-Uncover consente al modello di continuare l’addestramento durante il processo di inferenza e aggiornare i suoi pesi per il problema in questione.
I limiti del ragionamento ‘congelato’
Le attuali strategie di intelligenza artificiale aziendale spesso si basano su modelli “congelati”. Sia che si utilizzi un modello di ragionamento chiuso o aperto, i parametri del modello sono statici. Quando si richiedono questi modelli, cercano risposte all’interno della varietà fissa dei loro dati di addestramento. Funziona bene per problemi che assomigliano a ciò che il modello ha visto in precedenza.
Tuttavia, i veri problemi di scoperta, come inventare un nuovo algoritmo o dimostrare un nuovo teorema matematico, sono, per definizione, fuori distribuzione. Se la soluzione richiede un salto logico che non esiste nel set di addestramento, un modello congelato probabilmente fallirà, indipendentemente dalla quantità di calcolo che gli viene assegnato durante l’inferenza.
Nei commenti a VentureBeat, Mert Yuksekgonul, coautore dell’articolo e dottorando a Stanford, ha illustrato questa distinzione utilizzando una famosa scoperta matematica:
“Credo che i modelli pensanti non sarebbero in grado di dimostrare, advert esempio, P != NP, senza un addestramento basato sui take a look at, proprio come Andrew Wiles non sarebbe in grado di dimostrare l’Ultimo Teorema di Fermat senza i 7 anni trascorsi a perseguire questo singolo problema in isolamento e imparando continuamente dai propri fallimenti.”
TTT-Uncover tratta il problema del take a look at non come una domanda a cui rispondere, ma come un ambiente da padroneggiare. Mentre il modello tenta di risolvere il problema, genera diversi tipi di dati: fallimenti, successi parziali ed errori. Invece di scartare questi dati, TTT-Uncover li utilizza per aggiornare i pesi del modello in tempo reale, consentendo di fatto al modello di concentrarsi su quella specifica sfida invece di sviluppare un quadro di risoluzione dei problemi molto generale.
Un approccio diverso all’apprendimento per rinforzo
TTT-Uncover fornisce un cambiamento fondamentale nel modo in cui vengono addestrati i modelli di ragionamento. Nella formazione commonplace con apprendimento per rinforzo (RL), l’obiettivo è una politica generalista che funzioni bene in media in molte attività. In TTT-Uncover, l’obiettivo è trovare la migliore soluzione a un problema molto specifico e la politica è “un mezzo per raggiungere questo scopo”, secondo gli autori. Una volta che il modello scopre l’artefatto (cioè il codice ottimizzato, la prova o la molecola), la rete neurale che lo ha prodotto può essere scartata.
Per raggiungere questo obiettivo, i ricercatori hanno progettato due componenti specifici che differenziano TTT-Uncover dall’apprendimento per rinforzo commonplace:
-
Obiettivo entropico: RL commonplace ottimizza per la ricompensa media prevista. Se un modello tenta un percorso rischioso e fallisce, il RL commonplace lo punisce. TTT-Uncover capovolge questo. Utilizza un “obiettivo entropico” che pesa in modo esponenziale i risultati advert alta ricompensa. Ciò costringe il modello a ignorare le risposte medie “sicure” e a cercare in modo aggressivo i valori anomali “eureka”, soluzioni che hanno una bassa probabilità di essere trovate ma offrono una ricompensa enorme.
-
Ricerca PUCT: Il sistema introduce PUCT, un algoritmo di ricerca advert albero ispirato a AlphaZero. Esplora diversi percorsi di soluzione, costruendo un set di dati di tentativi. Il modello quindi si allena su questo set di dati in tempo reale, imparando a riconoscere quali passaggi parziali portano a risultati advert alta ricompensa.
Fondamentalmente, questo metodo funziona meglio su problemi con un segnale di ricompensa continuo. Il sistema necessita di un modo per misurare il progresso incrementale come “tempo di esecuzione in microsecondi” o “tasso di errore” piuttosto che un segnale binario “cross/fail”. Ciò consente al modello di seguire il miglioramento graduale verso la soluzione ottimale.
L’economia dell’“inferenza pesante”
Per le aziende abituate a pagare frazioni di centesimo per chiamata API, il profilo di costo di TTT-Uncover richiede un cambiamento di mentalità. Nei loro esperimenti, i ricercatori hanno riferito che una singola corsa di scoperta comporta circa 50 passaggi di addestramento e migliaia di implementazioni, per un costo di circa 500 dollari per problema.
TTT-Uncover potrebbe riguardare “risorse statiche e di alto valore” anziché problemi banali e ricorrenti che possono essere risolti con modelli e approcci esistenti.
Consideriamo un’azienda nativa del cloud che esegue una pipeline di dati che elabora petabyte di informazioni ogni notte. Se story pipeline si basa su una question SQL specifica o su un kernel GPU, l’ottimizzazione del codice anche solo dell’1% potrebbe far risparmiare centinaia di migliaia di dollari in costi di elaborazione annuali. In questo contesto, spendere 500 dollari per trovare un kernel più veloce del 50% è una spesa banale con un ROI immediato.
“Ciò ha più senso per le decisioni a bassa frequenza e advert alto impatto in cui un singolo miglioramento vale molto di più del costo di calcolo”, ha affermato Yuksekgonul. “Il routing della catena di approvvigionamento, la progettazione dei farmaci e la scoperta dei materiali sono qualificati. In questi contesti, spendere centinaia di dollari in un singolo passaggio di scoperta può facilmente ripagarsi da solo.”
Considerazioni sull’implementazione
Uno dei risultati più significativi per l’adozione aziendale è che TTT-Uncover non richiede un modello di frontiera proprietario. I ricercatori hanno ottenuto risultati all’avanguardia utilizzando gpt-oss-120bil modello a pesi aperti di OpenAI. I ricercatori hanno ha rilasciato il codice per TTT-Uncover per consentire a ricercatori e sviluppatori di utilizzarlo per i propri modelli.
Poiché la tecnica funziona con modelli aperti, le aziende possono eseguire questo “ciclo di scoperta” interamente all’interno dei propri VPC sicuri o cluster H100 on-premise senza inviare i propri dati proprietari a server di terze parti.
“Se un’azienda esegue già l’apprendimento per rinforzo, non è necessaria alcuna infrastruttura aggiuntiva”, ha affermato Yuksekgonul. “TTT-Uncover utilizza lo stesso stack di coaching (GPU, rolloutworker, ottimizzatori, checkpoint).”
Se non eseguono già RL, dovrebbero costruire quell’infrastruttura. Ma le imprese possono anche utilizzare le soluzioni esistenti per ridurre la complessità del processo. I ricercatori hanno orchestrato questi percorsi di formazione utilizzando il file API Armeggiare di Considering Machines, un’API che gestisce la complessità dell’addestramento e dell’inferenza distribuiti.
“Strumenti come Tinker (e le varianti aperte, advert esempio OpenTinker) riducono i costi di installazione ed è probabile che sia i costi di manodopera che quelli di calcolo diminuiscano nel tempo”, ha affermato.
Casi d’uso nel mondo reale
I ricercatori hanno utilizzato TTT-Uncover in quattro ambiti tecnici distinti: ingegneria dei sistemi, progettazione di algoritmi, biologia e matematica. In quasi tutti i casi il metodo ha stabilito un nuovo stato dell’arte.
In un esperimento, il modello ha ottimizzato i kernel GPU per la moltiplicazione di matrici (incluso il kernel “TriMul” utilizzato in AlphaFold), raggiungendo velocità di esecuzione fino a 2 volte più veloci rispetto allo stato dell’arte precedente e superando i migliori kernel scritti da esseri umani nella classifica.
Negli scenari di programmazione competitiva (AtCoder), ha risolto problemi euristici complessi (advert esempio, l’ottimizzazione dei vincoli geometrici per le reti da pesca) meglio dei massimi esperti umani e delle precedenti linee di base dell’IA.
Per l’impresa, la transizione da questi parametri accademici al valore aziendale dipende da un vincolo specifico: l’esistenza di un segnale scalare verificabile. A differenza di un chatbot che genera testo, TTT-Uncover necessita di una metrica rigida (advert esempio, tempo di esecuzione, tasso di errore o margine di profitto) per l’ottimizzazione.
Yuksekgonul ha affermato che questo requisito traccia una linea chiara tra dove questa tecnologia dovrebbe e non dovrebbe essere utilizzata. “Al momento, il requisito fondamentale è un segnale scalare affidabile di progresso – costi, errori, proprietà molecolari – rispetto al quale il sistema può ottimizzare”, ha affermato.
Ciò indirizza l’adozione aziendale verso sfide ingegneristiche e operative “difficili” come la logistica, la catena di fornitura e la gestione delle risorse, dove problemi come il routing della flotta o la pianificazione dell’equipaggio spesso si basano su euristiche statiche. TTT-Uncover può trattarli come ambienti di ottimizzazione, impiegando ore per trovare una struttura di percorso che riduca del 5% i costi giornalieri del carburante.
Il requisito di verificatori chiari esclude compiti qualitativi come “scrivere una strategia di advertising and marketing migliore”, in cui la verifica è soggettiva e soggetta a rumore.
“I problemi difficili da verificare sono ancora una questione aperta”, ha detto Yuksekgonul.
Con la tecnologia attuale, la strada migliore da seguire è provare a progettare dei verificatori, ma “rendere questi verificatori robusti e difficili da aggirare è impegnativo e non abbiamo ancora una buona soluzione”, ha aggiunto.
Dall’inferenza all’invenzione
L’implicazione più ampia è che gli stack di intelligenza artificiale aziendale potrebbero dover evolversi per supportare questo tipo di apprendimento per problema.
“I sistemi costruiti attorno a un modello congelato dovranno supportare l’adattamento per problema (o per dominio), e le aziende avranno bisogno di migliori specifiche dei problemi e segnali di suggestions interni per rendere efficace l’apprendimento durante i take a look at”, ha affermato Yuksekgonul. “Se la formazione viene eseguita all’interno di un VPC privato, il ciclo di formazione può anche essere integrato con una parte maggiore dell’ambiente interno dell’azienda, non solo con una pipeline di laboratorio centrale.”
Per l’azienda, il valore sta nell’identificare “problemi da milioni di dollari”, sfide di ottimizzazione in cui esiste una metrica verificabile, ma il progresso umano è in fase di stallo. Questi sono i candidati per TTT-Uncover. Accettando latenza e costi più elevati per question specifiche, le aziende possono trasformare il proprio calcolo di inferenza in un laboratorio di ricerca e sviluppo automatizzato, scoprendo soluzioni che prima erano fuori portata sia per gli esseri umani che per i modelli di intelligenza artificiale congelati.













