Home Tecnologia La nuova tecnica Self-Move di Black Forest Labs rende l’addestramento di modelli...

La nuova tecnica Self-Move di Black Forest Labs rende l’addestramento di modelli IA multimodali 2,8 volte più efficiente

19
0

Per creare immagini o video coerenti, i modelli di diffusione dell’intelligenza artificiale generativa come Secure Diffusion o FLUX si sono generalmente affidati a “insegnanti” esterni – codificatori congelati come CLIP o DINOv2 – per fornire la comprensione semantica che non potevano apprendere da soli.

Ma questa dipendenza ha avuto un costo: un “collo di bottiglia” in cui l’ampliamento del modello non produce più risultati migliori perché l’insegnante esterno ha raggiunto il suo limite.

Oggi, startup tedesca dedicata all’intelligenza artificiale Lo ha annunciato Black Forest Labs (produttore della serie FLUX di modelli di immagini AI). una potenziale wonderful a questa period di prestiti accademici il rilascio del Flusso Automaticoun framework di corrispondenza del flusso autosupervisionato che consente ai modelli di apprendere la rappresentazione e la generazione simultaneamente.

Integrando un nuovo meccanismo di pianificazione Twin-Timestep, Black Forest Labs ha dimostrato che un singolo modello può ottenere risultati all’avanguardia su immagini, video e audio senza alcuna supervisione esterna.

La tecnologia: rompere il “hole semantico”

Il problema fondamentale con la formazione generativa tradizionale è che si tratta di un compito di “denoising”. Al modello viene mostrato il rumore e gli viene chiesto di trovare un’immagine; ha pochissimi incentivi a capire cos’è l’immagine, solo come appare.

Per risolvere questo problema, i ricercatori hanno precedentemente “allineato” le caratteristiche generative con modelli discriminativi esterni. Tuttavia, Black Forest Labs sostiene che questo è fondamentalmente difettoso: questi modelli esterni spesso operano su obiettivi disallineati e non riescono a generalizzare attraverso numerous modalità come l’audio o la robotica.

La nuova tecnica dei Labs, Self-Move, introduce una “asimmetria informativa” per risolvere questo problema. Utilizzando una tecnica chiamata Twin-Timestep Scheduling, il sistema applica diversi livelli di rumore a various parti dell’enter. Lo studente riceve una versione dei dati fortemente danneggiata, mentre l’insegnante, una versione della media cell esponenziale (EMA) del modello stesso, vede una versione “più pulita” degli stessi dati.

Allo studente viene quindi assegnato il compito non solo di generare l’output finale, ma di prevedere ciò che il suo sé “più pulito” sta vedendo: un processo di auto-distillazione in cui l’insegnante è al livello 20 e lo studente è al livello 8. Questo approccio “Twin-Move” costringe il modello a sviluppare una profonda comprensione semantica interna, insegnando efficacemente a se stesso come vedere mentre impara a creare.

Implicazioni del prodotto: più veloce, più nitido e multimodale

I risultati pratici di questo cambiamento sono netti. Secondo il documento di ricerca, Self-Move converge circa 2,8 volte più velocemente del metodo REpresentation Alignment (REPA), l’attuale normal di settore per l’allineamento delle funzionalità. Forse ancora più importante, non si stabilizza; man mano che il calcolo e i parametri aumentano, il Self-Move continua a migliorare mentre i metodi più vecchi mostrano rendimenti decrescenti.

Il salto nell’efficienza dell’allenamento può essere compreso meglio attraverso la lente dei passaggi computazionali grezzi: mentre l’allenamento “vanilla” normal richiede tradizionalmente 7 milioni di passaggi per raggiungere un livello di prestazioni di base, REPA ha accorciato quel percorso a soli 400.000 passaggi, che rappresentano un’accelerazione di 17,5 volte.

Il framework Self-Move di Black Forest Labs spinge ulteriormente questa frontiera, operando 2,8 volte più velocemente di REPA per raggiungere lo stesso traguardo prestazionale in circa 143.000 passaggi.

Nel complesso, questa evoluzione rappresenta una riduzione di quasi 50 volte del numero totale di fasi di formazione necessarie per ottenere risultati di alta qualità, trasformando di fatto quello che una volta period un enorme fabbisogno di risorse in un processo significativamente più accessibile e snello.

Black Forest Labs ha presentato questi miglioramenti attraverso un modello multimodale con parametri 4B. Addestrato su un enorme set di dati di 200 milioni di immagini, 6 milioni di video e 2 milioni di coppie audio-video, il modello ha dimostrato progressi significativi in ​​tre aree chiave:

  1. Tipografia e resa del testo: Uno dei “inform” più persistenti delle immagini AI è stato il testo confuso. Self-Move supera in modo significativo la corrispondenza del flusso normal nel rendering di segnali ed etichette complessi e leggibili, come un’insegna al neon che scrive correttamente “FLUX è multimodale”.

  2. Consistenza temporale: Nella generazione video, Self-Move elimina molti degli artefatti “allucinati” comuni nei modelli attuali, come gli arti che scompaiono spontaneamente durante il movimento.

  3. Sintesi congiunta video-audio: Poiché il modello apprende le rappresentazioni in modo nativo, può generare video e audio sincronizzati da un singolo immediate, un’attività in cui le rappresentazioni esterne “prese in prestito” spesso falliscono perché un codificatore di immagini non capisce il suono.

In termini di parametri quantitativi, Self-Move ha ottenuto risultati superiori rispetto ai valori di riferimento della concorrenza. Su Picture FID, il modello ha ottenuto un punteggio di 3,61 rispetto al 3,92 di REPA. Per il video (FVD), ha raggiunto 47,81 rispetto a 49,59 del REPA, e in audio (FAD), ha ottenuto 145,65 contro 148,87 della linea di base vanilla.

Dai pixel alla pianificazione: il percorso verso i modelli mondiali

L’annuncio si conclude con uno sguardo ai modelli mondiali: un’intelligenza artificiale che non si limita a generare belle immagini ma comprende la fisica e la logica di fondo di una scena di pianificazione e robotica.

Mettendo a punto una versione con parametri 675M di Self-Move sul set di dati robotici RT-1, i ricercatori hanno ottenuto tassi di successo significativamente più elevati in compiti complessi a più fasi nel simulatore SIMPLER. Mentre la corrispondenza del flusso normal ha avuto difficoltà con compiti complessi di “Apri e posiziona”, spesso fallendo completamente, il modello Self-Move ha mantenuto un tasso di successo costante, suggerendo che le sue rappresentazioni interne sono sufficientemente robuste per il ragionamento visivo del mondo reale.

Dettagli implementativi e ingegneristici

Per i ricercatori che desiderano verificare queste affermazioni, Black Forest Labs ha rilasciato una suite di inferenza su GitHub specifico per la generazione ImageNet 256×256. Il progetto, scritto principalmente in Python, prevede l’architettura del modello SelfFlowPerTokenDiT basato su SiT-XL/2.

Gli ingegneri possono utilizzare lo script pattern.py fornito per generare 50.000 immagini per la valutazione FID normal. Il repository evidenzia che una modifica architettonica chiave in questa implementazione è il condizionamento del passo temporale per token, che consente a ciascun token in una sequenza di essere condizionato dal suo specifico passo temporale di rumore. Durante l’addestramento, il modello ha utilizzato la precisione mista BFloat16 e l’ottimizzatore AdamW con ritaglio del gradiente per mantenere la stabilità.

Licenza e disponibilità

Black Forest Labs ha ha realizzato il documento di ricerca E codice di inferenza ufficiale disponibile tramite GitHub e il loro portale di ricerca. Anche se questa è attualmente un’anteprima della ricerca, il observe document dell’azienda con la famiglia di modelli FLUX suggerisce che queste innovazioni probabilmente troveranno la loro strada nelle loro API commerciali e nelle offerte open-weights nel prossimo futuro.

Per gli sviluppatori, l’abbandono degli encoder esterni rappresenta un enorme vantaggio in termini di efficienza. Elimina la necessità di gestire modelli separati e pesanti come DINOv2 durante l’addestramento, semplificando lo stack e consentendo una formazione più specializzata e specifica per dominio che non è legata alla comprensione “congelata” del mondo di qualcun altro.

Apprendimenti per i decisori e gli adottanti tecnici aziendali

Per le imprese, l’arrivo di Self-Move rappresenta un cambiamento significativo nell’analisi costi-benefici dello sviluppo dell’IA proprietaria.

Anche se i beneficiari più immediati sono le organizzazioni che preparano da zero modelli su larga scala, la ricerca dimostra che la tecnologia è altrettanto potente per la messa a punto dell’alta risoluzione. Poiché il metodo converge quasi tre volte più velocemente rispetto agli normal attuali, le aziende possono ottenere risultati all’avanguardia con una frazione del funds di elaborazione tradizionale.

Questa efficienza rende possibile per le aziende andare oltre le soluzioni generiche standardizzate e sviluppare modelli specializzati che siano profondamente allineati con i loro specifici domini di dati, sia che si tratti di imaging medico di nicchia o di dati di sensori industriali proprietari.

Le applicazioni pratiche di questa tecnologia si estendono a settori industriali advert alto rischio, in particolare alla robotica e ai sistemi autonomi. Sfruttando la capacità del framework di apprendere “modelli mondiali”, le imprese del settore manifatturiero e della logistica possono sviluppare modelli VLA (visione-linguaggio-azione) che possiedono una comprensione superiore dello spazio fisico e del ragionamento sequenziale.

Nei check di simulazione, Self-Move ha consentito ai controller robotici di eseguire con successo attività complesse che prevedono più oggetti, come aprire un cassetto per posizionare un oggetto al suo interno, laddove i modelli generativi tradizionali fallivano. Ciò suggerisce che la tecnologia è uno strumento fondamentale per qualsiasi azienda che cerca di colmare il divario tra la generazione di contenuti digitali e l’automazione fisica nel mondo reale.

Oltre ai miglioramenti in termini di prestazioni, Self-Move offre alle aziende un vantaggio strategico semplificando l’infrastruttura AI sottostante. La maggior parte dei sistemi generativi attuali sono modelli “Frankenstein” che richiedono codificatori semantici esterni complessi, spesso posseduti e concessi in licenza da terze parti.

Unificando rappresentazione e generazione in un’unica architettura, Self-Move consente alle aziende di eliminare queste dipendenze esterne, riducendo il debito tecnico ed eliminando i “colli di bottiglia” associati al ridimensionamento degli insegnanti di terze parti. Questa natura autonoma garantisce che, man mano che un’azienda ridimensiona il proprio calcolo e i propri dati, le prestazioni del modello crescano in modo prevedibile e di pari passo, fornendo un ROI più chiaro per gli investimenti nell’intelligenza artificiale a lungo termine.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here