Home Tecnologia Come il nuovo modo di DeepSeek di addestrare modelli IA avanzati potrebbe...

Come il nuovo modo di DeepSeek di addestrare modelli IA avanzati potrebbe sconvolgere tutto, ancora una volta

60
0

Flavio Coelho/ Momento through Getty

Segui ZDNET: Aggiungici come fonte preferita su Google.


I principali punti salienti di ZDNET

  • DeepSeek ha debuttato con le Hyper-Connections Manifold-Constrained, o MHC.
  • Offrono un modo per ridimensionare i LLM senza incorrere in costi enormi.
  • L’azienda ha rinviato il rilascio del suo modello R2 a metà del 2025.

Poco prima dell’inizio del nuovo anno, al mondo dell’intelligenza artificiale è stato presentato un nuovo metodo potenzialmente rivoluzionario per l’addestramento di modelli avanzati.

Mercoledì un group di ricercatori della società cinese di intelligenza artificiale DeepSeek ha pubblicato un documento che delinea ciò che chiama Hyper-Connections Manifold-Constrained, o MHC in breve, che può fornire agli ingegneri un percorso per costruire e scalare modelli linguistici di grandi dimensioni senza gli enormi costi computazionali tipicamente richiesti.

Inoltre: il nuovo modello di DeepSeek è l’ultimo colpo all’intelligenza artificiale proprietaria?

DeepSeek è balzato alla ribalta culturale un anno fa con il rilascio di R1, un modello che rivaleggiava con le capacità di o1 di OpenAI e che, secondo quanto riferito, è stato addestrato a una frazione del costo. Il rilascio è stato uno shock per gli sviluppatori tecnologici con sede negli Stati Uniti, perché ha dimostrato che l’accesso a enormi riserve di capitale e risorse informatiche non period necessariamente necessario per addestrare modelli di intelligenza artificiale all’avanguardia.

Il nuovo MLa carta HC potrebbe rivelarsi la struttura tecnologica per il prossimo modello di DeepSeek, R2, previsto per la metà dello scorso anno ma è stato rinviato, secondo quanto riferito a causa dell’accesso limitato della Cina ai chip IA avanzati e alle preoccupazioni del CEO dell’azienda Liang Wenfeng riguardo alle prestazioni del modello.

La sfida

Pubblicato sul sito del server di prestampa arXiv, una popolare risorsa on-line in cui i ricercatori possono condividere i risultati degli studi che devono ancora essere sottoposti a revisione paritaria, il nuovo carta è un tentativo di colmare un divario tecnico complesso e importante che ostacola la scalabilità dei modelli di intelligenza artificiale.

Inoltre: l’ultima versione open supply di Mistral scommette sui modelli più piccoli rispetto a quelli più grandi: ecco perché

Gli LLM sono basati su reti neurali, che a loro volta sono progettate per conservare i segnali su più livelli. Il problema è che più strati vengono aggiunti, più il segnale può attenuarsi o degradarsi e maggiore è il rischio che si trasformi in rumore. È un po’ come giocare al telefono: più persone si aggiungono, maggiori sono le possibilità che il messaggio originale venga confuso e alterato.

La sfida principale, quindi, è costruire modelli in grado di conservare i loro segnali su quanti più strati possibile o di “ottimizzare meglio il compromesso tra plasticità e stabilità”, come lo descrivono i ricercatori di DeepSeek nel loro nuovo articolo.

La soluzione

Gli autori del nuovo articolo, tra cui il CEO di DeepSeek Liang Wenfeng, si stavano basando su ciò iperconnessionio HC, un framework introdotto nel 2024 dai ricercatori di ByteDance, che diversifica il numero di canali attraverso i quali gli strati di una rete neurale possono condividere informazioni tra loro. Gli HC introducono il rischio, tuttavia, che il segnale originale si perda nella traduzione. (Ancora una volta, pensa a sempre più persone che vengono aggiunte al gioco del telefono.) Inoltre comportano costi di memoria elevati, che li rendono difficili da implementare su larga scala.

Inoltre: DeepSeek potrebbe essere sul punto di scuotere di nuovo il mondo dell’intelligenza artificiale, quello che sappiamo

IL ML’architettura HC mira a risolvere questo problema limitando l’iperconnettività all’interno di un modello, preservando così la complessità informativa consentita dagli HC ed evitando il problema della memoria. Ciò, a sua volta, potrebbe consentire la formazione di modelli altamente complessi in un modo che potrebbe essere pratico e scalabile anche per gli sviluppatori più piccoli e a corto di soldi.

Perché è importante

Proprio come con la versione di gennaio 2025 di R1, il debutto del MIl quadro HC potrebbe suggerire una nuova direzione per l’evoluzione dell’intelligenza artificiale.

Finora, nella corsa all’intelligenza artificiale, l’opinione prevalente è stata che solo le aziende più grandi e ricche possono permettersi di costruire modelli di frontiera. Ma DeepSeek ha continuamente dimostrato che soluzioni various sono possibili e che i progressi possono essere raggiunti esclusivamente attraverso un’ingegneria intelligente.

Il fatto che l’azienda abbia pubblicato la sua nuova ricerca al riguardo MIl metodo HC significa che potrebbe essere ampiamente adottato dagli sviluppatori più piccoli, in particolare se finisse per essere utilizzato dal tanto atteso modello R2 (la cui information di rilascio non è stata ufficialmente annunciata).



fonte