Home Tecnologia OpenAI implementa i chip Cerebras per una generazione di codice 15 volte...

OpenAI implementa i chip Cerebras per una generazione di codice 15 volte più veloce nel primo importante passo avanti oltre Nvidia

15
0

OpenAI giovedì lanciato GPT-5.3-Codice-Sparkun modello di codifica ridotto al minimo progettato per tempi di risposta quasi istantanei, che segna la prima significativa partnership di inferenza dell’azienda al di fuori della sua tradizionale infrastruttura dominata da Nvidia. Il modello funziona su {hardware} da Sistemi cerebraliun produttore di chip con sede a Sunnyvale i cui processori su scala wafer sono specializzati in carichi di lavoro AI a bassa latenza.

La partnership arriva in un momento cruciale per OpenAI. L’azienda si ritrova a navigare in un rapporto logoro con il fornitore di chip di lunga knowledge Nvidia, critiche crescenti per la sua decisione di introdurre annunci pubblicitari in ChatGPT, una decisione appena annunciata Contratto del Pentagonoe sconvolgimenti organizzativi interni che hanno visto a la squadra focalizzata sulla sicurezza è stata sciolta e almeno un ricercatore dimettersi per protesta.

“Le GPU rimangono fondamentali nelle nostre pipeline di formazione e inferenza e forniscono i token più convenienti per un ampio utilizzo”, ha detto a VentureBeat un portavoce di OpenAI. “Cerebras completa queste fondamenta eccellendo nei flussi di lavoro che richiedono una latenza estremamente bassa, restringendo il ciclo end-to-end in modo che casi d’uso come la codifica in tempo reale in Codex risultino più reattivi durante l’iterazione.”

L’attenta inquadratura, sottolineando che le GPU “rimangono fondamentali” mentre posizionano Cerebras come un “complemento”, sottolinea il delicato equilibrio che OpenAI deve raggiungere mentre diversifica i suoi fornitori di chip senza alienare Nvidiala forza dominante negli acceleratori IA.

I guadagni di velocità comportano compromessi in termini di capacità che OpenAI afferma che gli sviluppatori accetteranno

Codice-Scintilla rappresenta il primo modello di OpenAI creato appositamente per la collaborazione di codifica in tempo reale. L’azienda afferma che il modello offre velocità di generazione 15 volte più veloci rispetto al suo predecessore, anche se ha rifiutato di fornire parametri di latenza specifici come il tempo al primo token o i token al secondo.

“Non siamo in grado di condividere numeri di latenza specifici, tuttavia Codex-Spark è ottimizzato per sembrare quasi istantaneo, offrendo velocità di generazione 15 volte più elevate pur rimanendo altamente capace per attività di codifica nel mondo reale”, ha affermato il portavoce di OpenAI.

I miglioramenti in termini di velocità derivano da compromessi in termini di capacità riconosciuti. SU SWE-Panca Pro E Terminale-Bench 2.0 — due parametri di riferimento del settore che valutano la capacità dei sistemi di intelligenza artificiale di eseguire compiti complessi di ingegneria del software program in modo autonomo — Codex-Spark ha prestazioni inferiori rispetto alla media Modello GPT-5.3-Codice. OpenAI lo considera uno scambio accettabile: gli sviluppatori ottengono risposte abbastanza velocemente da mantenere il flusso creativo, anche se il modello sottostante non è in grado di affrontare le sfide di programmazione in più fasi più sofisticate.

Il modello viene avviato con una finestra di contesto da 128.000 token e supporta solo testo, senza immagini o enter multimodali. OpenAI lo ha reso disponibile come anteprima della ricerca ChatGPT Pro abbonati tramite l’app Codex, l’interfaccia della riga di comando e l’estensione Visible Studio Code. Un piccolo gruppo di accomplice aziendali riceverà l’accesso API per valutare le possibilità di integrazione.

“Stiamo realizzando Codice-Scintilla disponibile nell’API per un piccolo gruppo di accomplice di progettazione per capire come gli sviluppatori desiderano integrare Codex-Spark nei loro prodotti”, ha spiegato il portavoce. “Amplieremo l’accesso nelle prossime settimane mentre continuiamo a ottimizzare la nostra integrazione con carichi di lavoro reali.”

L'{hardware} Cerebras elimina i colli di bottiglia che affliggono i cluster GPU tradizionali

L’architettura tecnica dietro Codice-Scintilla racconta una storia sull’economia dell’inferenza che diventa sempre più importante man mano che le aziende di intelligenza artificiale scalano i prodotti rivolti al consumatore. Quello di Cerebras Motore in scala wafer 3 – un singolo chip delle dimensioni di un piatto piano contenente 4 trilioni di transistor – elimina gran parte del sovraccarico di comunicazione che si verifica quando i carichi di lavoro dell’intelligenza artificiale si diffondono su cluster di processori più piccoli.

Per l’addestramento di modelli di grandi dimensioni, questo approccio distribuito rimane necessario e le GPU di Nvidia eccellono in questo. Ma per l’inferenza – il processo di generazione di risposte alle domande degli utenti – Cerebras sostiene che la sua architettura può fornire risultati con una latenza notevolmente inferiore. Sean Lie, CTO e cofondatore di Cerebras, ha definito la partnership come un’opportunità per rimodellare il modo in cui gli sviluppatori interagiscono con i sistemi di intelligenza artificiale.

“Ciò che ci entusiasma di più di GPT-5.3-Codex-Spark è la collaborazione con OpenAI e la comunità di sviluppatori per scoprire cosa rende possibile l’inferenza veloce: nuovi modelli di interazione, nuovi casi d’uso e un’esperienza di modello fondamentalmente diversa”, ha affermato Lie in una nota. “Questa anteprima è solo l’inizio.”

Il crew dell’infrastruttura di OpenAI non ha limitato il proprio lavoro di ottimizzazione all'{hardware} Cerebras. L’azienda ha annunciato miglioramenti della latenza nell’intero stack di inferenza a vantaggio di tutti i modelli Codex indipendentemente dall'{hardware} sottostante, incluso quello persistente Connessioni WebSocket e ottimizzazioni all’interno di API di risposta. I risultati: riduzione dell’80% del sovraccarico per andata e ritorno client-server, riduzione del 30% del sovraccarico per token e riduzione del 50% del tempo necessario per ottenere il primo token.

Un mega accordo da 100 miliardi di dollari con Nvidia è andato silenziosamente in pezzi dietro le quinte

La partnership con Cerebras assume ulteriore significato dato il rapporto sempre più complicato tra OpenAI E Nvidia. Lo scorso autunno, quando OpenAI annunciò la sua Portale stellare iniziativa infrastrutturale a cui Nvidia si è impegnata pubblicamente investendo 100 miliardi di dollari per supportare OpenAI mentre costruiva l’infrastruttura AI. L’annuncio sembrava cementare un’alleanza strategica tra la società di intelligenza artificiale più preziosa al mondo e il suo fornitore di chip dominante.

Cinque mesi dopo, il mega accordo è di fatto in fase di stallo, secondo multiplo rapporti. Il CEO di Nvidia Jensen Huang ha negato pubblicamente le tensioni, dicendo ai giornalisti a high quality gennaio che esiste “nessun dramma” e che Nvidia rimane impegnata a partecipare all’attuale spherical di finanziamento di OpenAI. Ma il rapporto si è notevolmente raffreddato, con attriti derivanti da molteplici fonti.

OpenAI ha perseguito in modo aggressivo partnership con fornitori di chip alternativi, tra cui Cerebri trattare e accordi separati con AMD E Broadcom. Dal punto di vista di Nvidia, OpenAI potrebbe usare la sua influenza per mercificare proprio l'{hardware} che ha reso possibili le sue scoperte sull’intelligenza artificiale. Dal punto di vista di OpenAI, ridurre la dipendenza da un unico fornitore rappresenta una strategia aziendale prudente.

“Continueremo a lavorare con l’ecosistema per valutare i chip con il miglior rapporto qualità-prezzo in tutti i casi d’uso su base continuativa”, ha detto a VentureBeat il portavoce di OpenAI. “Le GPU rimangono la nostra priorità per i casi d’uso sensibili ai costi e incentrati sul throughput nella ricerca e nell’inferenza.” La dichiarazione si legge come un attento sforzo per evitare di inimicarsi Nvidia preservando la flessibilità e riflette una realtà più ampia secondo cui l’addestramento dei modelli di intelligenza artificiale di frontiera richiede ancora esattamente il tipo di massiccia elaborazione parallela fornita dalle GPU Nvidia.

Lo scioglimento dei crew di sicurezza e la partenza dei ricercatori sollevano interrogativi sulle priorità di OpenAI

IL Codice-Scintilla il lancio avviene mentre OpenAI affronta una serie di sfide interne che hanno intensificato il controllo della direzione e dei valori dell’azienda. All’inizio di questa settimana, sono emersi rapporti secondo cui OpenAI ha sciolto la sua squadra di allineamento alla missioneun gruppo fondato nel settembre 2024 per promuovere l’obiettivo dichiarato dell’azienda di garantire che l’intelligenza artificiale generale avvantaggi l’umanità. I sette membri del crew sono stati riassegnati advert altri ruoli, con il chief Joshua Achiam che ha ricevuto un nuovo titolo come “capo futurista” di OpenAI.

OpenAI in precedenza ha sciolto un altro gruppo focalizzato sulla sicurezzail crew di superallineamento, nel 2024. Quel crew si period concentrato sui rischi esistenziali a lungo termine derivanti dall’IA. Il modello di scioglimento dei crew orientati alla sicurezza ha attirato critiche da parte dei ricercatori che sostengono che le pressioni commerciali di OpenAI stanno travolgendo la sua missione originale senza scopo di lucro.

L’azienda deve anche affrontare le conseguenze della sua decisione di introdurre annunci pubblicitari in ChatGPT. Ricercatore Zoë Hitzig si è dimessa questa settimana su quella che ha descritto come la “pendenza scivolosa” dell’intelligenza artificiale supportata dalla pubblicità, avvertendo in un saggio del New York Occasions che l’archivio di conversazioni intime degli utenti di ChatGPT crea opportunità di manipolazione senza precedenti. Anthropic ha colto l’occasione della polemica con a Campagna pubblicitaria del Super Bowl con lo slogan: “La pubblicità sta arrivando all’intelligenza artificiale. Ma non a Claude”.

Separatamente, l’azienda ha accettato di fornire ChatGPT al Pentagono Attraverso Genai.milun nuovo programma del Dipartimento della Difesa che richiede che OpenAI consenta “tutti gli usi legali” senza restrizioni imposte dall’azienda, termini che, secondo quanto riferito, Anthropic ha rifiutato. E sono emerse notizie secondo cui Ryan Beiermeister, vicepresidente della politica di prodotto di OpenAI che aveva espresso preoccupazione per una funzionalità di contenuto esplicito pianificata, è stato licenziato a gennaio a seguito di un’accusa di discriminazione che lei nega.

OpenAI prevede assistenti di codifica AI che si destreggiano tra modifiche rapide e attività autonome complesse

Nonostante le turbolenze circostanti, la tabella di marcia tecnica di OpenAI per il Codex suggerisce piani ambiziosi. L’azienda immagina un assistente di codifica che combini perfettamente il rapido enhancing interattivo con attività autonome di lunga durata: un’intelligenza artificiale che gestisce soluzioni rapide orchestrando contemporaneamente più agenti che lavorano su problemi più complessi in background.

“Col tempo, le modalità si fonderanno: Codex può mantenerti in uno stretto ciclo interattivo delegando il lavoro di lunga durata a sub-agenti in background o distribuendo attività a molti modelli in parallelo quando desideri ampiezza e velocità, quindi non devi scegliere una singola modalità in anticipo”, ha detto il portavoce di OpenAI a VentureBeat.

Questa visione richiederebbe non solo un’inferenza più rapida, ma anche una sofisticata scomposizione e coordinamento dei compiti tra modelli di numerous dimensioni e capacità. Codice-Scintilla stabilisce le basi a bassa latenza per la parte interattiva di story esperienza; le versioni future dovranno fornire il ragionamento autonomo e il coordinamento multi-agente che renderebbero possibile la visione completa.

Per ora, Codice-Scintilla opera con limiti di velocità separati da altri modelli OpenAI, riflettendo la capacità infrastrutturale limitata di Cerebras durante l’anteprima della ricerca. “Poiché funziona su {hardware} specializzato a bassa latenza, l’utilizzo è regolato da un limite di velocità separato che può adattarsi in base alla domanda durante l’anteprima della ricerca”, ha osservato il portavoce. I limiti sono progettati per essere “generosi”, con OpenAI che monitora i modelli di utilizzo mentre determina come scalare.

Il vero check è se risposte più rapide si traducono in un software program migliore

IL Annuncio del Codex-Spark arriva nel mezzo di un’intensa concorrenza per gli strumenti di sviluppo basati sull’intelligenza artificiale. Il prodotto Claude Cowork di Anthropic ha innescato un svendita dei titoli software tradizionali la scorsa settimana, quando gli investitori hanno valutato se gli assistenti AI potessero sostituire le applicazioni aziendali convenzionali. Microsoft, GoogleE Amazzonia continuare a investire massicciamente nelle capacità di codifica AI combine con le rispettive piattaforme cloud.

L’app Codex di OpenAI ha dimostrato una rapida adozione sin dal suo lancio dieci giorni fa, con oltre un milione di obtain e utenti attivi settimanali in crescita del 60% settimana su settimana. Più di 325.000 sviluppatori ora utilizzano attivamente Codex sia a livello gratuito che a pagamento. Ma la domanda fondamentale che OpenAI – e il settore dell’intelligenza artificiale in generale – deve affrontare è se i miglioramenti in termini di velocità siano come quelli promessi Codice-Scintilla tradursi in significativi guadagni di produttività o semplicemente creare esperienze più piacevoli senza modificare i risultati.

Le prime show provenienti dagli strumenti di codifica dell’intelligenza artificiale suggeriscono che risposte più rapide incoraggiano una sperimentazione più iterativa. Se story sperimentazione produca software program migliore rimane oggetto di controversia sia tra i ricercatori che tra i professionisti. Ciò che sembra chiaro è che OpenAI considera la latenza di inferenza come una frontiera competitiva che merita un investimento sostanziale, anche se story investimento porta oltre la sua tradizionale partnership con Nvidia in un territorio non testato con fornitori di chip alternativi.

L’accordo con Cerebras è una scommessa calcolata sul fatto che l'{hardware} specializzato può sbloccare casi d’uso che le GPU generiche non possono servire in modo economicamente vantaggioso. Per un’azienda che combatte contemporaneamente i concorrenti, gestisce rapporti tesi con i fornitori e resiste al dissenso interno sulla sua direzione commerciale, è anche un promemoria che nella corsa all’intelligenza artificiale, restare fermi non è un’opzione. OpenAI ha costruito la sua reputazione muovendosi velocemente e rompendo le convenzioni. Ora deve dimostrare di potersi muovere ancora più velocemente, senza rompersi.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here