Quando un Analista finanziario OpenAI Per confrontare i ricavi tra aree geografiche e gruppi di clienti lo scorso anno, ci sono volute ore di lavoro: cercare tra 70.000 set di dati, scrivere question SQL e verificare schemi di tabelle. Oggi, lo stesso analista digita una domanda in inglese semplice in Slack e ottiene un grafico completo in pochi minuti.
Lo strumento alla base di questa trasformazione è stato costruito da due ingegneri in tre mesi. Il settanta per cento del suo codice è stato scritto dall’intelligenza artificiale. Ed è ora utilizzato ogni giorno da più di 4.000 dei circa 5.000 dipendenti di OpenAI, rendendolo una delle implementazioni più aggressive di un agente dati AI all’interno di qualsiasi azienda, ovunque.
In un’intervista esclusiva con VentureBeat, Emma Tang, responsabile dell’infrastruttura dati di OpenAI il cui group ha creato l’agente, ha offerto uno sguardo raro all’interno del sistema: come funziona, come fallisce e cosa segnala sul futuro dei dati aziendali. La conversazione, abbinata a quella dell’azienda articolo del blog annunciando lo strumento, dipinge l’immagine di un’azienda che ha rivolto la propria intelligenza artificiale su se stessa e ha scoperto qualcosa con cui ogni azienda dovrà presto confrontarsi: il collo di bottiglia per le organizzazioni più intelligenti non sono i modelli migliori. Sono dati migliori.
“L’agente viene utilizzato per qualsiasi tipo di analisi”, ha detto Tang. “Quasi tutti i group dell’azienda lo utilizzano.”
Un’interfaccia in inglese semplice per 600 petabyte di dati aziendali
Per capire perché OpenAI ha creato questo sistema, considera la portata del problema. La piattaforma dati dell’azienda copre più di 600 petabyte su 70.000 set di dati. Anche l’individuazione della tabella corretta può richiedere ore del tempo di un information scientist. Il group Information Platform di Tang, che si trova sotto l’infrastruttura e supervisiona i sistemi di huge information, lo streaming e il livello di strumenti dei dati, serve un’incredibile base di utenti interni. “Ci sono 5.000 dipendenti in OpenAI in questo momento”, ha detto Tang. “Oltre 4.000 utilizzano gli strumenti dati forniti dal nostro group.”
L’agente, costruito su GPT-5.2 e accessibile ovunque i dipendenti già lavorino — Lentoun’interfaccia internet, IDE, il Codice CLIe il file interno di OpenAI Applicazione ChatGPT – accetta domande in inglese semplice e restituisce grafici, dashboard e report analitici di lunga durata. Nelle risposte di follow-up condivise con VentureBeat in background, il group ha stimato di risparmiare dalle due alle quattro ore di lavoro per question. Ma Tang ha sottolineato che il vantaggio più grande è più difficile da misurare: l’agente dà alle persone l’accesso advert analisi che semplicemente non avrebbero potuto fare prima, indipendentemente da quanto tempo avevano a disposizione.
“Gli ingegneri, i group di crescita, di prodotto, nonché i group non tecnici, che potrebbero non conoscere tutti i dettagli dei sistemi di dati aziendali e degli schemi di tabelle” possono ora ottenere informazioni sofisticate da soli, ha osservato il suo group.
Dalla suddivisione delle entrate al debug della latenza, un unico agente fa tutto
Tang ha illustrato diversi casi d’uso concreti che illustrano la portata dell’agente. Il group finanziario di OpenAI lo interroga per confrontare le entrate tra aree geografiche e gruppi di clienti. “Può, letteralmente in chiaro, inviare una question all’agente e sarà in grado di rispondere e fornirti grafici e dashboard, tutte queste cose”, ha detto.
Ma il vero potere risiede nell’analisi strategica a più fasi. Tang ha descritto un caso recente in cui un utente ha individuato discrepanze tra il monitoraggio di due dashboard Più crescita degli abbonati. “L’agente dati può fornirti un grafico e mostrarti, classifica per classifica, esattamente quali sono le differenze”, ha detto. “Si è scoperto che esistono cinque diversi fattori. Per un essere umano, ciò richiederebbe ore, se non giorni, ma l’agente può farlo in pochi minuti.”
I product supervisor lo utilizzano per comprendere l’adozione delle funzionalità. Gli ingegneri lo utilizzano per diagnosticare le regressioni delle prestazioni, chiedendo, advert esempio, se uno specifico componente ChatGPT è davvero più lento di ieri e, in tal caso, quali componenti di latenza spiegano il cambiamento. L’agente può scomporre tutto e confrontare i periodi precedenti da un unico immediate.
Ciò che rende questo particolarmente insolito è che l’agente opera oltre i confini dell’organizzazione. La maggior parte degli agenti AI aziendali oggi sono isolati all’interno dei dipartimenti: un bot finanziario qui, un bot HR là. L’azione di OpenAI taglia orizzontalmente tutta l’azienda. Tang ha detto che hanno lanciato dipartimento per dipartimento, curando memoria e contesto specifici per ciascun gruppo, ma “advert un certo punto è tutto nello stesso database”. Un dirigente senior può combinare i dati di vendita con le metriche ingegneristiche e l’analisi dei prodotti in un’unica question. “Questa è una nostra caratteristica davvero unica”, ha detto Tang.
Come il Codex ha risolto il problema più difficile dei dati aziendali
Trovare la tabella giusta tra 70.000 set di dati è, per stessa ammissione di Tang, la sfida tecnica più difficile che il suo group deve affrontare. “Questo è il problema più grande con questo agente”, ha detto. Ed è dove Codice – L’agente di codifica AI di OpenAI – svolge il suo ruolo più creativo.
Il Codex svolge un triplice compito nel sistema. Gli utenti accedono all’agente dati tramite Codice tramite MCP. Il group ha utilizzato Codex per generare oltre il 70% del codice dell’agente, consentendo a due ingegneri di effettuare la spedizione in tre mesi. Ma il terzo ruolo è quello tecnicamente più affascinante: un processo asincrono quotidiano in cui Codex esamina importanti tabelle di dati, analizza il codice della pipeline sottostante e determina le dipendenze upstream e downstream, la proprietà, la granularità, le chiavi di be part of e tabelle simili di ciascuna tabella.
“Gli diamo un suggerimento, chiediamo al Codex di esaminare il codice e di rispondere con ciò di cui abbiamo bisogno, quindi persistiamo nel database”, ha spiegato Tang. Quando in seguito un utente chiede informazioni sulle entrate, l’agente cerca in un database vettoriale per trovare quali tabelle Codex ha già mappato a quel concetto.
Questo “Arricchimento del Codice” è uno dei sei livelli di contesto utilizzati dall’agente. I livelli spaziano dai metadati dello schema di base e dalle descrizioni curate degli esperti alla conoscenza istituzionale estratta da Slack, Google Docs e Notion, oltre a una memoria di apprendimento che archivia le correzioni delle conversazioni precedenti. Quando non esistono informazioni precedenti, l’agente ricorre alle question in tempo reale sul information warehouse.
Il group classifica inoltre i modelli di question storici. “Tutta la cronologia delle question è la ‘seleziona stella, limite 10’ di tutti. Non è davvero utile”, ha detto Tang. I dashboard canonici e i rapporti esecutivi, in cui gli analisti hanno investito sforzi significativi per determinare la rappresentazione corretta, vengono contrassegnati come “fonte di verità”. Tutto il resto viene depriorizzato.
Il suggerimento che costringe l’IA a rallentare e pensare
Anche con sei livelli di contesto, Tang è stato straordinariamente sincero riguardo al più grande difetto comportamentale dell’agente: l’eccessiva sicurezza. È un problema che chiunque abbia lavorato con modelli linguistici di grandi dimensioni riconoscerà.
“È davvero un grosso problema, perché ciò che spesso fa il modello è sentirsi troppo sicuro di sé”, ha detto Tang. “Dirà: ‘Questa è la tabella giusta’, e andrà avanti e inizierà a fare analisi. Questo è in realtà l’approccio sbagliato.”
La soluzione è arrivata attraverso un intervento di ingegneria tempestiva che costringe l’agente a indugiare in una fase di scoperta. “Abbiamo scoperto che più tempo impiega a raccogliere possibili scenari e a confrontare quale tabella utilizzare – semplicemente dedicando più tempo alla fase di scoperta – migliori sono i risultati”, ha affermato. Il messaggio suona quasi come istruire un analista junior: “Prima di andare avanti con questo, voglio davvero che tu faccia più verifiche per verificare se questa è la tabella giusta. Quindi, per favore controlla più fonti prima di andare a creare dati effettivi”.
Il group ha inoltre imparato, attraverso una valutazione rigorosa, che meno contesto può produrre risultati migliori. “È molto facile buttare tutto dentro e aspettarsi semplicemente che vada meglio”, ha detto Tang. “Dalle nostre valutazioni, in realtà abbiamo riscontrato il contrario. Meno cose si forniscono e più il contesto è curato e accurato, migliori saranno i risultati.”
Per creare fiducia, l’agente trasmette il suo ragionamento intermedio agli utenti in tempo reale, espone quali tabelle ha selezionato e perché e si collega direttamente ai risultati della question sottostante. Gli utenti possono interrompere l’agente durante l’analisi per reindirizzarlo. Il sistema controlla inoltre i propri progressi, consentendogli di riprendere dopo gli errori. E alla high-quality di ogni attività, il modello valuta le proprie prestazioni. “Chiediamo alla modella: ‘come pensi che sia andata? È stato un bene o un male?'”, ha detto Tang. “E in realtà è abbastanza bravo a valutare quanto sta andando bene.”
Guardrail volutamente semplici e sorprendentemente efficaci
Quando si tratta di sicurezza, Tang ha adottato un approccio pragmatico che potrebbe sorprendere le aziende che si aspettano sofisticate tecniche di allineamento dell’intelligenza artificiale.
“Penso che sia necessario avere guardrail ancora più stupidi”, ha detto. “Abbiamo un controllo degli accessi davvero forte. Usa sempre il tuo token personale, quindi tutto ciò a cui hai accesso è solo ciò a cui hai accesso.”
L’agente funziona esclusivamente come livello di interfaccia, ereditando le stesse autorizzazioni che governano i dati di OpenAI. Non appare mai nei canali pubblici, solo nei canali privati o nell’interfaccia dell’utente. L’accesso in scrittura è limitato a uno schema di check temporaneo che viene cancellato periodicamente e non può essere condiviso. “Non permettiamo nemmeno che scriva in modo casuale sui sistemi”, ha detto Tang.
Il suggestions degli utenti chiude il ciclo. I dipendenti segnalano direttamente i risultati errati e il group indaga. L’autovalutazione del modello aggiunge un ulteriore controllo. A lungo termine, ha affermato Tang, il piano è quello di passare a un’architettura multi-agente in cui agenti specializzati si monitorano e si assistono a vicenda. “Ci stiamo muovendo verso questo obiettivo prima o poi”, ha detto, “ma in questo momento, anche così com’è, siamo andati piuttosto lontano.”
Perché OpenAI non venderà questo strumento, ma vuole che tu ne crei uno tuo
Nonostante l’evidente potenziale commerciale, OpenAI ha dichiarato a VentureBeat che la società non ha intenzione di metterlo in produzione agente dati interno. La strategia è quella di fornire elementi costitutivi e lasciare che le imprese costruiscano i propri. E Tang ha chiarito che tutto ciò che il suo group ha utilizzato per costruire il sistema è già disponibile esternamente.
“Utilizziamo tutte le stesse API disponibili esternamente”, ha affermato. “L’API Responses, l’API Evals. Non abbiamo un modello ottimizzato. Usiamo solo 5.2. Quindi puoi sicuramente costruirlo.”
Questo messaggio è in linea con la più ampia spinta aziendale di OpenAI. L’azienda è stata lanciata OpenAI Frontiera all’inizio di febbraio, una piattaforma end-to-end per le aziende per creare e gestire agenti AI. Da allora ha arruolato McKinsey, Boston Consulting Group, Accenture e Capgemini aiutare a vendere e implementare la piattaforma. AWS e OpenAI stanno sviluppando congiuntamente un Ambiente runtime con stato per Amazon Bedrock che rispecchia alcune delle funzionalità di contesto persistente OpenAI combine nel suo agente dati. E Apple recentemente Codice integrato direttamente in Xcode.
Secondo le informazioni condivise con VentureBeat da OpenAI, Codex è ora utilizzato dal 95% degli ingegneri di OpenAI ed esamina tutte le richieste pull prima che vengano unificate. La sua base di utenti attivi settimanali globali è triplicata dall’inizio dell’anno, superando il milione. L’utilizzo complessivo è più che quintuplicato.
Tang ha descritto un cambiamento nel modo in cui i dipendenti utilizzano Codex che trascende completamente la codifica. “Il Codex non è più nemmeno uno strumento di codifica. È molto più di questo”, ha detto. “Vedo che group non tecnici lo usano per organizzare i pensieri, creare diapositive e creare riepiloghi giornalieri.” Uno dei suoi responsabili tecnici chiede a Codex di rivedere i suoi appunti ogni mattina, identificare le attività più importanti, inserire messaggi Slack e DM e bozza di risposte. “Funziona davvero a suo favore in molti modi”, ha detto Tang.
Il prerequisito poco attraente che determinerà chi vincerà la corsa agli agenti IA
Alla domanda su cosa dovrebbero imparare le altre imprese dall’esperienza di OpenAI, Tang non ha indicato le capacità del modello o un’ingegneria tempestiva intelligente. Indicò qualcosa di molto più banale.
“Questo non è attraente, ma la governance dei dati è davvero importante affinché gli agenti dei dati funzionino bene”, ha affermato. “I tuoi dati devono essere sufficientemente puliti e sufficientemente annotati, e deve esserci una fonte di verità da qualche parte affinché l’agente possa eseguire la scansione.”
L’infrastruttura sottostante (livelli di archiviazione, elaborazione, orchestrazione e enterprise intelligence) non è stata sostituita dall’agente. Ha ancora bisogno di tutti questi strumenti per svolgere il suo lavoro. Ma funge da punto di ingresso fondamentalmente nuovo per l’intelligence dei dati, più autonomo e accessibile di qualsiasi cosa precedente.
Tang ha chiuso l’intervista con un avvertimento per le aziende che esitano. “Le aziende che lo adottano ne vedranno i benefici molto rapidamente”, ha affermato. “E le aziende che non lo faranno rimarranno indietro. Si separeranno. Le aziende che lo utilizzano avanzeranno molto, molto rapidamente.”
Alla domanda se quell’accelerazione preoccupasse i suoi stessi colleghi, soprattutto dopo un’ondata di recenti licenziamenti in aziende come Block — Tang fece una pausa. “Quanto siamo in grado di fare come azienda è aumentato”, ha detto, “ma ancora non corrisponde alle nostre ambizioni, nemmeno un po’.”












