Sono passati quasi due anni da quando il CEO di Microsoft Satya Nadella aveva previsto L’intelligenza artificiale sostituirebbe il lavoro basato sulla conoscenza – i lavori impiegatizi ricoperti da avvocati, banchieri di investimento, bibliotecari, contabili, IT e altri.
Ma nonostante gli enormi progressi compiuti dai modelli di fondazione, il cambiamento nel lavoro basato sulla conoscenza ha tardato advert arrivare. I modelli hanno padroneggiato la ricerca approfondita e la pianificazione agenziale, ma, per qualsiasi motivo, la maggior parte del lavoro dei colletti bianchi è rimasto relativamente inalterato.
È uno dei più grandi misteri dell’intelligenza artificiale e, grazie a una nuova ricerca condotta dal colosso dei dati di addestramento Mercor, stiamo finalmente ottenendo alcune risposte.
La nuova ricerca esamina il modo in cui i principali modelli di intelligenza artificiale riescono a svolgere reali compiti di lavoro dei colletti bianchi, tratti dalla consulenza, dall’funding banking e dal diritto. Il risultato è un nuovo benchmark chiamato Agenti APEX – e finora, ogni laboratorio di intelligenza artificiale sta ottenendo un voto negativo. Di fronte alle domande di veri professionisti, anche i migliori modelli hanno faticato a rispondere correttamente a più di un quarto delle domande. Nella stragrande maggioranza delle volte, il modello è tornato con una risposta sbagliata o nessuna risposta.
Secondo il ricercatore Brendan Foody, che ha lavorato allo studio, il più grande ostacolo dei modelli è stato il rintracciamento di informazioni in più domini, qualcosa che è parte integrante della maggior parte del lavoro di conoscenza svolto dagli esseri umani.
“Uno dei grandi cambiamenti in questo benchmark è che abbiamo costruito l’intero ambiente, modellato sui servizi professionali reali”, ha detto Foody a TechCrunch. “Il modo in cui svolgiamo il nostro lavoro non è con un individuo che ci fornisce tutto il contesto in un unico posto. Nella vita reale, operi su Slack, Google Drive e tutti questi altri strumenti.” Per molti modelli di IA agenti, questo tipo di ragionamento multi-dominio è ancora incostante.
Gli scenari sono stati tutti elaborati da veri professionisti del mercato degli esperti di Mercor, che hanno formulato le domande e stabilito lo commonplace per una risposta efficace. Esaminando le domande, che sono pubblicato pubblicamente su Hugging Facedà un’thought di quanto possano diventare complessi i compiti.
Evento Techcrunch
San Francisco
|
13-15 ottobre 2026
Una domanda nella sezione “Legge” recita:
Durante i primi 48 minuti dell’interruzione della produzione nell’UE, il staff di ingegneri di Northstar ha esportato uno o due set di registri di eventi di produzione dell’UE contenenti dati personali al fornitore di analisi statunitense… Secondo le politiche di Northstar, può ragionevolmente considerare le esportazioni di uno o due registri come conformi all’Articolo 49?
La risposta corretta è sì, ma per arrivarci è necessaria una valutazione approfondita delle politiche aziendali e delle pertinenti leggi sulla privateness dell’UE.
Ciò potrebbe sconcertare anche un essere umano ben informato, ma i ricercatori stavano cercando di modellare il lavoro svolto dai professionisti del settore. Se un LLM potesse rispondere in modo affidabile a queste domande, potrebbe effettivamente sostituire molti degli avvocati che lavorano oggi. “Penso che questo sia probabilmente l’argomento più importante nell’economia”, ha detto Foody a TechCrunch. “Il benchmark riflette molto il lavoro reale svolto da queste persone”.
OpenAI ha anche tentato di misurare le competenze professionali con il suo benchmark GDPVal – ma il check degli agenti Apex differisce in modi importanti. Laddove GDPVal mette alla prova la conoscenza generale di un’ampia gamma di professioni, il benchmark Apex Brokers misura la capacità del sistema di svolgere compiti prolungati in un insieme ristretto di professioni di alto valore. Il risultato è più difficile per i modelli, ma anche più strettamente legato alla possibilità di automatizzare questi lavori.
Sebbene nessuno dei modelli si sia dimostrato pronto a subentrare come banchiere d’investimento, alcuni erano chiaramente più vicini all’obiettivo. Gemini 3 Flash ha ottenuto il risultato migliore del gruppo con una precisione one-shot del 24%, seguito da vicino da GPT-5.2 con il 23%. Al di sotto di questo, Opus 4.5, Gemini 3 Professional e GPT-5 hanno ottenuto tutti circa il 18%.
Sebbene i risultati iniziali siano inferiori, il campo dell’intelligenza artificiale ha una storia di superamento di parametri di riferimento impegnativi. Ora che il check Apex è pubblico, è una sfida aperta per i laboratori di intelligenza artificiale che credono di poter fare meglio, qualcosa che Foody si aspetta pienamente nei mesi a venire.
“Sta migliorando molto rapidamente”, ha detto a TechCrunch. “In questo momento è giusto dire che è come uno stagista che riesce a fare bene un quarto delle volte, ma l’anno scorso è stato il tirocinante a fare bene il cinque o il dieci per cento delle volte. Questo tipo di miglioramento, anno dopo anno, può avere un impatto molto rapido.”
]











