Home Tecnologia Forse, dopo tutto, gli agenti dell’intelligenza artificiale possono essere avvocati

Forse, dopo tutto, gli agenti dell’intelligenza artificiale possono essere avvocati

47
0

Il mese scorso ho scritto del nuovo benchmark di Mercor che misura le capacità degli agenti di intelligenza artificiale in compiti professionali come il diritto e l’analisi aziendale. All’epoca, i punteggi erano piuttosto bassi, con tutti i principali laboratori che ottenevano punteggi inferiori al 25%, quindi abbiamo concluso che gli avvocati erano al sicuro dallo spostamento dell’IA, almeno per ora.

Ma le capacità dell’intelligenza artificiale possono cambiare molto in un paio di settimane.

Il rilascio di Opus 4.6 di questa settimana ha scosso le classifichecon il nuovo modello di Anthropic che ha ottenuto un punteggio appena inferiore al 30% nelle show one-shot e una media del 45% quando si dà qualche ulteriore soluzione al problema. In particolare, il rilascio includeva una serie di nuove funzionalità di agenti, tra cui gli “sciami di agenti”, che potrebbero aver aiutato con questo tipo di risoluzione dei problemi in più fasi.

Indipendentemente da ciò, il punteggio rappresenta un enorme salto rispetto allo stato dell’arte precedente e un segno che i progressi sui modelli di base non stanno rallentando. Brendan Foody, amministratore delegato di Mercor, che è rimasto particolarmente colpito, ha affermato che “saltare dal 18,4% al 29,8% in pochi mesi è pazzesco”.

La classifica degli agenti APEX

Il 30% è ancora lontano dal 100%, quindi non è che gli avvocati debbano preoccuparsi di essere sostituiti dalle macchine la prossima settimana. Ma dovrebbero essere molto meno sicuri di quanto lo fossero il mese scorso!

fonte