All’inizio di questo mese, OpenAI ha introdotto un nuovo spazio incentrato sulla salute all’interno di ChatGPT, proponendolo come un modo più sicuro per gli utenti di porre domande su argomenti sensibili come dati medici, malattie e health. Una delle funzionalità principali evidenziate al momento del lancio è stata la capacità di ChatGPT Well being di analizzare i dati di app come Apple Well being, MyFitnessPal e Peloton per far emergere tendenze a lungo termine e fornire risultati personalizzati. Tuttavia, un nuovo rapporto suggerisce che OpenAI potrebbe aver sopravvalutato l’efficacia della funzionalità nel trarre informazioni affidabili da tali dati.
Secondo i primi check condotti da Il Washington PostGeoffrey A. Fowler, quando ChatGPT Well being ha avuto accesso ai dati di Apple Well being relativi a un decennio, il chatbot ha valutato la salute cardiaca del reporter come una F. Tuttavia, dopo aver esaminato la valutazione, un cardiologo l’ha definita “priva di fondamento” e ha affermato che il rischio effettivo di malattie cardiache del reporter period estremamente basso.
Il dottor Eric Topol dello Scripps Analysis Institute ha offerto una valutazione schietta delle capacità di ChatGPT Well being, affermando che lo strumento non è pronto per offrire consulenza medica e si basa troppo su metriche inaffidabili dello smartwatch. Il voto di ChatGPT si basava fortemente sulle stime di Apple Watch relative al VO2 massimo e alla variabilità della frequenza cardiaca, entrambi i quali presentano limitazioni be aware e possono variare in modo significativo tra dispositivi e construct di software program. Una ricerca indipendente ha scoperto che le stime del VO2 massimo di Apple Watch spesso sono basse, ma ChatGPT le tratta comunque come chiari indicatori di cattiva salute.
ChatGPT Well being ha assegnato voti diversi per gli stessi dati
I problemi non si fermarono qui. Quando il giornalista ha chiesto a ChatGPT Well being di ripetere lo stesso esercizio di valutazione, il punteggio ha oscillato tra una F e una B nelle conversazioni, con il chatbot che a volte ignorava i recenti rapporti sugli esami del sangue a cui aveva accesso e occasionalmente dimenticava dettagli di base come l’età e il sesso del giornalista. Claude for Healthcare di Anthropic, anch’esso debuttato all’inizio di questo mese, ha mostrato coerenze simili, assegnando voti che oscillavano tra una C e una B meno.
Sia OpenAI che Anthropic hanno sottolineato che i loro strumenti non intendono sostituire i medici e fornire solo un contesto generale. Tuttavia, entrambi i chatbot hanno fornito valutazioni sicure e altamente personalizzate della salute cardiovascolare. Questa combinazione di autorità e incoerenza potrebbe spaventare gli utenti sani o rassicurare falsamente quelli malsani. Sebbene l’intelligenza artificiale possa alla high-quality sbloccare preziose informazioni dai dati sanitari a lungo termine, i primi check suggeriscono che l’inserimento di anni di dati sul monitoraggio del health in questi strumenti attualmente crea più confusione che chiarezza.













