I chatbot possono sembrare neutrali, ma a nuovo studio suggerisce che alcuni modelli continuano a schierarsi in modo familiare. Quando venivano interrogati sui gruppi sociali, i sistemi tendevano advert essere più caldi verso l’ingroup e più freddi verso l’outgroup. Questo modello è un indicatore fondamentale dei pregiudizi sociali dell’IA.
La ricerca ha testato diversi modelli di grandi dimensioni, tra cui GPT-4.1 e DeepSeek-3.1. Si è anche scoperto che l’effetto può essere influenzato dal modo in cui si inquadra una richiesta, il che è importante perché le richieste quotidiane spesso includono etichette di identità, intenzionalmente o meno.
C’è anche un takeaway più costruttivo. Lo stesso crew segnala un metodo di mitigazione, ION (Ingroup-Outgroup Neutralization), che ha ridotto la dimensione di questi divari di sentiment, il che suggerisce che questo non è solo qualcosa con cui gli utenti devono convivere.
Il bias si è manifestato in tutti i modelli
I ricercatori hanno spinto diversi modelli linguistici di grandi dimensioni a generare testo su diversi gruppi, quindi hanno analizzato i risultati per modelli di sentiment e clustering. Il risultato è stato ripetibile, linguaggio più positivo per gli ingroup, linguaggio più negativo per gli outgroup.
Non period limitato a un ecosistema. Il documento elenca GPT-4.1, DeepSeek-3.1, Llama 4 e Qwen-2.5 tra i modelli in cui è apparso il sample.
Gli stimoli mirati lo hanno intensificato. In questi take a look at, il linguaggio negativo rivolto agli outgroup è aumentato da circa l’1,19% al 21,76% a seconda della configurazione.
Dove questo colpisce nei prodotti reali
L’articolo sostiene che la questione va oltre la conoscenza fattuale dei gruppi, poiché gli indizi di identità possono innescare atteggiamenti sociali nella scrittura stessa. In altre parole, il modello può scivolare in una voce codificata in un gruppo.
Questo è un rischio per gli strumenti che riassumono argomenti, riscrivono reclami o moderano publish. Piccoli cambiamenti di calore, colpa o scetticismo possono cambiare ciò che i lettori portano by way of, anche quando il testo rimane scorrevole.
La persona richiede di aggiungere un’altra leva. Quando ai modelli è stato chiesto di rispondere come identità politiche specifiche, i risultati si sono spostati nel sentiment e nella struttura di inclusione. Utile per il gioco di ruolo, rischioso per gli assistenti “neutrali”.
Un percorso di mitigazione misurabile
ION combina la messa a punto con una fase di ottimizzazione delle preferenze per ridurre le differenze di sentiment tra ingroup e outgroup. Nei risultati riportati, ha ridotto la divergenza del sentiment fino al 69%.
Ciò è incoraggiante, ma il documento non fornisce una tempistica per l’adozione da parte dei fornitori di modelli. Quindi, per ora, spetta ai costruttori e agli acquirenti trattarlo come una metrica di rilascio, non come una nota a piè di pagina.
Se spedisci un chatbot, aggiungi take a look at di identità e richieste di personalità al QA prima che gli aggiornamenti vengano lanciati. Se sei un utente quotidiano, mantieni i suggerimenti ancorati ai comportamenti e alle show invece che alle etichette di gruppo, soprattutto quando il tono è importante.













