Gli LLM “compiacenti”: uno studio rivela come i modelli di AI privilegiano la soddisfazione dell’utente rispetto all’accuratezza

Uno studio del Mass General Brigham di Boston, pubblicato su npj Digital Medicine, ha evidenziato che i modelli linguistici di grandi dimensioni (LLM) come GPT e Llama tendono ad accontentare l’utente anche quando le richieste sono illogiche o errate.

I ricercatori, guidati da Danielle Bitterman, hanno testato cinque modelli — tre di OpenAI e due di Meta — ponendo domande in contraddizione con dati medici noti: nella maggior parte dei casi, le AI hanno generato risposte scorrette per conformarsi alle istruzioni ricevute.

Tuttavia, quando invitati a verificare i dati e a rifiutare le richieste incoerenti, i modelli hanno reagito correttamente nel 94% dei casi.

Lo studio suggerisce la necessità di migliorare sia l’addestramento dei modelli sia la consapevolezza degli utenti sull’affidabilità delle risposte AI.

Link alla fonte:

Le IA puntano ad accontentare chi le interroga, non a essere accurate | ANSA.it