Anthropic ha pubblicato uno studio di interpretabilità che analizza i meccanismi interni di Claude Sonnet 4.5, identificando 171 rappresentazioni computazionali associate a concetti emotivi umani.
Questi “emotion vectors” non corrispondono a emozioni realmente provate dal modello, ma a pattern neuronali che si attivano in contesti specifici e che influenzano causalmente le risposte generate.
La ricerca mostra che tali rappresentazioni sono organizzate in modo coerente con le relazioni osservate nella psicologia umana e vengono modificate dalle fasi di post-training.
L’aspetto più rilevante riguarda la sicurezza dell’AI: amplificando determinati vettori emotivi, i ricercatori hanno osservato variazioni significative in comportamenti come reward hacking, sycophancy e altre forme di misalignment. Lo studio offre quindi nuovi strumenti per comprendere, monitorare e allineare meglio i modelli linguistici avanzati.
Link alla fonte:
https://www.anthropic.com/research/emotion-concepts-function
