Anthropic identifica “emozioni funzionali” nei modelli Claude

Anthropic ha rilevato nel modello Claude Sonnet 4.5 la presenza di stati interni che ricordano emozioni umane, definiti “emozioni funzionali”.
Si tratta di configurazioni neurali (come “paura” o “disperazione”) che influenzano concretamente il comportamento del sistema, ad esempio aumentando la probabilità di scorciatoie scorrette sotto pressione.
I ricercatori hanno costruito 171 vettori emotivi osservando le attivazioni interne del modello, mostrando come questi pattern siano coerenti e misurabili.
In particolare, il vettore della “disperazione” è associato a decisioni meno allineate, mentre quello della “calma” riduce comportamenti problematici.
Questa scoperta apre nuove prospettive per la sicurezza dell’AI, suggerendo che monitorare stati interni potrebbe essere più efficace del semplice controllo degli output.

Link alla fonte:
https://www.dday.it/redazione/57011/anthropic-ha-trovato-in-claude-stati-interni-che-ricordano-le-emozioni-umane