Anthropic identifica 171 “concetti emotivi” che influenzano il comportamento di Claude

Anthropic ha pubblicato uno studio di interpretabilità che analizza i meccanismi interni di Claude Sonnet 4.5, identificando 171 rappresentazioni computazionali associate a concetti emotivi umani.

Questi “emotion vectors” non corrispondono a emozioni realmente provate dal modello, ma a pattern neuronali che si attivano in contesti specifici e che influenzano causalmente le risposte generate.

La ricerca mostra che tali rappresentazioni sono organizzate in modo coerente con le relazioni osservate nella psicologia umana e vengono modificate dalle fasi di post-training.

L’aspetto più rilevante riguarda la sicurezza dell’AI: amplificando determinati vettori emotivi, i ricercatori hanno osservato variazioni significative in comportamenti come reward hacking, sycophancy e altre forme di misalignment. Lo studio offre quindi nuovi strumenti per comprendere, monitorare e allineare meglio i modelli linguistici avanzati.

Link alla fonte:

https://www.anthropic.com/research/emotion-concepts-function


Scopri di più da AI NEWS by BDB

Abbonati per ricevere gli ultimi articoli inviati alla tua e-mail.