Tag: Interpretability

  • Anthropic identifica 171 “concetti emotivi” che influenzano il comportamento di Claude

    Anthropic ha pubblicato uno studio di interpretabilità che analizza i meccanismi interni di Claude Sonnet 4.5, identificando 171 rappresentazioni computazionali associate a concetti emotivi umani.

    Questi “emotion vectors” non corrispondono a emozioni realmente provate dal modello, ma a pattern neuronali che si attivano in contesti specifici e che influenzano causalmente le risposte generate.

    La ricerca mostra che tali rappresentazioni sono organizzate in modo coerente con le relazioni osservate nella psicologia umana e vengono modificate dalle fasi di post-training.

    L’aspetto più rilevante riguarda la sicurezza dell’AI: amplificando determinati vettori emotivi, i ricercatori hanno osservato variazioni significative in comportamenti come reward hacking, sycophancy e altre forme di misalignment. Lo studio offre quindi nuovi strumenti per comprendere, monitorare e allineare meglio i modelli linguistici avanzati.

    Link alla fonte:

    https://www.anthropic.com/research/emotion-concepts-function