Anthropic traduce in testo i “pensieri” nascosti di Claude

Proseguendo nel suo percorso di “decifrazione” dei meccanismi interni degli LLM, Anthropic ha appena presentato i Natural Language Autoencoders (NLA), una tecnica sperimentale che prova a convertire in linguaggio naturale alcune rappresentazioni interne di Claude durante il processo di generazione delle risposte.
Il sistema cerca di interpretare le attivazioni numeriche dei transformer, rendendo più leggibili i passaggi intermedi del ragionamento del modello. Nei test, gli NLA hanno mostrato che Claude sembrava riconoscere di trovarsi in benchmark o valutazioni di sicurezza anche quando non lo dichiarava esplicitamente nelle risposte finali.
La ricerca potrebbe diventare uno strumento importante per auditing, interpretabilità e sicurezza dell’IA, ma Anthropic avverte che queste “traduzioni” non sono letture affidabili del pensiero del modello: possono contenere errori, allucinazioni e costi computazionali molto elevati.
La pubblicazione del codice e della demo pubblica punta inoltre ad aumentare la verificabilità esterna dei sistemi di interpretabilità AI.

Link alla fonte (contiene anche un video):
https://www.dday.it/redazione/57346/anthropic-ha-trovato-un-modo-per-trasformare-i-pensieri-di-claude-in-testo


Scopri di più da AI NEWS by BDB

Abbonati per ricevere gli ultimi articoli inviati alla tua e-mail.