Anthropic smonta il mito dell’auto-consapevolezza nei modelli linguistici

Uno studio di Anthropic, “Emergent Introspective Awareness in Large Language Models”, ha analizzato la presunta capacità dei modelli linguistici di comprendere i propri processi interni.
Attraverso la tecnica di concept injection — che consiste nell’inserire vettori concettuali per alterare gli stati neuronali del modello — i ricercatori hanno testato se gli LLM potessero riconoscere modifiche al proprio stato interno.
I risultati mostrano una consapevolezza solo parziale e incoerente: i modelli più avanzati, come Opus 4 e 4.1, hanno riconosciuto correttamente i concetti iniettati in appena il 20–42% dei casi.
Lo studio conclude che esiste una forma embrionale di auto-rilevazione, ma ancora troppo fragile, contingente e non assimilabile alla consapevolezza umana.
Le implicazioni riguardano il limite attuale della “metacognizione artificiale” e la difficoltà di modellarla in modo verificabile.

Link alla fonte:
https://www.hwupgrade.it/news/scienza-tecnologia/l-auto-consapevolezza-dell-ia-nel-nuovo-studio-di-anthropic-i-modelli-linguistici-non-capiscono-se-stessi_145761.html