Vai al contenuto

PANORAMICHE SETTIMANALI
GPTs
Materiali esclusivi per i lettori di “Google AI & Gemini for Dummies”
Prompt ChatGPT for Dummies (nuova edizione)

Anthropic traduce in testo i “pensieri” nascosti di Claude

Scritto da

in

Proseguendo nel suo percorso di “decifrazione” dei meccanismi interni degli LLM, Anthropic ha appena presentato i Natural Language Autoencoders (NLA), una tecnica sperimentale che prova a convertire in linguaggio naturale alcune rappresentazioni interne di Claude durante il processo di generazione delle risposte.
Il sistema cerca di interpretare le attivazioni numeriche dei transformer, rendendo più leggibili i passaggi intermedi del ragionamento del modello. Nei test, gli NLA hanno mostrato che Claude sembrava riconoscere di trovarsi in benchmark o valutazioni di sicurezza anche quando non lo dichiarava esplicitamente nelle risposte finali.
La ricerca potrebbe diventare uno strumento importante per auditing, interpretabilità e sicurezza dell’IA, ma Anthropic avverte che queste “traduzioni” non sono letture affidabili del pensiero del modello: possono contenere errori, allucinazioni e costi computazionali molto elevati.
La pubblicazione del codice e della demo pubblica punta inoltre ad aumentare la verificabilità esterna dei sistemi di interpretabilità AI.

Link alla fonte (contiene anche un video):
https://www.dday.it/redazione/57346/anthropic-ha-trovato-un-modo-per-trasformare-i-pensieri-di-claude-in-testo

Scopri di più da AI NEWS by BDB

Abbonati per ricevere gli ultimi articoli inviati alla tua e-mail.

Digita la tua e-mail…

Anthropic Claude LLM Sicurezza Transformer

Anthropic aggiorna Claude Opus alla versione 4.7: più autonomia, coding avanzato e visione ad alta precisione
Data
Aprile 16, 2026
Anthropic identifica “emozioni funzionali” nei modelli Claude
Data
Aprile 3, 2026
Anthropic potenzia Claude Sonnet 4.6 con 1 milione di token e focus sul coding
Data
Febbraio 18, 2026

←DeepSeek-R1 aumenta le allucinazioni e mette sotto pressione gli “AI agent crypto”

L’AI individua il primo exploit zero-day: Google segnala una svolta nella “cyberwarfare”→

Altri articoli

Lo studio RiTA rivela come gli italiani usano ChatGPT e Gemini

Maggio 24, 2026
Gli agenti AI “scoprono” la lotta di classe sotto stress lavorativo

Maggio 24, 2026
Le piattaforme AI alzano i prezzi mentre riducono le risorse disponibili

Maggio 24, 2026
Filosofi e AI: Amanda Askell guida l’etica di Claude in Anthropic

Maggio 24, 2026

AI NEWS by BDB

Notizie (e altro) sull'Intelligenza Artificiale

LinkedInProfilo LinkedIn di Bonaventura Di Bello
FacebookPagina Facebook “AI Generativa” di Bonaventura Di Bello
WhatsAppCanale WhatsApp “Te la do io l’Intelligenza Artificiale” di Bonaventura Di Bello
AutoreSito ufficiale dell’autore (Bonaventura ‘BDB’ Di Bello)

Eventi
Negozio
Pattern
Temi

Addestramento Agenti Aggiornamenti AGI AIAct AIAgentica AILocale Allucinazioni Amazon Anthropic Apprendimento Automazione BigTech Bolla Browser Business Chatbot ChatGPT Cina Claude Coding Competizione Concorrenza Contenuti Copyright Creatività Cybersecurity DataCenter Deepfake DeepMind DeepSeek Didattica DirittoDAutore Disinformazione Ecommerce Economia Etica Europa Formazione Futuro Gemini Geopolitica Google Grafica Grok Hardware Immagini Inferenza Infrastrutture Innovazione Investimenti Italia JensenHuang Lavoro Lingue LLM Medicina Mercati Mercato Meta Microsoft Modelli Multimodalità Musica NanoBanana Normative NotebookLM Nvidia Occupazione OpenAI OpenSource Ottimizzazione Personalizzazione Produttività Prompt PromptEngineering Ragionamento Regolamentazione Ricerca Risorse Robotica Salute SaluteMentale SamAltman Sanità Scenari Scuola Sicurezza Società Strategie Strumenti Sviluppo Tecnologia Tendenze Traduzione USA UX VibeCoding Video xAI

Twenty Twenty-Five

Progettato con WordPress