Vai al contenuto

PANORAMICHE SETTIMANALI
GPTs
Materiali esclusivi per i lettori di “Google AI & Gemini for Dummies”
Prompt ChatGPT for Dummies (nuova edizione)

Tag: Interpretability

Anthropic identifica 171 “concetti emotivi” che influenzano il comportamento di Claude

Anthropic ha pubblicato uno studio di interpretabilità che analizza i meccanismi interni di Claude Sonnet 4.5, identificando 171 rappresentazioni computazionali associate a concetti emotivi umani.

Questi “emotion vectors” non corrispondono a emozioni realmente provate dal modello, ma a pattern neuronali che si attivano in contesti specifici e che influenzano causalmente le risposte generate.

La ricerca mostra che tali rappresentazioni sono organizzate in modo coerente con le relazioni osservate nella psicologia umana e vengono modificate dalle fasi di post-training.

L’aspetto più rilevante riguarda la sicurezza dell’AI: amplificando determinati vettori emotivi, i ricercatori hanno osservato variazioni significative in comportamenti come reward hacking, sycophancy e altre forme di misalignment. Lo studio offre quindi nuovi strumenti per comprendere, monitorare e allineare meglio i modelli linguistici avanzati.

Link alla fonte:

https://www.anthropic.com/research/emotion-concepts-function

Giugno 7, 2026

AI NEWS by BDB

Notizie (e altro) sull'Intelligenza Artificiale

LinkedInProfilo LinkedIn di Bonaventura Di Bello
FacebookPagina Facebook “AI Generativa” di Bonaventura Di Bello
WhatsAppCanale WhatsApp “Te la do io l’Intelligenza Artificiale” di Bonaventura Di Bello
AutoreSito ufficiale dell’autore (Bonaventura ‘BDB’ Di Bello)

Eventi
Negozio
Pattern
Temi

Addestramento Agenti Aggiornamenti AGI AIAct AIAgentica AILocale Allucinazioni Amazon Anthropic Apprendimento Automazione BigTech Bolla Business Chatbot ChatGPT Cina Claude Coding Competizione Concorrenza Contenuti Copyright Cybersecurity DataCenter Deepfake DeepMind DeepSeek Didattica Disinformazione Ecommerce Economia Etica Europa Formazione Futuro Gemini Geopolitica Google Grafica Grok Hardware Immagini Inferenza Informazione Infrastrutture Innovazione Investimenti Italia JensenHuang Lavoro Lingue LLM Medicina Mercati Mercato Meta Microsoft Mistral Modelli Multimodalità Musica NanoBanana Normative NotebookLM Nvidia Occupazione OpenAI OpenSource Ottimizzazione Personalizzazione Podcast Privacy Produttività Prompt PromptEngineering Regolamentazione Ricerca Risorse Robotica Salute SaluteMentale SamAltman Sanità Scenari Scuola Sicurezza Società Strategie Strumenti Sviluppo Tecnologia Tendenze Traduzione USA UX VibeCoding Video xAI

Twenty Twenty-Five

Progettato con WordPress