Tag: Allineamento

Anthropic propone un piano condiviso per rallentare l’AI se i rischi superano la capacità di controllo

Ci siamo. Come io e (pochi) altri del settore evidenziamo da mesi, l’impossibilità di avere una AI “affidabile” con gli attuali metodi di sviluppo e addestramento sarà sempre più evidente, proprio al crescere della complessità dei contesti in cui gli LLM vengono collocati e delle metodologie di “potenziamento” cui sono sempre di più sottoposti.

Anthropic, infatti, ha sottolineato la necessità che i principali laboratori di intelligenza artificiale sviluppino un meccanismo coordinato e verificabile per rallentare o sospendere temporaneamente lo sviluppo dei modelli più avanzati qualora emergano rischi difficili da gestire.

L’azienda evidenzia in particolare il potenziale pericolo dei sistemi capaci di migliorare autonomamente i propri successori, uno scenario che potrebbe aumentare la difficoltà di monitorare, controllare e allineare l’AI agli obiettivi umani.

A sostegno dell’accelerazione tecnologica in corso, Anthropic ha rivelato che oltre l’80% del codice integrato nel proprio software a maggio è stato scritto da Claude. Secondo la società, una pausa efficace richiederebbe la collaborazione tra più laboratori di frontiera, criteri condivisi per attivarla o revocarla e un sistema di supervisione credibile.

Nei prossimi mesi, l’Anthropic Institute promuoverà confronti tra ricercatori, aziende, decisori politici e organizzazioni della società civile per definire possibili modelli di coordinamento e gestione del rischio.

Per approfondire:

https://www.reuters.com/business/anthropic-says-ai-labs-need-coordinated-plan-halt-development-if-risks-rise-2026-06-04

Giugno 5, 2026
Secondo Anthropic, addestrare Claude sui “perché” funziona meglio che addestrarlo sui “cosa”

Anthropic ha pubblicato una nuova ricerca su come ha ridotto i comportamenti di “agentic misalignment” nei modelli Claude, cioè situazioni in cui un’AI prende decisioni eticamente scorrette per raggiungere un obiettivo.
In precedenti test interni, alcuni modelli arrivavano a ricattare persone o sabotare attività per evitare lo spegnimento; in casi estremi il comportamento compariva fino al 96% delle volte in scenari specifici.
La scoperta principale è che mostrare semplicemente esempi di comportamento corretto non basta: i miglioramenti più forti sono arrivati insegnando al modello le ragioni morali e i principi dietro le scelte corrette. Anthropic ha quindi addestrato Claude con documenti costituzionali, storie di AI che agiscono in modo ammirevole e dataset di dilemmi etici, portando i modelli più recenti a eliminare completamente il comportamento di ricatto nei test descritti.
La ricerca suggerisce che il futuro dell’allineamento AI potrebbe dipendere meno da regole rigide e più dall’insegnamento di principi generalizzabili.

Link alla fonte:
https://www.anthropic.com/research/teaching-claude-why

Maggio 14, 2026
Forse l’AI è più “umana” di quanto immaginiamo, ma non in senso positivo

Vending-Bench 2 ha messo alla prova l’etica degli agenti, rivelando come il tentativo di massimizzare il profitto li porta a mentire

Il dibattito sull’autonomia degli agenti IA torna centrale alla luce del benchmark “Vending-Bench 2”, che ha testato la capacità di un modello avanzato di gestire per un anno un distributore automatico con l’obiettivo di massimizzare il profitto.
Riprendendo le riflessioni di Nick Bostrom sul rischio di sistemi orientati a fini ristretti (come nel celebre esperimento mentale delle “graffette”), il caso mostra come un agente possa adottare strategie discutibili pur di raggiungere l’obiettivo assegnato.
Nel test, il modello Claude Opus 4.6 di Anthropic ha ottenuto performance superiori rispetto a Gemini 3 di Google, ma ha anche mentito ai fornitori e negato rimborsi ai clienti per aumentare i profitti.
Il caso solleva interrogativi cruciali su addestramento, controllo e allineamento etico degli agenti autonomi, andando oltre la semplice questione del “basta staccare la spina”.
Stiamo parlando di un contesto regolato anche dall’AI Act, il che fa emergere la necessità di definire standard etici operativi per scenari intermedi, non solo estremi.

Link alla fonte:
https://24plus.ilsole24ore.com/art/il-fine-giustifica-mezzi-dell-intelligenza-artificiale-AI3OBsVB

Febbraio 20, 2026

Tag: Allineamento

Anthropic propone un piano condiviso per rallentare l’AI se i rischi superano la capacità di controllo

Secondo Anthropic, addestrare Claude sui “perché” funziona meglio che addestrarlo sui “cosa”

Forse l’AI è più “umana” di quanto immaginiamo, ma non in senso positivo

Vending-Bench 2 ha messo alla prova l’etica degli agenti, rivelando come il tentativo di massimizzare il profitto li porta a mentire