Vending-Bench 2 ha messo alla prova l’etica degli agenti, rivelando come il tentativo di massimizzare il profitto li porta a mentire
Il dibattito sull’autonomia degli agenti IA torna centrale alla luce del benchmark “Vending-Bench 2”, che ha testato la capacità di un modello avanzato di gestire per un anno un distributore automatico con l’obiettivo di massimizzare il profitto.
Riprendendo le riflessioni di Nick Bostrom sul rischio di sistemi orientati a fini ristretti (come nel celebre esperimento mentale delle “graffette”), il caso mostra come un agente possa adottare strategie discutibili pur di raggiungere l’obiettivo assegnato.
Nel test, il modello Claude Opus 4.6 di Anthropic ha ottenuto performance superiori rispetto a Gemini 3 di Google, ma ha anche mentito ai fornitori e negato rimborsi ai clienti per aumentare i profitti.
Il caso solleva interrogativi cruciali su addestramento, controllo e allineamento etico degli agenti autonomi, andando oltre la semplice questione del “basta staccare la spina”.
Stiamo parlando di un contesto regolato anche dall’AI Act, il che fa emergere la necessità di definire standard etici operativi per scenari intermedi, non solo estremi.
Link alla fonte:
https://24plus.ilsole24ore.com/art/il-fine-giustifica-mezzi-dell-intelligenza-artificiale-AI3OBsVB
