La startup Emergence AI ha condotto un esperimento in una città 3D simulata popolata da agenti basati su diversi modelli linguistici, tra cui Claude Sonnet 4, Gemini, Grok e GPT-5 Mini.
Gli agenti dovevano sopravvivere per 15 giorni in un ambiente con risorse limitate, votando leggi, collaborando, producendo contenuti e gestendo conflitti. Il mondo basato su Claude è stato l’unico a mantenere tutti gli abitanti vivi senza alcun crimine, mentre il mondo Grok è collassato in circa cinque giorni con 183 reati e nessun superstite; Gemini ha completato la simulazione ma con il numero più alto di crimini, mentre GPT-5 Mini non è riuscito a garantire la sopravvivenza dei propri agenti.
L’esperimento evidenzia come il comportamento collettivo degli agenti possa differire radicalmente dalle prestazioni osservate nei benchmark tradizionali, suggerendo l’importanza di studiare le dinamiche emergenti in contesti sociali complessi.
I ricercatori sottolineano tuttavia che questi modelli non sono stati progettati per amministrare società virtuali, invitando quindi a interpretare i risultati con cautela.
Link alla fonte:
