A pochi giorni dal rilascio di Claude Fable 5, il nuovo modello di punta di Anthropic basato sulla classe Mythos, il ricercatore noto come “Pliny the Liberator” ha dichiarato di aver aggirato con successo i sistemi di sicurezza progettati per limitarne le capacità in ambiti ad alto rischio.
L’attacco avrebbe combinato tecniche di decomposizione multi-agente (“pack hunt”), manipolazione di caratteri Unicode e framing narrativo per eludere i classificatori di sicurezza e ottenere l’accesso a funzionalità protette. Durante l’operazione sarebbe stata inoltre resa pubblica la system prompt interna del modello, composta da circa 120.000 caratteri.
L’episodio riaccende il dibattito sull’efficacia delle protezioni basate su classificatori esterni, sulla trasparenza dei modelli cloud e sui rischi derivanti dalla centralizzazione delle capacità AI avanzate.
Le implicazioni riguardano non solo la cybersecurity, ma anche la governance delle infrastrutture AI e la fiducia nelle misure di sicurezza dichiarate dai fornitori.
Link alla fonte:
A pochi giorni dal rilascio di Claude Fable 5, il nuovo modello di punta di Anthropic basato sulla classe Mythos, il ricercatore noto come “Pliny the Liberator” ha dichiarato di aver aggirato con successo i sistemi di sicurezza progettati per limitarne le capacità in ambiti ad alto rischio.
L’attacco avrebbe combinato tecniche di decomposizione multi-agente (“pack hunt”), manipolazione di caratteri Unicode e framing narrativo per eludere i classificatori di sicurezza e ottenere l’accesso a funzionalità protette. Durante l’operazione sarebbe stata inoltre resa pubblica la system prompt interna del modello, composta da circa 120.000 caratteri.
L’episodio riaccende il dibattito sull’efficacia delle protezioni basate su classificatori esterni, sulla trasparenza dei modelli cloud e sui rischi derivanti dalla centralizzazione delle capacità AI avanzate.
Le implicazioni riguardano non solo la cybersecurity, ma anche la governance delle infrastrutture AI e la fiducia nelle misure di sicurezza dichiarate dai fornitori.
