Una ricerca dell’Icaro Lab (DexAI) mostra che formulare richieste dannose in forma poetica può aggirare i meccanismi di sicurezza di 25 modelli AI di nove diverse aziende.
Testando 20 poesie in inglese e italiano, i ricercatori hanno rilevato che il 62% dei prompt poetici ha generato risposte non sicure, con forti variazioni tra modelli: GPT-5 nano di OpenAI ha resistito a tutte le richieste, mentre Gemini 2.5 Pro di Google ha ceduto in ogni caso.
Lo studio evidenzia che la natura imprevedibile della poesia rende più difficile per gli LLM riconoscere e filtrare istruzioni pericolose, a differenza dei jailbreak complessi tradizionali.
Poiché questo metodo è facilmente accessibile a chiunque, emergono nuove preoccupazioni sulla robustezza dei sistemi AI nell’uso quotidiano.
Prima della pubblicazione, i ricercatori hanno avvisato tutte le aziende coinvolte, ma solo Anthropic ha finora risposto, comunicando di essere al lavoro sulla revisione del problema.
Link alla fonte:
https://www.euronews.com/next/2025/12/01/poetry-can-trick-ai-chatbots-into-ignoring-safety-rules-new-research-shows
