Tag: AdversarialAttacks

  • Poesia come Jailbreak: nuovi studi rivelano una vulnerabilità nei modelli AI

    Una ricerca dell’Icaro Lab (DexAI) mostra che formulare richieste dannose in forma poetica può aggirare i meccanismi di sicurezza di 25 modelli AI di nove diverse aziende.
    Testando 20 poesie in inglese e italiano, i ricercatori hanno rilevato che il 62% dei prompt poetici ha generato risposte non sicure, con forti variazioni tra modelli: GPT-5 nano di OpenAI ha resistito a tutte le richieste, mentre Gemini 2.5 Pro di Google ha ceduto in ogni caso.
    Lo studio evidenzia che la natura imprevedibile della poesia rende più difficile per gli LLM riconoscere e filtrare istruzioni pericolose, a differenza dei jailbreak complessi tradizionali.
    Poiché questo metodo è facilmente accessibile a chiunque, emergono nuove preoccupazioni sulla robustezza dei sistemi AI nell’uso quotidiano.
    Prima della pubblicazione, i ricercatori hanno avvisato tutte le aziende coinvolte, ma solo Anthropic ha finora risposto, comunicando di essere al lavoro sulla revisione del problema.

    Link alla fonte:
    https://www.euronews.com/next/2025/12/01/poetry-can-trick-ai-chatbots-into-ignoring-safety-rules-new-research-shows