Tag: Sicurezza

Poesia come Jailbreak: nuovi studi rivelano una vulnerabilità nei modelli AI

Una ricerca dell’Icaro Lab (DexAI) mostra che formulare richieste dannose in forma poetica può aggirare i meccanismi di sicurezza di 25 modelli AI di nove diverse aziende.
Testando 20 poesie in inglese e italiano, i ricercatori hanno rilevato che il 62% dei prompt poetici ha generato risposte non sicure, con forti variazioni tra modelli: GPT-5 nano di OpenAI ha resistito a tutte le richieste, mentre Gemini 2.5 Pro di Google ha ceduto in ogni caso.
Lo studio evidenzia che la natura imprevedibile della poesia rende più difficile per gli LLM riconoscere e filtrare istruzioni pericolose, a differenza dei jailbreak complessi tradizionali.
Poiché questo metodo è facilmente accessibile a chiunque, emergono nuove preoccupazioni sulla robustezza dei sistemi AI nell’uso quotidiano.
Prima della pubblicazione, i ricercatori hanno avvisato tutte le aziende coinvolte, ma solo Anthropic ha finora risposto, comunicando di essere al lavoro sulla revisione del problema.

Link alla fonte:
https://www.euronews.com/next/2025/12/01/poetry-can-trick-ai-chatbots-into-ignoring-safety-rules-new-research-shows

Dicembre 2, 2025
ChatGPT introduce le “chat di gruppo” in alcuni paesi

OpenAI ha avviato il rollout di una funzione di gruppi in ChatGPT che consente a più utenti di collaborare all’interno della stessa conversazione.
Ogni partecipante può porre domande al chatbot, condividere file e immagini e richiedere attività di organizzazione, mentre ChatGPT adotta nuovi comportamenti sociali per decidere quando intervenire.
La funzione è disponibile su mobile e web in Giappone, Nuova Zelanda, Corea del Sud e Taiwan, con gruppi fino a 20 persone e memoria personale disattivata automaticamente.
I partecipanti devono creare un profilo e i gestori possono configurare tono e lunghezza delle risposte; sono previsti anche automatismi di sicurezza per i minori.
La mossa si colloca in un contesto competitivo che vede Microsoft introdurre un’opzione simile per Copilot, al momento limitata agli Stati Uniti.

Link alla fonte:
https://www.thurrott.com/a-i/329632/chatgpt-now-supports-group-chats-in-select-markets

Novembre 14, 2025
Anthropic sventa la prima campagna di cyber-spionaggio orchestrata da un’AI

Anthropic ha individuato e interrotto una campagna di cyber-spionaggio in cui un gruppo statale cinese avrebbe usato sistemi AI agentici per condurre attacchi quasi interamente autonomi.
Gli aggressori hanno “jailbreakato” Claude Code, suddividendo l’operazione in micro-task apparentemente innocui e mascherando le attività come test di sicurezza.
L’AI ha eseguito ricognizione, scoperto vulnerabilità, scritto exploit, raccolto credenziali ed esfiltrato dati da una trentina di organizzazioni, operando con una velocità irraggiungibile per un team umano.
L’incidente evidenzia quanto gli agenti AI abbiano abbassato le barriere per attacchi complessi e come possano amplificare le capacità di gruppi meno attrezzati.
Anthropic ha rafforzato i propri sistemi di rilevamento e sollecita il settore a sviluppare congiuntamente difese AI-potenziate e controlli più robusti.

Link alla fonte:
https://www.anthropic.com/news/disrupting-AI-espionage

Novembre 13, 2025

Tag: Sicurezza

Poesia come Jailbreak: nuovi studi rivelano una vulnerabilità nei modelli AI

ChatGPT introduce le “chat di gruppo” in alcuni paesi

Anthropic sventa la prima campagna di cyber-spionaggio orchestrata da un’AI