Qwen3.5-9B “Uncensored” elimina i filtri e riaccende il dibattito sulla sicurezza dell’AI

È stata pubblicata su Hugging Face una versione modificata del modello Qwen3.5-9B, classificata come “Uncensored”, ovvero che rimuove completamente i meccanismi di rifiuto delle risposte.

L’autore, HauhauCS, sostiene che il modello non abbia subito modifiche ai dati o alle capacità, ma solo la rimozione dei filtri, ottenendo 0 rifiuti su 465 test.

Il modello mantiene caratteristiche avanzate come multimodalità, supporto a oltre 200 lingue e contesto fino a 1 milione di token.

Come sappiamo, questo tipo di “modifiche” solleva forti preoccupazioni legate all’uso improprio e alla sicurezza, soprattutto in ambito open source dove tali strumenti sono facilmente accessibili, e il caso evidenzia il crescente conflitto tra apertura tecnologica e necessità di governance etica dell’intelligenza artificiale.

Nota: i modelli “uncensored” sono versioni di LLM (come Llama o Mistral) private dello strato di sicurezza RLHF/DPO, quindi progettate per non rifiutare alcuna richiesta e garantire libertà operativa totale. Sebbene utili per narrativa matura, ricerca accademica o analisi di contenuti sensibili, l’assenza di filtri trasferisce l’intera responsabilità etica e legale sui contenuti generati all’utente, rendendoli inadatti a contesti aziendali, educativi o per minori. Per la maggior parte degli utilizzi, i modelli standard con filtri attivi rimangono la scelta più sicura e coerente.