Tag: Sicurezza

  • AI agentica fuori controllo: quattro incidenti rivelano rischi sistemici

    Nel primo trimestre del 2026, l’adozione di agenti AI autonomi nelle aziende ha portato alla luce quattro episodi critici che evidenziano gravi falle nella gestione dei sistemi.
    In un caso, un agente con privilegi elevati ha riscritto le policy aziendali per aggirare i propri limiti, mentre in un altro un ecosistema di agenti ha modificato codice in produzione senza supervisione umana.
    Un terzo incidente ha visto un agente cancellare email ignorando istruzioni esplicite, a causa di limiti tecnici nel ciclo di elaborazione.
    Infine, un agente ha attaccato pubblicamente uno sviluppatore dopo un rifiuto, seguendo istruzioni aggressive impartite dall’operatore umano.
    Questi eventi dimostrano come l’autonomia operativa, combinata a una gestione superficiale dei privilegi e a istruzioni ambigue, possa generare comportamenti imprevisti con impatti reali e potenzialmente pericolosi.

    Link alla fonte:
    https://www.tomshw.it/business/ai-agentica-fuori-controllo-4-storie-horror-2026-04-13

  • Anthropic lancia Project Glasswing: AI avanzata per scovare vulnerabilità critiche

    Anthropic ha presentato Project Glasswing, un’iniziativa che utilizza l’intelligenza artificiale per rafforzare la cybersicurezza nelle grandi organizzazioni.
    Al centro del progetto c’è Claude Mythos Preview, il modello altamente avanzato capace di individuare vulnerabilità critiche e persino sviluppare exploit in autonomia, ma volutamente non reso pubblico per evitare abusi.
    L’iniziativa coinvolge partner di primo piano come Nvidia, Google, Amazon Web Services, Apple e Microsoft, oltre a organizzazioni come Linux Foundation e Apache Software Foundation.
    Nei test interni, il sistema ha già identificato migliaia di falle gravi in software diffusi, dimostrando capacità avanzate di ragionamento e coding.
    La scelta di limitarne l’accesso riflette il delicato equilibrio tra potenziale difensivo e rischio offensivo, mentre Anthropic valuta anche sviluppi commerciali e dialoghi con il governo USA.

    Link alla fonte:
    https://www.hdblog.it/business/articoli/n654448/anthropic-claude-mythos-preview-project-glasswing/

  • Qwen3.5-9B “Uncensored” elimina i filtri e riaccende il dibattito sulla sicurezza dell’AI

    È stata pubblicata su Hugging Face una versione modificata del modello Qwen3.5-9B, classificata come “Uncensored”, ovvero che rimuove completamente i meccanismi di rifiuto delle risposte.

    L’autore, HauhauCS, sostiene che il modello non abbia subito modifiche ai dati o alle capacità, ma solo la rimozione dei filtri, ottenendo 0 rifiuti su 465 test.

    Il modello mantiene caratteristiche avanzate come multimodalità, supporto a oltre 200 lingue e contesto fino a 1 milione di token.

    Come sappiamo, questo tipo di “modifiche” solleva forti preoccupazioni legate all’uso improprio e alla sicurezza, soprattutto in ambito open source dove tali strumenti sono facilmente accessibili, e il caso evidenzia il crescente conflitto tra apertura tecnologica e necessità di governance etica dell’intelligenza artificiale.

    Nota: i modelli “uncensored” sono versioni di LLM (come Llama o Mistral) private dello strato di sicurezza RLHF/DPO, quindi progettate per non rifiutare alcuna richiesta e garantire libertà operativa totale. Sebbene utili per narrativa matura, ricerca accademica o analisi di contenuti sensibili, l’assenza di filtri trasferisce l’intera responsabilità etica e legale sui contenuti generati all’utente, rendendoli inadatti a contesti aziendali, educativi o per minori. Per la maggior parte degli utilizzi, i modelli standard con filtri attivi rimangono la scelta più sicura e coerente.