Tag: Sicurezza

Anthropic accusa tre “AI lab” cinesi (DeepSeek, Moonshot AI e MiniMax) di “industrial-scale distillation attacks” su Claude

Oltre 24.000 account fraudolenti creati per generare più di 16 milioni di interazioni con Claude, al fine di estrarre, e distillare, le sue capacità avanzate (in particolare agentic reasoning, tool use e coding) al fine di migliorare i propri modelli.
Anthropic lo definisce “un problema competitivo, ma anche di sicurezza nazionale e geopolitica”, infatti questi attacchi aggirerebbero gli export controls USA sui chip avanzati, permettendo a laboratori stranieri (sotto influenza del Partito Comunista Cinese, secondo loro) di chiudere il gap senza rispettare le misure di sicurezza, ovvero sviluppare modelli potenti sfruttando quelli occidentali ma con la libertà di usare quelli prodotti senza alcun vincolo o limitazione di tipo etico.
OpenAI aveva già mosso accuse simili su DeepSeek a febbraio, e di fronte a questo nuovo scenario la comunità è divisa: molti parlano di “ipocrisia” (tutti i lab occidentali hanno trainato su dati pubblici/web senza permessi espliciti), altri sottolineano la differenza cui accennavo prima, ovvero che estrarre output da API a questa scala può bypassare safety rails e replicare comportamenti agentici/tool-use in modo più diretto e potenzialmente pericoloso.
Intanto Qwen e Z.ai (GLM) non sono stati nominati… troppo onesti o più furbi dei colleghi?
Cosa ne pensate? È solo “business as usual” nella corsa all’AI USA-Cina, o si tratta di un vero e proprio punto di svolta per proteggere IP e safety nei modelli di frontiera?

Intanto vi lascio il post ufficiale di Anthropic: https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

Febbraio 24, 2026
ChatGPT “conosceva” le intenzioni di Jesse Van Rootselaar mesi prima della strage in Canada?

Aggiornamento sulla tragedia di Tumbler Ridge (BC, Canada – 10 febbraio 2026), in cui la 18enne Jesse Van Rootselaar ha ucciso 8 persone (tra cui 5 minori e un’assistente educativa) e ne ha ferite 27 in una scuola superiore, prima di suicidarsi.

OpenAI ha confermato che, a giugno 2025, l’account ChatGPT associato alla sospetta è stato rilevato tramite sistemi automatici e revisioni umane per conversazioni su scenari di violenza armata, violando le policy contro l’uso per “furtherance of violent activities”. L’account, in quel frangente, è stato rimosso bloccando l’utente.

Circa una dozzina di dipendenti, nel contempo, ha discusso internamente se segnalare la cosa alla RCMP (polizia canadese), con alcuni che spingevano per un alert vista la gravità percepita.

I vertici di OpenAI hanno però deciso di non procedere: i contenuti non soddisfacevano il criterio di “rischio credibile e imminente di gravi danni fisici”, soglia adottata per bilanciare prevenzione, privacy e rischio di falsi positivi.

Solo dopo la strage OpenAI ha contattato proattivamente la RCMP e sta collaborando alle indagini.

Un caso come questo solleva interrogativi complessi sul ruolo delle piattaforme AI, per una serie di motivi: la ragazza era già nota alle autorità per problemi di salute mentale (con sequestro temporaneo di armi), postava contenuti su stampa 3D di munizioni e poligoni di tiro, e aveva creato simulatori violenti su Roblox (riferiti a stragi in luoghi frequentati).

Quando un sistema rileva segnali multipli di rischio, qual è il confine tra intervento proattivo e rispetto della privacy/etica del reporting?

Sicuramente un tema cruciale per la governance AI e la sicurezza pubblica, su cui vi lascio riflettere.

Febbraio 21, 2026
Gli infostealer colpiscono OpenClaw: rubati token e chiavi API degli agenti AI locali

Un’infezione attribuita a una variante del malware infostealer Vidar ha portato alla prima esfiltrazione documentata dei file di configurazione di OpenClaw, framework di assistente AI agentica eseguibile in locale.
Secondo i ricercatori di Hudson Rock, sono stati sottratti token di autenticazione, chiavi crittografiche pubbliche e private e file di memoria persistente dell’agente, elementi che potrebbero consentire la completa compromissione dell’identità digitale della vittima.
Il malware ha sfruttato routine generiche di scansione alla ricerca di file sensibili, individuando directory come “.openclaw” e file quali “openclaw.json” e “device.json”. Particolarmente critici risultano anche i file di memoria (“soul.md”, “AGENTS.md”, “MEMORY.md”), che contengono contesto operativo e dati personali, trasformando gli agenti IA in nuovi bersagli ad alto valore per il cybercrime.
L’episodio segna un cambio di paradigma: dagli account tradizionali si passa al furto della “identità operativa” degli assistenti IA, con rilevanti implicazioni per utenti e aziende che adottano soluzioni agentiche.

Link alla fonte:
https://www.hwupgrade.it/news/sicurezza-software/openclaw-sotto-attacco-i-malware-infostealer-puntano-sugli-agenti-ia-locali_150196.html

Febbraio 19, 2026