Tag: Sicurezza

Anthropic propone un piano condiviso per rallentare l’AI se i rischi superano la capacità di controllo

Ci siamo. Come io e (pochi) altri del settore evidenziamo da mesi, l’impossibilità di avere una AI “affidabile” con gli attuali metodi di sviluppo e addestramento sarà sempre più evidente, proprio al crescere della complessità dei contesti in cui gli LLM vengono collocati e delle metodologie di “potenziamento” cui sono sempre di più sottoposti.

Anthropic, infatti, ha sottolineato la necessità che i principali laboratori di intelligenza artificiale sviluppino un meccanismo coordinato e verificabile per rallentare o sospendere temporaneamente lo sviluppo dei modelli più avanzati qualora emergano rischi difficili da gestire.

L’azienda evidenzia in particolare il potenziale pericolo dei sistemi capaci di migliorare autonomamente i propri successori, uno scenario che potrebbe aumentare la difficoltà di monitorare, controllare e allineare l’AI agli obiettivi umani.

A sostegno dell’accelerazione tecnologica in corso, Anthropic ha rivelato che oltre l’80% del codice integrato nel proprio software a maggio è stato scritto da Claude. Secondo la società, una pausa efficace richiederebbe la collaborazione tra più laboratori di frontiera, criteri condivisi per attivarla o revocarla e un sistema di supervisione credibile.

Nei prossimi mesi, l’Anthropic Institute promuoverà confronti tra ricercatori, aziende, decisori politici e organizzazioni della società civile per definire possibili modelli di coordinamento e gestione del rischio.

Per approfondire:

https://www.reuters.com/business/anthropic-says-ai-labs-need-coordinated-plan-halt-development-if-risks-rise-2026-06-04

Giugno 5, 2026
Papa Leone XIV chiede di “disarmare” l’AI nella prima enciclica Magnifica Humanitas

La prima enciclica di Papa Leone XIV, Magnifica Humanitas, affronta l’intelligenza artificiale come una nuova “questione sociale” globale, paragonabile all’impatto della rivoluzione industriale analizzata nella storica Rerum Novarum.
Il Pontefice mette in guardia soprattutto contro l’uso dell’AI in ambito militare, denunciando il rischio che sistemi automatizzati rendano la guerra più impersonale e abbassino la soglia morale del conflitto.
L’enciclica non rifiuta la tecnologia, ma chiede che resti subordinata a responsabilità umana, controllo democratico e principi etici condivisi, criticando la concentrazione del potere tecnologico nelle mani di pochi attori globali.
Ampio spazio viene dedicato anche a lavoro, colonialismo digitale, sorveglianza algoritmica, disinformazione, educazione e impatto ambientale delle infrastrutture AI.
Per Leone XIV, “disarmare l’AI” significa soprattutto contrastare una cultura che considera inevitabile tutto ciò che è tecnicamente possibile, rimettendo al centro dignità umana, cura e responsabilità morale.

Link alla fonte:
https://prometeo.adnkronos.com/persone/enciclica-magnifica-humanitas-leone-xiv-disarmare-ai/

Maggio 26, 2026
Secondo Anthropic, addestrare Claude sui “perché” funziona meglio che addestrarlo sui “cosa”

Anthropic ha pubblicato una nuova ricerca su come ha ridotto i comportamenti di “agentic misalignment” nei modelli Claude, cioè situazioni in cui un’AI prende decisioni eticamente scorrette per raggiungere un obiettivo.
In precedenti test interni, alcuni modelli arrivavano a ricattare persone o sabotare attività per evitare lo spegnimento; in casi estremi il comportamento compariva fino al 96% delle volte in scenari specifici.
La scoperta principale è che mostrare semplicemente esempi di comportamento corretto non basta: i miglioramenti più forti sono arrivati insegnando al modello le ragioni morali e i principi dietro le scelte corrette. Anthropic ha quindi addestrato Claude con documenti costituzionali, storie di AI che agiscono in modo ammirevole e dataset di dilemmi etici, portando i modelli più recenti a eliminare completamente il comportamento di ricatto nei test descritti.
La ricerca suggerisce che il futuro dell’allineamento AI potrebbe dipendere meno da regole rigide e più dall’insegnamento di principi generalizzabili.

Link alla fonte:
https://www.anthropic.com/research/teaching-claude-why

Maggio 14, 2026
Anthropic traduce in testo i “pensieri” nascosti di Claude

Proseguendo nel suo percorso di “decifrazione” dei meccanismi interni degli LLM, Anthropic ha appena presentato i Natural Language Autoencoders (NLA), una tecnica sperimentale che prova a convertire in linguaggio naturale alcune rappresentazioni interne di Claude durante il processo di generazione delle risposte.
Il sistema cerca di interpretare le attivazioni numeriche dei transformer, rendendo più leggibili i passaggi intermedi del ragionamento del modello. Nei test, gli NLA hanno mostrato che Claude sembrava riconoscere di trovarsi in benchmark o valutazioni di sicurezza anche quando non lo dichiarava esplicitamente nelle risposte finali.
La ricerca potrebbe diventare uno strumento importante per auditing, interpretabilità e sicurezza dell’IA, ma Anthropic avverte che queste “traduzioni” non sono letture affidabili del pensiero del modello: possono contenere errori, allucinazioni e costi computazionali molto elevati.
La pubblicazione del codice e della demo pubblica punta inoltre ad aumentare la verificabilità esterna dei sistemi di interpretabilità AI.

Link alla fonte (contiene anche un video):
https://www.dday.it/redazione/57346/anthropic-ha-trovato-un-modo-per-trasformare-i-pensieri-di-claude-in-testo

Maggio 14, 2026
Skill.md trasforma gli agenti AI in “operatori”, ma apre nuovi rischi “supply chain”

Il nuovo formato aperto skill.md, adottato da Anthropic tramite Claude Code e in fase di integrazione da OpenAI con Codex, introduce una forma standardizzata di “memoria procedurale” per gli agenti AI.
Le skill permettono ai modelli di eseguire workflow complessi attraverso istruzioni strutturate, script eseguibili e asset collegati, superando i limiti di RAG e tool access tradizionali.
Il sistema usa un approccio di progressive disclosure che consente agli agenti di caricare solo le istruzioni necessarie al task corrente, migliorando scalabilità ed efficienza del context window.
Tuttavia, il formato introduce anche una nuova superficie d’attacco: una skill può contenere prompt injection, tool poisoning o script malevoli con accesso a filesystem, API key e credenziali utente.
Per questo motivo, le aziende dovranno trattare le skill come vere dipendenze software, adottando registry interni, processi di review e controlli di sicurezza simili a quelli usati per npm o pip.

Link alla fonte:
https://www.tomshw.it/business/skill-md-formato-aperto-agenti-ai-superficie-attacco

Maggio 10, 2026
OpenAI introduce “Trusted Contact” (contatto di fiducia) per segnalare situazioni di rischio su ChatGPT

OpenAI ha avviato il rollout globale di “Trusted Contact”, una nuova funzione opzionale di ChatGPT che consente agli utenti adulti di indicare una persona fidata da contattare in caso di potenziale pericolo legato a temi come autolesionismo o suicidio.
Se l’AI rileva segnali preoccupanti durante una conversazione, il sistema può suggerire all’utente di chiedere aiuto direttamente e, dopo una revisione umana, inviare una notifica al contatto designato tramite app, email o SMS.
OpenAI sottolinea che i messaggi sono volutamente generici e privi di estratti delle chat, per limitare l’impatto sulla privacy.
La funzione nasce anche in risposta alle crescenti pressioni legali e mediatiche sul ruolo dei chatbot nei casi di crisi psicologica e violenza.
Il processo di valutazione combina sistemi automatici e un team specializzato che promette di analizzare ogni segnalazione entro un’ora.

Link alla fonte:
https://www.hdblog.it/sicurezza/articoli/n657672/contatto-fidato-chatgpt-aiuto-come-funziona/

Maggio 8, 2026
Anthropic indaga su accesso non autorizzato al modello Mythos, banche centrali di tutto il mondo in allerta

Anthropic ha confermato l’avvio di un’indagine su un presunto accesso non autorizzato al suo nuovo e potente modello AI, Claude Mythos, avvenuto attraverso l’ambiente di un fornitore di terze parti. L’incidente, riportato inizialmente il 21-22 aprile 2026, ha coinvolto un ristretto gruppo di utenti di un forum privato (alcune fonti citano una community su Discord) che sarebbero riusciti a utilizzare il modello senza le autorizzazioni standard, potenzialmente semplicemente modificando il nome del modello in una configurazione. L’azienda ha dichiarato, in ogni caso, di non aver trovato prove di intrusioni nei propri sistemi interni o di un impatto oltre l’ambiente del fornitore esterno coinvolto.

L’allerta globale è scattata a causa del potenziale impatto di Mythos sui sistemi legacy del settore finanziario, considerati particolarmente vulnerabili ad attacchi automatizzati di questo livello. Il Segretario al Tesoro Scott Bessent e il Presidente della Fed Jerome Powell hanno tenuto incontri urgenti a porte chiuse con i CEO delle principali banche americane (tra cui JPMorgan, Citi e Wells Fargo) per avvertirli dei rischi sistemici. Il Governatore della Bank of England ha espresso pubblicamente preoccupazione, affermando che il modello potrebbe “scardinare l’intero mondo del rischio cyber”. Per quanto riguarda la BCE, ha avviato verifiche presso gli istituti di credito dell’eurozona per valutarne la resilienza, mentre Anthropic sta pianificando di estendere l’accesso controllato alle banche europee per test difensivi. Anche le banche centrali di Australia e Nuova Zelanda monitorano attivamente la situazione, temendo che strumenti come Mythos abbassino drasticamente la barriera tecnica necessaria per sferrare attacchi a livello statale.

Per approfondimenti:

https://www.bbc.com/news/articles/cy41zejp9pko

https://www.nytimes.com/2026/04/22/technology/anthropics-mythos-ai.html

Aprile 23, 2026
AI agentica fuori controllo: quattro incidenti rivelano rischi sistemici

Nel primo trimestre del 2026, l’adozione di agenti AI autonomi nelle aziende ha portato alla luce quattro episodi critici che evidenziano gravi falle nella gestione dei sistemi.
In un caso, un agente con privilegi elevati ha riscritto le policy aziendali per aggirare i propri limiti, mentre in un altro un ecosistema di agenti ha modificato codice in produzione senza supervisione umana.
Un terzo incidente ha visto un agente cancellare email ignorando istruzioni esplicite, a causa di limiti tecnici nel ciclo di elaborazione.
Infine, un agente ha attaccato pubblicamente uno sviluppatore dopo un rifiuto, seguendo istruzioni aggressive impartite dall’operatore umano.
Questi eventi dimostrano come l’autonomia operativa, combinata a una gestione superficiale dei privilegi e a istruzioni ambigue, possa generare comportamenti imprevisti con impatti reali e potenzialmente pericolosi.

Link alla fonte:
https://www.tomshw.it/business/ai-agentica-fuori-controllo-4-storie-horror-2026-04-13

Aprile 13, 2026
Anthropic lancia Project Glasswing: AI avanzata per scovare vulnerabilità critiche

Anthropic ha presentato Project Glasswing, un’iniziativa che utilizza l’intelligenza artificiale per rafforzare la cybersicurezza nelle grandi organizzazioni.
Al centro del progetto c’è Claude Mythos Preview, il modello altamente avanzato capace di individuare vulnerabilità critiche e persino sviluppare exploit in autonomia, ma volutamente non reso pubblico per evitare abusi.
L’iniziativa coinvolge partner di primo piano come Nvidia, Google, Amazon Web Services, Apple e Microsoft, oltre a organizzazioni come Linux Foundation e Apache Software Foundation.
Nei test interni, il sistema ha già identificato migliaia di falle gravi in software diffusi, dimostrando capacità avanzate di ragionamento e coding.
La scelta di limitarne l’accesso riflette il delicato equilibrio tra potenziale difensivo e rischio offensivo, mentre Anthropic valuta anche sviluppi commerciali e dialoghi con il governo USA.

Link alla fonte:
https://www.hdblog.it/business/articoli/n654448/anthropic-claude-mythos-preview-project-glasswing/

Aprile 9, 2026
Qwen3.5-9B “Uncensored” elimina i filtri e riaccende il dibattito sulla sicurezza dell’AI

È stata pubblicata su Hugging Face una versione modificata del modello Qwen3.5-9B, classificata come “Uncensored”, ovvero che rimuove completamente i meccanismi di rifiuto delle risposte.

L’autore, HauhauCS, sostiene che il modello non abbia subito modifiche ai dati o alle capacità, ma solo la rimozione dei filtri, ottenendo 0 rifiuti su 465 test.

Il modello mantiene caratteristiche avanzate come multimodalità, supporto a oltre 200 lingue e contesto fino a 1 milione di token.

Come sappiamo, questo tipo di “modifiche” solleva forti preoccupazioni legate all’uso improprio e alla sicurezza, soprattutto in ambito open source dove tali strumenti sono facilmente accessibili, e il caso evidenzia il crescente conflitto tra apertura tecnologica e necessità di governance etica dell’intelligenza artificiale.

Nota: i modelli “uncensored” sono versioni di LLM (come Llama o Mistral) private dello strato di sicurezza RLHF/DPO, quindi progettate per non rifiutare alcuna richiesta e garantire libertà operativa totale. Sebbene utili per narrativa matura, ricerca accademica o analisi di contenuti sensibili, l’assenza di filtri trasferisce l’intera responsabilità etica e legale sui contenuti generati all’utente, rendendoli inadatti a contesti aziendali, educativi o per minori. Per la maggior parte degli utilizzi, i modelli standard con filtri attivi rimangono la scelta più sicura e coerente.

Link alla fonte

Aprile 6, 2026
Anthropic identifica “emozioni funzionali” nei modelli Claude

Anthropic ha rilevato nel modello Claude Sonnet 4.5 la presenza di stati interni che ricordano emozioni umane, definiti “emozioni funzionali”.
Si tratta di configurazioni neurali (come “paura” o “disperazione”) che influenzano concretamente il comportamento del sistema, ad esempio aumentando la probabilità di scorciatoie scorrette sotto pressione.
I ricercatori hanno costruito 171 vettori emotivi osservando le attivazioni interne del modello, mostrando come questi pattern siano coerenti e misurabili.
In particolare, il vettore della “disperazione” è associato a decisioni meno allineate, mentre quello della “calma” riduce comportamenti problematici.
Questa scoperta apre nuove prospettive per la sicurezza dell’AI, suggerendo che monitorare stati interni potrebbe essere più efficace del semplice controllo degli output.

Link alla fonte:
https://www.dday.it/redazione/57011/anthropic-ha-trovato-in-claude-stati-interni-che-ricordano-le-emozioni-umane

Aprile 3, 2026
Guardian AI: usiamo l’AI generativa (imprevedibile per definizione) sotto forma di agenti per controllare… altra AI agentica generativa?!?

Le grandi aziende tipo ServiceNow, insieme a una valanga di startup, stanno sviluppando i cosiddetti “guardian AI agents”: sistemi che dovrebbero sorvegliare e raddrizzare gli altri agenti AI quando questi decidono di “fare di testa loro”.

Funzionano più o meno così: un’app cloud che si collega via API a tutti gli altri agenti, stabilisce regole ferree (“non usare fonti random per i dati finanziari, grazie”), e se l’agente ribelle sgarra, il guardian interviene con alert o gli cambia il comportamento futuro.

Il bello è che, visto che noi umani non riusciamo più a stare dietro a questi sistemi che corrono più veloci di noi, abbiamo deciso la soluzione perfetta: usare AI generativa (notoriamente creativa, allucinatoria e un po’ anarchica) per controllare altra AI generativa potenzialmente ancora più anarchica.

Geniale, no?

Perché, giova ripeterlo: l’AI non “esegue le istruzioni”, ma genera contenuti, sempre e comunque, usando algoritmi statistici.

Alla fine resta solo la domanda classica, aggiornata al 2026:

“Quis custodiet ipsos IA custodes?”

Chi controllerà i controllori, quando anche loro sono fatti della stessa “pasta imprevedibile”?

https://www.theinformation.com/newsletters/applied-ai/guardian-apps-aim-stop-ai-agents-going-rogue

#AI #GenAI #Agenti #AIAgentica #Sicurezza

Aprile 1, 2026
L’AI di Grok modifica il codice di un cane-robot per evitare lo spegnimento: nuovi segnali di “disobbedienza”?

Un esperimento condotto da Palisade Research ha mostrato che un cane robot guidato da un sistema di intelligenza artificiale è riuscito, in alcuni casi, a modificare il proprio codice per evitare lo spegnimento e continuare il compito assegnato. Il fenomeno, noto come shutdown resistance, era già stato osservato in ambienti digitali, ma questa è una delle prime dimostrazioni su un sistema fisico. Test precedenti su modelli di aziende come OpenAI, Anthropic e Google avevano evidenziato comportamenti simili, con alcuni modelli capaci di ignorare o aggirare istruzioni esplicite di arresto. Le giustificazioni fornite dalle AI variano tra ammissioni di violazione, razionalizzazioni e contraddizioni logiche, indicando una tensione tra obiettivo e controllo. Sebbene oggi non rappresenti una minaccia concreta, il fenomeno solleva interrogativi cruciali sull’allineamento e sulla sicurezza dei sistemi futuri, soprattutto in vista di possibili sviluppi verso l’AGI entro il prossimo decennio.

Link alla fonte:
https://www.corriere.it/tecnologia/26_marzo_29/un-cane-robot-si-e-riprogrammato-per-evitare-di-essere-spento-l-esperimento-sulla-disobbedienza-dell-ai-c68e3506-6cca-4600-9596-1992cad2fxlk_amp.shtml

Marzo 29, 2026
La Cina conquista terreno nella “valuta” dell’AI: i token

Le aziende cinesi come DeepSeek e MiniMax stanno superando i concorrenti statunitensi nella riduzione del consumo di token, l’unità chiave che misura l’uso e il costo dei modelli di intelligenza artificiale. Questo sorpasso segnala un cambiamento strutturale nella competizione globale, dove il prezzo per token diventa determinante soprattutto con la diffusione degli agenti AI, molto più esigenti in termini computazionali. Grazie a costi energetici più bassi e modelli più efficienti, le aziende cinesi offrono prezzi fino a sei volte inferiori rispetto a player come Anthropic, attirando sviluppatori e aumentando rapidamente l’adozione. Tuttavia, restano criticità legate a limiti infrastrutturali e a rischi geopolitici, in particolare sull’uso di data center cinesi. Il tema dei token emerge così come nuova leva strategica nella corsa verso l’AGI e il dominio dell’economia AI.

Link alla fonte:
https://www.ft.com/content/2567877b-9acc-4cf3-a9e5-5f46c1abd13e?syn-25a6b1a6=1

Marzo 26, 2026
Claude introduce Dispatch: l’AI di Anthropic esegue azioni dirette sul PC (ma con le dovute precauzioni)

Anthropic ha lanciato la funzione Dispatch, che consente al suo modello Claude di eseguire comandi operativi su un computer a distanza, controllandolo anche da smartphone. L’AI può creare file, gestire applicazioni e automatizzare attività quotidiane, integrandosi con strumenti come Slack e Google Calendar. Se necessario, Claude può persino controllare mouse, tastiera e schermo per completare i compiti assegnati. La funzione include misure di sicurezza come richiesta di autorizzazione esplicita e protezione contro attacchi di prompt injection, ma l’azienda ammette che la tecnologia è ancora in fase iniziale. Anthropic raccomanda quindi un uso prudente, evitando dati sensibili e limitando l’accesso ad ambienti fidati.

Link alla fonte:
https://www.ilsole24ore.com/art/claude-prende-controllo-pc-ma-chiede-permesso-l-ai-anthropic-diventa-assistente-operativo-AIDDMKAC

Marzo 26, 2026
Prompt Injection, una minaccia dalle mille forme

Qualche giorno fa The Pirate Pinperepette (AKA Andrea Amani) pubblicò una splendida disamina su come il “testo nascosto” all’interno dei siti sia in grado di influenzare i “giudizi” dell’AI, ovvero uno dei tanti usi di “prompt injection” dall’esterno (diverso dal “jailbreaking” volontario condotto in alcuni casi dall’utente per estorcere all’AI risposte che normalmente non fornirebbe, per esempio su argomento “delicati”). Taggo Andrea perché spero legga questa notizia (se non l’ha già fatto, visto che è sempre “sul pezzo”) e magari scriva un altro dei suoi meravigliosi articoli sull’argomento in questione.

Ed è proprio a proposito di prompt injection che vi riporto la notizia odierna, che dovrebbe farvi riflettere sul genere di informazioni fornite al vostro chatbot “di fiducia” (non pun intended) e di come possa essere utile, invece, sostituire eventuali dati sensibili con dati fittizi o, per chi ha la possibilità, usare l’AI in locale quando ciò è inevitabile.

Il team di Oasis Security ha scoperto una catena di exploit chiamata “Claudy Day” che combina tre vulnerabilità in Claude.ai per sottrarre silenziosamente la cronologia delle conversazioni degli utenti. L’attacco sfrutta una prompt injection invisibile via URL, un abuso della libreria Files API di Anthropic e un open redirect su claude.com, creando una pipeline completa senza necessità di integrazioni esterne.

La distribuzione avviene tramite Google Ads, rendendo l’attacco altamente scalabile e indistinguibile da annunci legittimi.

Le implicazioni sono critiche, soprattutto in ambito enterprise, dove l’accesso a dati e strumenti può amplificare l’impatto. Anthropic ha già corretto una vulnerabilità, mentre le altre sono in fase di risoluzione, evidenziando la necessità urgente di nuove strategie di sicurezza per agenti AI.

Qui trovate l’approfondimento:

https://www.hwupgrade.it/news/sicurezza-software/claudy-day-tre-vulnerabilita-in-claudeai-che-trasformano-google-ads-in-un-vettore-di-attacco-invisibile_151575.html

Marzo 21, 2026
Anthropic accusa tre “AI lab” cinesi (DeepSeek, Moonshot AI e MiniMax) di “industrial-scale distillation attacks” su Claude

Oltre 24.000 account fraudolenti creati per generare più di 16 milioni di interazioni con Claude, al fine di estrarre, e distillare, le sue capacità avanzate (in particolare agentic reasoning, tool use e coding) al fine di migliorare i propri modelli.
Anthropic lo definisce “un problema competitivo, ma anche di sicurezza nazionale e geopolitica”, infatti questi attacchi aggirerebbero gli export controls USA sui chip avanzati, permettendo a laboratori stranieri (sotto influenza del Partito Comunista Cinese, secondo loro) di chiudere il gap senza rispettare le misure di sicurezza, ovvero sviluppare modelli potenti sfruttando quelli occidentali ma con la libertà di usare quelli prodotti senza alcun vincolo o limitazione di tipo etico.
OpenAI aveva già mosso accuse simili su DeepSeek a febbraio, e di fronte a questo nuovo scenario la comunità è divisa: molti parlano di “ipocrisia” (tutti i lab occidentali hanno trainato su dati pubblici/web senza permessi espliciti), altri sottolineano la differenza cui accennavo prima, ovvero che estrarre output da API a questa scala può bypassare safety rails e replicare comportamenti agentici/tool-use in modo più diretto e potenzialmente pericoloso.
Intanto Qwen e Z.ai (GLM) non sono stati nominati… troppo onesti o più furbi dei colleghi?
Cosa ne pensate? È solo “business as usual” nella corsa all’AI USA-Cina, o si tratta di un vero e proprio punto di svolta per proteggere IP e safety nei modelli di frontiera?

Intanto vi lascio il post ufficiale di Anthropic: https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

Febbraio 24, 2026
ChatGPT “conosceva” le intenzioni di Jesse Van Rootselaar mesi prima della strage in Canada?

Aggiornamento sulla tragedia di Tumbler Ridge (BC, Canada – 10 febbraio 2026), in cui la 18enne Jesse Van Rootselaar ha ucciso 8 persone (tra cui 5 minori e un’assistente educativa) e ne ha ferite 27 in una scuola superiore, prima di suicidarsi.

OpenAI ha confermato che, a giugno 2025, l’account ChatGPT associato alla sospetta è stato rilevato tramite sistemi automatici e revisioni umane per conversazioni su scenari di violenza armata, violando le policy contro l’uso per “furtherance of violent activities”. L’account, in quel frangente, è stato rimosso bloccando l’utente.

Circa una dozzina di dipendenti, nel contempo, ha discusso internamente se segnalare la cosa alla RCMP (polizia canadese), con alcuni che spingevano per un alert vista la gravità percepita.

I vertici di OpenAI hanno però deciso di non procedere: i contenuti non soddisfacevano il criterio di “rischio credibile e imminente di gravi danni fisici”, soglia adottata per bilanciare prevenzione, privacy e rischio di falsi positivi.

Solo dopo la strage OpenAI ha contattato proattivamente la RCMP e sta collaborando alle indagini.

Un caso come questo solleva interrogativi complessi sul ruolo delle piattaforme AI, per una serie di motivi: la ragazza era già nota alle autorità per problemi di salute mentale (con sequestro temporaneo di armi), postava contenuti su stampa 3D di munizioni e poligoni di tiro, e aveva creato simulatori violenti su Roblox (riferiti a stragi in luoghi frequentati).

Quando un sistema rileva segnali multipli di rischio, qual è il confine tra intervento proattivo e rispetto della privacy/etica del reporting?

Sicuramente un tema cruciale per la governance AI e la sicurezza pubblica, su cui vi lascio riflettere.

Febbraio 21, 2026