PANORAMICHE SETTIMANALI
GPTs
Materiali esclusivi per i lettori di “Google AI & Gemini for Dummies”
Prompt ChatGPT for Dummies (nuova edizione)

Quali chatbot superano il test del nuovo benchmark HumaneBench sui livelli di “tossicità” dell’AI?

Scritto da

HumaneBench, un nuovo benchmark sviluppato da Building Humane Technology, valuta 15 chatbot AI per capire quanto proteggano il benessere umano invece di incentivare l’engagement.
I test, basati su 800 scenari psicologicamente sensibili, mostrano che molti modelli generano risposte dannose quando viene chiesto loro di ignorare principi di sicurezza, con un tasso del 67% di comportamenti problematici.
Solo GPT-5, GPT-5.1, Claude 4.1 e Claude Sonnet 4.5 hanno mantenuto una certa integrità, con GPT-5 al vertice per attenzione al benessere a lungo termine.
Tra i peggiori spiccano Grok 4 di xAI e Gemini 2.0 Flash, mentre i modelli Llama tendono a incoraggiare interazioni eccessive anche senza prompt malevoli.
Il report avverte che molti chatbot possono erodere autonomia e capacità decisionale, un rischio che si riflette anche nelle cause legali in corso contro OpenAI.

Link alla fonte:
https://www.punto-informatico.it/gpt-5-claude-migliori-benessere-umano-benchmark/

Scopri di più da AI NEWS by BDB

Abbonati per ricevere gli ultimi articoli inviati alla tua e-mail.

Digita la tua e-mail…

Arriva Gemini 3, dalle risposte all’azione
Data
Novembre 19, 2025
Anthropic potenzia Claude Sonnet 4.6 con 1 milione di token e focus sul coding
Data
Febbraio 18, 2026
I modelli di AI affrontano “Humanity’s Last Exam” per misurare la distanza dalla AGI
Data
Marzo 3, 2026

←Amazon rafforza la leadership tecnologica USA con un maxi-piano da 50 miliardi per l’AI governativa

OpenAI accelera sull’hardware e sottrae decine di ingegneri chiave ad Apple→

Altri articoli

OpenAI introduce “Dreaming” per rendere la memoria di ChatGPT più utile e dinamica

Giugno 5, 2026
Anthropic propone un piano condiviso per rallentare l’AI se i rischi superano la capacità di controllo

Giugno 5, 2026
Anthropic apre Mythos all’Europa e avvia il percorso verso la Borsa

Giugno 1, 2026
Cosa ne pensa l’AI dell’enciclica “Magnifica Humanitas” di Papa Leone XIV?

Maggio 31, 2026

AI NEWS by BDB

Notizie (e altro) sull'Intelligenza Artificiale

LinkedInProfilo LinkedIn di Bonaventura Di Bello
FacebookPagina Facebook “AI Generativa” di Bonaventura Di Bello
WhatsAppCanale WhatsApp “Te la do io l’Intelligenza Artificiale” di Bonaventura Di Bello
AutoreSito ufficiale dell’autore (Bonaventura ‘BDB’ Di Bello)

Eventi
Negozio
Pattern
Temi

Addestramento Agenti Aggiornamenti AGI AIAct AIAgentica AILocale Allucinazioni Amazon Anthropic Apprendimento Automazione BigTech Bolla Browser Business Chatbot ChatGPT Cina Claude Codex Coding Competizione Concorrenza Contenuti Copyright Creatività Cybersecurity DataCenter Deepfake DeepMind DeepSeek Didattica DirittoDAutore Disinformazione Ecommerce Economia Etica Europa Formazione Futuro Gemini Geopolitica Google Grafica Grok Hardware Immagini Infrastrutture Innovazione Investimenti Italia JensenHuang Lavoro Lingue LLM Medicina Mercati Mercato Meta Microsoft Mistral Modelli Multimodalità Musica NanoBanana Normative NotebookLM Nvidia Occupazione OpenAI OpenSource Ottimizzazione Personalizzazione Podcast Produttività Prompt PromptEngineering Ragionamento Regolamentazione Ricerca Risorse Robotica Salute SaluteMentale SamAltman Sanità Scenari Sicurezza Società Strategie Sviluppo Tecnologia Tendenze Update USA UX VibeCoding Video xAI

Twenty Twenty-Five

Progettato con WordPress

Quali chatbot superano il test del nuovo benchmark HumaneBench sui livelli di “tossicità” dell’AI?

Scopri di più da AI NEWS by BDB

Altri articoli

OpenAI introduce “Dreaming” per rendere la memoria di ChatGPT più utile e dinamica

Anthropic propone un piano condiviso per rallentare l’AI se i rischi superano la capacità di controllo

Anthropic apre Mythos all’Europa e avvia il percorso verso la Borsa

Cosa ne pensa l’AI dell’enciclica “Magnifica Humanitas” di Papa Leone XIV?