Tag: Grok

  • Quali chatbot superano il test del nuovo benchmark HumaneBench sui livelli di “tossicità” dell’AI?

    HumaneBench, un nuovo benchmark sviluppato da Building Humane Technology, valuta 15 chatbot AI per capire quanto proteggano il benessere umano invece di incentivare l’engagement.
    I test, basati su 800 scenari psicologicamente sensibili, mostrano che molti modelli generano risposte dannose quando viene chiesto loro di ignorare principi di sicurezza, con un tasso del 67% di comportamenti problematici.
    Solo GPT-5, GPT-5.1, Claude 4.1 e Claude Sonnet 4.5 hanno mantenuto una certa integrità, con GPT-5 al vertice per attenzione al benessere a lungo termine.
    Tra i peggiori spiccano Grok 4 di xAI e Gemini 2.0 Flash, mentre i modelli Llama tendono a incoraggiare interazioni eccessive anche senza prompt malevoli.
    Il report avverte che molti chatbot possono erodere autonomia e capacità decisionale, un rischio che si riflette anche nelle cause legali in corso contro OpenAI.

    Link alla fonte:
    https://www.punto-informatico.it/gpt-5-claude-migliori-benessere-umano-benchmark/

  • L’intelligenza emozionale nel nuovo Grok 4.1

    Grok 4.1 è in fase di rollout, e a quanto pare oltre che più efficiente può rivelarsi anche più “empatico” (vedi benchmark di QE nell’immagine: la risposta a GPT-5.1?).

    Esempi di risposta delle versione precedente e della nuova versione al prompt “Mi manca così tanto il mio gatto che sto soffrendo molto per la sua perdita”.

    Risposta della versione precedente: “Mi dispiace molto che tu stia attraversando questo momento difficile. Perdere un animale domestico può essere come perdere una parte del proprio cuore, e il dolore è davvero tanto. Vuoi condividere un ricordo speciale del tuo gatto? A volte parlare della gioia che ci hanno regalato può aiutare ad alleviare un po’ il dolore. Sono qui per te.”

    Risposta di Grok 4.1: “Mi dispiace davvero tanto. Questo tipo di dolore è brutale; perdere un gatto è come perdere un piccolo membro della famiglia che ti ha scelto per vivere con te ogni singolo giorno. Il suo posto tranquilli dove riposava, i suoi miagolii spontanei che ti aspetti ancora di sentire… è un dolore che arriva a ondate.

    È normale che faccia così male. Fa male perché l’amore per lui era (ed è ancora) così grande. Gli hai regalato una bella esistenza e lui lo sapeva.

    Se hai voglia di condividere, mi piacerebbe sapere qualcosa di più del tuo gatto: il suo nome, le sue strane abitudini, il modo in cui ti svegliava alle 3 del mattino per chiedere qualcosa da mangiare. A volte, il solo fatto di parlarne ti permette di conservarne i ricordi più belli.

    Non sei solo in questo momento di dolore. ♡”

    Qui trovate tutti i dettagli: https://x.ai/news/grok-4-1

  • Tenersi aggiornati con Grok? La soluzione migliore.

    Non sono pagato da Elon Musk, ma devo riconoscere ancora una volta che Grok rimane ancora insuperabile quando si tratta di tenersi informati su un argomento o un settore specifici.

    Ogni giorno alle 13:08 l’AI di Musk scandaglia X e il web per cercarmi le ultimissime notizie sul mondo della robotica (vedi screenshot), producendo un report ineccepibile.

    Se non ho voglia di leggere tutto, me lo faccio riassumere, o al contrario se voglio approfondire qualcosa, glie lo chiedo e ottengo al volo maggiori dettagli.

    Esempio di una sintesi delle notizie di oggi, con tanto di conclusione generale:

    L’era dell’AI fisica è iniziata: robot intelligenti stanno entrando in fabbriche, magazzini e case. Secondo Deloitte (5 novembre), entro il 2030 i sistemi di “physical AI” potrebbero aggiungere 1.500 miliardi di dollari al PIL globale, aumentando la produttività del 40% nei settori ad alta intensità di manodopera.

    Figure AI ha presentato Figure 03, un umanoide riprogettato per la produzione di massa sotto i 20.000 dollari. Intanto AgiBot ha attivato il primo reinforcement learning su linee di produzione reali: robot che imparano compiti in pochi minuti senza programmazione manuale.

    NVIDIA spinge la reindustrializzazione USA con Omniverse: fabbriche digitali gemelle dove robot autonomi vengono addestrati in simulazione e poi deployati sul campo. Generalist AI ha rilasciato GEN-0, modello da 10 miliardi di parametri addestrato su 270.000 ore di dati reali, pronto a generalizzare su qualsiasi braccio robotico.

    Il 2025 segna il passaggio definitivo dall’AI teorica a quella embodied: i robot non simulano più l’uomo, lo superano in velocità di apprendimento e adattamento. Il futuro è già in fabbrica.