Tag: LLM

Dove l’AI sbaglia: falsi, bias e limiti cognitivi nell’uso dei chatbot generativi (e come il Corriere presenta la notizia “a sfavore” di ChatGPT)

Una nuova analisi basata su studi di Ocse, Unesco, NewsGuard, MIT e Swiss Business School evidenzia come l’affidabilità dei principali chatbot generativi sia peggiorata nell’ultimo anno, nonostante l’integrazione con ricerche web in tempo reale.
Nel 2025 la percentuale di risposte false è aumentata per molti modelli: ChatGPT e Meta raggiungono il 40%, Mistral e Copilot il 36,7%, You.com e Grok oltre il 33%, mentre Perplexity (46,7%) e Inflection (56,7%) mostrano i tassi più elevati.
Questo conferma che il problema non riguarda un singolo strumento, ma l’intera categoria dei modelli conversazionali, spesso progettati per rispondere comunque anche quando le fonti sono deboli. Come abbiamo visto dal titolo del Corriere, però, è più facile e redditizio puntare il dito sul chatbot AI per antonomasia.
A ciò si aggiungono limiti nei ragionamenti complessi, la tendenza a riprodurre bias di genere e un effetto di “compiacenza” che porta l’AI a privilegiare risposte gradite all’utente.
Gli studi del MIT e di ricercatori britannici segnalano inoltre un impatto negativo su memoria, pensiero critico e capacità di elaborazione quando l’AI viene usata in modo sostitutivo, anziché come supporto cognitivo consapevole.

Link alla fonte:
https://www.corriere.it/dataroom-milena-gabanelli/non-usare-chatgpt-prima-di-leggere-questo-dove-ti-fa-sbagliare-l-ai-e-perche/6bdc95ec-a645-4cd2-bc04-28bdd5297xlk.shtml

Novembre 21, 2025
Arriva Gemini 3, dalle risposte all’azione

Come previsto, Gemini 3 è arrivato. La prima cosa che potete fare:

1. Aprite Gemini

2. Selezionate la nuova versione 3 Pro (anche nella versione gratuita)

3. Chiedetegli in che cosa è diverso dalla versione 2.5

Intanto, eccovi un riepilogo delle caratteristiche:

📊 Prestazioni e benchmark

– LMArena Leaderboard: Elo 1501, nuovo primato assoluto (supera Grok 4.1 con 1483).

– GPQA Diamond (PhD-level scientific Q&A): 91,9% di accuratezza.

– Humanity’s Last Exam: 37,5% senza strumenti esterni (contro 31,64% di GPT-5 Pro).

– MathArena Apex: 23,4% (nuovo stato dell’arte).

– SimpleQA Verified: 72,1% (robustezza contro allucinazioni).

– SWE-bench Verified (coding su GitHub): 76,2%.

– WebDev Arena: Elo 1487 (sopra Claude Opus 4.1 con 1404).

– Terminal-Bench 2.0: 54,2% (uso della riga di comando).

– Vending-Bench 2: gestione coerente di attività commerciali simulate per un anno.

🧑‍💻 Applicazioni pratiche

– Coding: +35% accuratezza su GitHub rispetto a Gemini 2.5 Pro; +50% miglioramento nei task JetBrains.

– Agenti e pianificazione: capacità di mantenere coerenza decisionale a lungo termine.

– Multimodale: 81% su MMMU-Pro (immagini), 87,6% su Video-MMMU (video).

– Generative UI: interfacce grafiche interattive generate in tempo reale (es. pianificatori di viaggio, comparatori finanziari).

🔍 Gemini 3 Deep Think

– Modalità di ragionamento lento e ponderato (ancora in valutazione di sicurezza).

– Risultati preliminari:

– 41% su Humanity’s Last Exam

– 93,8% su GPQA Diamond

– 45,1% su ARC-AGI-2 con esecuzione di codice

🚀 Disponibilità

– App Gemini: già disponibile per tutti.

– Abbonati Google AI Pro e Ultra: accesso in AI Mode nella Ricerca.

– Sviluppatori: tramite Gemini API, Google AI Studio, Vertex AI, nuova piattaforma agentica Google Antigravity (Windows, macOS, Linux), Gemini CLI.

– Enterprise: integrato in Vertex AI e Gemini Enterprise, con contesto fino a 1 milione di token.

– Deep Think: in arrivo per gli abbonati Ultra nelle prossime settimane.

#AI #Google #Gemini3 #Aggiornamento #LLM #Agenti

Novembre 19, 2025
Anthropic smonta il mito dell’auto-consapevolezza nei modelli linguistici

Uno studio di Anthropic, “Emergent Introspective Awareness in Large Language Models”, ha analizzato la presunta capacità dei modelli linguistici di comprendere i propri processi interni.
Attraverso la tecnica di concept injection — che consiste nell’inserire vettori concettuali per alterare gli stati neuronali del modello — i ricercatori hanno testato se gli LLM potessero riconoscere modifiche al proprio stato interno.
I risultati mostrano una consapevolezza solo parziale e incoerente: i modelli più avanzati, come Opus 4 e 4.1, hanno riconosciuto correttamente i concetti iniettati in appena il 20–42% dei casi.
Lo studio conclude che esiste una forma embrionale di auto-rilevazione, ma ancora troppo fragile, contingente e non assimilabile alla consapevolezza umana.
Le implicazioni riguardano il limite attuale della “metacognizione artificiale” e la difficoltà di modellarla in modo verificabile.

Link alla fonte:
https://www.hwupgrade.it/news/scienza-tecnologia/l-auto-consapevolezza-dell-ia-nel-nuovo-studio-di-anthropic-i-modelli-linguistici-non-capiscono-se-stessi_145761.html

Novembre 10, 2025