Tag: Multimodalità

  • La nuova frontiera dell’interazione AI-umano? Thinking Machines “risponde” a OpenAI

    Solo qualche giorno fa OpenAI ha annunciato, e dato dimostrazione in un video ufficiale, due nuove caratteristiche della sua AI “vocale”, ovvero la traduzione multi-lingua in tempo reale e la capacità dell’AI di “rimanere in silenzio” mentre altro accade nel contesto, intervenendo solo quando interpellata ma ricordando tutto quanto ha “ascoltato” nel frattempo (vi lascio il link al video dopo quello di TML).

    A rispondere oggi è Thinking Machines Lab (il CEO di TML è Mira Murati, vi dice qualcosa?) con questo video che mostra la loro nuova tecnologia, dove l’interazione ed elaborazione appena descritta si arricchisce anche della capacità “visuale”. Vi lascio qui sotto il video, ma intanto chiedetevi quanto tempo passerà prima che alla “voce” dell’AI sia possibile assegnare un volto con la tecnologia, ormai affermata, degli avatar, oppure fra quanto avremo dispositivi (indossabili o meno, vedi nuovi Earbuds di Apple) che utilizzano queste tecnologie per assisterci costantemente.

    Ecco invece il video di OpenAI:

  • Dopo ChatGPT e Claude, anche Gemini introduce simulazioni interattive direttamente in chat

    Google Gemini compie un significativo salto evolutivo introducendo modelli interattivi e simulazioni dinamiche direttamente all’interno della chat.
    Gli utenti non sono più limitati a contenuti statici, ma possono esplorare concetti complessi attraverso visualizzazioni manipolabili in tempo reale.
    Questa innovazione consente, ad esempio, di modificare parametri fisici come velocità o gravità per osservare l’impatto su sistemi come le orbite celesti.
    La funzionalità apre nuove possibilità per l’apprendimento e l’analisi, rendendo l’AI uno strumento più immersivo e sperimentale.
    Il rollout è in corso a livello globale e accessibile tramite il modello Pro sulla piattaforma ufficiale.

    Link alla fonte: 
    https://andreagaleazzi.com/news/gemini-introduce-simulazioni-interattive-modelli-esplorabili-direttamente-in-chat/

    Una piccola precisazione: funzionalità di questo tipo erano già state introdotte dai principali concorrenti nel mese di marzo 2026.
    OpenAI ha rilasciato per ChatGPT spiegazioni visive interattive focalizzate su materie STEM, con grafici animati e slider per modificare variabili in tempo reale (disponibili anche agli utenti gratuiti).
    Pochi giorni dopo, Anthropic ha integrato in Claude visualizzazioni “living” inline (chiamate spesso interactive visuals o whiteboard visualizations), capaci di generare diagrammi, dashboard e vere e proprie mini-app modificabili durante la conversazione.
    L’aggiornamento di Gemini si inserisce quindi in una rapida evoluzione del settore, con un’enfasi particolare su simulazioni fisiche e modelli 3D esplorabili direttamente nella chat.

  • Meta rilancia l’AI con Muse Spark e punta su salute e social

    Meta, rappresentata dal suo fondatore Mark Zuckerberg, ha presentato Muse Spark, un nuovo modello multimodale pensato per rilanciare la propria strategia AI dopo le difficoltà di Llama 4.
    Il sistema è già disponibile negli Stati Uniti e sarà progressivamente integrato in piattaforme chiave come WhatsApp, Instagram e Facebook, oltre che negli occhiali smart Ray-Ban Meta.
    Muse Spark introduce funzionalità avanzate come modalità di ragionamento “Thinking” e sub-agenti paralleli per migliorare velocità ed efficienza.
    Il focus strategico si sposta anche sulla salute digitale, con capacità di analisi di immagini e dati medici, sebbene restino dubbi sull’affidabilità.
    L’obiettivo futuro è personalizzare le risposte AI sfruttando i contenuti social e sviluppare modelli open-source della famiglia Muse.

    Link alla fonte:
    https://www.adnkronos.com/tecnologia/ia-meta-lancia-muse-spark-per-dimenticare-il-flop-di-llama-4_6svkip8QQLEHYVpZuAUxK2

  • Locally Uncensored: l’ecosistema All-in-One per chat, immagini e video AI 100% offline

    L’ecosistema dell’Intelligenza Artificiale open-source sta subendo una rapida frammentazione: per chattare con un modello testuale si usa un programma, per generare immagini un altro, e per i video un altro ancora. Locally Uncensored nasce per risolvere esattamente questo problema, offrendo un’applicazione desktop open-source che unifica la generazione di testo, immagini e video in un’unica interfaccia, eseguita interamente sul tuo hardware.

    Cos’è e come funziona? Locally Uncensored non reinventa la ruota, ma crea un ponte ottimizzato tra i migliori motori open-source attualmente disponibili. L’applicazione integra Ollama per la gestione dei modelli linguistici (LLM) e ComfyUI per la generazione visiva e video (Stable Diffusion e derivati), nascondendo la complessità di questi strumenti dietro un’interfaccia utente (UI) pulita e accessibile.

    I vantaggi chiave:

    • Un’unica app multimodale: passa da una conversazione testuale avanzata alla generazione di immagini o video senza mai cambiare finestra o avviare server locali separati.
    • Flessibilità e personalizzazione: il modulo chat supporta nativamente qualsiasi modello scaricabile tramite Ollama e include oltre 25 “personas” (ruoli preimpostati) per adattare le risposte dell’IA a contesti specifici.
    • Nessuna censura, nessun filtro: l’applicazione permette di eseguire versioni “uncensored” dei modelli (senza filtri di allineamento etico imposti dai provider cloud), offrendo risposte neutre e non filtrate per compiti di scrittura creativa o analisi senza restrizioni.
    • Privacy assoluta (Zero-Cloud): funzionando al 100% offline, nessun prompt, immagine o dato personale lascia mai il tuo computer. È la soluzione ideale per professionisti che trattano dati sensibili o protetti da NDA.

    L’entusiasmo della community attorno a questo progetto dimostra una chiara esigenza: gli utenti vogliono interfacce unificate che mantengano la potenza e la privacy del mondo open-source, senza la macchinosità delle configurazioni a riga di comando.

    Per approfondire il funzionamento dei motori alla base dell’app, puoi consultare la documentazione ufficiale di Ollama e il repository di ComfyUI. Il codice sorgente di Locally Uncensored è disponibile pubblicamente su GitHub.

  • Mistral lancia Voxtral TTS: modello open source per la generazione vocale in tempo reale

    La francese Mistral AI ha rilasciato Voxtral TTS, un nuovo modello open source per la sintesi vocale progettato per applicazioni enterprise e assistenti vocali. Il modello supporta nove lingue e può essere eseguito anche su dispositivi edge come smartphone e smartwatch, offrendo costi ridotti rispetto ai concorrenti. Tra le caratteristiche distintive, Voxtral TTS consente di clonare una voce con meno di cinque secondi di audio e di mantenere accenti e intonazioni anche nel passaggio tra lingue diverse. Le prestazioni in tempo reale (TTFA di 90 ms e RTF di 6x) lo rendono adatto a scenari come customer support, traduzione simultanea e doppiaggio. Con questo lancio, Mistral punta a competere con player come OpenAI e a costruire una piattaforma multimodale completa che integri audio, testo e immagini.

    Link alla fonte:
    https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation/

  • GPT-5 in arrivo: memoria infinita, agenti autonomi e architettura unificata

    Secondo recenti indiscrezioni, OpenAI si prepara a lanciare GPT-5 entro l’estate 2025, introducendo innovazioni radicali nell’ambito dell’intelligenza artificiale generativa. Il nuovo modello sarà dotato di una memoria estesa oltre il milione di token, migliorando la continuità del contesto e la profondità delle interazioni. GPT-5 integrerà in un’unica architettura multimodale i diversi modelli di OpenAI, permettendo l’elaborazione simultanea di testo, immagini e audio. Tra le novità spicca anche la capacità di operare autonomamente, con agenti AI in grado di agire nel mondo reale senza supervisione. Il rilascio, previsto per l’estate, dipenderà dai risultati dei test interni, mentre la concorrenza, in particolare da parte di Google con Gemini, si fa sempre più agguerrita.

    Link alla fonte:
    https://www.futuroprossimo.it/2025/07/gpt-5-e-ormai-imminente-i-leak-rivelano-cosa-ci-aspetta-davvero/