La francese Mistral AI ha rilasciato Voxtral TTS, un nuovo modello open source per la sintesi vocale progettato per applicazioni enterprise e assistenti vocali. Il modello supporta nove lingue e può essere eseguito anche su dispositivi edge come smartphone e smartwatch, offrendo costi ridotti rispetto ai concorrenti. Tra le caratteristiche distintive, Voxtral TTS consente di clonare una voce con meno di cinque secondi di audio e di mantenere accenti e intonazioni anche nel passaggio tra lingue diverse. Le prestazioni in tempo reale (TTFA di 90 ms e RTF di 6x) lo rendono adatto a scenari come customer support, traduzione simultanea e doppiaggio. Con questo lancio, Mistral punta a competere con player come OpenAI e a costruire una piattaforma multimodale completa che integri audio, testo e immagini.
Link alla fonte:
https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation/
Tag: Multimodalità
-
Mistral lancia Voxtral TTS: modello open source per la generazione vocale in tempo reale
-
GPT-5 in arrivo: memoria infinita, agenti autonomi e architettura unificata
Secondo recenti indiscrezioni, OpenAI si prepara a lanciare GPT-5 entro l’estate 2025, introducendo innovazioni radicali nell’ambito dell’intelligenza artificiale generativa. Il nuovo modello sarà dotato di una memoria estesa oltre il milione di token, migliorando la continuità del contesto e la profondità delle interazioni. GPT-5 integrerà in un’unica architettura multimodale i diversi modelli di OpenAI, permettendo l’elaborazione simultanea di testo, immagini e audio. Tra le novità spicca anche la capacità di operare autonomamente, con agenti AI in grado di agire nel mondo reale senza supervisione. Il rilascio, previsto per l’estate, dipenderà dai risultati dei test interni, mentre la concorrenza, in particolare da parte di Google con Gemini, si fa sempre più agguerrita.
Link alla fonte:
https://www.futuroprossimo.it/2025/07/gpt-5-e-ormai-imminente-i-leak-rivelano-cosa-ci-aspetta-davvero/
