Google ha presentato Agentic Vision, una nuova capacità integrata in Gemini 3 Flash che trasforma l’analisi delle immagini in un processo attivo e verificabile.
A differenza della visione artificiale tradizionale, il modello adotta un ciclo Think-Act-Observe, generando ed eseguendo codice Python per ispezionare, ritagliare e analizzare porzioni specifiche delle immagini.
Questa architettura riduce le allucinazioni e migliora l’accuratezza su contenuti visivi complessi come infografiche, tabelle e documenti tecnici.
Agentic Vision è già sperimentabile tramite Google AI Studio e tramite le API Gemini disponibili anche su Vertex AI, aprendo nuovi scenari applicativi in ambito industriale, documentale e di controllo qualità.
Link alla fonte:
https://www.ilsoftware.it/come-provare-google-agentic-vision-per-leggere-e-rielaborare-il-contenuto-delle-immagini/
