Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Impostazioni dei cookie
Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Scopri come utilizzare Google Gemini 2.5 per attività di computer vision come il rilevamento di oggetti, la didascalia di immagini e l'OCR per soluzioni di Vision AI.
I progressi dell'AI si stanno muovendo rapidamente, con nuove innovazioni che fanno notizia quasi ogni giorno. Una di queste recenti scoperte è Gemini 2.5, l'ultimo modello multimodale di Google DeepMind, lanciato il 26 marzo. Mentre i tradizionali Large Language Models (LLM) possono apprendere da enormi quantità di dati per generare testo simile a quello umano, Gemini 2.5 va oltre.
È progettato come un “modello pensante” in grado di elaborare immagini, audio e video. Ha capacità di ragionamento e codifica avanzate. Interessante notare che si comporta eccezionalmente bene anche per quanto riguarda i task di computer vision, dove le macchine interpretano e analizzano i dati visivi, come il rilevamento di oggetti, la didascalia di immagini e il riconoscimento ottico dei caratteri (OCR).
Fig. 1. Un esempio di utilizzo di Gemini 2.5 per comprendere il contenuto di un'immagine.
In questo articolo, esamineremo uno dei notebook di Ultralytics che può aiutarti a sperimentare direttamente le capacità di computer vision di Gemini 2.5. Analizzeremo inoltre le caratteristiche principali di Gemini 2.5 e mostreremo come può essere utilizzato per sviluppare soluzioni di computer vision per applicazioni reali. Iniziamo!
Panoramica di Gemini 2.5: funzionalità e capacità
La prima versione della serie di modelli Gemini 2.5 appena rilasciata è una versione sperimentale di Gemini 2.5 Pro. È progettata per gestire problemi complessi elaborando le sue risposte prima di dare una risposta. Utilizza metodi come il reinforcement learning (dove il modello impara dal feedback) e il chain-of-thought prompting (un approccio passo dopo passo per risolvere i problemi).
Una delle sue caratteristiche principali è la sua enorme finestra di contesto, che può contenere 1 milione di token (circa un milione di parole o parti di parole) e si prevede che crescerà fino a 2 milioni. Ciò significa che il modello può acquisire molte informazioni contemporaneamente, portando a risultati più dettagliati e accurati.
Oltre all'elaborazione del linguaggio, Gemini 2.5 può essere utilizzato per i seguenti compiti di computer vision:
Object detection: È il processo di identificazione e localizzazione di oggetti all'interno di un'immagine. Può essere utilizzato in applicazioni come la sorveglianza o le auto a guida autonoma.
Image captioning: Questa attività prevede la generazione di un testo descrittivo per un'immagine. Rende i contenuti visivi più accessibili e facili da comprendere.
Riconoscimento ottico dei caratteri: Questa tecnologia converte il testo presente nelle immagini in testo modificabile e leggibile dalla macchina. È utile per digitalizzare documenti e automatizzare l'inserimento dei dati.
Benchmarking e confronto tra Google Gemini 2.5 e altri modelli
Oggi sono disponibili diversi modelli multimodali nello spazio dell'IA, quindi è importante capire come Gemini 2.5 Pro si confronta con essi. Sulla base dei risultati dei benchmark condivisi da DeepMind di Google, Gemini 2.5 Pro mostra prestazioni impressionanti in una vasta gamma di attività.
Ad esempio, in un test chiamato Humanity's Last Exam, che simula un esame impegnativo che copre molte materie e verifica il ragionamento avanzato e la conoscenza generale, Gemini 2.5 Pro ottiene un punteggio di circa il 18,8%, superando modelli come o3-mini di OpenAI, che ottiene un punteggio di circa il 14%.
Fig. 2. Una panoramica delle prestazioni di benchmark di Gemini 2.5 Pro.
Offre ottime prestazioni anche nelle sfide di matematica e programmazione, spesso eguagliando o superando le prestazioni di modelli come OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta e DeepSeek R1, dimostrando la sua capacità di gestire attività complesse ed elaborare grandi quantità di dati.
Approfondimento su Gemini 2.5: come utilizzare l'API di Google Gemini
Gemini 2.5 Pro è disponibile su più piattaforme. Puoi sperimentare con esso in Google AI Studio e accedervi tramite l'app Gemini per gli utenti di Gemini Advanced. Nel suo annuncio di lancio, Google DeepMind ha anche menzionato che il modello sarà presto supportato su Vertex AI. Questi punti di accesso semplificano l'utilizzo di Gemini 2.5 Pro da parte degli sviluppatori per applicazioni di IA nel mondo reale.
Tuttavia, se desideri utilizzare l'API Google Gemini e iniziare in pochi minuti senza una configurazione complicata e stai cercando di ottenere una migliore comprensione delle sue capacità di computer vision, puoi consultare il notebook Ultralytics che mostra attività come il rilevamento di oggetti e la didascalia di immagini utilizzando Gemini 2.5 Pro. Esaminiamo in dettaglio cosa puoi aspettarti nel notebook.
Configurazione dell'inferenza con il notebook Google Gemini 2.5
Per iniziare con il notebook Ultralytics e utilizzare Google Gemini 2.5, dovrai prima generare una chiave API tramite Google AI Studio. Questa chiave ti dà accesso all'API Gemini in modo da poter utilizzare il modello.
Una volta ottenuta la tua chiave API, assicurati che il tuo ambiente abbia le librerie necessarie installate: queste includono pacchetti di Ultralytics e il toolkit AI di Google. Questo passaggio è chiaramente delineato nel notebook, quindi puoi seguire facilmente le istruzioni per configurare il tuo spazio di lavoro.
Una volta configurato tutto, puoi connetterti all'API Gemini inserendo la tua chiave API (come mostrato di seguito), che crea un collegamento tra il tuo spazio di lavoro e il modello. Dopodiché, sarai pronto per inviare immagini e prompt di testo a Gemini 2.5.
In sostanza, puoi fornire un'immagine e una semplice istruzione (come "rileva gli oggetti in questa immagine" o "descrivi cosa vedi") al modello, e questo restituisce i risultati necessari. Questo processo semplice rende facile iniziare a esplorare le capacità di computer vision di Gemini 2.5.
Rilevamento oggetti con Google Gemini 2.5
Uno degli esempi chiave nel notebook è il rilevamento di oggetti tramite Gemini 2.5 Pro. In questo esempio, si fornisce al modello un'immagine e un semplice prompt per rilevare gli oggetti.
Il modello elabora l'immagine e restituisce un insieme di coordinate ed etichette per ogni oggetto che trova; queste coordinate sono fornite in forma normalizzata. Le funzioni del pacchetto Python Ultralytics vengono quindi utilizzate per convertire questi valori normalizzati in modo che corrispondano alle dimensioni effettive dell'immagine e disegnare chiari riquadri di delimitazione attorno a ciascun oggetto, come mostrato di seguito.
Fig. 3. Utilizzo di Google Gemini 2.5 per il rilevamento di oggetti.
Image captioning con Gemini 2.5
Un altro esempio interessante nel notebook è la didascalia automatica delle immagini utilizzando Gemini 2.5 Pro. In questo esempio, si fornisce al modello un'immagine e un prompt che gli chiede di generare una didascalia dettagliata che descriva ciò che è presente nell'immagine.
Il modello analizza quindi il contenuto visivo e restituisce una narrazione, spesso formattata come più frasi, che cattura sia il contenuto che il contesto dell'immagine. Questa funzionalità è utile per migliorare l'accessibilità, riassumere le informazioni visive e persino migliorare la narrazione creativa.
Migliorare l'accuratezza dell'OCR con i modelli Google Gemini
Un'attività di computer vision che utilizza la capacità di Gemini 2.5 Pro di leggere il testo nelle immagini è l'OCR. Nel notebook, puoi fornire al modello un'immagine contenente testo insieme a un prompt per estrarre quel testo. Il modello elabora l'immagine e restituisce sia il testo rilevato sia le coordinate in cui si trova il testo, come mostrato di seguito.
Le funzioni del pacchetto Python Ultralytics vengono quindi utilizzate per convertire queste coordinate normalizzate nelle dimensioni effettive dell'immagine e disegnare i bounding box attorno alle regioni di testo. Questo output annotato rende chiaro dove si trova il testo, il che è utile per digitalizzare documenti, automatizzare l'inserimento dei dati e migliorare l'accessibilità.
Fig. 4. Estrazione di dati testuali in un'immagine tramite Google Gemini 2.5.
Applicazioni nel mondo reale di Google Gemini 2.5
Ora che abbiamo esaminato come Google Gemini 2.5 Pro può essere utilizzato per varie attività di computer vision, esploriamo alcune applicazioni reali in cui queste funzionalità possono essere utilizzate.
La capacità di object detection di Gemini 2.5 Pro, ad esempio, può aiutare a etichettare e organizzare automaticamente grandi set di immagini, rendendo molto più veloci attività come la creazione di dataset o la gestione dei contenuti. Può anche essere utilizzato per analizzare immagini in settori come il retail e l'agricoltura, ad esempio, rilevando prodotti sugli scaffali o identificando segni di stress delle colture nelle foto delle aziende agricole.
Fig. 5. Gemini 2.5 Pro analizza la salute di una pianta.
Nel frattempo, la funzione di image captioning del modello può aiutare gli utenti ipovedenti a capire cosa c'è in un'immagine. Ad esempio, se hai una foto di una strada trafficata, il modello potrebbe produrre una didascalia che descrive la scena in dettaglio, menzionando i tipi di veicoli, l'attività dei pedoni e persino l'ora del giorno in base agli indizi di illuminazione.
Inoltre, la funzionalità OCR di Gemini 2.5 può essere utilizzata in una varietà di applicazioni. Ad esempio, è possibile digitalizzare documenti stampati scansionando pagine o ricevute. Questa funzionalità è ideale per automatizzare le attività di inserimento dati, elaborare moduli o persino leggere testo da biglietti da visita e segnaletica.
Nel complesso, Google Gemini 2.5 Pro apre le porte a una vasta gamma di applicazioni pratiche di IA.
Punti chiave
Oltre a generare e analizzare testo, Google Gemini 2.5 Pro può essere utilizzato per attività di computer vision come l'object detection, la didascalia delle immagini e l'OCR. Con la sua enorme finestra di contesto e le capacità di ragionamento avanzate, produce risultati dettagliati e consapevoli del contesto che funzionano bene in scenari reali.
Con la continua evoluzione dei modelli di IA, strumenti come Gemini 2.5 Pro stanno rendendo più facile la risoluzione di problemi complessi in tutti i settori. È probabile che assisteremo a un'adozione ancora più ampia dell'IA, poiché sempre più organizzazioni sono alla ricerca di soluzioni flessibili e multimodali in grado di gestire un'ampia gamma di attività, dalla comprensione visiva all'elaborazione del linguaggio.