Scoprite da vicino Google Gemini 2.5 per le attività di computer vision

Abirami Vina

5 minuti di lettura

31 marzo 2025

Scoprite come potete mettere mano a Google Gemini 2.5 per attività di computer vision come il rilevamento di oggetti, la didascalia di immagini e l'OCR per le soluzioni Vision AI.

I progressi dell'intelligenza artificiale si susseguono velocemente e le novità fanno notizia quasi ogni giorno. Una di queste è Gemini 2.5, l'ultimo modello multimodale di Google DeepMind, lanciato il 26 marzo. Mentre i tradizionali Large Language Models (LLM) possono apprendere da enormi quantità di dati per generare testi simili a quelli umani, Gemini 2.5 va oltre. 

È stato progettato come un "modello di pensiero" in grado di elaborare immagini, audio e video. Ha capacità di ragionamento e di codifica migliorate. È interessante notare che ha prestazioni eccezionali anche per quanto riguarda le attività di computer vision, in cui le macchine interpretano e analizzano i dati visivi, come il rilevamento di oggetti, la didascalia delle immagini e il riconoscimento ottico dei caratteri (OCR).

__wf_reserved_inherit
Figura 1. Un esempio di utilizzo di Gemini 2.5 per comprendere il contenuto di un'immagine.

In questo articolo, vi illustreremo uno dei notebook di Ultralytics che vi aiuterà a toccare con mano le funzionalità di computer vision di Gemini 2.5. Daremo anche un'occhiata più da vicino alle caratteristiche principali di Gemini 2.5 e mostreremo come può essere usato per costruire soluzioni di computer vision per applicazioni reali. Iniziamo!

Panoramica di Gemini 2.5: caratteristiche e funzionalità

La prima versione della serie di modelli Gemini 2.5 appena rilasciata è una versione sperimentale di Gemini 2.5 Pro. È stato progettato per gestire problemi complessi riflettendo sulle sue risposte prima di dare una risposta. Utilizza metodi come l'apprendimento per rinforzo (in cui il modello impara grazie al feedback) e il prompt della catena di pensiero (un approccio graduale alla risoluzione dei problemi).

Una delle sue caratteristiche principali è l'enorme finestra contestuale, che può contenere 1 milione di token (circa un milione di parole o parti di parole) e che si prevede possa crescere fino a 2 milioni. Ciò significa che il modello è in grado di recepire molte informazioni in una sola volta, ottenendo risultati più dettagliati e accurati.

Oltre al linguaggio di elaborazione, Gemini 2.5 può essere utilizzato per i seguenti compiti di computer vision:

  • Rilevamento dell'oggetto: È il processo di identificazione e localizzazione degli oggetti all'interno di un'immagine. Può essere utilizzato in applicazioni come la sorveglianza o le auto a guida autonoma.
  • Didascalia dell'immagine: Si tratta di generare un testo descrittivo per un'immagine. Rende i contenuti visivi più accessibili e facili da capire.
  • Riconoscimento ottico dei caratteri: Questa tecnologia converte il testo presente nelle immagini in testo modificabile e leggibile dalla macchina. È utile per digitalizzare i documenti e automatizzare l'inserimento dei dati.

Benchmarking e confronto di Google Gemini 2.5 con altri modelli

Oggi nel settore dell'intelligenza artificiale sono disponibili diversi modelli multimodali, per cui è importante capire come Gemini 2.5 Pro si colloca rispetto ad essi. In base ai risultati dei benchmark condivisi da DeepMind di Google, Gemini 2.5 Pro mostra prestazioni impressionanti in una serie di compiti. 

Per esempio, in un test chiamato Humanity's Last Exam, che simula un esame impegnativo che copre molte materie e mette alla prova il ragionamento avanzato e la conoscenza generale, Gemini 2.5 Pro ha ottenuto un punteggio di circa il 18,8%, superando modelli come o3-mini di OpenAI, che ha ottenuto circa il 14%. 

__wf_reserved_inherit
Figura 2. Una panoramica delle prestazioni del benchmark di Gemini 2.5 Pro.

Si comporta molto bene anche nelle sfide matematiche e di codifica, spesso eguagliando o superando le prestazioni di modelli come OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta e DeepSeek R1, dimostrando la sua capacità di gestire compiti complessi ed elaborare grandi quantità di dati.

Come usare Gemini 2.5: come utilizzare l'API di Google Gemini

Gemini 2.5 Pro è disponibile su più piattaforme. È possibile sperimentarlo in Google AI Studio e accedervi tramite l'app Gemini per gli utenti di Gemini Advanced. Nel suo annuncio di lancio, Google DeepMind ha anche menzionato che il modello sarà presto supportato da Vertex AI. Questi punti di accesso facilitano agli sviluppatori l'utilizzo di Gemini 2.5 Pro per applicazioni di AI reali. 

Tuttavia, se si desidera utilizzare l'API Google Gemini e iniziare a lavorare in pochi minuti senza complicate configurazioni e si desidera comprendere meglio le sue capacità di computer vision, è possibile consultare il notebook Ultralytics che illustra attività come il rilevamento di oggetti e la didascalia di immagini utilizzando Gemini 2.5 Pro. Vediamo nel dettaglio cosa vi aspetta nel notebook.

Impostazione dell'inferencing con il notebook Google Gemini 2.5

Per iniziare a utilizzare il notebook Ultralytics e Google Gemini 2.5, è necessario generare una chiave API tramite Google AI Studio. Questa chiave consente di accedere all'API di Gemini e di utilizzare il modello.

Una volta ottenuta la chiave API, assicurarsi che nel proprio ambiente siano installate le librerie necessarie, tra cui i pacchetti di Ultralytics e il toolkit AI di Google. Questa fase è chiaramente descritta nel blocco note, in modo che possiate seguire facilmente le istruzioni per configurare il vostro spazio di lavoro.

Una volta configurato il tutto, è possibile connettersi all'API di Gemini inserendo la propria chiave API (come mostrato di seguito), che crea un collegamento tra l'area di lavoro e il modello. Dopodiché, sarete pronti a inviare immagini e richieste di testo a Gemini 2.5.

In sostanza, è possibile fornire al modello un'immagine e una semplice istruzione (come "rileva gli oggetti in questa immagine" o "descrivi ciò che vedi") e il modello restituisce i risultati richiesti. Questo processo semplice rende facile iniziare a esplorare le capacità di visione computerizzata di Gemini 2.5.

Rilevamento di oggetti con Google Gemini 2.5

Uno degli esempi principali del quaderno è il rilevamento degli oggetti con Gemini 2.5 Pro. In questo esempio, si fornisce al modello un'immagine e una semplice richiesta di rilevamento di oggetti. 

Il modello elabora l'immagine e restituisce una serie di coordinate ed etichette per ogni oggetto trovato; queste coordinate sono fornite in forma normalizzata. Le funzioni del pacchetto Ultralytics Python vengono quindi utilizzate per convertire questi valori normalizzati in modo che corrispondano alle dimensioni reali dell'immagine e per disegnare dei riquadri di delimitazione chiari intorno a ciascun oggetto, come mostrato di seguito.

__wf_reserved_inherit
Figura 3. Utilizzo di Google Gemini 2.5 per il rilevamento degli oggetti.

Didascalia delle immagini con Gemini 2.5

Un altro esempio interessante del notebook è la didascalia delle immagini con Gemini 2.5 Pro. In questo esempio, si fornisce al modello un'immagine e si chiede di generare una didascalia dettagliata che descriva il contenuto dell'immagine. 

Il modello analizza quindi il contenuto visivo e restituisce una narrazione, spesso formattata come frasi multiple, che cattura sia il contenuto che il contesto dell'immagine. Questa funzione è utile per migliorare l'accessibilità, riassumere le informazioni visive e persino migliorare la narrazione creativa.

Migliorare l'accuratezza dell'OCR con i modelli di Google Gemini

Un'attività di computer vision che utilizza la capacità di Gemini 2.5 Pro di leggere il testo nelle immagini è l'OCR. Nel blocco note è possibile fornire al modello un'immagine contenente del testo e una richiesta di estrazione del testo. Il modello elabora l'immagine e restituisce sia il testo rilevato sia le coordinate in cui si trova il testo, come mostrato di seguito.

Le funzioni del pacchetto Ultralytics Python vengono quindi utilizzate per convertire queste coordinate normalizzate nelle dimensioni reali dell'immagine e per disegnare caselle di delimitazione intorno alle regioni di testo. Questo output annotato chiarisce la posizione del testo, utile per la digitalizzazione dei documenti, l'automazione dell'inserimento dei dati e il miglioramento dell'accessibilità.

__wf_reserved_inherit
Figura 4. Estrazione di dati testuali in un'immagine con Google Gemini 2.5.

Applicazioni reali di Google Gemini 2.5

Dopo aver illustrato come Google Gemini 2.5 Pro può essere utilizzato per vari compiti di computer vision, analizziamo alcune applicazioni reali in cui queste capacità possono essere utilizzate.

La capacità di Gemini 2.5 Pro di rilevare gli oggetti, ad esempio, può aiutare a etichettare e organizzare automaticamente grandi serie di immagini, rendendo molto più veloci attività come la creazione di set di dati o la gestione dei contenuti. Può essere utilizzato anche per analizzare le immagini in settori come la vendita al dettaglio e l'agricoltura, ad esempio per rilevare i prodotti sugli scaffali o identificare i segni di stress delle colture nelle foto delle aziende agricole.

__wf_reserved_inherit
Figura 5. Gemini 2.5 Pro analizza lo stato di salute di una pianta.

Nel frattempo, la funzione di didascalia delle immagini del modello può aiutare gli utenti ipovedenti a capire cosa c'è in un'immagine. Ad esempio, se si ha una foto di una strada trafficata, il modello può produrre una didascalia che descrive la scena in dettaglio, menzionando i tipi di veicoli, l'attività dei pedoni e persino l'ora del giorno in base a indizi di illuminazione. 

Inoltre, la funzionalità OCR di Gemini 2.5 può essere utilizzata in diverse applicazioni. Ad esempio, è possibile digitalizzare documenti stampati scansionando pagine o ricevute. Questa funzionalità è ideale per automatizzare le attività di inserimento dati, elaborare moduli o anche leggere il testo da biglietti da visita e insegne. 

Nel complesso, Google Gemini 2.5 Pro apre le porte a un'ampia gamma di applicazioni pratiche di intelligenza artificiale.

Punti di forza

Oltre alla generazione e all'analisi del testo, Google Gemini 2.5 Pro può essere utilizzato per attività di computer vision come il rilevamento di oggetti, la didascalia di immagini e l'OCR. Grazie all'enorme finestra di contesto e alle capacità di ragionamento migliorate, produce risultati dettagliati e consapevoli del contesto che funzionano bene in scenari reali. 

Con la continua evoluzione dei modelli di IA, strumenti come Gemini 2.5 Pro facilitano la soluzione di problemi complessi in tutti i settori. È probabile che vedremo un'adozione ancora più ampia dell'IA, dato che sempre più organizzazioni cercano soluzioni flessibili e multimodali in grado di gestire un'ampia gamma di compiti, dalla comprensione visiva all'elaborazione del linguaggio.

Entrate a far parte della nostra comunità e scoprite i progetti di IA all'avanguardia sul nostro repository GitHub. Scoprite le applicazioni dell'IA di visione in agricoltura e il ruolo dell'IA nella produzione nelle nostre pagine dedicate alle soluzioni. Esplorate i nostri piani di licenza e costruite oggi stesso soluzioni di computer vision!

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti