Mettiti alla prova con Google Gemini 2.5 per attività di computer vision
Scopri come metterti alla prova con Google Gemini 2.5 per attività di computer vision come il rilevamento di oggetti, la generazione di didascalie per immagini e l'OCR per soluzioni di Vision AI.

I progressi dell'IA corrono veloci, con nuove innovazioni che fanno notizia quasi ogni giorno. Una di queste recenti scoperte è Gemini 2.5, l'ultimo modello multimodale di Google DeepMind, lanciato il 26 marzo. Mentre i tradizionali Large Language Models (LLMs) possono imparare da enormi quantità di dati per generare testi simili a quelli umani, Gemini 2.5 va oltre.
È progettato come un "modello pensante" in grado di elaborare immagini, audio e video. Ha capacità di ragionamento e di programmazione migliorate. È interessante notare che offre prestazioni eccezionali anche per quanto riguarda i computer vision tasks, in cui le macchine interpretano e analizzano dati visivi, come il rilevamento di oggetti, la creazione di didascalie per immagini e il riconoscimento ottico dei caratteri (OCR).

Fig 1. Un esempio di utilizzo di Gemini 2.5 per comprendere il contenuto di un'immagine.
In questo articolo, esploreremo uno dei notebook di Ultralytics che può aiutarti a sperimentare le funzionalità di computer vision di Gemini 2.5. Daremo anche uno sguardo più da vicino alle caratteristiche principali di Gemini 2.5 e mostreremo come può essere utilizzato per costruire computer vision solutions per applicazioni del mondo reale. Cominciamo!
Link to this sectionPanoramica di Gemini 2.5: caratteristiche e capacità#
La prima versione della serie di modelli Gemini 2.5 appena rilasciata è una versione sperimentale di Gemini 2.5 Pro. È progettata per gestire problemi complessi riflettendo sulle risposte prima di fornire una soluzione. Utilizza metodi come l'apprendimento per rinforzo (dove il modello impara dai feedback) e il chain-of-thought prompting (un approccio passo dopo passo alla risoluzione dei problemi).
Una delle sue caratteristiche principali è l'enorme finestra di contesto, che può contenere 1 milione di token (circa un milione di parole o parti di parole) e che si prevede crescerà fino a 2 milioni. Ciò significa che il modello può assorbire molte informazioni contemporaneamente, portando a risultati più dettagliati e accurati.
Oltre all'elaborazione del linguaggio, Gemini 2.5 può essere utilizzato per i seguenti compiti di computer vision:
-
Object detection: è il processo di identificazione e localizzazione di oggetti all'interno di un'immagine. Può essere utilizzato in applicazioni come la sorveglianza o le auto a guida autonoma.
-
Image captioning: questo compito prevede la generazione di un testo descrittivo per un'immagine. Rende i contenuti visivi più accessibili e facili da comprendere.
-
Optical character recognition: questa tecnologia converte il testo presente nelle immagini in testo modificabile e leggibile dalla macchina. È utile per digitalizzare documenti e automatizzare l'inserimento dei dati.
Link to this sectionBenchmarking e confronto di Google Gemini 2.5 con altri modelli#
Esistono diversi modelli multimodali disponibili oggi nel campo dell'IA, quindi è importante capire come si confronta Gemini 2.5 Pro con essi. Sulla base dei risultati di benchmarking condivisi da Google DeepMind, Gemini 2.5 Pro mostra prestazioni impressionanti in una serie di compiti.
Ad esempio, in un test chiamato Humanity’s Last Exam, che simula un esame impegnativo che copre molte materie e mette alla prova il ragionamento avanzato e la conoscenza generale, Gemini 2.5 Pro ottiene un punteggio di circa il 18,8%, superando modelli come o3-mini di OpenAI, che ottiene circa il 14%.

Fig 2. Una panoramica delle prestazioni di benchmark di Gemini 2.5 Pro.
Ottiene inoltre ottimi risultati nelle sfide di matematica e programmazione, eguagliando o superando spesso le prestazioni di modelli come OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta e DeepSeek R1, dimostrando la sua capacità di gestire compiti complessi ed elaborare grandi quantità di dati.
Link to this sectionMettiti all'opera con Gemini 2.5: Come utilizzare la Google Gemini API#
Gemini 2.5 Pro è disponibile su molteplici piattaforme. Puoi sperimentarlo in Google AI Studio e accedervi tramite l'app Gemini per gli utenti di Gemini Advanced. Nell'annuncio del lancio, Google DeepMind ha anche menzionato che il modello sarà presto supportato su Vertex AI. Questi punti di accesso rendono facile per gli sviluppatori utilizzare Gemini 2.5 Pro per applicazioni di IA nel mondo reale.
Tuttavia, se desideri utilizzare la Google Gemini API e iniziare in pochi minuti senza configurazioni complicate, e se cerchi di comprendere meglio le sue capacità di computer vision, puoi dare un'occhiata al notebook di Ultralytics che illustra compiti come l'object detection e l'image captioning utilizzando Gemini 2.5 Pro. Esaminiamo in dettaglio cosa puoi aspettarti dal notebook.
Link to this sectionConfigurazione dell'inferenza con il notebook di Google Gemini 2.5#
Per iniziare con il notebook di Ultralytics e utilizzare Google Gemini 2.5, dovrai prima generare una chiave API tramite Google AI Studio. Questa chiave ti garantisce l'accesso alla Gemini API in modo da poter utilizzare il modello.
Una volta ottenuta la chiave API, assicurati che il tuo ambiente abbia installato le librerie necessarie; queste includono i pacchetti di Ultralytics e il toolkit IA di Google. Questo passaggio è chiaramente delineato nel notebook, così puoi seguire facilmente le istruzioni per configurare il tuo spazio di lavoro.
Con tutto configurato, puoi connetterti alla Gemini API inserendo la tua chiave API (come mostrato di seguito), il che crea un collegamento tra il tuo spazio di lavoro e il modello. Dopodiché, sarai pronto a inviare immagini e prompt di testo a Gemini 2.5.
Essenzialmente, puoi fornire un'immagine e una semplice istruzione (come “rileva gli oggetti in questa immagine” o “descrivi ciò che vedi”) al modello, e questo ti restituirà i risultati di cui hai bisogno. Questo processo diretto rende facile iniziare a esplorare le capacità di computer vision di Gemini 2.5.
Link to this sectionObject detection con Google Gemini 2.5#
Uno degli esempi chiave nel notebook è l'object detection utilizzando Gemini 2.5 Pro. In questo esempio, fornisci al modello un'immagine e un semplice prompt per rilevare gli oggetti.
Il modello elabora l'immagine e restituisce una serie di coordinate ed etichette per ogni oggetto che trova; queste coordinate sono fornite in forma normalizzata. Le funzioni del pacchetto Python di Ultralytics vengono quindi utilizzate per convertire questi valori normalizzati in modo che corrispondano alle dimensioni effettive dell'immagine e per disegnare chiari riquadri di delimitazione (bounding boxes) attorno a ciascun oggetto, come mostrato di seguito.

Fig 3. Utilizzo di Google Gemini 2.5 per l'object detection.
Link to this sectionImage captioning con Gemini 2.5#
Un altro esempio interessante nel notebook è l'image captioning utilizzando Gemini 2.5 Pro. In questo esempio, fornisci al modello un'immagine e un prompt che gli chiede di generare una didascalia dettagliata che descriva ciò che è presente nell'immagine.
Il modello analizza quindi il contenuto visivo e restituisce una narrazione, spesso formattata come frasi multiple, che cattura sia il contenuto che il contesto dell'immagine. Questa funzione è utile per migliorare l'accessibilità, riassumere informazioni visive e persino migliorare la narrazione creativa.
Link to this sectionMigliorare l'accuratezza dell'OCR con i modelli Google Gemini#
Un compito di computer vision che sfrutta la capacità di Gemini 2.5 Pro di leggere il testo nelle immagini è l'OCR. Nel notebook, puoi fornire al modello un'immagine contenente testo insieme a un prompt per estrarre tale testo. Il modello elabora l'immagine e restituisce sia il testo rilevato che le coordinate in cui si trova il testo, come mostrato di seguito.
Le funzioni del pacchetto Python di Ultralytics vengono quindi utilizzate per convertire queste coordinate normalizzate nelle dimensioni effettive dell'immagine e disegnare bounding boxes attorno alle regioni di testo. Questo output annotato chiarisce dove si trova il testo, il che è utile per digitalizzare documenti, automatizzare l'inserimento dei dati e migliorare l'accessibilità.

Fig 4. Estrazione di dati testuali in un'immagine utilizzando Google Gemini 2.5.
Link to this sectionApplicazioni reali di Google Gemini 2.5#
Ora che abbiamo visto come Google Gemini 2.5 Pro può essere utilizzato per vari compiti di computer vision, esploriamo alcune applicazioni del mondo reale in cui queste capacità possono essere impiegate.
La capacità di object detection di Gemini 2.5 Pro, ad esempio, può aiutare a etichettare e organizzare automaticamente grandi set di immagini, rendendo compiti come la creazione di dataset o la gestione dei contenuti molto più veloci. Può anche essere utilizzata per analizzare immagini in settori come la vendita al dettaglio e l'agricoltura, ad esempio per rilevare prodotti sugli scaffali o identificare segni di stress delle colture nelle foto dei terreni agricoli.

Fig 5. Gemini 2.5 Pro mentre analizza la salute di una pianta.
Nel frattempo, la funzione di image captioning del modello può aiutare gli utenti ipovedenti a comprendere cosa c'è in un'immagine. Ad esempio, se hai una foto di una strada trafficata, il modello potrebbe produrre una didascalia che descrive la scena in dettaglio, menzionando i tipi di veicoli, l'attività dei pedoni e persino l'ora del giorno basandosi sui segnali luminosi.
Oltre a questo, la funzionalità OCR di Gemini 2.5 può essere utilizzata in una varietà di applicazioni. Ad esempio, puoi digitalizzare documenti stampati scansionando pagine o ricevute. Questa capacità è ideale per automatizzare le attività di inserimento dati, l'elaborazione di moduli o persino la lettura di testo da biglietti da visita e segnaletica.
Nel complesso, Google Gemini 2.5 Pro apre le porte a una vasta gamma di applicazioni pratiche di IA.
Link to this sectionPunti chiave#
Andando oltre la generazione e l'analisi del testo, Google Gemini 2.5 Pro può essere utilizzato per compiti di computer vision come l'object detection, l'image captioning e l'OCR. Con la sua massiccia finestra di contesto e le sue capacità di ragionamento migliorate, produce risultati dettagliati e sensibili al contesto che funzionano bene in scenari del mondo reale.
Mentre i modelli di IA continuano a evolversi, strumenti come Gemini 2.5 Pro stanno rendendo più facile risolvere problemi complessi in tutti i settori. È probabile che vedremo un'adozione ancora più ampia dell'IA man mano che più organizzazioni cercheranno soluzioni flessibili e multimodali in grado di gestire una vasta gamma di compiti, dalla comprensione visiva all'elaborazione del linguaggio.
Entra a far parte della nostra community e scopri i progetti di IA all'avanguardia sul nostro repository GitHub. Scopri le applicazioni della Vision AI in agricoltura e il ruolo dell'IA nella produzione sulle nostre pagine delle soluzioni. Esplora i nostri piani di licenza e costruisci soluzioni di computer vision oggi stesso!






