Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Scoprite da vicino Google Gemini 2.5 per le attività di visione computerizzata

Abirami Vina

5 minuti di lettura

31 marzo 2025

Scoprite come potete mettere mano a Google Gemini 2.5 per attività di computer vision come il rilevamento di oggetti, la didascalia di immagini e l'OCR per le soluzioni Vision AI.

I progressi dell'intelligenza artificiale si susseguono velocemente e le novità fanno notizia quasi ogni giorno. Una di queste è Gemini 2.5, l'ultimo modello multimodale di Google DeepMind, lanciato il 26 marzo. Mentre i tradizionali Large Language Models (LLM) possono apprendere da enormi quantità di dati per generare testi simili a quelli umani, Gemini 2.5 va oltre. 

È progettato come un “modello pensante” in grado di elaborare immagini, audio e video. Ha capacità di ragionamento e codifica avanzate. Interessante notare che si comporta eccezionalmente bene anche per quanto riguarda i task di computer vision, dove le macchine interpretano e analizzano i dati visivi, come il rilevamento di oggetti, la didascalia di immagini e il riconoscimento ottico dei caratteri (OCR).

__wf_reserved_inherit
Fig. 1. Un esempio di utilizzo di Gemini 2.5 per comprendere il contenuto di un'immagine.

In questo articolo, vi illustreremo uno dei notebook di Ultralyticsche vi aiuterà a toccare con mano le funzionalità di computer vision di Gemini 2.5. Daremo anche un'occhiata più da vicino alle caratteristiche principali di Gemini 2.5 e mostreremo come può essere usato per costruire soluzioni di computer vision per applicazioni reali. Iniziamo!

Panoramica di Gemini 2.5: funzionalità e capacità

La prima versione della serie di modelli Gemini 2.5 appena rilasciata è una versione sperimentale di Gemini 2.5 Pro. È progettata per gestire problemi complessi elaborando le sue risposte prima di dare una risposta. Utilizza metodi come il reinforcement learning (dove il modello impara dal feedback) e il chain-of-thought prompting (un approccio passo dopo passo per risolvere i problemi).

Una delle sue caratteristiche principali è la sua enorme finestra di contesto, che può contenere 1 milione di token (circa un milione di parole o parti di parole) e si prevede che crescerà fino a 2 milioni. Ciò significa che il modello può acquisire molte informazioni contemporaneamente, portando a risultati più dettagliati e accurati.

Oltre all'elaborazione del linguaggio, Gemini 2.5 può essere utilizzato per i seguenti compiti di computer vision:

  • Object detection: È il processo di identificazione e localizzazione di oggetti all'interno di un'immagine. Può essere utilizzato in applicazioni come la sorveglianza o le auto a guida autonoma.
  • Image captioning: Questa attività prevede la generazione di un testo descrittivo per un'immagine. Rende i contenuti visivi più accessibili e facili da comprendere.
  • Riconoscimento ottico dei caratteri: Questa tecnologia converte il testo presente nelle immagini in testo modificabile e leggibile dalla macchina. È utile per digitalizzare documenti e automatizzare l'inserimento dei dati.

Benchmarking e confronto di Google Gemini 2.5 con altri modelli

Oggi nel settore dell'intelligenza artificiale sono disponibili diversi modelli multimodali, per cui è importante capire come Gemini 2.5 Pro si colloca rispetto ad essi. In base ai risultati dei benchmark condivisi da DeepMind di Google, Gemini 2.5 Pro mostra prestazioni impressionanti in una serie di compiti. 

Ad esempio, in un test chiamato Humanity's Last Exam, che simula un esame impegnativo che copre molte materie e verifica il ragionamento avanzato e la conoscenza generale, Gemini 2.5 Pro ottiene un punteggio di circa il 18,8%, superando modelli come o3-mini di OpenAI, che ottiene un punteggio di circa il 14%. 

__wf_reserved_inherit
Fig. 2. Una panoramica delle prestazioni di benchmark di Gemini 2.5 Pro.

Offre ottime prestazioni anche nelle sfide di matematica e programmazione, spesso eguagliando o superando le prestazioni di modelli come OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta e DeepSeek R1, dimostrando la sua capacità di gestire attività complesse ed elaborare grandi quantità di dati.

Come usare Gemini 2.5: come utilizzare l'API Google Gemini

Gemini 2.5 Pro è disponibile su più piattaforme. È possibile sperimentarlo in Google AI Studio e accedervi tramite l'app Gemini per gli utenti di Gemini Advanced. Nel suo annuncio di lancio, Google DeepMind ha anche menzionato che il modello sarà presto supportato da Vertex AI. Questi punti di accesso facilitano agli sviluppatori l'utilizzo di Gemini 2.5 Pro per le applicazioni di IA del mondo reale. 

Tuttavia, se si desidera utilizzare l'API Google Gemini e iniziare a lavorare in pochi minuti senza complicate configurazioni e si desidera acquisire una migliore comprensione delle sue capacità di computer vision, è possibile consultare il notebookUltralytics che illustra attività come il rilevamento di oggetti e la didascalia di immagini utilizzando Gemini 2.5 Pro. Vediamo nel dettaglio cosa vi aspetta nel notebook.

Impostazione dell'inferencing con il notebook Google Gemini 2.5

Per iniziare a utilizzare il notebook Ultralytics e Google Gemini 2.5, è necessario generare una chiave API tramite Google AI Studio. Questa chiave consente di accedere all'API di Gemini e di utilizzare il modello.

Una volta ottenuta la chiave API, assicurarsi che nel proprio ambiente siano installate le librerie necessarie, tra cui i pacchetti di Ultralytics e del toolkit AI di Google. Questa fase è chiaramente descritta nel blocco note, in modo che possiate seguire facilmente le istruzioni per configurare il vostro spazio di lavoro.

Una volta configurato tutto, puoi connetterti all'API Gemini inserendo la tua chiave API (come mostrato di seguito), che crea un collegamento tra il tuo spazio di lavoro e il modello. Dopodiché, sarai pronto per inviare immagini e prompt di testo a Gemini 2.5.

In sostanza, è possibile fornire al modello un'immagine e una semplice istruzione (come "detect gli oggetti in questa immagine" o "descrivi ciò che vedi") e il modello restituisce i risultati richiesti. Questo processo semplice rende facile iniziare a esplorare le capacità di visione computerizzata di Gemini 2.5.

Rilevamento di oggetti con Google Gemini 2.5

Uno degli esempi principali del quaderno è il rilevamento degli oggetti con Gemini 2.5 Pro. In questo esempio, si fornisce al modello un'immagine e una semplice richiesta di detect di oggetti. 

Il modello elabora l'immagine e restituisce una serie di coordinate ed etichette per ogni oggetto trovato; queste coordinate sono fornite in forma normalizzata. Le funzioni del pacchettoUltralytics Python vengono quindi utilizzate per convertire questi valori normalizzati in modo che corrispondano alle dimensioni reali dell'immagine e per disegnare dei riquadri di delimitazione chiari attorno a ciascun oggetto, come mostrato di seguito.

__wf_reserved_inherit
Figura 3. Utilizzo di Google Gemini 2.5 per il rilevamento degli oggetti.

Image captioning con Gemini 2.5

Un altro esempio interessante nel notebook è la didascalia automatica delle immagini utilizzando Gemini 2.5 Pro. In questo esempio, si fornisce al modello un'immagine e un prompt che gli chiede di generare una didascalia dettagliata che descriva ciò che è presente nell'immagine. 

Il modello analizza quindi il contenuto visivo e restituisce una narrazione, spesso formattata come più frasi, che cattura sia il contenuto che il contesto dell'immagine. Questa funzionalità è utile per migliorare l'accessibilità, riassumere le informazioni visive e persino migliorare la narrazione creativa.

Migliorare l'accuratezza dell'OCR con i modelli di Google Gemini

Un'attività di computer vision che utilizza la capacità di Gemini 2.5 Pro di leggere il testo nelle immagini è l'OCR. Nel notebook, puoi fornire al modello un'immagine contenente testo insieme a un prompt per estrarre quel testo. Il modello elabora l'immagine e restituisce sia il testo rilevato sia le coordinate in cui si trova il testo, come mostrato di seguito.

Le funzioni del pacchetto Ultralytics Python vengono quindi utilizzate per convertire queste coordinate normalizzate nelle dimensioni reali dell'immagine e per disegnare caselle di delimitazione intorno alle regioni di testo. Questo output annotato chiarisce la posizione del testo, utile per la digitalizzazione dei documenti, l'automazione dell'inserimento dei dati e il miglioramento dell'accessibilità.

__wf_reserved_inherit
Figura 4. Estrazione di dati testuali in un'immagine con Google Gemini 2.5.

Applicazioni reali di Google Gemini 2.5

Dopo aver illustrato come Google Gemini 2.5 Pro può essere utilizzato per vari compiti di computer vision, analizziamo alcune applicazioni reali in cui queste capacità possono essere utilizzate.

La capacità di object detection di Gemini 2.5 Pro, ad esempio, può aiutare a etichettare e organizzare automaticamente grandi set di immagini, rendendo molto più veloci attività come la creazione di dataset o la gestione dei contenuti. Può anche essere utilizzato per analizzare immagini in settori come il retail e l'agricoltura, ad esempio, rilevando prodotti sugli scaffali o identificando segni di stress delle colture nelle foto delle aziende agricole.

__wf_reserved_inherit
Fig. 5. Gemini 2.5 Pro analizza la salute di una pianta.

Nel frattempo, la funzione di image captioning del modello può aiutare gli utenti ipovedenti a capire cosa c'è in un'immagine. Ad esempio, se hai una foto di una strada trafficata, il modello potrebbe produrre una didascalia che descrive la scena in dettaglio, menzionando i tipi di veicoli, l'attività dei pedoni e persino l'ora del giorno in base agli indizi di illuminazione. 

Inoltre, la funzionalità OCR di Gemini 2.5 può essere utilizzata in una varietà di applicazioni. Ad esempio, è possibile digitalizzare documenti stampati scansionando pagine o ricevute. Questa funzionalità è ideale per automatizzare le attività di inserimento dati, elaborare moduli o persino leggere testo da biglietti da visita e segnaletica. 

Nel complesso, Google Gemini 2.5 Pro apre le porte a un'ampia gamma di applicazioni pratiche di intelligenza artificiale.

Punti chiave

Oltre alla generazione e all'analisi del testo, Google Gemini 2.5 Pro può essere utilizzato per attività di computer vision come il rilevamento di oggetti, la didascalia di immagini e l'OCR. Grazie all'enorme finestra di contesto e alle capacità di ragionamento migliorate, produce risultati dettagliati e consapevoli del contesto che funzionano bene in scenari reali. 

Con la continua evoluzione dei modelli di IA, strumenti come Gemini 2.5 Pro stanno rendendo più facile la risoluzione di problemi complessi in tutti i settori. È probabile che assisteremo a un'adozione ancora più ampia dell'IA, poiché sempre più organizzazioni sono alla ricerca di soluzioni flessibili e multimodali in grado di gestire un'ampia gamma di attività, dalla comprensione visiva all'elaborazione del linguaggio.

Entra a far parte della nostra community e scopri i progetti di IA all'avanguardia sul nostro repository GitHub. Scopri le applicazioni della Vision AI in agricoltura e il ruolo dell'IA nella produzione nelle nostre pagine dedicate alle soluzioni. Esplora i nostri piani di licenza e crea subito soluzioni di computer vision!

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis