Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

L'IA generativa sta cambiando il futuro della computer vision

Abirami Vina

5 minuti di lettura

24 marzo 2025

Scopri interessanti approfondimenti da un panel talk allo YOLO Vision 2024. Esplora come l'IA generativa sta plasmando il futuro dei modelli di Vision AI in tempo reale.

L'IA generativa è una branca dell'intelligenza artificiale (IA) che crea nuovi contenuti, come immagini, testo o audio, apprendendo schemi da dati esistenti. Grazie ai recenti progressi, ora può essere utilizzata per produrre contenuti altamente realistici che spesso imitano la creatività umana.

Tuttavia, l'impatto dell'IA generativa va oltre la semplice creazione di contenuti. Mentre i modelli di computer vision in tempo reale come i modelli YOLO di Ultralytics continuano a evolversi, l'IA generativa sta anche ridefinendo il modo in cui i dati visivi vengono elaborati e aumentati, aprendo la strada a applicazioni innovative in scenari del mondo reale. 

Questo nuovo cambiamento tecnologico è stato un argomento di conversazione interessante a YOLO Vision 2024 (YV24), un evento ibrido annuale ospitato da Ultralytics. YV24 ha visto appassionati di AI e leader del settore riunirsi per discutere le ultime scoperte nella computer vision. L'evento si è concentrato sull'innovazione, l'efficienza e il futuro delle soluzioni AI in tempo reale.

Uno dei momenti salienti dell'evento è stato un panel talk su YOLO nell'era dell'IA generativa. Il panel ha visto la partecipazione di Glenn Jocher, fondatore e CEO di Ultralytics, Jing Qiu, Senior Machine Learning Engineer di Ultralytics, e Ao Wang della Tsinghua University. Hanno esplorato come l'IA generativa sta influenzando la computer vision e le sfide della costruzione di modelli di IA pratici.

In questo articolo, riprenderemo gli spunti chiave della loro discussione ed esamineremo più da vicino come l'IA generativa sta trasformando la Vision AI.

Sviluppo dei modelli Ultralytics YOLO

Insieme a Glenn Jocher, molti ingegneri qualificati hanno svolto un ruolo fondamentale nello sviluppo dei modelli Ultralytics YOLO. Uno di loro, Jing Qiu, ha raccontato il suo inizio inaspettato con YOLO. Ha spiegato che la sua passione per l'IA è iniziata durante gli anni del college. Ha trascorso molto tempo esplorando e imparando a conoscere il settore. Jing Qiu ha ricordato come si è messo in contatto con Glenn Jocher su GitHub e si è coinvolto in vari progetti di IA.

Aggiungendo a quanto detto da Jing Qiu, Glenn Jocher ha descritto GitHub come "un modo incredibile di condividere, dove persone che non si sono mai incontrate si uniscono per aiutarsi a vicenda, contribuendo al lavoro degli altri. È una grande comunità e un ottimo modo per iniziare con l'AI."

__wf_reserved_inherit
Fig. 1. Glenn Jocher e Jing Qiu che parlano sul palco a YV24.

L'interesse di Jing Qiu per l'IA e il suo lavoro su Ultralytics YOLOv5 hanno contribuito a perfezionare il modello. In seguito, ha svolto un ruolo chiave nello sviluppo di Ultralytics YOLOv8, che ha introdotto ulteriori miglioramenti. Lo ha descritto come un viaggio incredibile. Oggi, Jing Qiu continua a migliorare e lavorare su modelli come Ultralytics YOLO11

YOLOv10: Ottimizzato per le prestazioni nel mondo reale

Collegato al panel da remoto dalla Cina, Ao Wang si è presentato come studente di dottorato. Inizialmente, ha studiato ingegneria del software, ma la sua passione per l'AI lo ha portato a spostarsi verso la computer vision e il deep learning.

Il suo primo incontro con il famoso modello YOLO è avvenuto durante la sperimentazione di varie tecniche e modelli di IA. È rimasto colpito dalla sua velocità e accuratezza, il che lo ha ispirato ad approfondire compiti di computer vision come il rilevamento di oggetti. Recentemente, Ao Wang ha contribuito a YOLOv10, una versione recente del modello YOLO. La sua ricerca si è concentrata sull'ottimizzazione del modello per renderlo più veloce e preciso.

La differenza fondamentale tra IA generativa e Vision AI

Quindi, il panel ha iniziato a discutere di IA generativa e Jing Qiu ha sottolineato che l'IA generativa e la Vision AI hanno scopi molto diversi. L'IA generativa crea o genera cose come testo, immagini e video, mentre la Vision AI analizza ciò che già esiste, principalmente immagini.

Glenn Jocher ha sottolineato che anche le dimensioni fanno una grande differenza. I modelli di IA generativa sono enormi, spesso contengono miliardi di parametri, impostazioni interne che aiutano il modello ad apprendere dai dati. I modelli di computer vision sono molto più piccoli. Ha detto: "Il modello YOLO più piccolo che abbiamo è circa mille volte più piccolo del più piccolo LLM [Large Language Model]. Quindi, 3 milioni di parametri rispetto a tre miliardi."

__wf_reserved_inherit
Fig. 3. La tavola rotonda sull'AI generativa e la Vision AI allo YV24.

Jing Qiu ha aggiunto che i processi di training e deployment dell'IA generativa e della computer vision sono molto diversi. L'IA generativa ha bisogno di server enormi e potenti per funzionare. I modelli come YOLO, d'altra parte, sono costruiti per l'efficienza e possono essere addestrati e implementati su hardware standard. Questo rende i modelli Ultralytics YOLO più pratici per l'uso nel mondo reale.

Anche se sono diversi, questi due campi stanno iniziando a intrecciarsi. Glenn Jocher ha spiegato che l'AI generativa sta portando nuovi progressi alla Vision AI, rendendo i modelli più intelligenti ed efficienti. 

L'impatto dell'IA generativa sulla computer vision

L'IA generativa ha fatto rapidi progressi e queste scoperte stanno influenzando molte altre aree dell'intelligenza artificiale, inclusa la computer vision. Successivamente, esaminiamo alcune interessanti intuizioni del panel su questo argomento.

I progressi hardware stanno abilitando le innovazioni dell'AI

All'inizio del panel, Glenn Jocher ha spiegato che le idee di machine learning esistono da molto tempo, ma i computer non erano abbastanza potenti da farle funzionare. Le idee di intelligenza artificiale avevano bisogno di un hardware più potente per diventare realtà.

L'ascesa delle GPU (Graphics Processing Units) negli ultimi 20 anni con capacità di elaborazione parallela ha cambiato tutto. Hanno reso l'addestramento dei modelli di intelligenza artificiale molto più veloce ed efficiente, il che ha permesso al deep learning di svilupparsi a un ritmo rapido.

Oggigiorno, i chip AI come le TPU (Tensor Processing Unit) e le GPU ottimizzate utilizzano meno energia gestendo modelli più grandi e complessi. Ciò ha reso l'AI più accessibile e utile nelle applicazioni del mondo reale.

Con ogni nuovo miglioramento hardware, sia l'IA generativa che le applicazioni di computer vision stanno diventando più potenti. Questi progressi stanno rendendo l'IA in tempo reale più veloce, più efficiente e pronta per l'uso in più settori.

In che modo l'IA generativa sta plasmando i modelli di object detection

Quando gli è stato chiesto come l'IA generativa stia influenzando la computer vision, Jing Qiu ha affermato che i transformer - modelli che aiutano l'IA a concentrarsi sulle parti più importanti di un'immagine - hanno cambiato il modo in cui l'IA comprende ed elabora le immagini. Il primo grande passo è stato DETR (Detection Transformer), che ha utilizzato questo nuovo approccio per il rilevamento degli oggetti. Ha migliorato l'accuratezza, ma ha avuto problemi di prestazioni che lo hanno reso più lento in alcuni casi.

Per risolvere questo problema, i ricercatori hanno creato modelli ibridi come RT-DETR. Questi modelli combinano reti neurali convoluzionali (CNN, modelli di deep learning che apprendono ed estraggono automaticamente le caratteristiche dalle immagini) e transformer, bilanciando velocità e accuratezza. Questo approccio sfrutta i vantaggi dei transformer rendendo più veloce il rilevamento degli oggetti.

È interessante notare che YOLOv10 utilizza livelli di attenzione basati su transformer (parti del modello che agiscono come un riflettore per evidenziare le aree più importanti in un'immagine ignorando i dettagli meno rilevanti) per migliorare le sue prestazioni. 

Ao Wang ha anche menzionato come l'IA generativa stia cambiando il modo in cui i modelli vengono addestrati. Tecniche come il masked image modeling aiutano l'IA a imparare dalle immagini in modo più efficiente, riducendo la necessità di set di dati di grandi dimensioni etichettati manualmente. Questo rende il training della computer vision più veloce e meno dispendioso in termini di risorse.

Il futuro dell'IA generativa e della Vision AI 

Un'altra idea chiave discussa dal panel è stata come l'IA generativa e la Vision AI potrebbero unirsi per costruire modelli più capaci. Glenn Jocher ha spiegato che, sebbene questi due approcci abbiano punti di forza diversi, la loro combinazione potrebbe aprire nuove possibilità. 

Ad esempio, i modelli di Vision AI come YOLO spesso suddividono un'immagine in una griglia per identificare gli oggetti. Questo metodo basato sulla griglia potrebbe aiutare i modelli linguistici a migliorare la loro capacità sia di individuare i dettagli sia di descriverli, una sfida che molti modelli linguistici affrontano oggi. In sostanza, la fusione di queste tecniche potrebbe portare a sistemi in grado di rilevare accuratamente e spiegare chiaramente ciò che vedono.

__wf_reserved_inherit
Fig. 4. Il futuro dell'AI generativa e della Visione Artificiale. Immagine dell'autore.

Punti chiave

L'IA generativa e la computer vision stanno avanzando di pari passo. Mentre l'IA generativa crea immagini e video, migliora anche l'analisi di immagini e video apportando nuove idee innovative che potrebbero rendere i modelli di Vision AI più accurati ed efficienti. 

In questo illuminante panel talk di YV24, Glenn Jocher, Jing Qiu e Ao Wang hanno condiviso le loro opinioni su come queste tecnologie stanno plasmando il futuro. Con un hardware AI migliore, l'IA generativa e la Vision AI continueranno a evolversi, portando a innovazioni ancora maggiori. Questi due campi stanno lavorando insieme per creare un'IA più intelligente, più veloce e più utile per la vita di tutti i giorni.

Unisciti alla nostra community ed esplora il nostro repository GitHub per saperne di più sulla Vision AI. Dai un'occhiata alle nostre opzioni di licenza per dare il via ai tuoi progetti di computer vision. Sei interessato a innovazioni come l'IA nella produzione o la computer vision nella guida autonoma? Visita le nostre pagine dedicate alle soluzioni per saperne di più. 

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti