Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

L'IA generativa sta cambiando il futuro della computer vision

Abirami Vina

5 minuti di lettura

24 marzo 2025

Scoprite le interessanti intuizioni di una tavola rotonda a YOLO Vision 2024. Scoprite come l'IA generativa sta delineando la strada da percorrere per i modelli di IA di Vision in tempo reale.

L'IA generativa è una branca dell'intelligenza artificiale (IA) che crea nuovi contenuti, come immagini, testo o audio, apprendendo schemi da dati esistenti. Grazie ai recenti progressi, ora può essere utilizzata per produrre contenuti altamente realistici che spesso imitano la creatività umana.

Tuttavia, l'impatto dell'IA generativa va oltre la semplice creazione di contenuti. Con la continua evoluzione dei modelli di visione artificiale in tempo reale, come i modelliYOLO diUltralytics , l'IA generativa sta ridefinendo il modo in cui i dati visivi vengono elaborati e aumentati, aprendo la strada ad applicazioni innovative in scenari reali. 

Questo nuovo cambiamento tecnologico è stato un interessante argomento di conversazione a YOLO Vision 2024 (YV24), un evento ibrido annuale ospitato da Ultralytics. L'YV24 ha visto riunirsi appassionati di AI e leader del settore per discutere delle ultime scoperte nel campo della computer vision. L'evento si è concentrato sull'innovazione, l'efficienza e il futuro delle soluzioni di IA in tempo reale.

Uno dei momenti salienti dell'evento è stata la tavola rotonda YOLO in the Age of Generative AI. Il panel ha visto la partecipazione di Glenn Jocher, fondatore e CEO di Ultralytics, Jing Qiu, Senior Machine Learning Engineer di Ultralytics, e Ao Wang della Tsinghua University. I partecipanti hanno analizzato il modo in cui l'IA generativa sta influenzando la computer vision e le sfide legate alla creazione di modelli di IA pratici.

In questo articolo, riprenderemo gli spunti chiave della loro discussione ed esamineremo più da vicino come l'IA generativa sta trasformando la Vision AI.

Sviluppo dei modelliYOLO di Ultralytics

Oltre a Glenn Jocher, molti ingegneri qualificati hanno svolto un ruolo fondamentale nello sviluppo dei modelliYOLO di Ultralytics . Uno di loro, Jing Qiu, ha raccontato il suo inizio inaspettato con YOLO. Ha spiegato che la sua passione per l'intelligenza artificiale è nata durante gli anni dell'università. Ha trascorso una quantità significativa di tempo a esplorare e conoscere il settore. Jing Qiu ha ricordato come sia entrato in contatto con Glenn Jocher su GitHub e come sia stato coinvolto in vari progetti di IA.

Aggiungendo a quanto detto da Jing Qiu, Glenn Jocher ha descritto GitHub come "un modo incredibile di condividere, dove persone che non si sono mai incontrate si uniscono per aiutarsi a vicenda, contribuendo al lavoro degli altri. È una grande comunità e un ottimo modo per iniziare con l'AI."

__wf_reserved_inherit
Fig. 1. Glenn Jocher e Jing Qiu che parlano sul palco a YV24.

L'interesse di Jing Qiu per l'IA e il suo lavoro su Ultralytics YOLOv5 ha contribuito a perfezionare il modello. In seguito, ha svolto un ruolo chiave nello sviluppo di Ultralytics YOLOv8che ha introdotto ulteriori miglioramenti. Lo ha descritto come un viaggio incredibile. Oggi Jing Qiu continua a migliorare e a lavorare su modelli come Ultralytics YOLO11

YOLOv10: ottimizzato per le prestazioni reali

Collegato al panel da remoto dalla Cina, Ao Wang si è presentato come studente di dottorato. Inizialmente, ha studiato ingegneria del software, ma la sua passione per l'AI lo ha portato a spostarsi verso la computer vision e il deep learning.

Il suo primo incontro con il famoso modello YOLO è avvenuto durante la sperimentazione di varie tecniche e modelli di intelligenza artificiale. È rimasto impressionato dalla sua velocità e precisione, che lo ha spinto ad approfondire le attività di computer vision come il rilevamento degli oggetti. Recentemente, Ao Wang ha contribuito a YOLOv10, una versione recente del modello YOLO . La sua ricerca si è concentrata sull'ottimizzazione del modello per renderlo più veloce e preciso.

La differenza fondamentale tra IA generativa e Vision AI

Quindi, il panel ha iniziato a discutere di IA generativa e Jing Qiu ha sottolineato che l'IA generativa e la Vision AI hanno scopi molto diversi. L'IA generativa crea o genera cose come testo, immagini e video, mentre la Vision AI analizza ciò che già esiste, principalmente immagini.

Glenn Jocher ha sottolineato che anche le dimensioni sono una grande differenza. I modelli di intelligenza artificiale generativa sono enormi e spesso contengono miliardi di parametri - impostazioni interne che aiutano il modello ad apprendere dai dati. I modelli di computer vision sono molto più piccoli. Il modello YOLO più piccolo che abbiamo è circa mille volte più piccolo del più piccolo LLM [Large Language Model]. Quindi, 3 milioni di parametri contro tre miliardi".

__wf_reserved_inherit
Fig. 3. La tavola rotonda sull'AI generativa e la Vision AI allo YV24.

Jing Qiu ha aggiunto che i processi di formazione e implementazione dell'IA generativa e della computer vision sono molto diversi. L'intelligenza artificiale generativa ha bisogno di server enormi e potenti per funzionare. I modelli come YOLO, invece, sono costruiti per essere efficienti e possono essere addestrati e distribuiti su hardware standard. Questo rende i modelliYOLO di Ultralytics più pratici per l'uso nel mondo reale.

Anche se sono diversi, questi due campi stanno iniziando a intrecciarsi. Glenn Jocher ha spiegato che l'AI generativa sta portando nuovi progressi alla Vision AI, rendendo i modelli più intelligenti ed efficienti. 

L'impatto dell'IA generativa sulla computer vision

L'IA generativa ha fatto rapidi progressi e queste scoperte stanno influenzando molte altre aree dell'intelligenza artificiale, inclusa la computer vision. Successivamente, esaminiamo alcune interessanti intuizioni del panel su questo argomento.

I progressi hardware stanno abilitando le innovazioni dell'AI

All'inizio del panel, Glenn Jocher ha spiegato che le idee di machine learning esistono da molto tempo, ma i computer non erano abbastanza potenti da farle funzionare. Le idee di intelligenza artificiale avevano bisogno di un hardware più potente per diventare realtà.

L'ascesa delle GPU (Graphics Processing Units) negli ultimi 20 anni con capacità di elaborazione parallela ha cambiato tutto. Hanno reso l'addestramento dei modelli di intelligenza artificiale molto più veloce ed efficiente, il che ha permesso al deep learning di svilupparsi a un ritmo rapido.

Oggi i chip per l'IA, come le TPU (Tensor Processing Unit) e le GPU ottimizzate, consumano meno energia pur gestendo modelli più grandi e complessi. Questo ha reso l'IA più accessibile e utile nelle applicazioni del mondo reale.

Con ogni nuovo miglioramento hardware, sia l'IA generativa che le applicazioni di computer vision stanno diventando più potenti. Questi progressi stanno rendendo l'IA in tempo reale più veloce, più efficiente e pronta per l'uso in più settori.

In che modo l'IA generativa sta plasmando i modelli di object detection

Quando gli è stato chiesto come l'IA generativa stia influenzando la computer vision, Jing Qiu ha affermato che i transformer - modelli che aiutano l'IA a concentrarsi sulle parti più importanti di un'immagine - hanno cambiato il modo in cui l'IA comprende ed elabora le immagini. Il primo grande passo è stato DETR (Detection Transformer), che ha utilizzato questo nuovo approccio per il rilevamento degli oggetti. Ha migliorato l'accuratezza, ma ha avuto problemi di prestazioni che lo hanno reso più lento in alcuni casi.

Per risolvere questo problema, i ricercatori hanno creato modelli ibridi come RT-DETR. Questi modelli combinano reti neurali convoluzionali (CNN, modelli di apprendimento profondo che imparano ed estraggono automaticamente le caratteristiche dalle immagini) e trasformatori, bilanciando velocità e precisione. Questo approccio sfrutta i vantaggi dei trasformatori e rende più veloce il rilevamento degli oggetti.

Interessante, YOLOv10 utilizza livelli di attenzione basati su trasformatori (parti del modello che agiscono come un riflettore per evidenziare le aree più importanti di un'immagine ignorando i dettagli meno rilevanti) per aumentare le sue prestazioni. 

Ao Wang ha anche menzionato come l'IA generativa stia cambiando il modo in cui i modelli vengono addestrati. Tecniche come il masked image modeling aiutano l'IA a imparare dalle immagini in modo più efficiente, riducendo la necessità di set di dati di grandi dimensioni etichettati manualmente. Questo rende il training della computer vision più veloce e meno dispendioso in termini di risorse.

Il futuro dell'IA generativa e della Vision AI 

Un'altra idea chiave discussa dal panel è stata come l'IA generativa e la Vision AI potrebbero unirsi per costruire modelli più capaci. Glenn Jocher ha spiegato che, sebbene questi due approcci abbiano punti di forza diversi, la loro combinazione potrebbe aprire nuove possibilità. 

Ad esempio, i modelli di Vision AI come YOLO spesso suddividono un'immagine in una griglia per identificare gli oggetti. Questo metodo basato sulla griglia potrebbe aiutare i modelli linguistici a migliorare la loro capacità di individuare i dettagli e di descriverli, una sfida che molti modelli linguistici devono affrontare oggi. In sostanza, la fusione di queste tecniche potrebbe portare a sistemi in grado di detect con precisione e spiegare chiaramente ciò che vedono.

__wf_reserved_inherit
Fig. 4. Il futuro dell'AI generativa e della Visione Artificiale. Immagine dell'autore.

Punti chiave

L'IA generativa e la computer vision stanno avanzando di pari passo. Mentre l'IA generativa crea immagini e video, migliora anche l'analisi di immagini e video apportando nuove idee innovative che potrebbero rendere i modelli di Vision AI più accurati ed efficienti. 

In questo illuminante panel talk di YV24, Glenn Jocher, Jing Qiu e Ao Wang hanno condiviso le loro opinioni su come queste tecnologie stanno plasmando il futuro. Con un hardware AI migliore, l'IA generativa e la Vision AI continueranno a evolversi, portando a innovazioni ancora maggiori. Questi due campi stanno lavorando insieme per creare un'IA più intelligente, più veloce e più utile per la vita di tutti i giorni.

Unisciti alla nostra community ed esplora il nostro repository GitHub per saperne di più sulla Vision AI. Dai un'occhiata alle nostre opzioni di licenza per dare il via ai tuoi progetti di computer vision. Sei interessato a innovazioni come l'IA nella produzione o la computer vision nella guida autonoma? Visita le nostre pagine dedicate alle soluzioni per saperne di più. 

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis