L'AI generativa sta cambiando il futuro della computer vision
Scopri intuizioni interessanti da una tavola rotonda allo YOLO Vision 2024. Esplora come l'AI generativa stia definendo il futuro dei modelli di Vision AI in tempo reale.

L'IA generativa è un ramo dell'intelligenza artificiale (IA) che crea nuovi contenuti, come immagini, testo o audio, apprendendo pattern dai dati esistenti. Grazie ai recenti progressi, oggi può essere utilizzata per produrre contenuti altamente realistici che spesso imitano la creatività umana.
Tuttavia, l'impatto dell'IA generativa va oltre la semplice creazione di contenuti. Mentre i modelli di computer vision in tempo reale come i modelli Ultralytics YOLO continuano a evolversi, l'IA generativa sta anche ridefinendo il modo in cui i dati visivi vengono elaborati e aumentati, aprendo la strada ad applicazioni innovative in scenari del mondo reale.
Questo nuovo cambiamento tecnologico è stato un interessante argomento di conversazione durante YOLO Vision 2024 (YV24), un evento ibrido annuale ospitato da Ultralytics. YV24 ha visto appassionati di IA e leader del settore riunirsi per discutere le ultime scoperte nella computer vision. L'evento si è concentrato sull'innovazione, l'efficienza e il futuro delle soluzioni IA in tempo reale.
Uno dei momenti salienti dell'evento è stato un panel su YOLO nell'era dell'IA generativa. Il panel ha visto la partecipazione di Glenn Jocher, fondatore e CEO di Ultralytics, Jing Qiu, Senior Machine Learning Engineer presso Ultralytics, e Ao Wang della Tsinghua University. Hanno esplorato come l'IA generativa stia influenzando la computer vision e le sfide legate alla creazione di modelli IA pratici.
In questo articolo, ripercorreremo le intuizioni chiave della loro discussione ed esamineremo più da vicino come l'IA generativa stia trasformando la Vision AI.
Link to this sectionSviluppo dei modelli Ultralytics YOLO#
Accanto a Glenn Jocher, molti ingegneri esperti hanno svolto un ruolo vitale nello sviluppo dei modelli Ultralytics YOLO. Uno di loro, Jing Qiu, ha raccontato il suo inizio inaspettato con YOLO. Ha spiegato che la sua passione per l'IA è nata durante gli anni del college. Ha dedicato una quantità significativa di tempo a esplorare e imparare tutto su questo campo. Jing Qiu ha ricordato come sia entrato in contatto con Glenn Jocher su GitHub e si sia fatto coinvolgere in vari progetti IA.
Aggiungendo quanto detto da Jing Qiu, Glenn Jocher ha descritto GitHub come "un modo incredibile per condividere, dove persone che non hai mai incontrato si riuniscono per aiutarsi a vicenda, contribuendo al lavoro degli altri. È una comunità fantastica e un ottimo modo per iniziare con l'IA."

Fig 1. Glenn Jocher e Jing Qiu che parlano sul palco a YV24.
L'interesse di Jing Qiu per l'IA e il suo lavoro su Ultralytics YOLOv5 hanno contribuito a perfezionare il modello. In seguito, ha avuto un ruolo chiave nello sviluppo di Ultralytics YOLOv8, che ha introdotto ulteriori miglioramenti. L'ha descritto come un viaggio incredibile. Oggi, Jing Qiu continua a migliorare e a lavorare su modelli come Ultralytics YOLO11.
Link to this sectionYOLOv10: Ottimizzato per prestazioni nel mondo reale#
Partecipando al panel da remoto dalla Cina, Ao Wang si è presentato come studente di dottorato. Inizialmente, ha studiato ingegneria del software, ma la sua passione per l'IA lo ha portato a spostarsi verso la computer vision e il deep learning.
Il suo primo incontro con il famoso modello YOLO è avvenuto mentre sperimentava varie tecniche e modelli IA. È rimasto colpito dalla sua velocità e precisione, il che lo ha ispirato ad approfondire attività di computer vision come il rilevamento di oggetti. Recentemente, Ao Wang ha contribuito a YOLOv10, una versione recente del modello YOLO. La sua ricerca si è concentrata sull'ottimizzazione del modello per renderlo più veloce e più preciso.
Link to this sectionLa differenza chiave tra IA generativa e Vision AI#
Successivamente, il panel ha iniziato a discutere di IA generativa e Jing Qiu ha sottolineato che l'IA generativa e la Vision AI hanno scopi molto diversi. L'IA generativa crea o genera elementi come testo, immagini e video, mentre la Vision AI analizza ciò che già esiste, principalmente immagini.
Glenn Jocher ha evidenziato che anche la dimensione è una grande differenza. I modelli di IA generativa sono enormi, contengono spesso miliardi di parametri, ovvero impostazioni interne che aiutano il modello ad apprendere dai dati. I modelli di computer vision sono molto più piccoli. Ha affermato: “Il modello YOLO più piccolo che abbiamo è circa mille volte più piccolo del LLM [Large Language Model] più piccolo. Quindi, 3 milioni di parametri rispetto a tre miliardi.”

Fig 2. Il panel di discussione su IA generativa e Vision AI a YV24.
Jing Qiu ha aggiunto che anche i processi di addestramento e distribuzione dell'IA generativa e della computer vision sono molto diversi. L'IA generativa necessita di server enormi e potenti per funzionare. I modelli come YOLO, d'altra parte, sono costruiti per l'efficienza e possono essere addestrati e distribuiti su hardware standard. Questo rende i modelli Ultralytics YOLO più pratici per l'uso nel mondo reale.
Anche se sono diversi, questi due campi stanno iniziando a intrecciarsi. Glenn Jocher ha spiegato che l'IA generativa sta portando nuovi progressi alla Vision AI, rendendo i modelli più intelligenti ed efficienti.
Link to this sectionL'impatto dell'IA generativa sulla computer vision#
L'IA generativa è avanzata rapidamente e queste scoperte stanno influenzando molte altre aree dell'intelligenza artificiale, inclusa la computer vision. Ora, esploriamo alcune affascinanti intuizioni del panel a riguardo.
Link to this sectionI progressi hardware stanno abilitando le innovazioni nell'IA#
All'inizio del panel, Glenn Jocher ha spiegato che le idee di machine learning esistono da molto tempo, ma i computer non erano abbastanza potenti per farle funzionare. Le idee di IA necessitavano di hardware più forte per diventare realtà.
L'ascesa delle GPU (Graphics Processing Units) negli ultimi 20 anni con capacità di elaborazione parallela ha cambiato tutto. Hanno reso l'addestramento dei modelli IA molto più rapido ed efficiente, consentendo al deep learning di svilupparsi a un ritmo accelerato.
Oggi, chip IA come TPU (Tensor Processing Units) e GPU ottimizzate consumano meno energia gestendo al contempo modelli più grandi e complessi. Questo ha reso l'IA più accessibile e utile nelle applicazioni del mondo reale.
Con ogni nuovo miglioramento hardware, sia le applicazioni di IA generativa che quelle di computer vision stanno diventando più potenti. Questi progressi stanno rendendo l'IA in tempo reale più veloce, più efficiente e pronta per l'uso in sempre più settori.
Link to this sectionCome l'IA generativa sta modellando i modelli di rilevamento oggetti#
Alla domanda su come l'IA generativa stia influenzando la computer vision, Jing Qiu ha detto che i transformer, modelli che aiutano l'IA a concentrarsi sulle parti più importanti di un'immagine, hanno cambiato il modo in cui l'IA comprende ed elabora le immagini. Il primo grande passo è stato il DETR (Detection Transformer), che ha utilizzato questo nuovo approccio per il rilevamento di oggetti. Ha migliorato la precisione, ma ha riscontrato problemi di prestazioni che lo hanno reso più lento in alcuni casi.
Per risolvere questo problema, i ricercatori hanno creato modelli ibridi come RT-DETR. Questi modelli combinano le reti neurali convoluzionali (CNN, che sono modelli di deep learning che apprendono ed estraggono automaticamente le caratteristiche dalle immagini) e i transformer, bilanciando velocità e precisione. Questo approccio sfrutta i vantaggi dei transformer rendendo al contempo il rilevamento di oggetti più rapido.
È interessante notare che YOLOv10 utilizza livelli di attenzione basati su transformer (parti del modello che agiscono come un riflettore per evidenziare le aree più importanti in un'immagine ignorando i dettagli meno rilevanti) per aumentare le proprie prestazioni.
Ao Wang ha anche menzionato come l'IA generativa stia cambiando il modo in cui i modelli vengono addestrati. Tecniche come il masked image modeling aiutano l'IA ad apprendere dalle immagini in modo più efficiente, riducendo la necessità di grandi dataset etichettati manualmente. Questo rende l'addestramento della computer vision più rapido e meno dispendioso in termini di risorse.
Link to this sectionIl futuro dell'IA generativa e della Vision AI#
Un'altra idea chiave discussa dal panel è come l'IA generativa e la Vision AI potrebbero unirsi per creare modelli più capaci. Glenn Jocher ha spiegato che, sebbene questi due approcci abbiano punti di forza diversi, combinarli potrebbe aprire nuove possibilità.
Ad esempio, i modelli di Vision AI come YOLO spesso dividono un'immagine in una griglia per identificare gli oggetti. Questo metodo basato su griglia potrebbe aiutare i modelli linguistici a migliorare la loro capacità sia di individuare i dettagli che di descriverli, una sfida che molti modelli linguistici affrontano oggi. In sostanza, unire queste tecniche potrebbe portare a sistemi in grado di rilevare con precisione e spiegare chiaramente ciò che vedono.

Fig 3. Il futuro dell'IA generativa e della Vision AI. Immagine dell'autore.
Link to this sectionPunti chiave#
L'IA generativa e la computer vision stanno avanzando insieme. Mentre l'IA generativa crea immagini e video, migliora anche l'analisi di immagini e video apportando nuove idee innovative che potrebbero rendere i modelli di Vision AI più precisi ed efficienti.
In questo approfondito panel YV24, Glenn Jocher, Jing Qiu e Ao Wang hanno condiviso le loro riflessioni su come queste tecnologie stiano plasmando il futuro. Con un hardware IA migliore, l'IA generativa e la Vision AI continueranno a evolversi, portando a innovazioni ancora maggiori. Questi due campi stanno lavorando insieme per creare un'IA più intelligente, più veloce e più utile per la vita quotidiana.
Unisciti alla nostra community ed esplora il nostro repository GitHub per saperne di più sulla Vision AI. Dai un'occhiata alle nostre opzioni di licenza per dare il via ai tuoi progetti di computer vision. Ti interessano innovazioni come l'IA nella produzione o la computer vision nella guida autonoma? Visita le nostre pagine dedicate alle soluzioni per scoprire di più.






