YOLO Vision 2025 Shenzhen: I punti salienti di Ultralytics!

Il 26 ottobre, YOLO Vision 2025 (YV25) ha fatto il suo debutto in Cina presso l'edificio B10 dell'OCT Creative Culture Park di Shenzhen. L'evento ibrido Vision AI di Ultralytics ha riunito più di 200 partecipanti di persona e molti altri si sono uniti online tramite YouTube e Bilibili.

Il livestream dell'YV25 Shenzhen ha già superato le 3.500 visualizzazioni su YouTube e continua a guadagnare attenzione man mano che i momenti salienti dell'evento vengono condivisi dalla comunità. È stata una giornata ricca di idee, conversazioni ed esplorazioni pratiche delle prossime direzioni di Vision AI.

La giornata è iniziata con un caloroso benvenuto da parte del padrone di casa, Huang Xueying, che ha invitato tutti a connettersi, imparare e partecipare alle discussioni durante l'evento. Ha spiegato che questo è il secondo YOLO Vision dell'anno, dopo l'edizione londinese di settembre, e ha condiviso l'emozione di riunire nuovamente la comunità Vision AI qui a Shenzhen.

In questo articolo ripercorreremo i momenti salienti della giornata, tra cui gli aggiornamenti dei modelli, le sessioni dei relatori, le dimostrazioni dal vivo e i momenti comunitari che hanno riunito tutti. Iniziamo!

Il viaggio dei modelli YOLO di Ultralytics fino ad oggi

Il primo keynote della giornata è stato condotto dal fondatore e CEO di Ultralytics Glenn Jocher, che ha raccontato come i modelli YOLO di Ultralytics siano cresciuti da una scoperta di ricerca fino a diventare alcuni dei modelli di Vision AI più utilizzati al mondo. Glenn ha spiegato che il suo lavoro iniziale si è concentrato sul rendere YOLO più facile da usare.

Ha portato i modelli a PyTorch, ha migliorato la documentazione e ha condiviso tutto apertamente in modo che gli sviluppatori di tutto il mondo potessero costruirci sopra. Come ha ricordato, "mi sono buttato a capofitto nel 2018. Ho deciso che questo era il mio futuro". Quello che era iniziato come uno sforzo personale è diventato rapidamente un movimento open-source globale.

Figura 1. Glenn Jocher parla sul palco di YOLO Vision 2025 Shenzhen.

‍

Oggi i modelli YOLO di Ultralytics producono miliardi di inferenze ogni giorno e Glenn ha sottolineato che questa scala è stata possibile solo grazie alle persone che hanno contribuito a costruirla. Ricercatori, ingegneri, studenti, hobbisti e collaboratori open-source di tutto il mondo hanno trasformato YOLO in quello che è oggi.

Come ha detto Glenn, "ci sono quasi mille di loro [collaboratori] là fuori e siamo super grati per questo. Non saremmo qui dove siamo oggi senza queste persone".

Aggiornamenti su Ultralytics YOLO26

Il primo sguardo a Ultralytics YOLO26 è stato condiviso all'inizio di quest'anno all'evento YOLO Vision 2025 di Londra, dove è stato presentato come il prossimo importante passo avanti nella famiglia di modelli Ultralytics YOLO. All'YV25 di Shenzhen, Glenn ha fornito un aggiornamento sui progressi compiuti da quell'annuncio e ha dato alla comunità dell'intelligenza artificiale un'occhiata più da vicino a come il modello si è evoluto.

YOLO26 è stato progettato per essere più piccolo, più veloce e più preciso, pur rimanendo pratico per l'uso nel mondo reale. Glenn ha spiegato che il team ha trascorso l'ultimo anno a perfezionare l'architettura, a fare benchmark delle prestazioni tra i vari dispositivi e a incorporare le intuizioni della ricerca e i feedback della comunità. L'obiettivo è fornire prestazioni all'avanguardia senza rendere i modelli più difficili da distribuire.

Cosa aspettarsi da Ultralytics YOLO26

Uno dei principali aggiornamenti evidenziati da Glenn è che YOLO26 è abbinato a una campagna di messa a punto degli iperparametri dedicata, passando da un addestramento interamente da zero a una messa a punto su insiemi di dati più grandi. Ha spiegato che questo approccio è molto più in linea con i casi d'uso reali.

Ecco alcuni degli altri miglioramenti chiave condivisi durante l'evento:

Architettura semplificata: Il livello Distribution Focal Loss (DFL) è stato eliminato. Questo rende i modelli più semplici e veloci da eseguire, pur mantenendo lo stesso livello di accuratezza.
‍
Supporto dell'inferenza end-to-end: YOLO26 è nativamente end-to-end, cioè può funzionare senza un livello NMS separato. Questo rende molto più semplice l'esportazione in formati come ONNX e TensorRT e la distribuzione su hardware edge.
‍
Migliori prestazioni per i piccoli oggetti: Le strategie di perdita aggiornate aiutano il modello a rilevare in modo più affidabile gli oggetti più piccoli, che rappresentano una sfida di lunga data nella computer vision.
‍
Un nuovo ottimizzatore ibrido: YOLO26 include un nuovo ottimizzatore ispirato a recenti ricerche sull'addestramento di modelli linguistici di grandi dimensioni, che migliora l'accuratezza del modello ed è ora integrato direttamente nel pacchetto Python di Ultralytics.

Ultralytics YOLO26 è il prossimo passo verso una pratica AI di visione

L'insieme di questi aggiornamenti consente di ottenere modelli fino al 43% più veloci sulla CPU e più precisi rispetto a Ultralytics YOLO11, rendendo YOLO26 particolarmente utile per i dispositivi embedded, la robotica e i sistemi edge.

YOLO26 supporterà tutti gli stessi compiti e le stesse dimensioni dei modelli attualmente disponibili in YOLO11, con il risultato di 25 varianti di modelli in tutta la famiglia. Sono inclusi modelli per il rilevamento, la segmentazione, la stima della posa, i riquadri di delimitazione orientati e la classificazione, con dimensioni da nano a extra large.

Il team sta lavorando anche a cinque varianti suggeribili. Si tratta di modelli che possono ricevere una richiesta di testo e restituire direttamente i riquadri di delimitazione, senza bisogno di addestramento.

Si tratta di un primo passo verso flussi di lavoro di visione più flessibili e basati su istruzioni, più facili da adattare a diversi casi d'uso. I modelli YOLO26 sono ancora in fase di sviluppo attivo, ma i primi risultati sulle prestazioni sono ottimi e il team sta lavorando per rilasciarli presto.

Uno sguardo alla piattaforma Utralytics

Dopo l'aggiornamento di YOLO26, Glenn ha dato il benvenuto a Prateek Bhatnagar, il nostro responsabile dell'ingegneria di prodotto, per dare una dimostrazione dal vivo della piattaforma Ultralytics. Questa piattaforma è stata realizzata per riunire le parti fondamentali del flusso di lavoro della computer vision, tra cui l'esplorazione dei set di dati, l'annotazione delle immagini, l'addestramento dei modelli e il confronto dei risultati.

Figura 2. Prateek Bhatnagar presenta la piattaforma Ultralytics.

‍

Prateek ha sottolineato che la piattaforma rimane fedele alle radici open-source di Ultralytics, introducendo due spazi comunitari, una comunità di dati e una comunità di progetti, dove gli sviluppatori possono contribuire, riutilizzare e migliorare il lavoro degli altri. Durante la demo, ha mostrato l'annotazione assistita dall'intelligenza artificiale, la facilità di addestramento nel cloud e la possibilità di perfezionare i modelli direttamente dalla comunità, senza bisogno di risorse GPU locali.

La piattaforma è attualmente in fase di sviluppo. Prateek ha incoraggiato il pubblico a tenere d'occhio gli annunci e ha fatto notare che il team sta crescendo in Cina per supportare il lancio.

Voci dietro YOLO: il panel degli autori

Con lo slancio, l'evento si è trasformato in una tavola rotonda che ha visto la partecipazione di diversi ricercatori che si sono occupati dei vari modelli YOLO. Il gruppo comprendeva Glenn Jocher, Jing Qiu, Senior Machine Learning Engineer, Chen Hui, Machine Learning Engineer di Meta e uno degli autori di YOLOv10, e Bo Zhang, Algorithm Strategist di Meituan e uno degli autori di YOLOv6.

Figura 3. Un panel sullo sviluppo dei modelli YOLO con Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu e Glenn Jocher.

‍

La discussione si è concentrata sul modo in cui YOLO continua a evolversi grazie all'utilizzo nel mondo reale. I relatori hanno sottolineato come i progressi siano spesso guidati da sfide pratiche di implementazione, come l'esecuzione efficiente su dispositivi edge, il miglioramento del rilevamento di piccoli oggetti e la semplificazione dell'esportazione dei modelli.

Piuttosto che inseguire solo la precisione, il gruppo ha sottolineato l'importanza di bilanciare velocità, usabilità e affidabilità negli ambienti di produzione. Un altro aspetto condiviso è stato il valore dell'iterazione e del feedback della comunità.

Ecco altri spunti interessanti emersi dalla conversazione:

Il rilevamento del vocabolario aperto sta guadagnando terreno nell'ecosistema YOLO: I modelli più recenti mostrano come l'allineamento visione-linguaggio e i flussi di lavoro basati su prompt possano rilevare gli oggetti al di là delle categorie fisse.
‍
L'attenzione leggera è in aumento: Il panel ha discusso come l'utilizzo di meccanismi di attenzione efficienti, piuttosto che l'attenzione completa ovunque, possa aumentare l'accuratezza mantenendo l'inferenza abbastanza leggera per i dispositivi edge.
‍
Interagire presto e spesso con la comunità: I relatori hanno rafforzato una mentalità di costruzione-test-miglioramento, in cui il rilascio dei modelli prima e l'apprendimento da parte degli utenti portano a risultati migliori rispetto ai lunghi cicli di sviluppo privati.

Leader di pensiero che definiscono il futuro dell'IA e della visione

Diamo poi un'occhiata più da vicino ad alcuni degli interventi di spicco dell'YV25 Shenzhen, in cui i leader della comunità dell'IA hanno condiviso l'evoluzione dell'IA visiva, dagli esseri umani digitali e dalla robotica al ragionamento multimodale e all'efficiente implementazione degli edge.

Insegnare all'IA a comprendere l'esperienza umana

In una sessione ricca di spunti, il dottor Peng Zhang dell'Alibaba Qwen Lab ha illustrato come il suo team stia sviluppando modelli video di grandi dimensioni in grado di generare esseri umani digitali espressivi con movimenti e controlli più naturali. Ha illustrato Wan S2V e Wan Animate, che utilizzano riferimenti audio o di movimento per produrre discorsi, gesti e animazioni realistici, affrontando i limiti della generazione puramente testuale.

Figura 4. Peng Zhang spiega come i modelli video di grandi dimensioni possono alimentare gli esseri umani digitali.

‍

Il dott. Zhang ha anche parlato dei progressi compiuti verso la realizzazione di avatar interattivi in tempo reale, tra cui la clonazione a scatto zero dell'aspetto e del movimento e modelli leggeri in grado di animare un volto direttamente dal feed di una telecamera in diretta, portando gli esseri umani digitali realistici più vicini a funzionare senza problemi sui dispositivi di tutti i giorni.

Dalla percezione all'azione: L'era dell'intelligenza incarnata

Uno dei temi chiave dell'YV25 Shenzhen è stato il passaggio da modelli di visione che si limitano a vedere il mondo a sistemi in grado di agire al suo interno. In altre parole, la percezione non è più la fine del percorso, ma sta diventando l'inizio dell'azione.

Ad esempio, nel suo intervento Hu Chunxu di D-Robotics ha descritto come i suoi kit di sviluppo e le sue soluzioni SoC (system on a chip) integrino rilevamento, controllo del movimento in tempo reale e processo decisionale in uno stack hardware e software unificato. Trattando la percezione e l'azione come un ciclo di feedback continuo, anziché come fasi separate, il loro approccio supporta i robot che possono muoversi, adattarsi e interagire in modo più affidabile negli ambienti reali.

Figura 5. Dimostrazione di D-Robotics allo YOLO Vision 2025 di Shenzhen, Cina.

‍

Alex Zhang di Baidu Paddle ha ripreso questa idea nel suo intervento, spiegando come YOLO e PaddleOCR lavorino insieme per rilevare gli oggetti e quindi interpretare il testo e la struttura che li circonda. Ciò consente ai sistemi di convertire immagini e documenti in informazioni strutturate e utilizzabili per attività come la logistica, le ispezioni e l'elaborazione automatica.

Intelligenza ai margini: AI efficiente per ogni dispositivo

Un altro argomento interessante dell'YV25 Shenzhen è stato il modo in cui la Vision AI sta diventando più efficiente e capace sui dispositivi edge.

Paul Jung di DEEPX ha parlato dell'implementazione dei modelli YOLO direttamente sull'hardware incorporato, riducendo la dipendenza dal cloud. Concentrandosi sul basso consumo energetico, sull'inferenza ottimizzata e sulla messa a punto del modello consapevole dell'hardware, DEEPX consente la percezione in tempo reale per droni, robot mobili e sistemi industriali che operano in ambienti dinamici.

Allo stesso modo, Liu Lingfei di Moore Threads ha condiviso come la piattaforma Moore Threads E300 integri unità di elaborazione centrale (CPU), unità di elaborazione grafica (GPU) e unità di elaborazione neurale (NPU) per offrire un'inferenza visiva ad alta velocità su dispositivi compatti.

La piattaforma è in grado di eseguire più flussi YOLO ad alta frequenza di fotogrammi e la sua toolchain semplifica operazioni come la quantizzazione, la compilazione statica e la regolazione delle prestazioni. Moore Threads ha inoltre reso disponibile un'ampia serie di modelli di computer vision ed esempi di implementazione per ridurre la barriera per gli sviluppatori.

Fondere visione e linguaggio per sistemi AI più intelligenti

Fino a poco tempo fa, la costruzione di un singolo modello in grado di comprendere le immagini e interpretare il linguaggio richiedeva architetture di trasformatori di grandi dimensioni, costose da eseguire. All'YV25 di Shenzhen, Yue Ziyin di Yuanshi Intelligence ha presentato una panoramica di RWKV, un'architettura che unisce le capacità di ragionamento a contesto lungo dei trasformatori con l'efficienza dei modelli ricorrenti.

Ha spiegato come Vision-RWKV applichi questo progetto alla computer vision, elaborando le immagini in modo da scalare linearmente con la risoluzione. Ciò lo rende adatto a input ad alta risoluzione e a dispositivi edge in cui la computazione è limitata.

Yue ha anche mostrato come la RWKV viene utilizzata nei sistemi di visione-linguaggio, dove le caratteristiche dell'immagine sono abbinate alla comprensione del testo per andare oltre il rilevamento degli oggetti e interpretare scene, documenti e contesto del mondo reale.

Figura 6. Yue Ziyin parla delle applicazioni di RWKV.

‍

Stand e dimostrazioni dal vivo che hanno dato vita a Vision AI

Mentre i discorsi sul palco hanno fatto intravedere le prospettive di sviluppo dell'IA visiva, gli stand sul palco hanno mostrato come viene già utilizzata oggi. I partecipanti hanno potuto vedere modelli in funzione dal vivo, confrontare le opzioni hardware e parlare direttamente con i team che costruiscono questi sistemi.

Ecco un assaggio della tecnologia esposta:

Piattaforme di sviluppo e prototipazione: Seeed, M5Stack e Infermove hanno presentato schede di sviluppo compatte e starter kit che consentono di sperimentare facilmente le applicazioni basate su YOLO e di passare rapidamente dalle idee alle demo funzionanti.
‍
Hardware di bordo ad alte prestazioni: Hailo, DEEPX, Intel e Moore Threads hanno mostrato chip e moduli costruiti per un'inferenza veloce ed efficiente.
‍
Flussi di lavoro di visione e linguaggio: Baidu Paddle e RWKV hanno messo in evidenza stack di software in grado di rilevare oggetti, ma anche di leggere, interpretare e ragionare su ciò che appare in un'immagine o in un documento.
‍
Open-source e strumenti della comunità: Ultralytics e Datawhale hanno coinvolto gli sviluppatori con dimostrazioni di modelli dal vivo, consigli per la formazione e guida pratica, rafforzando il concetto di condivisione delle conoscenze che accelera l'innovazione.

Figura 6. Uno sguardo allo stand di M5Stack all'YV25 di Shenzhen.

‍

Connessione con la community di Vision AI

Oltre a tutta l'eccitante tecnologia, una delle parti migliori dell'YV25 Shenzhen è stata quella di riunire di nuovo la comunità della computer vision e il team di Ultralytics. Durante la giornata, le persone si sono riunite intorno alle dimostrazioni, hanno condiviso idee durante le pause caffè e hanno continuato a conversare anche dopo la fine degli interventi.

Ricercatori, ingegneri, studenti e costruttori si sono confrontati, hanno fatto domande e si sono scambiati esperienze reali, dall'implementazione alla formazione dei modelli. E grazie a Cinco Jotas del Grupo Osborne, abbiamo anche portato un tocco di cultura spagnola all'evento con jamón appena intagliato, creando un caldo momento di connessione. Una bella sede, una folla entusiasta e un senso condiviso di slancio hanno reso la giornata davvero speciale.

Punti chiave

Dai keynote ispiratori alle dimostrazioni pratiche, YOLO Vision 2025 Shenzhen ha catturato lo spirito di innovazione che definisce la comunità Ultralytics. Nel corso della giornata, relatori e partecipanti si sono scambiati idee, hanno esplorato nuove tecnologie e si sono confrontati su una visione condivisa del futuro dell'IA. Insieme, hanno lasciato l'evento pieni di energia e pronti per il futuro di Ultralytics YOLO.

Immaginate cosa è possibile fare con l'intelligenza artificiale e la computer vision. Unitevi alla nostra comunità e al repository GitHub per saperne di più. Scoprite altre applicazioni come la computer vision in agricoltura e l'IA nella vendita al dettaglio. Esplorate le nostre opzioni di licenza e iniziate a lavorare con la computer vision oggi stesso!

I punti salienti di Ultralytics da YOLO Vision 2025 Shenzhen!

Il viaggio dei modelli YOLO di Ultralytics fino ad oggi

Aggiornamenti su Ultralytics YOLO26

Cosa aspettarsi da Ultralytics YOLO26

Ultralytics YOLO26 è il prossimo passo verso una pratica AI di visione

Uno sguardo alla piattaforma Utralytics

Voci dietro YOLO: il panel degli autori

Leader di pensiero che definiscono il futuro dell'IA e della visione

Insegnare all'IA a comprendere l'esperienza umana

Dalla percezione all'azione: L'era dell'intelligenza incarnata

Intelligenza ai margini: AI efficiente per ogni dispositivo

Fondere visione e linguaggio per sistemi AI più intelligenti

Stand e dimostrazioni dal vivo che hanno dato vita a Vision AI

Connessione con la community di Vision AI

Punti chiave

Leggi di più in questa categoria

I punti salienti di Ultralytics da YOLO Vision 2025 Shenzhen!

I punti salienti di Ultralytics alla Conferenza PyTorch 2025

Da Dubai con approfondimenti: I punti chiave del vertice GDG MENA-T 2025

Costruiamo insieme il futuro
dell'AI!

I punti salienti di Ultralytics da YOLO Vision 2025 Shenzhen!

Il viaggio dei modelli YOLO di Ultralytics fino ad oggi

Aggiornamenti su Ultralytics YOLO26

Cosa aspettarsi da Ultralytics YOLO26

Ultralytics YOLO26 è il prossimo passo verso una pratica AI di visione

Uno sguardo alla piattaforma Utralytics

Voci dietro YOLO: il panel degli autori

Leader di pensiero che definiscono il futuro dell'IA e della visione

Insegnare all'IA a comprendere l'esperienza umana

Dalla percezione all'azione: L'era dell'intelligenza incarnata

Intelligenza ai margini: AI efficiente per ogni dispositivo

Fondere visione e linguaggio per sistemi AI più intelligenti

Stand e dimostrazioni dal vivo che hanno dato vita a Vision AI

Connessione con la community di Vision AI

Punti chiave

Leggi di più in questa categoria

I punti salienti di Ultralytics da YOLO Vision 2025 Shenzhen!

I punti salienti di Ultralytics alla Conferenza PyTorch 2025

Da Dubai con approfondimenti: I punti chiave del vertice GDG MENA-T 2025

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!