Rivedete i momenti chiave di YOLO Vision 2025 Shenzhen, dove Ultralytics ha riunito innovatori, partner e la comunità dell'AI per una giornata di ispirazione.
Rivedete i momenti chiave di YOLO Vision 2025 Shenzhen, dove Ultralytics ha riunito innovatori, partner e la comunità dell'AI per una giornata di ispirazione.
Il 26 ottobre, YOLO Vision 2025 (YV25) ha fatto il suo debutto in Cina presso l'edificio B10 dell'OCT Creative Culture Park di Shenzhen. L'evento ibrido Vision AI di Ultralytics ha riunito più di 200 partecipanti di persona e molti altri si sono uniti online tramite YouTube e Bilibili.
Il livestream dell'YV25 Shenzhen ha già superato le 3.500 visualizzazioni su YouTube e continua a guadagnare attenzione man mano che i momenti salienti dell'evento vengono condivisi dalla comunità. È stata una giornata ricca di idee, conversazioni ed esplorazioni pratiche delle prossime direzioni di Vision AI.
La giornata è iniziata con un caloroso benvenuto da parte del padrone di casa, Huang Xueying, che ha invitato tutti a connettersi, imparare e partecipare alle discussioni durante l'evento. Ha spiegato che questo è il secondo YOLO Vision dell'anno, dopo l'edizione londinese di settembre, e ha condiviso l'emozione di riunire nuovamente la comunità Vision AI qui a Shenzhen.
In questo articolo ripercorreremo i momenti salienti della giornata, tra cui gli aggiornamenti dei modelli, le sessioni dei relatori, le dimostrazioni dal vivo e i momenti comunitari che hanno riunito tutti. Iniziamo!
Il primo keynote della giornata è stato condotto dal fondatore e CEO di Ultralytics Glenn Jocher, che ha raccontato come i modelli YOLO di Ultralytics siano cresciuti da una scoperta di ricerca fino a diventare alcuni dei modelli di Vision AI più utilizzati al mondo. Glenn ha spiegato che il suo lavoro iniziale si è concentrato sul rendere YOLO più facile da usare.
Ha portato i modelli a PyTorch, ha migliorato la documentazione e ha condiviso tutto apertamente in modo che gli sviluppatori di tutto il mondo potessero costruirci sopra. Come ha ricordato, "mi sono buttato a capofitto nel 2018. Ho deciso che questo era il mio futuro". Quello che era iniziato come uno sforzo personale è diventato rapidamente un movimento open-source globale.

Oggi i modelli YOLO di Ultralytics producono miliardi di inferenze ogni giorno e Glenn ha sottolineato che questa scala è stata possibile solo grazie alle persone che hanno contribuito a costruirla. Ricercatori, ingegneri, studenti, hobbisti e collaboratori open-source di tutto il mondo hanno trasformato YOLO in quello che è oggi.
Come ha detto Glenn, "ci sono quasi mille di loro [collaboratori] là fuori e siamo super grati per questo. Non saremmo qui dove siamo oggi senza queste persone".
Il primo sguardo a Ultralytics YOLO26 è stato condiviso all'inizio di quest'anno all'evento YOLO Vision 2025 di Londra, dove è stato presentato come il prossimo importante passo avanti nella famiglia di modelli Ultralytics YOLO. All'YV25 di Shenzhen, Glenn ha fornito un aggiornamento sui progressi compiuti da quell'annuncio e ha dato alla comunità dell'intelligenza artificiale un'occhiata più da vicino a come il modello si è evoluto.
YOLO26 è stato progettato per essere più piccolo, più veloce e più preciso, pur rimanendo pratico per l'uso nel mondo reale. Glenn ha spiegato che il team ha trascorso l'ultimo anno a perfezionare l'architettura, a fare benchmark delle prestazioni tra i vari dispositivi e a incorporare le intuizioni della ricerca e i feedback della comunità. L'obiettivo è fornire prestazioni all'avanguardia senza rendere i modelli più difficili da distribuire.
Uno dei principali aggiornamenti evidenziati da Glenn è che YOLO26 è abbinato a una campagna di messa a punto degli iperparametri dedicata, passando da un addestramento interamente da zero a una messa a punto su insiemi di dati più grandi. Ha spiegato che questo approccio è molto più in linea con i casi d'uso reali.
Ecco alcuni degli altri miglioramenti chiave condivisi durante l'evento:
L'insieme di questi aggiornamenti consente di ottenere modelli fino al 43% più veloci sulla CPU e più precisi rispetto a Ultralytics YOLO11, rendendo YOLO26 particolarmente utile per i dispositivi embedded, la robotica e i sistemi edge.
YOLO26 supporterà tutti gli stessi compiti e le stesse dimensioni dei modelli attualmente disponibili in YOLO11, con il risultato di 25 varianti di modelli in tutta la famiglia. Sono inclusi modelli per il rilevamento, la segmentazione, la stima della posa, i riquadri di delimitazione orientati e la classificazione, con dimensioni da nano a extra large.
Il team sta lavorando anche a cinque varianti suggeribili. Si tratta di modelli che possono ricevere una richiesta di testo e restituire direttamente i riquadri di delimitazione, senza bisogno di addestramento.
Si tratta di un primo passo verso flussi di lavoro di visione più flessibili e basati su istruzioni, più facili da adattare a diversi casi d'uso. I modelli YOLO26 sono ancora in fase di sviluppo attivo, ma i primi risultati sulle prestazioni sono ottimi e il team sta lavorando per rilasciarli presto.
Dopo l'aggiornamento di YOLO26, Glenn ha dato il benvenuto a Prateek Bhatnagar, il nostro responsabile dell'ingegneria di prodotto, per dare una dimostrazione dal vivo della piattaforma Ultralytics. Questa piattaforma è stata realizzata per riunire le parti fondamentali del flusso di lavoro della computer vision, tra cui l'esplorazione dei set di dati, l'annotazione delle immagini, l'addestramento dei modelli e il confronto dei risultati.

Prateek ha sottolineato che la piattaforma rimane fedele alle radici open-source di Ultralytics, introducendo due spazi comunitari, una comunità di dati e una comunità di progetti, dove gli sviluppatori possono contribuire, riutilizzare e migliorare il lavoro degli altri. Durante la demo, ha mostrato l'annotazione assistita dall'intelligenza artificiale, la facilità di addestramento nel cloud e la possibilità di perfezionare i modelli direttamente dalla comunità, senza bisogno di risorse GPU locali.
La piattaforma è attualmente in fase di sviluppo. Prateek ha incoraggiato il pubblico a tenere d'occhio gli annunci e ha fatto notare che il team sta crescendo in Cina per supportare il lancio.
Con lo slancio, l'evento si è trasformato in una tavola rotonda che ha visto la partecipazione di diversi ricercatori che si sono occupati dei vari modelli YOLO. Il gruppo comprendeva Glenn Jocher, Jing Qiu, Senior Machine Learning Engineer, Chen Hui, Machine Learning Engineer di Meta e uno degli autori di YOLOv10, e Bo Zhang, Algorithm Strategist di Meituan e uno degli autori di YOLOv6.

La discussione si è concentrata sul modo in cui YOLO continua a evolversi grazie all'utilizzo nel mondo reale. I relatori hanno sottolineato come i progressi siano spesso guidati da sfide pratiche di implementazione, come l'esecuzione efficiente su dispositivi edge, il miglioramento del rilevamento di piccoli oggetti e la semplificazione dell'esportazione dei modelli.
Piuttosto che inseguire solo la precisione, il gruppo ha sottolineato l'importanza di bilanciare velocità, usabilità e affidabilità negli ambienti di produzione. Un altro aspetto condiviso è stato il valore dell'iterazione e del feedback della comunità.
Ecco altri spunti interessanti emersi dalla conversazione:
Diamo poi un'occhiata più da vicino ad alcuni degli interventi di spicco dell'YV25 Shenzhen, in cui i leader della comunità dell'IA hanno condiviso l'evoluzione dell'IA visiva, dagli esseri umani digitali e dalla robotica al ragionamento multimodale e all'efficiente implementazione degli edge.
In una sessione ricca di spunti, il dottor Peng Zhang dell'Alibaba Qwen Lab ha illustrato come il suo team stia sviluppando modelli video di grandi dimensioni in grado di generare esseri umani digitali espressivi con movimenti e controlli più naturali. Ha illustrato Wan S2V e Wan Animate, che utilizzano riferimenti audio o di movimento per produrre discorsi, gesti e animazioni realistici, affrontando i limiti della generazione puramente testuale.

Il dott. Zhang ha anche parlato dei progressi compiuti verso la realizzazione di avatar interattivi in tempo reale, tra cui la clonazione a scatto zero dell'aspetto e del movimento e modelli leggeri in grado di animare un volto direttamente dal feed di una telecamera in diretta, portando gli esseri umani digitali realistici più vicini a funzionare senza problemi sui dispositivi di tutti i giorni.
Uno dei temi chiave dell'YV25 Shenzhen è stato il passaggio da modelli di visione che si limitano a vedere il mondo a sistemi in grado di agire al suo interno. In altre parole, la percezione non è più la fine del percorso, ma sta diventando l'inizio dell'azione.
Ad esempio, nel suo intervento Hu Chunxu di D-Robotics ha descritto come i suoi kit di sviluppo e le sue soluzioni SoC (system on a chip) integrino rilevamento, controllo del movimento in tempo reale e processo decisionale in uno stack hardware e software unificato. Trattando la percezione e l'azione come un ciclo di feedback continuo, anziché come fasi separate, il loro approccio supporta i robot che possono muoversi, adattarsi e interagire in modo più affidabile negli ambienti reali.

Alex Zhang di Baidu Paddle ha ripreso questa idea nel suo intervento, spiegando come YOLO e PaddleOCR lavorino insieme per rilevare gli oggetti e quindi interpretare il testo e la struttura che li circonda. Ciò consente ai sistemi di convertire immagini e documenti in informazioni strutturate e utilizzabili per attività come la logistica, le ispezioni e l'elaborazione automatica.
Un altro argomento interessante dell'YV25 Shenzhen è stato il modo in cui la Vision AI sta diventando più efficiente e capace sui dispositivi edge.
Paul Jung di DEEPX ha parlato dell'implementazione dei modelli YOLO direttamente sull'hardware incorporato, riducendo la dipendenza dal cloud. Concentrandosi sul basso consumo energetico, sull'inferenza ottimizzata e sulla messa a punto del modello consapevole dell'hardware, DEEPX consente la percezione in tempo reale per droni, robot mobili e sistemi industriali che operano in ambienti dinamici.
Allo stesso modo, Liu Lingfei di Moore Threads ha condiviso come la piattaforma Moore Threads E300 integri unità di elaborazione centrale (CPU), unità di elaborazione grafica (GPU) e unità di elaborazione neurale (NPU) per offrire un'inferenza visiva ad alta velocità su dispositivi compatti.
La piattaforma è in grado di eseguire più flussi YOLO ad alta frequenza di fotogrammi e la sua toolchain semplifica operazioni come la quantizzazione, la compilazione statica e la regolazione delle prestazioni. Moore Threads ha inoltre reso disponibile un'ampia serie di modelli di computer vision ed esempi di implementazione per ridurre la barriera per gli sviluppatori.
Fino a poco tempo fa, la costruzione di un singolo modello in grado di comprendere le immagini e interpretare il linguaggio richiedeva architetture di trasformatori di grandi dimensioni, costose da eseguire. All'YV25 di Shenzhen, Yue Ziyin di Yuanshi Intelligence ha presentato una panoramica di RWKV, un'architettura che unisce le capacità di ragionamento a contesto lungo dei trasformatori con l'efficienza dei modelli ricorrenti.
Ha spiegato come Vision-RWKV applichi questo progetto alla computer vision, elaborando le immagini in modo da scalare linearmente con la risoluzione. Ciò lo rende adatto a input ad alta risoluzione e a dispositivi edge in cui la computazione è limitata.
Yue ha anche mostrato come la RWKV viene utilizzata nei sistemi di visione-linguaggio, dove le caratteristiche dell'immagine sono abbinate alla comprensione del testo per andare oltre il rilevamento degli oggetti e interpretare scene, documenti e contesto del mondo reale.

Mentre i discorsi sul palco hanno fatto intravedere le prospettive di sviluppo dell'IA visiva, gli stand sul palco hanno mostrato come viene già utilizzata oggi. I partecipanti hanno potuto vedere modelli in funzione dal vivo, confrontare le opzioni hardware e parlare direttamente con i team che costruiscono questi sistemi.
Ecco un assaggio della tecnologia esposta:

Oltre a tutta l'eccitante tecnologia, una delle parti migliori dell'YV25 Shenzhen è stata quella di riunire di nuovo la comunità della computer vision e il team di Ultralytics. Durante la giornata, le persone si sono riunite intorno alle dimostrazioni, hanno condiviso idee durante le pause caffè e hanno continuato a conversare anche dopo la fine degli interventi.
Ricercatori, ingegneri, studenti e costruttori si sono confrontati, hanno fatto domande e si sono scambiati esperienze reali, dall'implementazione alla formazione dei modelli. E grazie a Cinco Jotas del Grupo Osborne, abbiamo anche portato un tocco di cultura spagnola all'evento con jamón appena intagliato, creando un caldo momento di connessione. Una bella sede, una folla entusiasta e un senso condiviso di slancio hanno reso la giornata davvero speciale.
Dai keynote ispiratori alle dimostrazioni pratiche, YOLO Vision 2025 Shenzhen ha catturato lo spirito di innovazione che definisce la comunità Ultralytics. Nel corso della giornata, relatori e partecipanti si sono scambiati idee, hanno esplorato nuove tecnologie e si sono confrontati su una visione condivisa del futuro dell'IA. Insieme, hanno lasciato l'evento pieni di energia e pronti per il futuro di Ultralytics YOLO.
Immaginate cosa è possibile fare con l'intelligenza artificiale e la computer vision. Unitevi alla nostra comunità e al repository GitHub per saperne di più. Scoprite altre applicazioni come la computer vision in agricoltura e l'IA nella vendita al dettaglio. Esplorate le nostre opzioni di licenza e iniziate a lavorare con la computer vision oggi stesso!