I punti salienti di Ultralytics dal YOLO Vision 2025 Shenzhen!
Ripercorri i momenti chiave del YOLO Vision 2025 Shenzhen, dove Ultralytics ha riunito innovatori, partner e la community AI per una giornata di ispirazione.

Il 26 ottobre, YOLO Vision 2025 (YV25) ha fatto il suo debutto in Cina presso l'edificio B10 nell'OCT Creative Culture Park di Shenzhen. L'evento di AI di visione ibrida di Ultralytics ha riunito più di 200 partecipanti di persona, con molti altri che si sono uniti online tramite YouTube e Bilibili.
Il live streaming di YV25 Shenzhen ha già superato le 3.500 visualizzazioni su YouTube e continua ad attirare attenzione man mano che i momenti salienti dell'evento vengono condivisi all'interno della community. È stata una giornata ricca di idee, conversazioni ed esplorazione pratica su dove si sta dirigendo l'AI di visione.
La giornata è iniziata con un caloroso benvenuto da parte della nostra ospite, Huang Xueying, che ha invitato tutti a connettersi, imparare e partecipare alle discussioni durante l'evento. Ha spiegato che questo era il secondo YOLO Vision dell'anno, dopo l'edizione di Londra a settembre, e ha condiviso quanto sia stato emozionante riunire nuovamente la community di AI di visione qui a Shenzhen.
In questo articolo, rivedremo i momenti salienti della giornata, inclusi gli aggiornamenti sui modelli, le sessioni dei relatori, le demo dal vivo e i momenti di community che hanno unito tutti. Iniziamo!
Link to this sectionIl viaggio dei modelli Ultralytics YOLO finora#
Il primo keynote della giornata è stato tenuto dal fondatore e CEO di Ultralytics Glenn Jocher, che ha raccontato come i modelli Ultralytics YOLO siano passati da una svolta nella ricerca a essere tra i modelli di AI di visione più utilizzati al mondo. Glenn ha spiegato che il suo lavoro iniziale si è concentrato sul rendere YOLO più facile da usare.
Ha portato i modelli su PyTorch, migliorato la documentazione e condiviso tutto apertamente affinché gli sviluppatori di tutto il mondo potessero costruire sopra di esso. Come ha ricordato: "Mi ci sono tuffato a capofitto nel 2018. Ho deciso che era lì che risiedeva il mio futuro." Quello che era iniziato come uno sforzo personale è diventato rapidamente un movimento open-source globale.

Fig 1. Glenn Jocher parla sul palco allo YOLO Vision 2025 di Shenzhen.
Oggi, i modelli Ultralytics YOLO alimentano miliardi di inferenze ogni giorno e Glenn ha sottolineato che questa scala è stata possibile solo grazie alle persone che hanno contribuito a costruirla. Ricercatori, ingegneri, studenti, hobbisti e collaboratori open-source di tutto il mondo hanno plasmato YOLO in ciò che è oggi.
Come ha detto Glenn: "Ce ne sono quasi mille [collaboratori] là fuori e ne siamo immensamente grati. Non saremmo dove siamo oggi senza queste persone."
Link to this sectionAggiornamenti su Ultralytics YOLO26#
Il primo sguardo a Ultralytics YOLO26 è stato condiviso all'inizio di quest'anno all'evento YOLO Vision 2025 Londra, dove è stato introdotto come il prossimo importante passo avanti nella famiglia di modelli Ultralytics YOLO. Allo YV25 Shenzhen, Glenn ha fornito un aggiornamento sui progressi compiuti dopo quell'annuncio e ha offerto alla community AI uno sguardo più approfondito su come il modello si sia evoluto.
YOLO26 è progettato per essere più piccolo, più veloce e più accurato, pur rimanendo pratico per l'uso nel mondo reale. Glenn ha spiegato che il team ha trascorso l'ultimo anno a perfezionare l'architettura, confrontare le prestazioni tra diversi dispositivi e incorporare approfondimenti dalla ricerca e dal feedback della community. L'obiettivo è fornire prestazioni all'avanguardia senza rendere i modelli più difficili da implementare.
Link to this sectionCosa aspettarsi da Ultralytics YOLO26#
Uno dei principali aggiornamenti sottolineati da Glenn è che YOLO26 è abbinato a una campagna dedicata di ottimizzazione degli iperparametri, passando dall'addestramento interamente da zero al fine-tuning su dataset più grandi. Ha spiegato che questo approccio è molto più allineato con i casi d'uso reali.
Ecco alcuni degli altri miglioramenti chiave condivisi durante l'evento:
- Architettura semplificata: Lo strato Distribution Focal Loss (DFL) è stato rimosso. Questo rende i modelli più semplici e veloci da eseguire, mantenendo lo stesso livello di precisione.
- Supporto all'inferenza end-to-end: YOLO26 è nativamente end-to-end, il che significa che può essere eseguito senza un livello NMS separato. Ciò rende l'esportazione verso formati come ONNX e TensorRT e l'implementazione su hardware edge molto più semplici.
- Migliori prestazioni su piccoli oggetti: Strategie di perdita aggiornate aiutano il modello a rilevare oggetti minuscoli in modo più affidabile, il che è stata una sfida di lunga data nella visione artificiale.
- Un nuovo ottimizzatore ibrido: YOLO26 include un nuovo ottimizzatore ispirato alle recenti ricerche sull'addestramento di modelli linguistici di grandi dimensioni, che migliora l'accuratezza del modello ed è ora integrato direttamente nel pacchetto Python di Ultralytics.
Link to this sectionUltralytics YOLO26 è il prossimo passo nell'AI di visione pratica#
Insieme, questi aggiornamenti portano a modelli che sono fino al 43% più veloci su CPU pur essendo più precisi di Ultralytics YOLO11, rendendo YOLO26 particolarmente efficace per dispositivi embedded, robotica e sistemi edge.
YOLO26 supporterà tutte le stesse attività e dimensioni di modello attualmente disponibili in YOLO11, con 25 varianti di modello in tutta la famiglia. Ciò include modelli per rilevamento, segmentazione, stima della posa, bounding box orientate e classificazione, spaziando da nano fino a extra large.
Il team sta lavorando anche su cinque varianti promptabili. Si tratta di modelli in grado di accettare un prompt testuale e restituire direttamente bounding box, senza necessità di addestramento.
È un primo passo verso flussi di lavoro di visione più flessibili e basati su istruzioni che sono più facili da adattare a diversi casi d'uso. I modelli YOLO26 sono ancora in fase di sviluppo attivo, ma i primi risultati sulle prestazioni sono solidi e il team sta lavorando per rilasciarli presto.
Link to this sectionUno sguardo alla Piattaforma Ultralytics#
Dopo l'aggiornamento su YOLO26, Glenn ha accolto Prateek Bhatnagar, il nostro Head of Product Engineering, per una demo dal vivo della Piattaforma Ultralytics. Questa piattaforma è in fase di costruzione per unire le parti chiave del flusso di lavoro di computer vision, inclusi l'esplorazione di dataset, l'annotazione di immagini, l'addestramento di modelli e il confronto dei risultati.

Fig 2. Prateek Bhatnagar mostra la Piattaforma Ultralytics.
Prateek ha sottolineato che la piattaforma rimane fedele alle radici open-source di Ultralytics, introducendo due community space, una community per i dataset e una per i progetti, dove gli sviluppatori possono contribuire, riutilizzare e migliorare il lavoro degli altri. Durante la demo, ha mostrato l'annotazione assistita dall'AI, il facile addestramento in cloud e la possibilità di effettuare fine-tuning dei modelli direttamente dalla community, senza bisogno di risorse GPU locali.
La piattaforma è attualmente in fase di sviluppo. Prateek ha incoraggiato il pubblico a tenersi aggiornato sugli annunci e ha notato che il team sta crescendo in Cina per supportare il lancio.
Link to this sectionLe voci dietro YOLO: Il panel degli autori#
Con lo slancio in crescita, l'evento si è spostato su una tavola rotonda con diversi ricercatori dietro i vari modelli YOLO. Il panel includeva Glenn Jocher, insieme a Jing Qiu, il nostro Senior Machine Learning Engineer; Chen Hui, un Machine Learning Engineer presso Meta e uno degli autori di YOLOv10; e Bo Zhang, un Algorithm Strategist presso Meituan e uno degli autori di YOLOv6.

Fig 3. Un panel sullo sviluppo dei modelli YOLO con Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu e Glenn Jocher.
La discussione si è concentrata su come YOLO continui a evolversi attraverso l'uso nel mondo reale. I relatori hanno toccato il modo in cui il progresso è spesso guidato dalle sfide di implementazione pratica, come l'esecuzione efficiente su dispositivi edge, il miglioramento del rilevamento di piccoli oggetti e la semplificazione dell'esportazione dei modelli.
Invece di inseguire solo l'accuratezza, il panel ha sottolineato l'importanza di bilanciare velocità, usabilità e affidabilità negli ambienti di produzione. Un altro spunto condiviso è stato il valore dell'iterazione e del feedback della community.
Ecco altri interessanti spunti dalla conversazione:
- Il rilevamento a vocabolario aperto sta guadagnando terreno nell'ecosistema YOLO: I modelli più recenti mostrano come l'allineamento visione-linguaggio e i flussi di lavoro basati su prompt possano rilevare oggetti oltre le categorie fisse.
- L'attenzione leggera è in aumento: Il panel ha discusso di come utilizzare meccanismi di attenzione efficienti, piuttosto che l'attenzione completa ovunque, possa aumentare l'accuratezza mantenendo l'inferenza abbastanza leggera per i dispositivi edge.
- Itera presto e spesso con la community: I relatori hanno rafforzato una mentalità di build-test-improve, in cui rilasciare i modelli prima e imparare dagli utenti porta a risultati migliori rispetto a lunghi cicli di sviluppo privato.
Link to this sectionLeader di pensiero che definiscono il futuro dell'AI e della visione#
Successivamente, diamo uno sguardo più da vicino ad alcuni degli interventi principali allo YV25 Shenzhen, dove i leader della community AI hanno condiviso come l'AI di visione si stia evolvendo, dagli umani digitali alla robotica fino al ragionamento multimodale e all'implementazione edge efficiente.
Link to this sectionInsegnare all'AI a comprendere l'esperienza umana#
In una sessione ricca di spunti, il Dr. Peng Zhang dell'Alibaba Qwen Lab ha condiviso come il suo team stia sviluppando modelli video di grandi dimensioni in grado di generare umani digitali espressivi con movimenti e controllo più naturali. Ha illustrato Wan S2V e Wan Animate, che utilizzano riferimenti audio o di movimento per produrre discorsi, gesti e animazioni realistici, affrontando le limitazioni della generazione basata puramente sul testo.

Fig 4. Peng Zhang spiega come i modelli video di grandi dimensioni possano alimentare umani digitali.
Il Dr. Zhang ha anche parlato dei progressi compiuti verso avatar interattivi in tempo reale, incluso il cloning zero-shot di aspetto e movimento, e modelli leggeri che possono animare un volto direttamente da un feed di una telecamera live, avvicinando gli umani digitali realistici a un funzionamento fluido sui dispositivi di uso quotidiano.
Link to this sectionDalla percezione all'azione: L'era dell'intelligenza incorporata#
Uno dei temi chiave allo YV25 Shenzhen è stato il passaggio da modelli di visione che vedono semplicemente il mondo a sistemi che possono agire al suo interno. In altre parole, la percezione non è più la fine della pipeline; sta diventando l'inizio dell'azione.
Ad esempio, nel suo intervento, Hu Chunxu di D-Robotics ha descritto come i loro kit di sviluppo e soluzioni SoC (system on a chip) integrino rilevamento, controllo del movimento in tempo reale e processo decisionale su uno stack hardware e software unificato. Trattando la percezione e l'azione come un ciclo di feedback continuo, piuttosto che come fasi separate, il loro approccio supporta robot che possono muoversi, adattarsi e interagire in modo più affidabile in ambienti reali.

Fig 5. Demo di D-Robotics allo YOLO Vision 2025 a Shenzhen, Cina.
Alex Zhang di Baidu Paddle ha ribadito questa idea nel suo intervento, spiegando come YOLO e PaddleOCR lavorino insieme per rilevare oggetti e poi interpretare il testo e la struttura attorno ad essi. Ciò consente ai sistemi di convertire immagini e documenti in informazioni strutturate e utilizzabili per attività come logistica, ispezioni ed elaborazione automatizzata.
Link to this sectionIntelligenza all'edge: AI efficiente per ogni dispositivo#
Un altro argomento interessante allo YV25 Shenzhen è stato come l'AI di Vision stia diventando più efficiente e capace sui dispositivi edge.
Paul Jung di DEEPX ha parlato dell'implementazione di modelli YOLO direttamente su hardware embedded, riducendo la dipendenza dal cloud. Concentrandosi sul basso consumo energetico, sull'inferenza ottimizzata e sulla sintonizzazione del modello basata sull'hardware, DEEPX abilita la percezione in tempo reale per droni, robot mobili e sistemi industriali che operano in ambienti dinamici.
Allo stesso modo, Liu Lingfei di Moore Threads ha condiviso come la piattaforma Moore Threads E300 integri il calcolo di central processing unit (CPU), graphics processing unit (GPU) e neural processing unit (NPU) per fornire inferenza di visione ad alta velocità su dispositivi compatti.
La piattaforma può eseguire più flussi YOLO a frame rate elevati e la sua toolchain semplifica passaggi come quantizzazione, compilazione statica e sintonizzazione delle prestazioni. Moore Threads ha anche reso open-source un'ampia serie di modelli di computer vision ed esempi di implementazione per abbassare la barriera per gli sviluppatori.
Link to this sectionFusione di visione e linguaggio per sistemi AI più intelligenti#
Fino a poco tempo fa, costruire un singolo modello in grado di comprendere immagini e interpretare il linguaggio richiedeva grandi architetture transformer che erano costose da gestire. Allo YV25 Shenzhen, Yue Ziyin di Yuanshi Intelligence ha fornito una panoramica di RWKV, un'architettura che unisce le capacità di ragionamento a lungo contesto dei transformer con l'efficienza dei modelli ricorrenti.
Ha spiegato come Vision-RWKV applichi questo design alla computer vision elaborando le immagini in un modo che scala linearmente con la risoluzione. Ciò lo rende adatto per input ad alta risoluzione e per dispositivi edge in cui il calcolo è limitato.
Yue ha anche mostrato come RWKV venga utilizzato nei sistemi visione-linguaggio, dove le caratteristiche dell'immagine sono abbinate alla comprensione del testo per andare oltre il rilevamento degli oggetti verso l'interpretazione di scene, documenti e contesto del mondo reale.

Fig 6. Yue Ziyin parla delle applicazioni di RWKV.
Link to this sectionStand e demo dal vivo che hanno dato vita all'AI di visione#
Mentre gli interventi sul palco guardavano avanti verso dove si sta dirigendo l'AI di visione, gli stand presenti hanno mostrato come viene già utilizzata oggi. I partecipanti hanno potuto vedere i modelli in esecuzione dal vivo, confrontare le opzioni hardware e parlare direttamente con i team che costruiscono questi sistemi.
Ecco un'anteprima della tecnologia che è stata esposta:
- Piattaforme di sviluppo e prototipazione: Seeed, M5Stack e Infermove hanno mostrato schede di sviluppo compatte e starter kit che rendono facile sperimentare con applicazioni basate su YOLO e passare rapidamente dalle idee a demo funzionanti.
- Hardware edge ad alte prestazioni: Hailo, DEEPX, Intel e Moore Threads hanno dimostrato chip e moduli costruiti per un'inferenza veloce ed efficiente.
- Flussi di lavoro di visione e linguaggio: Baidu Paddle e RWKV hanno evidenziato stack software in grado di rilevare oggetti, oltre a leggere, interpretare e ragionare su ciò che appare in un'immagine o un documento.
- Open-source e strumenti della community: Ultralytics e Datawhale hanno coinvolto gli sviluppatori con demo di modelli dal vivo, suggerimenti per l'addestramento e guida pratica, rafforzando come la conoscenza condivisa acceleri l'innovazione.

Fig 7. Uno sguardo allo stand di M5Stack allo YV25 Shenzhen.
Link to this sectionConnettersi con la community di AI di visione#
Oltre a tutta l'entusiasmante tecnologia, una delle parti migliori dello YV25 Shenzhen è stata riunire nuovamente di persona la community di computer vision e il team di Ultralytics. Durante la giornata, le persone si sono riunite attorno alle demo, hanno condiviso idee durante le pause caffè e hanno continuato le conversazioni molto tempo dopo la fine degli interventi.
Ricercatori, ingegneri, studenti e costruttori hanno confrontato note, posto domande e scambiato esperienze reali dall'implementazione all'addestramento dei modelli. E grazie a Cinco Jotas del Grupo Osborne, abbiamo persino portato un tocco di cultura spagnola all'evento con del jamón appena affettato, creando un caloroso momento di connessione. Una sede bellissima, una folla entusiasta e un senso di slancio condiviso hanno reso la giornata davvero speciale.
Link to this sectionPunti chiave#
Dai keynote stimolanti alle demo pratiche, YOLO Vision 2025 Shenzhen ha catturato lo spirito di innovazione che definisce la community di Ultralytics. Durante la giornata, relatori e partecipanti hanno scambiato idee, esplorato nuove tecnologie e si sono connessi su una visione condivisa per il futuro dell'AI. Insieme, se ne sono andati pieni di energia e pronti per ciò che verrà dopo con Ultralytics YOLO.
Reimmagina ciò che è possibile con l'AI e la computer vision. Unisciti alla nostra community e al repository GitHub per scoprire di più. Scopri di più su applicazioni come la computer vision in agricoltura e l'AI nella vendita al dettaglio. Esplora le nostre opzioni di licenza e inizia oggi stesso con la computer vision!






