Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Événements

Les moments forts d'Ultralytics lors de YOLO Vision 2025 Shenzhen !

Revisite les moments clés de YOLO Vision 2025 Shenzhen, où Ultralytics a réuni des innovateurs, des partenaires et la communauté IA pour une journée d'inspiration.

ABAbirami Vina
5 min read
Moments forts de YOLO Vision 2025 Shenzhen

Le 26 octobre, YOLO Vision 2025 (YV25) a fait ses débuts en Chine au bâtiment B10 dans l'OCT Creative Culture Park de Shenzhen. L'événement hybride d'IA en vision d'Ultralytics a rassemblé plus de 200 participants en personne, et beaucoup d'autres se sont joints en ligne via YouTube et Bilibili.

Le livestream de YV25 Shenzhen a déjà dépassé les 3 500 vues sur YouTube et continue d'attirer l'attention alors que les moments forts de l'événement sont partagés au sein de la communauté. C'était une journée remplie d'idées, de conversations et d'exploration pratique sur la direction que prend l'IA en vision.

La journée a commencé par un accueil chaleureux de notre hôte, Huang Xueying, qui a invité tout le monde à entrer en contact, à apprendre et à prendre part aux discussions tout au long de l'événement. Elle a expliqué qu'il s'agissait du deuxième YOLO Vision de l'année, après l'édition de Londres en septembre, et a partagé à quel point c'était enthousiasmant de réunir à nouveau la communauté de l'IA en vision ici à Shenzhen.

Dans cet article, nous reviendrons sur les points forts de la journée, notamment les mises à jour des modèles, les sessions des conférenciers, les démonstrations en direct et les moments communautaires qui ont rassemblé tout le monde. Commençons !

Link to this sectionLe parcours des modèles Ultralytics YOLO jusqu'à présent#

La première conférence de la journée a été dirigée par le fondateur et PDG d'Ultralytics, Glenn Jocher, qui a expliqué comment les modèles Ultralytics YOLO sont passés d'une avancée dans la recherche à certains des modèles d'IA en vision les plus utilisés au monde. Glenn a expliqué que ses premiers travaux visaient à rendre YOLO plus facile à utiliser.

Il a porté les modèles sur PyTorch, amélioré la documentation et tout partagé ouvertement afin que les développeurs du monde entier puissent construire par-dessus. Comme il l'a rappelé : « Je me suis lancé à corps perdu en 2018. J'ai décidé que c'était là que se trouvait mon avenir. » Ce qui a commencé comme un effort personnel est rapidement devenu un mouvement open-source mondial.

Glenn Jocher parlant sur scène à YOLO Vision 2025 Shenzhen

Fig 1. Glenn Jocher s'exprimant sur scène à YOLO Vision 2025 Shenzhen.

Aujourd'hui, les modèles Ultralytics YOLO alimentent des milliards d'inférences chaque jour, et Glenn a souligné que cette échelle n'a été possible que grâce aux personnes qui ont aidé à la construire. Des chercheurs, des ingénieurs, des étudiants, des passionnés et des contributeurs open-source du monde entier ont façonné YOLO pour en faire ce qu'il est aujourd'hui.

Comme l'a dit Glenn : « Il y a près d'un millier de contributeurs là-bas et nous leur en sommes très reconnaissants. Nous ne serions pas là où nous sommes aujourd'hui sans ces personnes. »

Link to this sectionMises à jour sur Ultralytics YOLO26#

Le premier aperçu d'Ultralytics YOLO26 a été partagé plus tôt cette année lors de l'événement YOLO Vision 2025 London, où il a été présenté comme la prochaine étape majeure de la famille de modèles Ultralytics YOLO. À YV25 Shenzhen, Glenn a fait le point sur les progrès réalisés depuis cette annonce et a donné à la communauté de l'IA un aperçu plus détaillé de l'évolution du modèle.

YOLO26 est conçu pour être plus petit, plus rapide et plus précis, tout en restant pratique pour une utilisation réelle. Glenn a expliqué que l'équipe a passé l'année dernière à affiner l'architecture, à comparer les performances entre les appareils et à intégrer les idées issues de la recherche et des retours de la communauté. L'objectif est d'offrir des performances de pointe sans rendre les modèles plus difficiles à déployer.

Link to this sectionÀ quoi s'attendre de la part d'Ultralytics YOLO26#

L'une des principales mises à jour soulignées par Glenn est que YOLO26 est associé à une campagne de réglage des hyperparamètres dédiée, passant d'un entraînement entièrement à partir de zéro à un réglage fin sur des jeux de données plus larges. Il a précisé que cette approche est bien plus alignée avec les cas d'utilisation réels.

Voici quelques-unes des autres améliorations clés partagées lors de l'événement :

  • Architecture simplifiée : La couche Distribution Focal Loss (DFL) a été supprimée. Cela rend les modèles plus simples et plus rapides à exécuter, tout en maintenant le même niveau de précision.
  • Prise en charge de l'inférence de bout en bout : YOLO26 est nativement de bout en bout, ce qui signifie qu'il peut s'exécuter sans couche NMS distincte. Cela rend l'exportation vers des formats tels que ONNX et TensorRT et le déploiement sur du matériel Edge beaucoup plus faciles.
  • Meilleures performances sur les petits objets : Des stratégies de perte mises à jour aident le modèle à détecter les minuscules objets de manière plus fiable, ce qui constitue un défi de longue date en vision par ordinateur.
  • Un nouvel optimiseur hybride : YOLO26 inclut un nouvel optimiseur inspiré par les recherches récentes sur l'entraînement des grands modèles de langage, qui améliore la précision du modèle et est désormais intégré directement dans le package Python d'Ultralytics.

Link to this sectionUltralytics YOLO26 est la prochaine étape de l'IA en vision pratique#

Ensemble, ces mises à jour permettent d'obtenir des modèles jusqu'à 43 % plus rapides sur CPU tout en étant plus précis que Ultralytics YOLO11, ce qui rend YOLO26 particulièrement efficace pour les appareils embarqués, la robotique et les systèmes Edge.

YOLO26 prendra en charge toutes les mêmes tâches et tailles de modèles actuellement disponibles dans YOLO11, ce qui donnera lieu à 25 variantes de modèles au sein de la famille. Cela inclut des modèles pour la détection, la segmentation, l'estimation de pose, les boîtes englobantes orientées et la classification, allant de nano à extra large.

L'équipe travaille également sur cinq variantes basées sur des prompts. Il s'agit de modèles capables de prendre un prompt textuel et de renvoyer directement des boîtes englobantes, sans nécessiter d'entraînement.

C'est une première étape vers des flux de travail en vision plus flexibles, basés sur des instructions, qui sont plus faciles à adapter à différents cas d'utilisation. Les modèles YOLO26 sont toujours en développement actif, mais les résultats de performance préliminaires sont solides, et l'équipe travaille à leur sortie prochaine.

Link to this sectionUn regard sur la plateforme Ultralytics#

Après la mise à jour sur YOLO26, Glenn a accueilli Prateek Bhatnagar, notre responsable de l'ingénierie produit, pour faire une démonstration en direct de la plateforme Ultralytics. Cette plateforme est en cours de développement pour réunir les parties clés du flux de travail de vision par ordinateur, y compris l'exploration de jeux de données, l'annotation d'images, l'entraînement de modèles et la comparaison des résultats.

Prateek Bhatnagar présentant la plateforme Ultralytics

Fig 2. Prateek Bhatnagar présentant la plateforme Ultralytics.

Prateek a souligné que la plateforme reste fidèle aux racines open-source d'Ultralytics, en introduisant deux espaces communautaires, une communauté de jeux de données et une communauté de projets, où les développeurs peuvent contribuer, réutiliser et améliorer le travail des autres. Lors de la démonstration, il a présenté l'annotation assistée par IA, l'entraînement cloud facile et la possibilité d'ajuster les modèles directement depuis la communauté, sans avoir besoin de ressources GPU locales.

La plateforme est actuellement en développement. Prateek a encouragé le public à surveiller les annonces et a noté que l'équipe s'agrandit en Chine pour soutenir le lancement.

Link to this sectionLes voix derrière YOLO : Le panel des auteurs#

Avec l'élan qui se construit, l'événement s'est transformé en une table ronde réunissant plusieurs des chercheurs derrière différents modèles YOLO. Le panel comprenait Glenn Jocher, ainsi que Jing Qiu, notre ingénieur senior en apprentissage automatique ; Chen Hui, ingénieur en apprentissage automatique chez Meta et l'un des auteurs de YOLOv10 ; et Bo Zhang, stratège en algorithmes chez Meituan et l'un des auteurs de YOLOv6.

Un panel sur le développement des modèles YOLO à YV25 Shenzhen

Fig 3. Un panel sur le développement des modèles YOLO réunissant Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu et Glenn Jocher.

La discussion s'est concentrée sur la manière dont YOLO continue d'évoluer grâce à une utilisation réelle. Les intervenants ont évoqué la façon dont les progrès sont souvent dictés par les défis pratiques de déploiement, tels que l'exécution efficace sur des appareils Edge, l'amélioration de la détection de petits objets et la simplification de l'exportation des modèles.

Plutôt que de simplement rechercher la précision, le panel a noté l'importance d'équilibrer la vitesse, la facilité d'utilisation et la fiabilité dans les environnements de production. Un autre point à retenir partagé était la valeur de l'itération et des retours de la communauté.

Voici quelques autres idées intéressantes issues de la conversation :

  • La détection à vocabulaire ouvert gagne du terrain dans l'écosystème YOLO : Les nouveaux modèles montrent comment l'alignement vision-langage et les flux de travail basés sur des prompts peuvent détecter des objets au-delà des catégories fixes.
  • L'attention légère est en hausse : Le panel a discuté de la manière dont l'utilisation de mécanismes d'attention efficaces, plutôt qu'une attention complète partout, peut augmenter la précision tout en gardant l'inférence suffisamment légère pour les appareils Edge.
  • Itérez tôt et souvent avec la communauté : Les panélistes ont renforcé un état d'esprit de construction-test-amélioration, où la sortie plus rapide des modèles et l'apprentissage auprès des utilisateurs conduisent à de meilleurs résultats que les longs cycles de développement privés.

Link to this sectionLes leaders d'opinion définissant l'avenir de l'IA et de la vision#

Ensuite, examinons de plus près certaines des conférences clés à YV25 Shenzhen, où des leaders de la communauté de l'IA ont partagé la façon dont l'IA en vision évolue, des humains numériques et de la robotique au raisonnement multimodal et au déploiement efficace en Edge.

Link to this sectionApprendre à l'IA à comprendre l'expérience humaine#

Dans une session perspicace, le Dr Peng Zhang du Qwen Lab d'Alibaba a expliqué comment son équipe développe de grands modèles vidéo capables de générer des humains numériques expressifs avec plus de mouvement et de contrôle naturels. Il a présenté Wan S2V et Wan Animate, qui utilisent des références audio ou de mouvement pour produire des discours, des gestes et des animations réalistes, comblant ainsi les limites de la génération purement axée sur le texte.

Peng Zhang expliquant comment les grands modèles vidéo peuvent alimenter les humains numériques

Fig 4. Peng Zhang expliquant comment les grands modèles vidéo peuvent alimenter des humains numériques.

Le Dr Zhang a également parlé des progrès réalisés vers des avatars interactifs en temps réel, notamment le clonage zero-shot de l'apparence et du mouvement, et des modèles légers capables d'animer un visage directement à partir d'un flux de caméra en direct, rapprochant ainsi les humains numériques réalistes d'une exécution fluide sur les appareils du quotidien.

Link to this sectionDe la perception à l'action : L'ère de l'intelligence incarnée#

L'un des thèmes clés de YV25 Shenzhen était le passage de modèles de vision qui voient simplement le monde à des systèmes capables d'agir en son sein. En d'autres termes, la perception n'est plus la fin du pipeline ; elle devient le début de l'action.

Par exemple, dans sa conférence, Hu Chunxu de D-Robotics a décrit comment leurs kits de développement et leurs solutions SoC (système sur une puce) intègrent la détection, le contrôle de mouvement en temps réel et la prise de décision sur une pile matérielle et logicielle unifiée. En traitant la perception et l'action comme une boucle de rétroaction continue, plutôt que comme des étapes distinctes, leur approche prend en charge les robots qui peuvent se déplacer, s'adapter et interagir de manière plus fiable dans des environnements réels.

Démonstration de D-Robotics à YOLO Vision 2025 à Shenzhen, en Chine

Fig 5. Démo de D-Robotics à YOLO Vision 2025 à Shenzhen, Chine.

Alex Zhang de Baidu Paddle a fait écho à cette idée dans son discours, expliquant comment YOLO et PaddleOCR travaillent ensemble pour détecter des objets, puis interpréter le texte et la structure qui les entourent. Cela permet aux systèmes de convertir des images et des documents en informations utilisables et structurées pour des tâches telles que la logistique, les inspections et le traitement automatisé.

Link to this sectionL'intelligence à la périphérie (Edge) : Une IA efficace pour chaque appareil#

Un autre sujet intéressant à YV25 Shenzhen était la façon dont l'IA en vision devient plus efficace et capable sur les appareils Edge.

Paul Jung de DEEPX a parlé du déploiement de modèles YOLO directement sur du matériel embarqué, réduisant ainsi la dépendance au cloud. En se concentrant sur une faible consommation d'énergie, une inférence optimisée et un réglage de modèle tenant compte du matériel, DEEPX permet une perception en temps réel pour les drones, les robots mobiles et les systèmes industriels fonctionnant dans des environnements dynamiques.

De même, Liu Lingfei de Moore Threads a expliqué comment la plateforme Moore Threads E300 intègre le calcul par unité centrale (CPU), unité de traitement graphique (GPU) et unité de traitement neuronal (NPU) pour fournir une inférence de vision à haute vitesse sur des appareils compacts.

La plateforme peut exécuter plusieurs flux YOLO à des fréquences d'images élevées, et sa chaîne d'outils simplifie les étapes telles que la quantification, la compilation statique et le réglage des performances. Moore Threads a également rendu open-source un large ensemble de modèles de vision par ordinateur et d'exemples de déploiement pour abaisser la barrière pour les développeurs.

Link to this sectionFusionner la vision et le langage pour des systèmes d'IA plus intelligents#

Jusqu'à récemment, construire un modèle unique capable à la fois de comprendre les images et d'interpréter le langage nécessitait de grandes architectures transformer coûteuses à exécuter. À YV25 Shenzhen, Yue Ziyin de Yuanshi Intelligence a donné un aperçu de RWKV, une architecture qui mélange les capacités de raisonnement contextuel long des transformers avec l'efficacité des modèles récurrents.

Il a expliqué comment Vision-RWKV applique cette conception à la vision par ordinateur en traitant les images d'une manière qui évolue linéairement avec la résolution. Cela le rend approprié pour les entrées haute résolution et pour les appareils Edge où le calcul est limité.

Yue a également montré comment RWKV est utilisé dans les systèmes vision-langage, où les caractéristiques de l'image sont associées à la compréhension du texte pour aller au-delà de la détection d'objets afin d'interpréter des scènes, des documents et le contexte du monde réel.

Yue Ziyin parlant des applications de RWKV

Fig 6. Yue Ziyin parlant des applications de RWKV.

Link to this sectionDes stands et des démonstrations en direct qui ont donné vie à l'IA en vision#

Alors que les conférences sur scène se tournaient vers l'avenir de l'IA en vision, les stands sur le salon montraient comment elle est déjà utilisée aujourd'hui. Les participants ont pu voir des modèles s'exécuter en direct, comparer des options matérielles et parler directement avec les équipes qui construisent ces systèmes.

Voici un aperçu de la technologie qui était exposée :

  • Plateformes de développement et de prototypage : Seeed, M5Stack et Infermove ont présenté des cartes de développement compactes et des kits de démarrage qui facilitent l'expérimentation avec des applications basées sur YOLO et le passage rapide des idées à des démonstrations fonctionnelles.
  • Matériel Edge haute performance : Hailo, DEEPX, Intel et Moore Threads ont fait la démonstration de puces et de modules conçus pour une inférence rapide et efficace.
  • Flux de travail en vision et langage : Baidu Paddle et RWKV ont mis en avant des piles logicielles capables de détecter des objets, mais aussi de lire, d'interpréter et de raisonner sur ce qui apparaît dans une image ou un document.
  • Open-source et outils communautaires : Ultralytics et Datawhale ont engagé les développeurs avec des démonstrations de modèles en direct, des conseils d'entraînement et des conseils pratiques, renforçant la façon dont le savoir partagé accélère l'innovation.

Un aperçu du stand de M5Stack à YV25 Shenzhen

Fig 7. Un aperçu du stand de M5Stack à YV25 Shenzhen.

Link to this sectionEntrer en contact avec la communauté de l'IA en vision#

En plus de toute la technologie passionnante, l'un des meilleurs aspects de YV25 Shenzhen était de réunir à nouveau la communauté de la vision par ordinateur et l'équipe d'Ultralytics en personne. Tout au long de la journée, les gens se sont rassemblés autour des démonstrations, ont partagé des idées pendant les pauses-café et ont poursuivi les conversations bien après la fin des discours.

Chercheurs, ingénieurs, étudiants et créateurs ont comparé leurs notes, posé des questions et échangé des expériences concrètes, du déploiement à l'entraînement des modèles. Et grâce à Cinco Jotas du Grupo Osborne, nous avons même apporté une touche de culture espagnole à l'événement avec du jamón fraîchement découpé, créant un moment chaleureux de connexion. Un beau lieu, une foule enthousiaste et un sentiment de dynamisme partagé ont rendu cette journée vraiment spéciale.

Link to this sectionPoints clés#

Des conférences inspirantes aux démonstrations pratiques, YOLO Vision 2025 Shenzhen a capturé l'esprit d'innovation qui définit la communauté Ultralytics. Tout au long de la journée, les conférenciers et les participants ont échangé des idées, exploré de nouvelles technologies et se sont connectés autour d'une vision partagée pour l'avenir de l'IA. Ensemble, ils sont repartis pleins d'énergie et prêts pour la suite avec Ultralytics YOLO.

Réinvente ce qui est possible avec l'IA et la vision par ordinateur. Rejoins notre communauté et notre référentiel GitHub pour en découvrir plus. Apprends-en davantage sur des applications comme la vision par ordinateur dans l'agriculture et l'IA dans le commerce de détail. Explore nos options de licence et commence dès aujourd'hui avec la vision par ordinateur !

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique