Les points forts d'Ultralytics à l'occasion de YOLO Vision 2025 Shenzhen !
Revivez les moments clés de YOLO Vision 2025 Shenzhen, où Ultralytics a réuni des innovateurs, des partenaires et la communauté de l'IA pour une journée d'inspiration.
Revivez les moments clés de YOLO Vision 2025 Shenzhen, où Ultralytics a réuni des innovateurs, des partenaires et la communauté de l'IA pour une journée d'inspiration.
Le 26 octobre, YOLO Vision 2025 (YV25 ) a fait ses débuts en Chine au bâtiment B10 de l'OCT Creative Culture Park à Shenzhen. L'événement hybride Vision AI d'Ultralyticsa rassemblé plus de 200 participants en personne, et beaucoup d'autres en ligne via YouTube et Bilibili.
Le livestream de l'YV25 Shenzhen a déjà dépassé les 3 500 vues sur YouTube et continue de gagner en attention au fur et à mesure que les moments forts de l'événement sont partagés par la communauté. Cette journée a été riche en idées, en conversations et en explorations pratiques sur les prochaines orientations de Vision AI.
La journée a commencé par un accueil chaleureux de notre hôte, Huang Xueying, qui a invité tout le monde à se connecter, à apprendre et à prendre part aux discussions tout au long de l'événement. Elle a expliqué qu'il s'agissait du deuxième YOLO Vision de l'année, après l'édition londonienne de septembre, et a fait part de son enthousiasme à l'idée de réunir à nouveau la communauté Vision AI ici, à Shenzhen.
Dans cet article, nous reviendrons sur les temps forts de la journée, notamment les mises à jour des modèles, les sessions des conférenciers, les démonstrations en direct et les moments communautaires qui ont rassemblé tout le monde. C'est parti !
La première conférence de la journée a été animée par Glenn Jocher, fondateur et PDG d'Ultralytics , qui a expliqué comment les modèlesYOLO d 'Ultralytics sont passés d'une avancée de la recherche à certains des modèles Vision AI les plus largement utilisés dans le monde. Glenn a expliqué que ses premiers travaux visaient à rendre YOLO plus facile à utiliser.
Il a porté les modèles sur PyTorch, a amélioré la documentation et a tout partagé ouvertement pour que les développeurs du monde entier puissent construire dessus. Comme il le rappelle, "j'ai sauté à pieds joints en 2018. J'ai décidé que mon avenir était là." Ce qui a commencé comme un effort personnel est rapidement devenu un mouvement open-source mondial.

Aujourd'hui, les modèlesYOLO d'Ultralytics alimentent des milliards d'inférences chaque jour, et Glenn a souligné que cette échelle n'était possible que grâce aux personnes qui ont contribué à sa construction. Des chercheurs, des ingénieurs, des étudiants, des amateurs et des contributeurs de logiciels libres du monde entier ont fait de YOLO ce qu'il est aujourd'hui.
Comme le dit Glenn, "ils sont près d'un millier [les contributeurs] et nous leur en sommes très reconnaissants. Sans eux, nous ne serions pas là où nous sommes aujourd'hui".
Le premier aperçu d'Ultralytics YOLO26 a été partagé plus tôt cette année lors de l'événement YOLO Vision 2025 à Londres, où il a été présenté comme la prochaine étape majeure de la famille de modèles Ultralytics YOLO . Lors de l'événement YV25 Shenzhen, Glenn a fait le point sur les progrès réalisés depuis cette annonce et a donné à la communauté de l'IA un aperçu plus précis de l'évolution du modèle.
YOLO26 est conçu pour être plus petit, plus rapide et plus précis, tout en restant pratique pour une utilisation dans le monde réel. Glenn explique que l'équipe a passé l'année dernière à affiner l'architecture, à comparer les performances des différents appareils et à intégrer les résultats de la recherche et les commentaires de la communauté. L'objectif est de fournir des performances de pointe sans rendre les modèles plus difficiles à déployer.
L'une des principales nouveautés soulignées par Glenn est que YOLO26 est associé à une campagne de réglage des hyperparamètres, passant d'une formation entièrement à partir de zéro à un réglage fin sur des ensembles de données plus importants. Il a expliqué que cette approche est beaucoup plus en phase avec les cas d'utilisation réels.
Voici quelques-unes des autres améliorations clés présentées lors de l'événement :
Ensemble, ces mises à jour permettent d'obtenir des modèles qui sont jusqu'à 43 % plus rapides sur l'CPU tout en étant plus précis que les modèles d Ultralytics YOLO11ce qui rend YOLO26 particulièrement intéressant pour les appareils embarqués, la robotique et les systèmes de pointe.
YOLO26 prendra en charge toutes les tâches et tailles de modèles actuellement disponibles dans YOLO11, ce qui se traduit par 25 variantes de modèles dans toute la famille. Cela inclut des modèles de détection, de segmentation, d'estimation de la pose, de boîtes de délimitation orientées et de classification, allant de nano à extra large.
L'équipe travaille également sur cinq variantes pouvant être sollicitées. Il s'agit de modèles qui peuvent recevoir une invite textuelle et renvoyer directement des boîtes de délimitation, sans nécessiter de formation.
Il s'agit d'une première étape vers des flux de vision plus flexibles, basés sur des instructions, qui sont plus faciles à adapter à différents cas d'utilisation. Les modèles YOLO26 sont encore en cours de développement, mais les premiers résultats de performance sont excellents et l'équipe travaille à leur lancement prochain.
Après la mise à jour de YOLO26, Glenn a accueilli Prateek Bhatnagar, notre responsable de l'ingénierie des produits, pour une démonstration en direct de la plateforme Ultralytics . Cette plateforme est construite pour rassembler les parties clés du flux de travail de la vision par ordinateur, y compris l'exploration des ensembles de données, l'annotation des images, l'entraînement des modèles et la comparaison des résultats.

Prateek a souligné que la plateforme reste fidèle aux racines open-source d'Ultralytics, en introduisant deux espaces communautaires, une communauté de jeux de données et une communauté de projets, où les développeurs peuvent contribuer, réutiliser et améliorer le travail des autres. Au cours de la démonstration, il a présenté l'annotation assistée par l'IA, l'entraînement facile dans le nuage et la possibilité d'affiner les modèles directement à partir de la communauté, sans avoir besoin de ressources GPU locales.
La plateforme est actuellement en cours de développement. Prateek a encouragé l'auditoire à surveiller les annonces et a indiqué que l'équipe s'agrandissait en Chine pour soutenir le lancement.
L'élan étant donné, l'événement s'est transformé en une table ronde réunissant plusieurs chercheurs à l'origine de différents modèles YOLO . Le panel comprenait Glenn Jocher, ainsi que Jing Qiu, notre ingénieur principal en apprentissage automatique, Chen Hui, ingénieur en apprentissage automatique chez Meta et l'un des auteurs de YOLOv10, et Bo Zhang, stratège en algorithmes chez Meituan et l'un des auteurs de YOLOv6.

La discussion a porté sur la façon dont YOLO continue d'évoluer grâce à l'utilisation dans le monde réel. Les orateurs ont évoqué le fait que les progrès sont souvent motivés par des défis pratiques de déploiement, tels que l'exécution efficace sur des appareils périphériques, l'amélioration de la détection de petits objets et la simplification de l'exportation de modèles.
Plutôt que de rechercher uniquement la précision, le panel a souligné l'importance d'équilibrer la vitesse, la convivialité et la fiabilité dans les environnements de production. La valeur de l'itération et du retour d'information de la part de la communauté a également été soulignée.
Voici d'autres informations intéressantes tirées de la conversation :
Examinons maintenant de plus près quelques-unes des conférences de l'YV25 Shenzhen, au cours desquelles des leaders de la communauté de l'IA ont fait part de l'évolution de la vision de l'IA, des humains numériques et de la robotique au raisonnement multimodal et au déploiement efficace de la périphérie.
Au cours d'une séance très instructive, M. Peng Zhang, de l'Alibaba Qwen Lab, a expliqué comment son équipe développe de grands modèles vidéo qui permettent de générer des humains numériques expressifs avec des mouvements et un contrôle plus naturels. Il a présenté Wan S2V et Wan Animate, qui utilisent des références audio ou de mouvement pour produire des discours, des gestes et des animations réalistes, en s'attaquant aux limites de la génération purement textuelle.

M. Zhang a également parlé des progrès réalisés en matière d'avatars interactifs en temps réel, notamment le clonage sans prise de vue de l'apparence et du mouvement et les modèles légers capables d'animer un visage directement à partir d'un flux de caméra en direct, ce qui rapproche les humains numériques réalistes d'un fonctionnement fluide sur les appareils de tous les jours.
L'un des principaux thèmes abordés à YV25 Shenzhen a été le passage de modèles de vision qui se contentent de voir le monde à des systèmes capables d'agir en son sein. En d'autres termes, la perception n'est plus la fin du processus, elle devient le début de l'action.
Par exemple, dans sa présentation, Hu Chunxu de D-Robotics a décrit comment ses kits de développement et ses solutions SoC (système sur puce) intègrent la détection, le contrôle des mouvements en temps réel et la prise de décision sur une pile matérielle et logicielle unifiée. En traitant la perception et l'action comme une boucle de rétroaction continue, plutôt que comme des étapes distinctes, leur approche permet aux robots de se déplacer, de s'adapter et d'interagir de manière plus fiable dans des environnements réels.

Alex Zhang, de Baidu Paddle, s'est fait l'écho de cette idée dans son exposé, expliquant comment YOLO et PaddleOCR collaborent pour detect objets et interpréter le texte et la structure qui les entourent. Cela permet aux systèmes de convertir les images et les documents en informations utilisables et structurées pour des tâches telles que la logistique, les inspections et le traitement automatisé.
Un autre sujet intéressant abordé lors du salon YV25 Shenzhen a été la manière dont l'intelligence artificielle devient plus efficace et plus performante sur les appareils périphériques.
Paul Jung de DEEPX a parlé du déploiement des modèles YOLO directement sur le matériel embarqué, réduisant ainsi la dépendance à l'égard du cloud. En se concentrant sur la faible consommation d'énergie, l'inférence optimisée et le réglage des modèles en fonction du matériel, DEEPX permet une perception en temps réel pour les drones, les robots mobiles et les systèmes industriels fonctionnant dans des environnements dynamiques.
De même, Liu Lingfei de Moore Threads a expliqué comment la plateforme Moore Threads E300 intègre l'unité centrale de traitementCPU, l'unité de traitement graphiqueGPU et l'unité de traitement neuronal (NPU) pour fournir une inférence visuelle à grande vitesse sur des appareils compacts.
La plateforme peut exécuter plusieurs flux YOLO à des fréquences d'images élevées, et sa chaîne d'outils simplifie les étapes telles que la quantification, la compilation statique et l'optimisation des performances. Moore Threads a également mis en libre accès un large éventail de modèles de vision par ordinateur et d'exemples de déploiement afin d'abaisser la barrière pour les développeurs.
Jusqu'à présent, la construction d'un modèle unique capable de comprendre les images et d'interpréter le langage nécessitait de grandes architectures de transformateurs dont l'exécution était coûteuse. Lors du salon YV25 de Shenzhen, Yue Ziyin, de Yuanshi Intelligence, a présenté RWKV, une architecture qui allie les capacités de raisonnement à long terme des transformateurs à l'efficacité des modèles récurrents.
Il a expliqué comment Vision-RWKV applique cette conception à la vision par ordinateur en traitant les images d'une manière qui s'échelonne linéairement avec la résolution. Il convient donc aux entrées à haute résolution et aux appareils périphériques où les calculs sont limités.
M. Yue a également montré comment la RWKV est utilisée dans les systèmes vision-langage, où les caractéristiques des images sont associées à la compréhension du texte pour aller au-delà de la détection d'objets et interpréter des scènes, des documents et le contexte du monde réel.

Tandis que les exposés sur scène ont porté sur l'avenir de l'IA visionnaire, les stands sur le sol ont montré comment elle est déjà utilisée aujourd'hui. Les participants ont pu voir des modèles fonctionner en direct, comparer les options matérielles et discuter directement avec les équipes qui construisent ces systèmes.
Voici un aperçu de la technologie présentée :

En plus de toute cette technologie passionnante, l'une des meilleures parties de YV25 Shenzhen a été de réunir à nouveau la communauté de la vision par ordinateur et l'équipe d'Ultralytics en personne. Tout au long de la journée, les gens se sont rassemblés autour des démonstrations, ont échangé des idées pendant les pauses café et ont poursuivi les conversations bien après la fin des exposés.
Chercheurs, ingénieurs, étudiants et constructeurs ont comparé leurs notes, posé des questions et échangé leurs expériences du monde réel, du déploiement à la formation au modèle. Et grâce à Cinco Jotas du Grupo Osborne, nous avons même apporté une touche de culture espagnole à l'événement avec du jambon fraîchement découpé, créant ainsi un moment chaleureux de connexion. Un lieu magnifique, une foule enthousiaste et un sentiment d'élan partagé ont rendu cette journée vraiment spéciale.
Des présentations inspirantes aux démonstrations pratiques, YOLO Vision 2025 Shenzhen a capturé l'esprit d'innovation qui définit la communauté Ultralytics . Tout au long de la journée, les intervenants et les participants ont échangé des idées, exploré de nouvelles technologies et se sont connectés autour d'une vision commune de l'avenir de l'IA. Ensemble, ils sont repartis pleins d'énergie et prêts pour la suite avec Ultralytics YOLO.
Réimaginez ce qui est possible avec l'IA et la vision par ordinateur. Rejoignez notre communauté et notre dépôt GitHub pour en savoir plus. Apprenez-en plus sur des applications telles que la vision par ordinateur dans l'agriculture et l'IA dans le commerce de détail. Explorez nos options de licence et lancez-vous dans la vision par ordinateur dès aujourd'hui !