Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Les points forts d'Ultralytics à l'occasion de YOLO Vision 2025 Shenzhen !

Revivez les moments clés de YOLO Vision 2025 Shenzhen, où Ultralytics a réuni des innovateurs, des partenaires et la communauté de l'IA pour une journée d'inspiration.

Le 26 octobre, YOLO Vision 2025 (YV25 ) a fait ses débuts en Chine au bâtiment B10 de l'OCT Creative Culture Park à Shenzhen. L'événement hybride Vision AI d'Ultralyticsa rassemblé plus de 200 participants en personne, et beaucoup d'autres en ligne via YouTube et Bilibili. 

Le livestream de l'YV25 Shenzhen a déjà dépassé les 3 500 vues sur YouTube et continue de gagner en attention au fur et à mesure que les moments forts de l'événement sont partagés par la communauté. Cette journée a été riche en idées, en conversations et en explorations pratiques sur les prochaines orientations de Vision AI.

La journée a commencé par un accueil chaleureux de notre hôte, Huang Xueying, qui a invité tout le monde à se connecter, à apprendre et à prendre part aux discussions tout au long de l'événement. Elle a expliqué qu'il s'agissait du deuxième YOLO Vision de l'année, après l'édition londonienne de septembre, et a fait part de son enthousiasme à l'idée de réunir à nouveau la communauté Vision AI ici, à Shenzhen.

Dans cet article, nous reviendrons sur les temps forts de la journée, notamment les mises à jour des modèles, les sessions des conférenciers, les démonstrations en direct et les moments communautaires qui ont rassemblé tout le monde. C'est parti !

Le parcours des modèlesYOLO d'Ultralytics jusqu'à présent

La première conférence de la journée a été animée par Glenn Jocher, fondateur et PDG d'Ultralytics , qui a expliqué comment les modèlesYOLO d 'Ultralytics sont passés d'une avancée de la recherche à certains des modèles Vision AI les plus largement utilisés dans le monde. Glenn a expliqué que ses premiers travaux visaient à rendre YOLO plus facile à utiliser. 

Il a porté les modèles sur PyTorch, a amélioré la documentation et a tout partagé ouvertement pour que les développeurs du monde entier puissent construire dessus. Comme il le rappelle, "j'ai sauté à pieds joints en 2018. J'ai décidé que mon avenir était là." Ce qui a commencé comme un effort personnel est rapidement devenu un mouvement open-source mondial.

Fig 1. Glenn Jocher s'exprimant sur scène lors de YOLO Vision 2025 Shenzhen.

Aujourd'hui, les modèlesYOLO d'Ultralytics alimentent des milliards d'inférences chaque jour, et Glenn a souligné que cette échelle n'était possible que grâce aux personnes qui ont contribué à sa construction. Des chercheurs, des ingénieurs, des étudiants, des amateurs et des contributeurs de logiciels libres du monde entier ont fait de YOLO ce qu'il est aujourd'hui. 

Comme le dit Glenn, "ils sont près d'un millier [les contributeurs] et nous leur en sommes très reconnaissants. Sans eux, nous ne serions pas là où nous sommes aujourd'hui".

Mises à jour sur Ultralytics YOLO26

Le premier aperçu d'Ultralytics YOLO26 a été partagé plus tôt cette année lors de l'événement YOLO Vision 2025 à Londres, où il a été présenté comme la prochaine étape majeure de la famille de modèles Ultralytics YOLO . Lors de l'événement YV25 Shenzhen, Glenn a fait le point sur les progrès réalisés depuis cette annonce et a donné à la communauté de l'IA un aperçu plus précis de l'évolution du modèle. 

YOLO26 est conçu pour être plus petit, plus rapide et plus précis, tout en restant pratique pour une utilisation dans le monde réel. Glenn explique que l'équipe a passé l'année dernière à affiner l'architecture, à comparer les performances des différents appareils et à intégrer les résultats de la recherche et les commentaires de la communauté. L'objectif est de fournir des performances de pointe sans rendre les modèles plus difficiles à déployer.

Qu'attendre d'Ultralytics YOLO26 ?

L'une des principales nouveautés soulignées par Glenn est que YOLO26 est associé à une campagne de réglage des hyperparamètres, passant d'une formation entièrement à partir de zéro à un réglage fin sur des ensembles de données plus importants. Il a expliqué que cette approche est beaucoup plus en phase avec les cas d'utilisation réels.

Voici quelques-unes des autres améliorations clés présentées lors de l'événement :

  • Architecture simplifiée: La couche Distribution Focal Loss (DFL) a été supprimée. Les modèles sont ainsi plus simples et plus rapides à exécuter, tout en conservant le même niveau de précision.
  • Prise en charge de l'inférence de bout en bout: YOLO26 est nativement de bout en bout, ce qui signifie qu'il peut fonctionner sans couche NMS séparée. Cela facilite grandement l'exportation vers des formats tels que ONNX et TensorRT , ainsi que le déploiement sur du matériel de périphérie.
  • De meilleures performances pour les petits objets: Des stratégies de perte actualisées permettent au modèle de detect objets minuscules de manière plus fiable, ce qui constitue un défi de longue date dans le domaine de la vision par ordinateur.
  • Un nouvel optimiseur hybride: YOLO26 comprend un nouvel optimiseur inspiré par des recherches récentes sur l'entraînement de grands modèles de langage, qui améliore la précision du modèle et est maintenant intégré directement dans le paquetagePython d'Ultralytics .

Ultralytics YOLO26 est la prochaine étape de la vision pratique de l'IA

Ensemble, ces mises à jour permettent d'obtenir des modèles qui sont jusqu'à 43 % plus rapides sur l'CPU tout en étant plus précis que les modèles d Ultralytics YOLO11ce qui rend YOLO26 particulièrement intéressant pour les appareils embarqués, la robotique et les systèmes de pointe. 

YOLO26 prendra en charge toutes les tâches et tailles de modèles actuellement disponibles dans YOLO11, ce qui se traduit par 25 variantes de modèles dans toute la famille. Cela inclut des modèles de détection, de segmentation, d'estimation de la pose, de boîtes de délimitation orientées et de classification, allant de nano à extra large. 

L'équipe travaille également sur cinq variantes pouvant être sollicitées. Il s'agit de modèles qui peuvent recevoir une invite textuelle et renvoyer directement des boîtes de délimitation, sans nécessiter de formation. 

Il s'agit d'une première étape vers des flux de vision plus flexibles, basés sur des instructions, qui sont plus faciles à adapter à différents cas d'utilisation. Les modèles YOLO26 sont encore en cours de développement, mais les premiers résultats de performance sont excellents et l'équipe travaille à leur lancement prochain.

Aperçu de la plateforme Ultralytics

Après la mise à jour de YOLO26, Glenn a accueilli Prateek Bhatnagar, notre responsable de l'ingénierie des produits, pour une démonstration en direct de la plateforme Ultralytics . Cette plateforme est construite pour rassembler les parties clés du flux de travail de la vision par ordinateur, y compris l'exploration des ensembles de données, l'annotation des images, l'entraînement des modèles et la comparaison des résultats.

Fig 2. Prateek Bhatnagar présente la plateforme Ultralytics .

Prateek a souligné que la plateforme reste fidèle aux racines open-source d'Ultralytics, en introduisant deux espaces communautaires, une communauté de jeux de données et une communauté de projets, où les développeurs peuvent contribuer, réutiliser et améliorer le travail des autres. Au cours de la démonstration, il a présenté l'annotation assistée par l'IA, l'entraînement facile dans le nuage et la possibilité d'affiner les modèles directement à partir de la communauté, sans avoir besoin de ressources GPU locales.

La plateforme est actuellement en cours de développement. Prateek a encouragé l'auditoire à surveiller les annonces et a indiqué que l'équipe s'agrandissait en Chine pour soutenir le lancement.

Les voix derrière YOLO: le panel des auteurs

L'élan étant donné, l'événement s'est transformé en une table ronde réunissant plusieurs chercheurs à l'origine de différents modèles YOLO . Le panel comprenait Glenn Jocher, ainsi que Jing Qiu, notre ingénieur principal en apprentissage automatique, Chen Hui, ingénieur en apprentissage automatique chez Meta et l'un des auteurs de YOLOv10, et Bo Zhang, stratège en algorithmes chez Meituan et l'un des auteurs de YOLOv6.

Fig. 3. Panel sur le développement des modèles YOLO réunissant Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu et Glenn Jocher.

La discussion a porté sur la façon dont YOLO continue d'évoluer grâce à l'utilisation dans le monde réel. Les orateurs ont évoqué le fait que les progrès sont souvent motivés par des défis pratiques de déploiement, tels que l'exécution efficace sur des appareils périphériques, l'amélioration de la détection de petits objets et la simplification de l'exportation de modèles. 

Plutôt que de rechercher uniquement la précision, le panel a souligné l'importance d'équilibrer la vitesse, la convivialité et la fiabilité dans les environnements de production. La valeur de l'itération et du retour d'information de la part de la communauté a également été soulignée. 

Voici d'autres informations intéressantes tirées de la conversation :

  • La détection de vocabulaires ouverts gagne du terrain dans l'écosystème YOLO : Les modèles les plus récents montrent comment l'alignement vision-langage et les flux de travail basés sur des invites peuvent detect objets au-delà des catégories fixes.
  • L'attention légère est en plein essor : Le groupe d'experts a examiné comment l'utilisation de mécanismes d'attention efficaces, plutôt qu'une attention totale partout, peut améliorer la précision tout en conservant une inférence suffisamment légère pour les appareils périphériques.
  • Répéter tôt et souvent avec la communauté : Les panélistes ont insisté sur l'importance de construire, de tester et d'améliorer, car la diffusion rapide de modèles et l'apprentissage auprès des utilisateurs permettent d'obtenir de meilleurs résultats que les longs cycles de développement privés.

Des leaders d'opinion définissent l'avenir de l'IA et de la vision

Examinons maintenant de plus près quelques-unes des conférences de l'YV25 Shenzhen, au cours desquelles des leaders de la communauté de l'IA ont fait part de l'évolution de la vision de l'IA, des humains numériques et de la robotique au raisonnement multimodal et au déploiement efficace de la périphérie.

Apprendre à l'IA à comprendre l'expérience humaine

Au cours d'une séance très instructive, M. Peng Zhang, de l'Alibaba Qwen Lab, a expliqué comment son équipe développe de grands modèles vidéo qui permettent de générer des humains numériques expressifs avec des mouvements et un contrôle plus naturels. Il a présenté Wan S2V et Wan Animate, qui utilisent des références audio ou de mouvement pour produire des discours, des gestes et des animations réalistes, en s'attaquant aux limites de la génération purement textuelle.

Fig. 4. Peng Zhang explique comment les grands modèles vidéo peuvent alimenter les humains numériques.

M. Zhang a également parlé des progrès réalisés en matière d'avatars interactifs en temps réel, notamment le clonage sans prise de vue de l'apparence et du mouvement et les modèles légers capables d'animer un visage directement à partir d'un flux de caméra en direct, ce qui rapproche les humains numériques réalistes d'un fonctionnement fluide sur les appareils de tous les jours.

De la perception à l'action : L'ère de l'intelligence incarnée

L'un des principaux thèmes abordés à YV25 Shenzhen a été le passage de modèles de vision qui se contentent de voir le monde à des systèmes capables d'agir en son sein. En d'autres termes, la perception n'est plus la fin du processus, elle devient le début de l'action.

Par exemple, dans sa présentation, Hu Chunxu de D-Robotics a décrit comment ses kits de développement et ses solutions SoC (système sur puce) intègrent la détection, le contrôle des mouvements en temps réel et la prise de décision sur une pile matérielle et logicielle unifiée. En traitant la perception et l'action comme une boucle de rétroaction continue, plutôt que comme des étapes distinctes, leur approche permet aux robots de se déplacer, de s'adapter et d'interagir de manière plus fiable dans des environnements réels.

Fig. 5. Démonstration de D-Robotics à YOLO Vision 2025 à Shenzhen, en Chine.

Alex Zhang, de Baidu Paddle, s'est fait l'écho de cette idée dans son exposé, expliquant comment YOLO et PaddleOCR collaborent pour detect objets et interpréter le texte et la structure qui les entourent. Cela permet aux systèmes de convertir les images et les documents en informations utilisables et structurées pour des tâches telles que la logistique, les inspections et le traitement automatisé. 

L'intelligence à la périphérie : Une IA efficace pour chaque appareil

Un autre sujet intéressant abordé lors du salon YV25 Shenzhen a été la manière dont l'intelligence artificielle devient plus efficace et plus performante sur les appareils périphériques. 

Paul Jung de DEEPX a parlé du déploiement des modèles YOLO directement sur le matériel embarqué, réduisant ainsi la dépendance à l'égard du cloud. En se concentrant sur la faible consommation d'énergie, l'inférence optimisée et le réglage des modèles en fonction du matériel, DEEPX permet une perception en temps réel pour les drones, les robots mobiles et les systèmes industriels fonctionnant dans des environnements dynamiques.

De même, Liu Lingfei de Moore Threads a expliqué comment la plateforme Moore Threads E300 intègre l'unité centrale de traitementCPU, l'unité de traitement graphiqueGPU et l'unité de traitement neuronal (NPU) pour fournir une inférence visuelle à grande vitesse sur des appareils compacts. 

La plateforme peut exécuter plusieurs flux YOLO à des fréquences d'images élevées, et sa chaîne d'outils simplifie les étapes telles que la quantification, la compilation statique et l'optimisation des performances. Moore Threads a également mis en libre accès un large éventail de modèles de vision par ordinateur et d'exemples de déploiement afin d'abaisser la barrière pour les développeurs.

Fusionner la vision et le langage pour des systèmes d'IA plus intelligents

Jusqu'à présent, la construction d'un modèle unique capable de comprendre les images et d'interpréter le langage nécessitait de grandes architectures de transformateurs dont l'exécution était coûteuse. Lors du salon YV25 de Shenzhen, Yue Ziyin, de Yuanshi Intelligence, a présenté RWKV, une architecture qui allie les capacités de raisonnement à long terme des transformateurs à l'efficacité des modèles récurrents. 

Il a expliqué comment Vision-RWKV applique cette conception à la vision par ordinateur en traitant les images d'une manière qui s'échelonne linéairement avec la résolution. Il convient donc aux entrées à haute résolution et aux appareils périphériques où les calculs sont limités.

M. Yue a également montré comment la RWKV est utilisée dans les systèmes vision-langage, où les caractéristiques des images sont associées à la compréhension du texte pour aller au-delà de la détection d'objets et interpréter des scènes, des documents et le contexte du monde réel. 

Fig. 6. Yue Ziyin parle des applications de la RWKV.

Des stands et des démonstrations en direct qui donnent vie à Vision AI

Tandis que les exposés sur scène ont porté sur l'avenir de l'IA visionnaire, les stands sur le sol ont montré comment elle est déjà utilisée aujourd'hui. Les participants ont pu voir des modèles fonctionner en direct, comparer les options matérielles et discuter directement avec les équipes qui construisent ces systèmes.

Voici un aperçu de la technologie présentée :

  • Plateformes de développement et de prototypage : Seeed, M5Stack et Infermove ont présenté des cartes de développement compactes et des kits de démarrage qui facilitent l'expérimentation d'applications YOLO et permettent de passer rapidement de l'idée à la démonstration.
  • Matériel de pointe à haute performance : Hailo, DEEPX, Intel et Moore Threads ont présenté des puces et des modules conçus pour une inférence rapide et efficace.
  • Flux de travail pour la vision et le langage : Baidu Paddle et RWKV ont mis en évidence des piles logicielles capables de detect objets, mais aussi de lire, d'interpréter et de raisonner sur ce qui apparaît dans une image ou un document.
  • Outils open-source et des outils communautaires : Ultralytics et Datawhale ont impliqué les développeurs avec des démonstrations de modèles en direct, des conseils de formation et des orientations pratiques, renforçant ainsi la façon dont le partage des connaissances accélère l'innovation.
Fig. 6. Le stand de M5Stack à YV25 Shenzhen.

Se connecter avec la communauté Vision AI

En plus de toute cette technologie passionnante, l'une des meilleures parties de YV25 Shenzhen a été de réunir à nouveau la communauté de la vision par ordinateur et l'équipe d'Ultralytics en personne. Tout au long de la journée, les gens se sont rassemblés autour des démonstrations, ont échangé des idées pendant les pauses café et ont poursuivi les conversations bien après la fin des exposés. 

Chercheurs, ingénieurs, étudiants et constructeurs ont comparé leurs notes, posé des questions et échangé leurs expériences du monde réel, du déploiement à la formation au modèle. Et grâce à Cinco Jotas du Grupo Osborne, nous avons même apporté une touche de culture espagnole à l'événement avec du jambon fraîchement découpé, créant ainsi un moment chaleureux de connexion. Un lieu magnifique, une foule enthousiaste et un sentiment d'élan partagé ont rendu cette journée vraiment spéciale.

Principaux points à retenir

Des présentations inspirantes aux démonstrations pratiques, YOLO Vision 2025 Shenzhen a capturé l'esprit d'innovation qui définit la communauté Ultralytics . Tout au long de la journée, les intervenants et les participants ont échangé des idées, exploré de nouvelles technologies et se sont connectés autour d'une vision commune de l'avenir de l'IA. Ensemble, ils sont repartis pleins d'énergie et prêts pour la suite avec Ultralytics YOLO.

Réimaginez ce qui est possible avec l'IA et la vision par ordinateur. Rejoignez notre communauté et notre dépôt GitHub pour en savoir plus. Apprenez-en plus sur des applications telles que la vision par ordinateur dans l'agriculture et l'IA dans le commerce de détail. Explorez nos options de licence et lancez-vous dans la vision par ordinateur dès aujourd'hui !

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement