Découvrez des informations intéressantes tirées d'une table ronde lors de YOLO Vision 2024. Explorez comment l'IA générative façonne la voie à suivre pour les modèles d'IA de vision en temps réel.
Découvrez des informations intéressantes tirées d'une table ronde lors de YOLO Vision 2024. Explorez comment l'IA générative façonne la voie à suivre pour les modèles d'IA de vision en temps réel.
L'IA générative est une branche de l'intelligence artificielle (IA) qui crée de nouveaux contenus, tels que des images, du texte ou de l'audio, en apprenant des modèles à partir de données existantes. Grâce aux récentes avancées, elle peut désormais être utilisée pour produire un contenu très réaliste qui imite souvent la créativité humaine.
Cependant, l'impact de l'IA générative va au-delà de la simple création de contenu. Alors que les modèles de vision par ordinateur en temps réel comme les modèles Ultralytics YOLO continuent d'évoluer, l'IA générative redéfinit également la façon dont les données visuelles sont traitées et augmentées, ouvrant la voie à des applications innovantes dans des scénarios réels.
Ce nouveau tournant technologique a été un sujet de conversation intéressant lors de YOLO Vision 2024 (YV24), un événement hybride annuel organisé par Ultralytics. YV24 a réuni des passionnés de l'IA et des leaders de l'industrie pour discuter des dernières avancées en matière de vision par ordinateur. L'événement était axé sur l'innovation, l'efficacité et l'avenir des solutions d'IA en temps réel.
L'un des points forts de l'événement a été une table ronde sur YOLO à l'ère de l'IA générative. La table ronde a réuni Glenn Jocher, fondateur et PDG d'Ultralytics, Jing Qiu, ingénieur principal en apprentissage automatique chez Ultralytics, et Ao Wang de l'université Tsinghua. Ils ont exploré comment l'IA générative influence la vision par ordinateur et les défis liés à la construction de modèles d'IA pratiques.
Dans cet article, nous reviendrons sur les principaux points de leur discussion et examinerons de plus près comment l'IA générative transforme la Vision IA.
Aux côtés de Glenn Jocher, de nombreux ingénieurs qualifiés ont joué un rôle essentiel dans le développement des modèles Ultralytics YOLO. L'un d'eux, Jing Qiu, a raconté ses débuts inattendus avec YOLO. Il a expliqué que sa passion pour l'IA a commencé pendant ses années d'université. Il a passé beaucoup de temps à explorer et à apprendre sur le domaine. Jing Qiu s'est souvenu de la façon dont il s'est connecté avec Glenn Jocher sur GitHub et s'est impliqué dans divers projets d'IA.
Pour compléter ce que Jing Qiu a dit, Glenn Jocher a décrit GitHub comme « un moyen incroyable de partager, où des personnes que vous n'avez jamais rencontrées se réunissent pour s'entraider, contribuant au travail de chacun. C'est une excellente communauté et un excellent moyen de se lancer dans l'IA. »

L'intérêt de Jing Qiu pour l'IA et son travail sur Ultralytics YOLOv5 ont contribué à affiner le modèle. Plus tard, il a joué un rôle clé dans le développement d'Ultralytics YOLOv8, qui a introduit d'autres améliorations. Il a décrit cela comme un voyage incroyable. Aujourd'hui, Jing Qiu continue d'améliorer et de travailler sur des modèles comme Ultralytics YOLO11.
Rejoignant la table ronde à distance depuis la Chine, Ao Wang s'est présenté comme un étudiant en doctorat. Initialement, il a étudié le génie logiciel, mais sa passion pour l'IA l'a amené à se tourner vers la vision par ordinateur et l'apprentissage profond.
Sa première rencontre avec le célèbre modèle YOLO a eu lieu lors d'expérimentations avec diverses techniques et modèles d'IA. Il a été impressionné par sa vitesse et sa précision, ce qui l'a incité à approfondir les tâches de vision par ordinateur comme la détection d'objets. Récemment, Ao Wang a contribué à YOLOv10, une version récente du modèle YOLO. Ses recherches ont porté sur l'optimisation du modèle pour qu'il soit plus rapide et plus précis.
Ensuite, le panel a commencé à discuter de l'IA générative, et Jing Qiu a souligné que l'IA générative et la Vision AI ont des objectifs très différents. L'IA générative crée ou génère des éléments tels que du texte, des images et des vidéos, tandis que la Vision AI analyse ce qui existe déjà, principalement des images.
Glenn Jocher a souligné que la taille est également une grande différence. Les modèles d'IA générative sont massifs, contenant souvent des milliards de paramètres - des paramètres internes qui aident le modèle à apprendre des données. Les modèles de vision par ordinateur sont beaucoup plus petits. Il a déclaré : « Le plus petit modèle YOLO que nous ayons est environ mille fois plus petit que le plus petit LLM [Large Language Model]. Donc, 3 millions de paramètres contre trois milliards. »

Jing Qiu a ajouté que les processus de formation et de déploiement de l'IA générative et de la vision par ordinateur sont également très différents. L'IA générative a besoin de serveurs énormes et puissants pour fonctionner. Les modèles comme YOLO, en revanche, sont conçus pour l'efficacité et peuvent être entraînés et déployés sur du matériel standard. Cela rend les modèles Ultralytics YOLO plus pratiques pour une utilisation dans le monde réel.
Bien qu'ils soient différents, ces deux domaines commencent à s'entremêler. Glenn Jocher a expliqué que l'IA générative apporte de nouvelles avancées à la vision artificielle, rendant les modèles plus intelligents et plus efficaces.
L'IA générative a progressé rapidement, et ces avancées influencent de nombreux autres domaines de l'intelligence artificielle, y compris la vision par ordinateur. Ensuite, passons en revue quelques informations fascinantes du panel à ce sujet.
Au début du panel, Glenn Jocher a expliqué que les idées de machine learning existent depuis longtemps, mais que les ordinateurs n'étaient pas assez puissants pour les faire fonctionner. Les idées d'IA avaient besoin d'un matériel plus puissant pour devenir une réalité.
L'essor des GPU (processeurs graphiques) au cours des 20 dernières années, avec leurs capacités de traitement parallèle, a tout changé. Ils ont rendu l'entraînement des modèles d'IA beaucoup plus rapide et efficace, ce qui a permis au deep learning de se développer à un rythme accéléré.
De nos jours, les puces d'IA comme les TPU (Tensor Processing Units) et les GPU optimisés consomment moins d'énergie tout en gérant des modèles plus grands et plus complexes. Cela a rendu l'IA plus accessible et utile dans les applications du monde réel.
Avec chaque nouvelle amélioration matérielle, les applications d'IA générative et de vision par ordinateur deviennent plus puissantes. Ces avancées rendent l'IA en temps réel plus rapide, plus efficace et prête à être utilisée dans davantage de secteurs.
Lorsqu'on lui a demandé comment l'IA générative influençait la vision par ordinateur, Jing Qiu a déclaré que les transformers - des modèles qui aident l'IA à se concentrer sur les parties les plus importantes d'une image - ont changé la façon dont l'IA comprend et traite les images. La première grande étape a été DETR (Detection Transformer), qui a utilisé cette nouvelle approche pour la détection d'objets. Il a amélioré la précision, mais a eu des problèmes de performance qui l'ont rendu plus lent dans certains cas.
Pour résoudre ce problème, les chercheurs ont créé des modèles hybrides comme RT-DETR. Ces modèles combinent des réseaux neuronaux convolutifs (CNN, qui sont des modèles d'apprentissage profond qui apprennent et extraient automatiquement des caractéristiques des images) et des transformateurs, équilibrant ainsi la vitesse et la précision. Cette approche exploite les avantages des transformateurs tout en accélérant la détection d'objets.
Il est intéressant de noter que YOLOv10 utilise des couches d'attention basées sur des transformateurs (des parties du modèle qui agissent comme un projecteur pour mettre en évidence les zones les plus importantes d'une image tout en ignorant les détails moins pertinents) afin d'améliorer ses performances.
Ao Wang a également mentionné comment l'IA générative change la façon dont les modèles sont entraînés. Des techniques comme la modélisation d'images masquées aident l'IA à apprendre des images plus efficacement, réduisant ainsi le besoin de grands ensembles de données étiquetés manuellement. Cela rend la formation en vision par ordinateur plus rapide et moins gourmande en ressources.
Une autre idée clé dont le panel a discuté était la manière dont l'IA générative et la Vision IA pourraient s'associer pour construire des modèles plus performants. Glenn Jocher a expliqué que, bien que ces deux approches aient des forces différentes, leur combinaison pourrait ouvrir de nouvelles possibilités.
Par exemple, les modèles de Vision IA comme YOLO divisent souvent une image en une grille pour identifier les objets. Cette méthode basée sur une grille pourrait aider les modèles de langage à améliorer leur capacité à la fois à identifier les détails et à les décrire - un défi auquel de nombreux modèles de langage sont confrontés aujourd'hui. Essentiellement, la fusion de ces techniques pourrait conduire à des systèmes capables de détecter avec précision et d'expliquer clairement ce qu'ils voient.

L'IA générative et la vision par ordinateur progressent ensemble. Alors que l'IA générative crée des images et des vidéos, elle améliore également l'analyse d'images et de vidéos en apportant de nouvelles idées innovantes qui pourraient rendre les modèles de Vision IA plus précis et efficaces.
Dans cette table ronde YV24 instructive, Glenn Jocher, Jing Qiu et Ao Wang ont partagé leurs réflexions sur la manière dont ces technologies façonnent l'avenir. Grâce à un meilleur matériel d'IA, l'IA générative et la Vision AI continueront d'évoluer, ce qui conduira à des innovations encore plus importantes. Ces deux domaines travaillent ensemble pour créer une IA plus intelligente, plus rapide et plus utile pour la vie de tous les jours.
Rejoignez notre communauté et explorez notre dépôt GitHub pour en savoir plus sur la Vision IA. Consultez nos options de licence pour démarrer vos projets de vision par ordinateur. Intéressé par des innovations telles que l'IA dans l'industrie manufacturière ou la vision par ordinateur dans la conduite autonome ? Visitez nos pages de solutions pour en savoir plus.