Découvrez des informations intéressantes tirées d'une table ronde organisée à l'occasion de YOLO Vision 2024. Découvrez comment l'IA générative façonne la voie à suivre pour les modèles d'IA de Vision en temps réel.

Découvrez des informations intéressantes tirées d'une table ronde organisée à l'occasion de YOLO Vision 2024. Découvrez comment l'IA générative façonne la voie à suivre pour les modèles d'IA de Vision en temps réel.
L'IA générative est une branche de l'intelligence artificielle (IA) qui crée de nouveaux contenus, tels que des images, du texte ou du son, en apprenant des modèles à partir de données existantes. Grâce à de récentes avancées, elle peut désormais être utilisée pour produire des contenus très réalistes qui imitent souvent la créativité humaine.
Cependant, l'impact de l'IA générative va au-delà de la simple création de contenu. Alors que les modèles de vision artificielle en temps réel, tels que les modèles YOLO d'Ultralytics, continuent d'évoluer, l'IA générative redéfinit également la manière dont les données visuelles sont traitées et augmentées, ouvrant la voie à des applications innovantes dans des scénarios du monde réel.
Cette nouvelle évolution technologique a été un sujet de conversation intéressant lors de YOLO Vision 2024 (YV24), un événement hybride annuel organisé par Ultralytics. YV24 a réuni des passionnés d'IA et des leaders de l'industrie pour discuter des dernières percées dans le domaine de la vision par ordinateur. L'événement s'est concentré sur l'innovation, l'efficacité et l'avenir des solutions d'IA en temps réel.
L'un des temps forts de l'événement a été une table ronde sur le thème " YOLO à l'ère de l'IA générative". Glenn Jocher, fondateur et PDG d'Ultralytics, Jing Qiu, ingénieur principal en apprentissage automatique chez Ultralytics, et Ao Wang de l'université de Tsinghua ont participé à cette table ronde. Ils ont exploré l'influence de l'IA générative sur la vision par ordinateur et les défis liés à la construction de modèles d'IA pratiques.
Dans cet article, nous reviendrons sur les points clés de leur discussion et examinerons de plus près la manière dont l'IA générative transforme l'IA visionnaire.
Outre Glenn Jocher, de nombreux ingénieurs qualifiés ont joué un rôle essentiel dans le développement des modèles YOLO d'Ultralytics. L'un d'entre eux, Jing Qiu, a raconté ses débuts inattendus avec YOLO. Il explique que sa passion pour l'IA est née pendant ses années d'études. Il a passé beaucoup de temps à explorer et à s'informer sur ce domaine. Jing Qiu s'est souvenu de sa rencontre avec Glenn Jocher sur GitHub et de son implication dans divers projets d'IA.
Pour compléter les propos de Jing Qiu, Glenn Jocher a décrit GitHub comme "un moyen incroyable de partager - où des personnes que vous n'avez jamais rencontrées se réunissent pour s'aider mutuellement, en contribuant au travail de l'autre. C'est une communauté formidable et un excellent moyen de se lancer dans l'IA".
L'intérêt de Jing Qiu pour l'IA et son travail sur Ultralytics YOLOv5 ont permis d'affiner le modèle. Plus tard, il a joué un rôle clé dans le développement d'Ultralytics YOLOv8, qui a apporté de nouvelles améliorations. Il décrit cette expérience comme un voyage incroyable. Aujourd'hui, Jing Qiu continue d'améliorer et de travailler sur des modèles comme Ultralytics YOLO11.
Ao Wang s'est présenté comme un étudiant en doctorat qui s'est joint à la discussion à distance depuis la Chine. Il a d'abord étudié le génie logiciel, mais sa passion pour l'IA l'a amené à s'orienter vers la vision par ordinateur et l'apprentissage profond.
C'est en expérimentant diverses techniques et modèles d'intelligence artificielle qu'il a rencontré pour la première fois le célèbre modèle YOLO. Il a été impressionné par la vitesse et la précision de ce modèle, ce qui l'a incité à approfondir les tâches de vision par ordinateur telles que la détection d'objets. Récemment, Ao Wang a contribué à YOLOv10, une version récente du modèle YOLO. Ses recherches ont porté sur l'optimisation du modèle pour le rendre plus rapide et plus précis.
Le panel a ensuite commencé à discuter de l'IA générative, et Jing Qiu a souligné que l'IA générative et l'IA de vision ont des objectifs très différents. L'IA générative crée ou génère des choses telles que du texte, des images et des vidéos, tandis que l'IA de vision analyse ce qui existe déjà, principalement des images.
Glenn Jocher a souligné que la taille est également une grande différence. Les modèles d'IA générative sont massifs et contiennent souvent des milliards de paramètres, c'est-à-dire des paramètres internes qui aident le modèle à apprendre à partir des données. Les modèles de vision par ordinateur sont beaucoup plus petits. Le plus petit modèle YOLO dont nous disposons est environ mille fois plus petit que le plus petit LLM [Large Language Model]. Donc, 3 millions de paramètres contre 3 milliards".
Jing Qiu a ajouté que les processus de formation et de déploiement de l'IA générative et de la vision par ordinateur sont également très différents. L'IA générative a besoin d'énormes serveurs puissants pour fonctionner. Les modèles comme YOLO, en revanche, sont conçus pour être efficaces et peuvent être formés et déployés sur du matériel standard. Cela rend les modèles YOLO d'Ultralytics plus pratiques pour une utilisation dans le monde réel.
Même s'ils sont différents, ces deux domaines commencent à s'entrecroiser. Glenn Jocher a expliqué que l'IA générative apporte de nouvelles avancées à l'IA de vision, en rendant les modèles plus intelligents et plus efficaces.
L'IA générative a progressé rapidement et ces avancées influencent de nombreux autres domaines de l'intelligence artificielle, y compris la vision par ordinateur. Passons maintenant en revue les points de vue fascinants du groupe d'experts sur ce sujet.
Au début du panel, Glenn Jocher a expliqué que les idées d'apprentissage automatique existaient depuis longtemps, mais que les ordinateurs n'étaient pas assez puissants pour les faire fonctionner. Les idées en matière d'IA ont besoin d'un matériel plus puissant pour devenir réalité.
L'essor des GPU (unités de traitement graphique) au cours des 20 dernières années, avec leurs capacités de traitement parallèle, a tout changé. Elles ont rendu l'apprentissage des modèles d'IA beaucoup plus rapide et efficace, ce qui a permis à l'apprentissage profond de se développer à un rythme rapide.
Aujourd'hui, les puces d'IA telles que les TPU (Tensor Processing Units) et les GPU optimisés consomment moins d'énergie tout en gérant des modèles plus importants et plus complexes. Cela a rendu l'IA plus accessible et plus utile dans les applications du monde réel.
Avec chaque nouvelle amélioration du matériel, les applications d'IA générative et de vision par ordinateur deviennent plus puissantes. Ces progrès rendent l'IA en temps réel plus rapide, plus efficace et prête à être utilisée dans un plus grand nombre d'industries.
Une autre idée clé discutée par le panel était la façon dont l'IA générative et l'IA de vision pourraient s'associer pour construire des modèles plus performants. Glenn Jocher a expliqué que si ces deux approches ont des atouts différents, leur combinaison pourrait ouvrir de nouvelles possibilités.
Par exemple, les modèles d'IA visuelle tels que YOLO décomposent souvent une image en une grille pour identifier les objets. Cette méthode basée sur une grille pourrait aider les modèles de langage à améliorer leur capacité à repérer les détails et à les décrire, un défi auquel de nombreux modèles de langage sont confrontés aujourd'hui. En substance, la fusion de ces techniques pourrait conduire à des systèmes capables de détecter avec précision et d'expliquer clairement ce qu'ils voient.
L'IA générative et la vision par ordinateur progressent de concert. Si l'IA générative crée des images et des vidéos, elle améliore également l'analyse des images et des vidéos en apportant de nouvelles idées innovantes qui pourraient rendre les modèles d'IA de vision plus précis et plus efficaces.
Lors de cette table ronde YV24, Glenn Jocher, Jing Qiu et Ao Wang ont fait part de leurs réflexions sur la manière dont ces technologies façonnent l'avenir. Grâce à l'amélioration du matériel d'IA, l'IA générative et l'IA visionnaire continueront d'évoluer, ce qui conduira à des innovations encore plus importantes. Ces deux domaines travaillent ensemble pour créer une IA plus intelligente, plus rapide et plus utile dans la vie de tous les jours.
Rejoignez notre communauté et explorez notre dépôt GitHub pour en savoir plus sur Vision AI. Consultez nos options de licence pour démarrer vos projets de vision par ordinateur. Intéressé par des innovations telles que l 'IA dans la fabrication ou la vision par ordinateur dans la conduite autonome? Visitez nos pages de solutions pour en savoir plus.
Comment l'IA générative façonne les modèles de détection d'objets
Interrogé sur l'influence de l'IA générative sur la vision par ordinateur, Jing Qiu a déclaré que les transformateurs - des modèles qui aident l'IA à se concentrer sur les parties les plus importantes d'une image - ont changé la façon dont l'IA comprend et traite les images. La première grande étape a été DETR (Detection Transformer), qui a utilisé cette nouvelle approche pour la détection d'objets. Il a amélioré la précision, mais a connu des problèmes de performance qui l'ont rendu plus lent dans certains cas.
Pour résoudre ce problème, les chercheurs ont créé des modèles hybrides comme RT-DETR. Ces modèles combinent des réseaux neuronaux convolutifs (CNN, qui sont des modèles d'apprentissage profond qui apprennent et extraient automatiquement des caractéristiques des images) et des transformateurs, en équilibrant la vitesse et la précision. Cette approche tire parti des avantages des transformateurs tout en rendant la détection d'objets plus rapide.
Il est intéressant de noter que YOLOv10 utilise des couches d'attention basées sur des transformateurs (des parties du modèle qui agissent comme un projecteur pour mettre en évidence les zones les plus importantes d'une image tout en ignorant les détails moins pertinents) pour améliorer ses performances.
Ao Wang a également mentionné la manière dont l'IA générative modifie la façon dont les modèles sont formés. Des techniques telles que la modélisation d'images masquées permettent à l'IA d'apprendre plus efficacement à partir d'images, ce qui réduit la nécessité de disposer de vastes ensembles de données étiquetées manuellement. La formation à la vision par ordinateur est ainsi plus rapide et moins gourmande en ressources.