Découvrez des informations intéressantes tirées d'une table ronde organisée à l'occasion de YOLO Vision 2024. Découvrez comment l'IA générative façonne la voie à suivre pour les modèles d'IA de Vision en temps réel.
Découvrez des informations intéressantes tirées d'une table ronde organisée à l'occasion de YOLO Vision 2024. Découvrez comment l'IA générative façonne la voie à suivre pour les modèles d'IA de Vision en temps réel.
L'IA générative est une branche de l'intelligence artificielle (IA) qui crée de nouveaux contenus, tels que des images, du texte ou de l'audio, en apprenant des modèles à partir de données existantes. Grâce aux récentes avancées, elle peut désormais être utilisée pour produire un contenu très réaliste qui imite souvent la créativité humaine.
Cependant, l'impact de l'IA générative va au-delà de la simple création de contenu. Alors que les modèles de vision artificielle en temps réel, tels que les modèlesYOLO 'Ultralytics , continuent d'évoluer, l'IA générative redéfinit également la manière dont les données visuelles sont traitées et augmentées, ouvrant la voie à des applications innovantes dans des scénarios du monde réel.
Cette nouvelle évolution technologique a été un sujet de conversation intéressant lors de YOLO Vision 2024 (YV24), un événement hybride annuel organisé par Ultralytics. YV24 a réuni des passionnés d'IA et des leaders de l'industrie pour discuter des dernières percées dans le domaine de la vision par ordinateur. L'événement s'est concentré sur l'innovation, l'efficacité et l'avenir des solutions d'IA en temps réel.
L'un des temps forts de l'événement a été une table ronde sur le thème " YOLO à l'ère de l'IA générative". Glenn Jocher, fondateur et PDG d'Ultralytics, Jing Qiu, ingénieur principal en apprentissage automatique chez Ultralytics, et Ao Wang de l'université de Tsinghua ont participé à cette table ronde. Ils ont exploré l'influence de l'IA générative sur la vision par ordinateur et les défis liés à la construction de modèles d'IA pratiques.
Dans cet article, nous reviendrons sur les principaux points de leur discussion et examinerons de plus près comment l'IA générative transforme la Vision IA.
Outre Glenn Jocher, de nombreux ingénieurs qualifiés ont joué un rôle essentiel dans le développement des modèlesYOLO d'Ultralytics . L'un d'entre eux, Jing Qiu, a raconté ses débuts inattendus avec YOLO. Il explique que sa passion pour l'IA est née pendant ses années d'études. Il a passé beaucoup de temps à explorer et à s'informer sur ce domaine. Jing Qiu s'est souvenu de sa rencontre avec Glenn Jocher sur GitHub et de son implication dans divers projets d'IA.
Pour compléter ce que Jing Qiu a dit, Glenn Jocher a décrit GitHub comme « un moyen incroyable de partager, où des personnes que vous n'avez jamais rencontrées se réunissent pour s'entraider, contribuant au travail de chacun. C'est une excellente communauté et un excellent moyen de se lancer dans l'IA. »

L'intérêt de Jing Qiu pour l'IA et ses travaux sur les Ultralytics YOLOv5 ont permis d'affiner le modèle. Plus tard, il a joué un rôle clé dans le développement d Ultralytics YOLOv8qui a apporté de nouvelles améliorations. Il décrit cette expérience comme un voyage incroyable. Aujourd'hui, Jing Qiu continue d'améliorer et de travailler sur des modèles tels que Ultralytics YOLO11.
Rejoignant la table ronde à distance depuis la Chine, Ao Wang s'est présenté comme un étudiant en doctorat. Initialement, il a étudié le génie logiciel, mais sa passion pour l'IA l'a amené à se tourner vers la vision par ordinateur et l'apprentissage profond.
C'est en expérimentant diverses techniques et modèles d'intelligence artificielle qu'il a rencontré pour la première fois le célèbre modèle YOLO . Il a été impressionné par la vitesse et la précision de ce modèle, ce qui l'a incité à approfondir les tâches de vision par ordinateur telles que la détection d'objets. Récemment, Ao Wang a contribué à YOLOv10, une version récente du modèle YOLO . Ses recherches ont porté sur l'optimisation du modèle pour le rendre plus rapide et plus précis.
Ensuite, le panel a commencé à discuter de l'IA générative, et Jing Qiu a souligné que l'IA générative et la Vision AI ont des objectifs très différents. L'IA générative crée ou génère des éléments tels que du texte, des images et des vidéos, tandis que la Vision AI analyse ce qui existe déjà, principalement des images.
Glenn Jocher a souligné que la taille est également une grande différence. Les modèles d'IA générative sont massifs et contiennent souvent des milliards de paramètres, c'est-à-dire des paramètres internes qui aident le modèle à apprendre à partir des données. Les modèles de vision par ordinateur sont beaucoup plus petits. Le plus petit modèle YOLO dont nous disposons est environ mille fois plus petit que le plus petit LLM [Large Language Model]. Donc, 3 millions de paramètres contre 3 milliards".

Jing Qiu a ajouté que les processus de formation et de déploiement de l'IA générative et de la vision par ordinateur sont également très différents. L'IA générative a besoin d'énormes serveurs puissants pour fonctionner. Les modèles comme YOLO, en revanche, sont conçus pour être efficaces et peuvent être formés et déployés sur du matériel standard. Cela rend les modèlesYOLO d'Ultralytics plus pratiques pour une utilisation dans le monde réel.
Bien qu'ils soient différents, ces deux domaines commencent à s'entremêler. Glenn Jocher a expliqué que l'IA générative apporte de nouvelles avancées à la vision artificielle, rendant les modèles plus intelligents et plus efficaces.
L'IA générative a progressé rapidement, et ces avancées influencent de nombreux autres domaines de l'intelligence artificielle, y compris la vision par ordinateur. Ensuite, passons en revue quelques informations fascinantes du panel à ce sujet.
Au début du panel, Glenn Jocher a expliqué que les idées de machine learning existent depuis longtemps, mais que les ordinateurs n'étaient pas assez puissants pour les faire fonctionner. Les idées d'IA avaient besoin d'un matériel plus puissant pour devenir une réalité.
L'essor des GPU (processeurs graphiques) au cours des 20 dernières années, avec leurs capacités de traitement parallèle, a tout changé. Ils ont rendu l'entraînement des modèles d'IA beaucoup plus rapide et efficace, ce qui a permis au deep learning de se développer à un rythme accéléré.
Aujourd'hui, les puces d'IA telles que les TPU (Tensor Processing Units) et les GPU optimisés consomment moins d'énergie tout en gérant des modèles plus importants et plus complexes. Cela a rendu l'IA plus accessible et plus utile dans les applications du monde réel.
Avec chaque nouvelle amélioration matérielle, les applications d'IA générative et de vision par ordinateur deviennent plus puissantes. Ces avancées rendent l'IA en temps réel plus rapide, plus efficace et prête à être utilisée dans davantage de secteurs.
Lorsqu'on lui a demandé comment l'IA générative influençait la vision par ordinateur, Jing Qiu a déclaré que les transformers - des modèles qui aident l'IA à se concentrer sur les parties les plus importantes d'une image - ont changé la façon dont l'IA comprend et traite les images. La première grande étape a été DETR (Detection Transformer), qui a utilisé cette nouvelle approche pour la détection d'objets. Il a amélioré la précision, mais a eu des problèmes de performance qui l'ont rendu plus lent dans certains cas.
Pour résoudre ce problème, les chercheurs ont créé des modèles hybrides comme RT-DETR. Ces modèles combinent des réseaux neuronaux convolutifs (CNN, qui sont des modèles d'apprentissage profond qui apprennent et extraient automatiquement des caractéristiques des images) et des transformateurs, en équilibrant la vitesse et la précision. Cette approche tire parti des avantages des transformateurs tout en rendant la détection d'objets plus rapide.
Intéressant, YOLOv10 utilise des couches d'attention basées sur des transformateurs (parties du modèle qui agissent comme un projecteur pour mettre en évidence les zones les plus importantes d'une image tout en ignorant les détails moins pertinents) afin d'améliorer ses performances.
Ao Wang a également mentionné comment l'IA générative change la façon dont les modèles sont entraînés. Des techniques comme la modélisation d'images masquées aident l'IA à apprendre des images plus efficacement, réduisant ainsi le besoin de grands ensembles de données étiquetés manuellement. Cela rend la formation en vision par ordinateur plus rapide et moins gourmande en ressources.
Une autre idée clé dont le panel a discuté était la manière dont l'IA générative et la Vision IA pourraient s'associer pour construire des modèles plus performants. Glenn Jocher a expliqué que, bien que ces deux approches aient des forces différentes, leur combinaison pourrait ouvrir de nouvelles possibilités.
Par exemple, les modèles d'IA visuelle tels que YOLO décomposent souvent une image en une grille pour identifier les objets. Cette méthode basée sur les grilles pourrait aider les modèles de langage à améliorer leur capacité à repérer les détails et à les décrire, un défi auquel de nombreux modèles de langage sont confrontés aujourd'hui. En substance, la fusion de ces techniques pourrait conduire à des systèmes capables de detect avec précision et d'expliquer clairement ce qu'ils voient.

L'IA générative et la vision par ordinateur progressent ensemble. Alors que l'IA générative crée des images et des vidéos, elle améliore également l'analyse d'images et de vidéos en apportant de nouvelles idées innovantes qui pourraient rendre les modèles de Vision IA plus précis et efficaces.
Dans cette table ronde YV24 instructive, Glenn Jocher, Jing Qiu et Ao Wang ont partagé leurs réflexions sur la manière dont ces technologies façonnent l'avenir. Grâce à un meilleur matériel d'IA, l'IA générative et la Vision AI continueront d'évoluer, ce qui conduira à des innovations encore plus importantes. Ces deux domaines travaillent ensemble pour créer une IA plus intelligente, plus rapide et plus utile pour la vie de tous les jours.
Rejoignez notre communauté et explorez notre dépôt GitHub pour en savoir plus sur la Vision IA. Consultez nos options de licence pour démarrer vos projets de vision par ordinateur. Intéressé par des innovations telles que l'IA dans l'industrie manufacturière ou la vision par ordinateur dans la conduite autonome ? Visitez nos pages de solutions pour en savoir plus.