Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Événements

L'IA générative change l'avenir de la vision par ordinateur

Découvre des perspectives intéressantes issues d'une table ronde à YOLO Vision 2024. Explore comment l'IA générative façonne l'avenir des modèles de vision par IA en temps réel.

ABAbirami Vina
5 min read
Table ronde sur l'IA générative et la vision par IA à YOLO Vision 2024

L'IA générative est une branche de l'intelligence artificielle (IA) qui crée de nouveaux contenus, tels que des images, du texte ou de l'audio, en apprenant des modèles à partir de données existantes. Grâce à des avancées récentes, elle peut désormais être utilisée pour produire un contenu hautement réaliste qui imite souvent la créativité humaine.

Cependant, l'impact de l'IA générative dépasse la simple création de contenu. À mesure que les modèles de vision par ordinateur en temps réel comme les modèles Ultralytics YOLO continuent d'évoluer, l'IA générative redéfinit également la façon dont les données visuelles sont traitées et augmentées, ouvrant la voie à des applications innovantes dans des scénarios réels.

Ce nouveau changement technologique a été un sujet de conversation intéressant lors de YOLO Vision 2024 (YV24), un événement hybride annuel organisé par Ultralytics. YV24 a vu des passionnés d'IA et des leaders de l'industrie se réunir pour discuter des dernières avancées en matière de vision par ordinateur. L'événement s'est concentré sur l'innovation, l'efficacité et l'avenir des solutions d'IA en temps réel.

L'un des points forts de l'événement a été une table ronde sur YOLO à l'ère de l'IA générative. Le panel comprenait Glenn Jocher, fondateur et PDG d'Ultralytics, Jing Qiu, ingénieur senior en apprentissage automatique chez Ultralytics, et Ao Wang de l'Université Tsinghua. Ils ont exploré comment l'IA générative influence la vision par ordinateur et les défis liés à la construction de modèles d'IA pratiques.

Dans cet article, nous revisiterons les idées clés de leur discussion et examinerons de plus près comment l'IA générative transforme la Vision AI.

Link to this sectionDévelopper les modèles Ultralytics YOLO#

Aux côtés de Glenn Jocher, de nombreux ingénieurs qualifiés ont joué un rôle essentiel dans le développement des modèles Ultralytics YOLO. L'un d'eux, Jing Qiu, a raconté ses débuts inattendus avec YOLO. Il a expliqué que sa passion pour l'IA a commencé pendant ses années d'université. Il a consacré beaucoup de temps à explorer et à apprendre sur le domaine. Jing Qiu s'est rappelé comment il a pris contact avec Glenn Jocher sur GitHub et s'est impliqué dans divers projets d'IA.

Ajoutant aux propos de Jing Qiu, Glenn Jocher a décrit GitHub comme "un moyen incroyable de partager - où des personnes que tu n'as jamais rencontrées se réunissent pour s'entraider, contribuant au travail des uns et des autres. C'est une communauté formidable et un excellent moyen de commencer en IA."

Glenn Jocher et Jing Qiu sur scène à YV24

Fig 1. Glenn Jocher et Jing Qiu s'exprimant sur scène lors du YV24.

L'intérêt de Jing Qiu pour l'IA et son travail sur Ultralytics YOLOv5 ont aidé à affiner le modèle. Plus tard, il a joué un rôle clé dans le développement d'Ultralytics YOLOv8, qui a introduit d'autres améliorations. Il a décrit cela comme une aventure incroyable. Aujourd'hui, Jing Qiu continue d'améliorer et de travailler sur des modèles comme Ultralytics YOLO11.

Link to this sectionYOLOv10 : Optimisé pour des performances dans le monde réel#

Rejoignant la table ronde à distance depuis la Chine, Ao Wang s'est présenté comme doctorant. Au départ, il étudiait le génie logiciel, mais sa passion pour l'IA l'a poussé à s'orienter vers la vision par ordinateur et l'apprentissage profond.

Sa première rencontre avec le célèbre modèle YOLO a eu lieu alors qu'il expérimentait diverses techniques et modèles d'IA. Il a été impressionné par sa vitesse et sa précision, ce qui l'a inspiré à approfondir les tâches de vision par ordinateur comme la détection d'objets. Récemment, Ao Wang a contribué à YOLOv10, une version récente du modèle YOLO. Ses recherches se sont concentrées sur l'optimisation du modèle pour le rendre plus rapide et plus précis.

Link to this sectionLa différence clé entre l'IA générative et la Vision AI#

Ensuite, le panel a commencé à discuter de l'IA générative, et Jing Qiu a souligné que l'IA générative et la Vision AI ont des objectifs très différents. L'IA générative crée ou génère des choses comme du texte, des images et des vidéos, tandis que la Vision AI analyse ce qui existe déjà, principalement des images.

Glenn Jocher a souligné que la taille est aussi une grande différence. Les modèles d'IA générative sont massifs, contenant souvent des milliards de paramètres - des réglages internes qui aident le modèle à apprendre à partir des données. Les modèles de vision par ordinateur sont beaucoup plus petits. Il a déclaré : « Le plus petit modèle YOLO que nous ayons est environ mille fois plus petit que le plus petit LLM [Large Language Model]. Soit 3 millions de paramètres contre trois milliards. »

La table ronde sur l'IA générative et la Vision AI à YV24

Fig 2. La table ronde sur l'IA générative et la Vision AI lors du YV24.

Jing Qiu a ajouté que les processus d'entraînement et de déploiement de l'IA générative et de la vision par ordinateur sont également très différents. L'IA générative nécessite d'énormes serveurs puissants pour fonctionner. Les modèles comme YOLO, quant à eux, sont conçus pour l'efficacité et peuvent être entraînés et déployés sur du matériel standard. Cela rend les modèles Ultralytics YOLO plus pratiques pour une utilisation réelle.

Bien qu'ils soient différents, ces deux domaines commencent à s'entremêler. Glenn Jocher a précisé que l'IA générative apporte de nouvelles avancées à la Vision AI, rendant les modèles plus intelligents et plus efficaces.

Link to this sectionL'impact de l'IA générative sur la vision par ordinateur#

L'IA générative a progressé rapidement, et ces percées influencent de nombreux autres domaines de l'intelligence artificielle, y compris la vision par ordinateur. Ensuite, passons en revue quelques idées fascinantes du panel à ce sujet.

Link to this sectionLes avancées matérielles permettent des innovations en IA#

Au début de la table ronde, Glenn Jocher a expliqué que les idées d'apprentissage automatique existent depuis longtemps, mais que les ordinateurs n'étaient pas assez puissants pour les concrétiser. Les idées d'IA avaient besoin d'un matériel plus performant pour devenir réalité.

L'essor des GPU (Graphics Processing Units) au cours des 20 dernières années, avec leurs capacités de traitement parallèle, a tout changé. Ils ont rendu l'entraînement des modèles d'IA beaucoup plus rapide et efficace, ce qui a permis à l'apprentissage profond de se développer à un rythme rapide.

De nos jours, les puces d'IA comme les TPU (Tensor Processing Units) et les GPU optimisés consomment moins d'énergie tout en gérant des modèles plus grands et plus complexes. Cela a rendu l'IA plus accessible et utile dans des applications réelles.

Avec chaque nouvelle amélioration matérielle, les applications d'IA générative et de vision par ordinateur deviennent plus puissantes. Ces avancées rendent l'IA en temps réel plus rapide, plus efficace et prête à être utilisée dans davantage d'industries.

Link to this sectionComment l'IA générative façonne les modèles de détection d'objets#

Lorsqu'on lui a demandé comment l'IA générative influence la vision par ordinateur, Jing Qiu a déclaré que les transformers - des modèles qui aident l'IA à se concentrer sur les parties les plus importantes d'une image - ont changé la façon dont l'IA comprend et traite les images. La première grande étape a été DETR (Detection Transformer), qui a utilisé cette nouvelle approche pour la détection d'objets. Cela a amélioré la précision mais présentait des problèmes de performance qui l'ont rendu plus lent dans certains cas.

Pour résoudre ce problème, les chercheurs ont créé des modèles hybrides comme RT-DETR. Ces modèles combinent les réseaux de neurones convolutifs (CNN, qui sont des modèles d'apprentissage profond qui apprennent et extraient automatiquement les caractéristiques des images) et les transformers, équilibrant vitesse et précision. Cette approche exploite les avantages des transformers tout en rendant la détection d'objets plus rapide.

Il est intéressant de noter que YOLOv10 utilise des couches d'attention basées sur les transformers (des parties du modèle qui agissent comme un projecteur pour mettre en évidence les zones les plus importantes d'une image tout en ignorant les détails moins pertinents) pour booster ses performances.

Ao Wang a également mentionné comment l'IA générative change la façon dont les modèles sont entraînés. Des techniques comme le masquage d'image aident l'IA à apprendre à partir d'images plus efficacement, réduisant ainsi le besoin de grands ensembles de données étiquetés manuellement. Cela rend l'entraînement en vision par ordinateur plus rapide et moins gourmand en ressources.

Link to this sectionL'avenir de l'IA générative et de la Vision AI#

Une autre idée clé discutée par le panel était la façon dont l'IA générative et la Vision AI pourraient se rejoindre pour construire des modèles plus performants. Glenn Jocher a expliqué que même si ces deux approches ont des forces différentes, les combiner pourrait ouvrir de nouvelles possibilités.

Par exemple, les modèles de Vision AI comme YOLO découpent souvent une image en grille pour identifier les objets. Cette méthode basée sur une grille pourrait aider les modèles de langage à améliorer leur capacité à identifier les détails et à les décrire - un défi auquel de nombreux modèles de langage sont confrontés aujourd'hui. En substance, la fusion de ces techniques pourrait conduire à des systèmes capables de détecter avec précision et d'expliquer clairement ce qu'ils voient.

L'avenir de l'IA générative et de la Vision AI

Fig 3. L'avenir de l'IA générative et de la Vision AI. Image de l'auteur.

Link to this sectionPoints clés#

L'IA générative et la vision par ordinateur progressent ensemble. Alors que l'IA générative crée des images et des vidéos, elle améliore également l'analyse d'images et de vidéos en apportant de nouvelles idées innovantes qui pourraient rendre les modèles de Vision AI plus précis et efficaces.

Dans cette table ronde perspicace du YV24, Glenn Jocher, Jing Qiu et Ao Wang ont partagé leurs réflexions sur la façon dont ces technologies façonnent l'avenir. Avec un meilleur matériel informatique pour l'IA, l'IA générative et la Vision AI continueront d'évoluer, menant à des innovations encore plus grandes. Ces deux domaines travaillent ensemble pour créer une IA plus intelligente, plus rapide et plus utile pour la vie quotidienne.

Rejoins notre communauté et explore notre référentiel GitHub pour en savoir plus sur la Vision AI. Consulte nos options de licence pour lancer tes projets de vision par ordinateur. Intéressé par des innovations comme l'IA dans la fabrication ou la vision par ordinateur dans la conduite autonome ? Visite nos pages de solutions pour en découvrir plus.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique