En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Rejoignez-nous pour un retour sur l'évolution de la détection d'objets. Nous nous concentrerons sur la façon dont les modèles YOLO (You Only Look Once) ont progressé au cours des dernières années.
La vision par ordinateur est un sous-domaine de l'intelligence artificielle (IA) qui se concentre sur l'apprentissage des machines à voir et à comprendre les images et les vidéos, de la même manière que les humains perçoivent le monde réel. Bien que la reconnaissance d'objets ou l'identification d'actions soit une seconde nature pour les humains, ces tâches nécessitent des techniques de vision par ordinateur spécifiques et spécialisées lorsqu'il s'agit de machines. Par exemple, une tâche clé de la vision par ordinateur est la détection d'objets, qui consiste à identifier et à localiser des objets dans des images ou des vidéos.
Depuis les années 1960, les chercheurs s'efforcent d'améliorer la capacité des ordinateurs à detect objets. Les premières méthodes, comme l'appariement de modèles, consistaient à faire glisser un modèle prédéfini sur une image pour trouver des correspondances. Bien qu'innovantes, ces approches avaient du mal à gérer les changements de taille, d'orientation et d'éclairage des objets. Aujourd'hui, nous disposons de modèles avancés tels que Ultralytics YOLO11 qui peuvent detect avec une précision impressionnante des objets même petits et partiellement cachés, connus sous le nom d'objets occultés.
Alors que la vision par ordinateur continue d'évoluer, il est important de revenir sur la façon dont ces technologies se sont développées. Dans cet article, nous allons explorer l'évolution de la détection d'objets et mettre en lumière la transformation des modèlesYOLO (You Only Look Once). C'est parti !
Les origines de la vision par ordinateur
Avant de nous pencher sur la détection d'objets, examinons les origines de la vision par ordinateur. Les origines de la vision par ordinateur remontent à la fin des années 1950 et au début des années 1960, lorsque les scientifiques ont commencé à explorer la manière dont le cerveau traite les informations visuelles. Lors d'expériences menées sur des chats, les chercheurs David Hubel et Torsten Wiesel ont découvert que le cerveau réagissait à des motifs simples tels que les bords et les lignes. C'est ainsi qu'est née l'idée de l'extraction de caractéristiques, selon laquelle les systèmes visuels detect et reconnaissent les caractéristiques de base des images, telles que les bords, avant de s'intéresser à des motifs plus complexes.
Fig. 1. Comprendre comment le cerveau d'un chat réagit aux barres lumineuses a contribué au développement de l'extraction de caractéristiques en vision par ordinateur.
À peu près à la même époque, une nouvelle technologie a émergé, capable de transformer des images physiques en formats numériques, suscitant l'intérêt pour la façon dont les machines pouvaient traiter l'information visuelle. En 1966, le Summer Vision Project du Massachusetts Institute of Technology (MIT) a fait avancer les choses. Bien que le projet n'ait pas complètement abouti, il visait à créer un système capable de séparer le premier plan de l'arrière-plan dans les images. Pour beaucoup dans la communauté de la Vision IA, ce projet marque le début officiel de la vision par ordinateur en tant que domaine scientifique.
Comprendre l'histoire de la détection d'objets
Au fur et à mesure que la vision par ordinateur progressait à la fin des années 1990 et au début des années 2000, les méthodes de détection d'objets sont passées de techniques de base telles que la correspondance de modèles à des approches plus avancées. L'une des méthodes les plus populaires est la cascade de Haar, qui a été largement utilisée pour des tâches telles que la détection des visages. Elle consiste à balayer des images avec une fenêtre coulissante, à rechercher des caractéristiques spécifiques telles que des bords ou des textures dans chaque section de l'image, puis à combiner ces caractéristiques pour detect objets tels que des visages. Haar Cascade était beaucoup plus rapide que les méthodes précédentes.
Fig. 2. Utilisation de Haar Cascade pour la détection de visages.
Parallèlement à ceux-ci, des méthodes comme l'Histogramme des gradients orientés (HOG) et les Machines à vecteurs de support (SVM) ont également été introduites. HOG utilisait la technique de la fenêtre glissante pour analyser comment la lumière et les ombres changeaient dans de petites sections d'une image, aidant à identifier les objets en fonction de leurs formes. Les SVM ont ensuite classifié ces caractéristiques pour déterminer l'identité de l'objet. Ces méthodes ont amélioré la précision, mais ont toujours eu du mal dans les environnements réels et étaient plus lentes par rapport aux techniques d'aujourd'hui.
Le besoin de détection d'objets en temps réel
Dans les années 2010, l'essor de l'apprentissage profond et des réseaux neuronaux convolutifs (CNN) a entraîné un changement majeur dans la détection d'objets. Les CNN ont permis aux ordinateurs d'apprendre automatiquement les caractéristiques importantes à partir de grandes quantités de données, ce qui a rendu la détection beaucoup plus précise.
Cependant, ces modèles étaient lents car ils traitaient les images en plusieurs étapes, ce qui les rendait impraticables pour les applications en temps réel dans des domaines tels que les voitures autonomes ou la vidéosurveillance.
En mettant l'accent sur l'accélération des processus, des modèles plus efficaces ont été développés. Des modèles tels que Fast R-CNN et Faster R-CNN ont permis d'affiner la manière dont les régions d'intérêt étaient sélectionnées et de réduire le nombre d'étapes nécessaires à la détection. Bien que cela ait accéléré la détection d'objets, cela n'était toujours pas assez rapide pour de nombreuses applications du monde réel qui nécessitaient des résultats instantanés. La demande croissante de détection en temps réel a poussé au développement de solutions encore plus rapides et plus efficaces, capables d'équilibrer à la fois la vitesse et la précision.
Fig 3. Comparaison des vitesses de R-CNN, Fast R-CNN et Faster R-CNN.
Modèles YOLO (You Only Look Once) : Une étape importante
YOLO est un modèle de détection d'objets qui a redéfini la vision par ordinateur en permettant la détection en temps réel de plusieurs objets dans des images et des vidéos, ce qui le rend tout à fait unique par rapport aux méthodes de détection précédentes. Au lieu d'analyser chaque objet détecté individuellement, l'architecture deYOLO traite la détection d'objets comme une tâche unique, prédisant à la fois l'emplacement et la classe des objets en une seule fois à l'aide de CNN.
Le modèle fonctionne en divisant une image en une grille, chaque partie étant responsable de la détection des objets dans sa zone respective. Il effectue plusieurs prédictions pour chaque section et filtre les résultats les moins fiables, ne conservant que les plus précis.
L'introduction de YOLO dans les applications de vision par ordinateur a rendu la détection d'objets beaucoup plus rapide et efficace que les modèles précédents. En raison de sa vitesse et de sa précision, YOLO est rapidement devenu un choix populaire pour les solutions en temps réel dans des secteurs tels que la fabrication, les soins de santé et la robotique.
Un autre point important à noter est que YOLO étant un logiciel libre, les développeurs et les chercheurs ont pu l'améliorer continuellement, ce qui a permis de créer des versions encore plus perfectionnées.
Le chemin de YOLO à YOLO11
Les modèles YOLO ont été régulièrement améliorés au fil du temps, en s'appuyant sur les avancées de chaque version. Outre de meilleures performances, ces améliorations ont rendu les modèles plus faciles à utiliser pour des personnes ayant différents niveaux d'expérience technique.
Par exemple, lorsque Ultralytics YOLOv5 a été introduit, le déploiement des modèles est devenu plus simple avec PyTorchpermettant à un plus grand nombre d'utilisateurs de travailler avec l'IA avancée. Il a permis d'allier précision et convivialité, en donnant à un plus grand nombre de personnes la possibilité de mettre en œuvre la détection d'objets sans avoir besoin d'être des experts en codage.
Fig. 5. L'évolution des modèles YOLO .
Ultralytics YOLOv8 a poursuivi ces progrès en ajoutant la prise en charge de tâches telles que la segmentation des instances et en rendant les modèles plus flexibles. Il est devenu plus facile d'utiliser YOLO pour des applications de base ou plus complexes, ce qui le rend utile dans un grand nombre de scénarios.
Avec le dernier modèle, Ultralytics YOLO11de nouvelles optimisations ont été apportées. En réduisant le nombre de paramètres tout en améliorant la précision, il est désormais plus efficace pour les tâches en temps réel. Que vous soyez un développeur expérimenté ou un novice en matière d'IA, YOLO11 offre une approche avancée de la détection d'objets, facilement accessible.
Découvrir YOLO11: Nouvelles fonctionnalités et améliorations
YOLO11, lancé lors de l'événement hybride annuel d'Ultralytics, YOLO Vision 2024 (YV24), prend en charge les mêmes tâches de vision par ordinateur que YOLOv8, comme la détection d'objets, la segmentation d'instances, la classification d'images et l'estimation de la pose. Les utilisateurs peuvent donc facilement passer à ce nouveau modèle sans avoir à adapter leurs flux de travail. En outre, l'architecture améliorée de YOLO11rend les prédictions encore plus précises. En fait, YOLO11m atteint une précision moyenne plus élevéemAP sur l'ensemble de donnéesCOCO avec 22 % de paramètres en moins que YOLOv8m.
YOLO11 est également conçu pour fonctionner efficacement sur toute une série de plateformes, des smartphones et autres appareils périphériques aux systèmes en nuage plus puissants. Cette flexibilité garantit des performances fluides sur différentes configurations matérielles pour les applications en temps réel. En outre, YOLO11 est plus rapide et plus efficace, ce qui permet de réduire les coûts de calcul et d'accélérer les temps d'inférence. Que vous utilisiez le packageUltralytics Python ou le HUB Ultralytics sans code, il est facile d'intégrer YOLO11 dans vos flux de travail existants.
L'avenir des modèles YOLO et de la détection d'objets
L'impact de la détection avancée d'objets sur les applications en temps réel et l'IA de pointe se fait déjà sentir dans tous les secteurs. Alors que des secteurs comme le pétrole et le gaz, les soins de santé et le commerce de détail s'appuient de plus en plus sur l'IA, la demande de détection rapide et précise d'objets ne cesse d'augmenter. YOLO11 vise à répondre à cette demande en permettant une détection de haute performance, même sur des appareils dotés d'une puissance de calcul limitée.
Avec le développement de l'IA de pointe, il est probable que les modèles de détection d'objets tels que YOLO11 deviendront encore plus essentiels pour la prise de décision en temps réel dans des environnements où la vitesse et la précision sont essentielles. Grâce à des améliorations constantes en matière de conception et d'adaptabilité, l'avenir de la détection d'objets devrait apporter encore plus d'innovations dans une grande variété d'applications.
Principaux points à retenir
La détection d'objets a parcouru un long chemin, évoluant de méthodes simples aux techniques avancées d'apprentissage profond que nous connaissons aujourd'hui. Les modèles YOLO ont été au cœur de ces progrès, offrant une détection en temps réel plus rapide et plus précise dans différents secteurs d'activité. YOLO11 s'appuie sur cet héritage, en améliorant l'efficacité, en réduisant les coûts de calcul et en améliorant la précision, ce qui en fait un choix fiable pour une variété d'applications en temps réel. Avec les progrès constants de l'IA et de la vision par ordinateur, l'avenir de la détection d'objets semble prometteur, avec des possibilités d'amélioration encore plus grandes en termes de vitesse, de précision et d'adaptabilité.
Curieux au sujet de l’IA ? Restez connecté avec notre communauté pour continuer à apprendre ! Consultez notre dépôt GitHub pour découvrir comment nous utilisons l’IA pour créer des solutions innovantes dans des secteurs tels que la fabrication et la santé. 🚀