L'évolution de la détection d'objets et des modèles YOLO d'Ultralytics
Rejoins-nous pour faire un retour sur l'évolution de la détection d'objets. Nous nous concentrerons sur la façon dont les modèles YOLO (You Only Look Once) ont progressé ces dernières années.

La vision par ordinateur est un sous-domaine de l'intelligence artificielle (IA) qui se concentre sur l'apprentissage des machines à voir et à comprendre les images et les vidéos, de manière similaire à la façon dont les humains perçoivent le monde réel. Bien que la reconnaissance d'objets ou l'identification d'actions soient innées pour les humains, ces tâches nécessitent des techniques de vision par ordinateur spécifiques et spécialisées lorsqu'il s'agit de machines. Par exemple, une tâche clé de la vision par ordinateur est la détection d'objets, qui consiste à identifier et localiser des objets au sein d'images ou de vidéos.
Depuis les années 1960, les chercheurs travaillent à améliorer la façon dont les ordinateurs peuvent détecter des objets. Les premières méthodes, comme le template matching, consistaient à faire glisser un modèle prédéfini sur une image pour trouver des correspondances. Bien qu'innovantes, ces approches rencontraient des difficultés face aux variations de taille, d'orientation et de luminosité des objets. Aujourd'hui, nous disposons de modèles avancés comme Ultralytics YOLO11 capables de détecter avec une précision impressionnante des objets même petits ou partiellement cachés, appelés objets occlus.
Alors que la vision par ordinateur continue d'évoluer, il est important de se pencher sur le développement de ces technologies. Dans cet article, nous explorerons l'évolution de la détection d'objets et mettrons en lumière la transformation des modèles YOLO (You Only Look Once). Commençons !
Link to this sectionLes origines de la vision par ordinateur#
Avant de plonger dans la détection d'objets, jetons un œil à la façon dont la vision par ordinateur a débuté. Les origines de la vision par ordinateur remontent à la fin des années 1950 et au début des années 1960, lorsque les scientifiques ont commencé à étudier la manière dont le cerveau traite les informations visuelles. Dans des expériences sur des chats, les chercheurs David Hubel et Torsten Wiesel ont découvert que le cerveau réagit à des motifs simples tels que des bords et des lignes. Cela a formé la base du concept d'extraction de caractéristiques — l'idée que les systèmes visuels détectent et reconnaissent des caractéristiques élémentaires dans les images, comme les contours, avant de passer à des motifs plus complexes.

Fig 1. Apprendre comment le cerveau d'un chat réagit aux barres lumineuses a aidé à développer l'extraction de caractéristiques en vision par ordinateur.
À la même époque, une nouvelle technologie a émergé, capable de transformer des images physiques en formats numériques, suscitant un intérêt pour la manière dont les machines pouvaient traiter les informations visuelles. En 1966, le Summer Vision Project du Massachusetts Institute of Technology (MIT) a fait avancer les choses. Bien que le projet n'ait pas totalement réussi, il visait à créer un système capable de séparer le premier plan de l'arrière-plan dans des images. Pour beaucoup au sein de la communauté vision IA, ce projet marque le début officiel de la vision par ordinateur en tant que domaine scientifique.
Link to this sectionComprendre l'histoire de la détection d'objets#
À mesure que la vision par ordinateur progressait à la fin des années 1990 et au début des années 2000, les méthodes de détection d'objets sont passées de techniques basiques comme le template matching à des approches plus avancées. Une méthode populaire était Haar Cascade, largement utilisée pour des tâches comme la détection de visages. Elle fonctionnait en scannant les images avec une fenêtre glissante, vérifiant des caractéristiques spécifiques comme les bords ou les textures dans chaque section, puis en combinant ces traits pour détecter des objets comme des visages. Haar Cascade était beaucoup plus rapide que les méthodes précédentes.

Fig 2. Utilisation de Haar Cascade pour la détection de visages.
Parallèlement, des méthodes comme l'Histogram of Oriented Gradients (HOG) et les Support Vector Machines (SVMs) ont été introduites. HOG utilisait la technique de la fenêtre glissante pour analyser comment la lumière et les ombres changeaient dans de petites sections d'une image, aidant à identifier des objets selon leurs formes. Les SVM classifiaient ensuite ces caractéristiques pour déterminer l'identité de l'objet. Ces méthodes ont amélioré la précision mais peinaient encore dans des environnements réels et étaient plus lentes que les techniques actuelles.
Link to this sectionLe besoin de détection d'objets en temps réel#
Dans les années 2010, l'essor du deep learning et des Convolutional Neural Networks (CNNs) a provoqué un changement majeur dans la détection d'objets. Les CNN ont permis aux ordinateurs d'apprendre automatiquement des caractéristiques importantes à partir de grandes quantités de données, rendant la détection beaucoup plus précise.
Les premiers modèles comme R-CNN (Region-based Convolutional Neural Networks) ont constitué une amélioration majeure de la précision, aidant à identifier les objets avec plus d'exactitude que les méthodes précédentes.
Cependant, ces modèles étaient lents car ils traitaient les images en plusieurs étapes, ce qui les rendait peu pratiques pour des applications en temps réel comme les voitures autonomes ou la vidéosurveillance.
En se concentrant sur l'accélération des processus, des modèles plus efficaces ont été développés. Des modèles comme Fast R-CNN et Faster R-CNN ont aidé en affinant la manière dont les régions d'intérêt étaient choisies et en réduisant le nombre d'étapes nécessaires à la détection. Bien que cela ait accéléré la détection d'objets, ce n'était toujours pas assez rapide pour de nombreuses applications réelles nécessitant des résultats instantanés. La demande croissante pour une détection en temps réel a poussé au développement de solutions encore plus rapides et efficaces, capables d'équilibrer vitesse et précision.

Fig 3. Comparaison des vitesses de R-CNN, Fast R-CNN et Faster R-CNN.
Link to this sectionLes modèles YOLO (You Only Look Once) : une étape majeure#
YOLO est un modèle de détection d'objets qui a redéfini la vision par ordinateur en permettant la détection en temps réel d'objets multiples dans les images et vidéos, le rendant tout à fait unique par rapport aux méthodes de détection antérieures. Plutôt que d'analyser chaque objet détecté individuellement, l'architecture de YOLO traite la détection d'objets comme une tâche unique, prédisant à la fois l'emplacement et la classe des objets en une seule fois grâce aux CNN.
Le modèle fonctionne en divisant une image en une grille, chaque partie étant responsable de la détection des objets dans sa zone respective. Il effectue de multiples prédictions pour chaque section et filtre les résultats les moins confiants, ne conservant que les plus précis.

Fig 4. Un aperçu du fonctionnement de YOLO.
L'introduction de YOLO dans les applications de vision par ordinateur a rendu la détection d'objets beaucoup plus rapide et efficace que les modèles précédents. En raison de sa vitesse et de sa précision, YOLO est rapidement devenu un choix populaire pour des solutions en temps réel dans des secteurs comme la fabrication, la santé et la robotique.
Un autre point important à noter est que, comme YOLO était open-source, les développeurs et les chercheurs ont pu l'améliorer continuellement, menant à des versions encore plus avancées.
Link to this sectionLe chemin de YOLO vers YOLO11#
Les modèles YOLO se sont régulièrement améliorés au fil du temps, s'appuyant sur les avancées de chaque version. Parallèlement à de meilleures performances, ces améliorations ont rendu les modèles plus faciles à utiliser pour des personnes ayant des niveaux d'expérience technique variés.
Par exemple, avec l'introduction d'Ultralytics YOLOv5, le déploiement de modèles est devenu plus simple avec PyTorch, permettant à un plus large éventail d'utilisateurs de travailler avec une IA avancée. Cela a réuni précision et utilisabilité, donnant à plus de personnes la capacité de mettre en œuvre la détection d'objets sans avoir besoin d'être des experts en codage.

Fig 5. L'évolution des modèles YOLO.
Ultralytics YOLOv8 a poursuivi ces progrès en ajoutant la prise en charge de tâches comme la segmentation d'instance et en rendant les modèles plus flexibles. Il est devenu plus facile d'utiliser YOLO pour des applications aussi bien basiques que complexes, ce qui le rend utile dans divers scénarios.
Avec le dernier modèle en date, Ultralytics YOLO11, d'autres optimisations ont été apportées. En réduisant le nombre de paramètres tout en améliorant la précision, il est désormais plus efficace pour les tâches en temps réel. Que tu sois un développeur expérimenté ou novice en IA, YOLO11 offre une approche avancée de la détection d'objets facilement accessible.
Link to this sectionApprendre à connaître YOLO11 : nouvelles fonctionnalités et améliorations#
YOLO11, lancé lors de l'événement hybride annuel d'Ultralytics, YOLO Vision 2024 (YV24), prend en charge les mêmes tâches de vision par ordinateur que YOLOv8, telles que la détection d'objets, la segmentation d'instance, la classification d'images et l'estimation de pose. Ainsi, tu peux facilement passer à ce nouveau modèle sans avoir à ajuster tes workflows. De plus, l'architecture améliorée de YOLO11 rend les prédictions encore plus précises. En fait, YOLO11m atteint une précision moyenne (mAP) plus élevée sur le jeu de données COCO avec 22 % de paramètres en moins que YOLOv8m.
YOLO11 est également conçu pour fonctionner efficacement sur une gamme de plateformes, des smartphones et autres appareils de périphérie (edge devices) aux systèmes cloud plus puissants. Cette flexibilité garantit des performances fluides sur différentes configurations matérielles pour des applications en temps réel. De plus, YOLO11 est plus rapide et plus efficace, réduisant les coûts de calcul et accélérant les temps d'inférence. Que tu utilises le package Python d'Ultralytics ou la solution no-code Ultralytics HUB, il est facile d'intégrer YOLO11 dans tes workflows existants.
Link to this sectionL'avenir des modèles YOLO et de la détection d'objets#
L'impact de la détection d'objets avancée sur les applications en temps réel et l'IA en périphérie (edge AI) se fait déjà sentir dans tous les secteurs. À mesure que des secteurs comme le pétrole et le gaz, la santé et le commerce de détail s'appuient davantage sur l'IA, la demande pour une détection d'objets rapide et précise continue de croître. YOLO11 vise à répondre à cette demande en permettant une détection haute performance, même sur des appareils dotés d'une puissance de calcul limitée.
À mesure que l'edge AI se développe, il est probable que les modèles de détection d'objets comme YOLO11 deviendront encore plus essentiels pour la prise de décision en temps réel dans des environnements où la vitesse et la précision sont critiques. Grâce aux améliorations constantes en matière de conception et d'adaptabilité, l'avenir de la détection d'objets semble prêt à apporter encore plus d'innovations à travers une variété d'applications.
Link to this sectionPoints clés#
La détection d'objets a parcouru un long chemin, évoluant de méthodes simples vers les techniques avancées de deep learning que nous voyons aujourd'hui. Les modèles YOLO ont été au cœur de ces progrès, offrant une détection en temps réel plus rapide et plus précise dans différents secteurs. YOLO11 s'appuie sur cet héritage, améliorant l'efficacité, réduisant les coûts de calcul et renforçant la précision, ce qui en fait un choix fiable pour une variété d'applications en temps réel. Avec les avancées continues de l'IA et de la vision par ordinateur, l'avenir de la détection d'objets semble prometteur, avec de la place pour encore plus d'améliorations en matière de vitesse, de précision et d'adaptabilité.
Curieux à propos de l'IA ? Reste connecté avec notre communauté pour continuer à apprendre ! Consulte notre dépôt GitHub pour découvrir comment nous utilisons l'IA pour créer des solutions innovantes dans des industries comme la fabrication et la santé. 🚀






