Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024

L’évolution de la détection d’objets et des modèles YOLO d’Ultralytics

Abirami Vina

4 min de lecture

18 octobre 2024

Joignez-vous à nous pour revenir sur l’évolution de la détection d’objets. Nous nous concentrerons sur la façon dont les modèles YOLO (You Only Look Once) ont progressé au cours des dernières années.

La vision par ordinateur est un sous-domaine de l'intelligence artificielle (IA) qui se concentre sur l'apprentissage des machines à voir et à comprendre les images et les vidéos, de la même manière que les humains perçoivent le monde réel. Bien que la reconnaissance d'objets ou l'identification d'actions soit une seconde nature pour les humains, ces tâches nécessitent des techniques de vision par ordinateur spécifiques et spécialisées lorsqu'il s'agit de machines. Par exemple, une tâche clé de la vision par ordinateur est la détection d'objets, qui consiste à identifier et à localiser des objets dans des images ou des vidéos. 

Depuis les années 1960, les chercheurs travaillent à améliorer la façon dont les ordinateurs peuvent détecter les objets. Les premières méthodes, comme la correspondance de modèles, consistaient à faire glisser un modèle prédéfini sur une image pour trouver des correspondances. Bien qu'innovantes, ces approches étaient confrontées à des difficultés liées aux changements de taille, d'orientation et d'éclairage des objets. Aujourd'hui, nous disposons de modèles avancés comme Ultralytics YOLO11 qui peuvent détecter même les objets petits et partiellement cachés, appelés objets occlus, avec une précision impressionnante.

Alors que la vision par ordinateur continue d'évoluer, il est important de revenir sur la façon dont ces technologies se sont développées. Dans cet article, nous explorerons l'évolution de la détection d'objets et mettrons en lumière la transformation des modèles YOLO (You Only Look Once). Commençons !

Les origines de la vision par ordinateur

Avant de plonger dans la détection d'objets, examinons comment la vision par ordinateur a commencé. Les origines de la vision par ordinateur remontent à la fin des années 1950 et au début des années 1960, lorsque les scientifiques ont commencé à explorer la façon dont le cerveau traite l'information visuelle. Lors d'expériences sur des chats, les chercheurs David Hubel et Torsten Wiesel ont découvert que le cerveau réagit à des motifs simples comme les bords et les lignes. Cela a jeté les bases de l'idée de l'extraction de caractéristiques - le concept selon lequel les systèmes visuels détectent et reconnaissent les caractéristiques de base des images, telles que les bords, avant de passer à des motifs plus complexes.

Fig. 1. Comprendre comment le cerveau d'un chat réagit aux barres lumineuses a contribué au développement de l'extraction de caractéristiques en vision par ordinateur.

À peu près à la même époque, une nouvelle technologie a émergé, capable de transformer des images physiques en formats numériques, suscitant l'intérêt pour la façon dont les machines pouvaient traiter l'information visuelle. En 1966, le Summer Vision Project du Massachusetts Institute of Technology (MIT) a fait avancer les choses. Bien que le projet n'ait pas complètement abouti, il visait à créer un système capable de séparer le premier plan de l'arrière-plan dans les images. Pour beaucoup dans la communauté de la Vision IA, ce projet marque le début officiel de la vision par ordinateur en tant que domaine scientifique.

Comprendre l'histoire de la détection d'objets

Avec les progrès de la vision par ordinateur à la fin des années 1990 et au début des années 2000, les méthodes de détection d'objets ont évolué, passant de techniques de base comme la correspondance de modèles à des approches plus avancées. Une méthode populaire était Haar Cascade, qui est devenue largement utilisée pour des tâches telles que la détection de visages. Elle fonctionnait en scannant les images avec une fenêtre glissante, en vérifiant les caractéristiques spécifiques comme les bords ou les textures dans chaque section de l'image, puis en combinant ces caractéristiques pour détecter des objets comme les visages. Haar Cascade était beaucoup plus rapide que les méthodes précédentes.

Fig. 2. Utilisation de Haar Cascade pour la détection de visages.

Parallèlement à ceux-ci, des méthodes comme l'Histogramme des gradients orientés (HOG) et les Machines à vecteurs de support (SVM) ont également été introduites. HOG utilisait la technique de la fenêtre glissante pour analyser comment la lumière et les ombres changeaient dans de petites sections d'une image, aidant à identifier les objets en fonction de leurs formes. Les SVM ont ensuite classifié ces caractéristiques pour déterminer l'identité de l'objet. Ces méthodes ont amélioré la précision, mais ont toujours eu du mal dans les environnements réels et étaient plus lentes par rapport aux techniques d'aujourd'hui.

Le besoin de détection d'objets en temps réel

Dans les années 2010, l'essor de l'apprentissage profond et des réseaux neuronaux convolutifs (CNN) a entraîné un changement majeur dans la détection d'objets. Les CNN ont permis aux ordinateurs d'apprendre automatiquement les caractéristiques importantes à partir de grandes quantités de données, ce qui a rendu la détection beaucoup plus précise. 

Les premiers modèles comme R-CNN (Region-based Convolutional Neural Networks) ont constitué une grande amélioration en termes de précision, aidant à identifier les objets plus précisément que les anciennes méthodes. 

Cependant, ces modèles étaient lents car ils traitaient les images en plusieurs étapes, ce qui les rendait impraticables pour les applications en temps réel dans des domaines tels que les voitures autonomes ou la vidéosurveillance.

En mettant l'accent sur l'accélération des processus, des modèles plus efficaces ont été développés. Des modèles tels que Fast R-CNN et Faster R-CNN ont permis d'affiner la manière dont les régions d'intérêt étaient sélectionnées et de réduire le nombre d'étapes nécessaires à la détection. Bien que cela ait accéléré la détection d'objets, cela n'était toujours pas assez rapide pour de nombreuses applications du monde réel qui nécessitaient des résultats instantanés. La demande croissante de détection en temps réel a poussé au développement de solutions encore plus rapides et plus efficaces, capables d'équilibrer à la fois la vitesse et la précision.

Fig 3. Comparaison des vitesses de R-CNN, Fast R-CNN et Faster R-CNN.

Modèles YOLO (You Only Look Once) : une étape importante

YOLO est un modèle de détection d'objets qui a redéfini la vision par ordinateur en permettant la détection en temps réel de plusieurs objets dans des images et des vidéos, ce qui le rend unique par rapport aux méthodes de détection précédentes. Au lieu d'analyser chaque objet détecté individuellement, l'architecture de YOLO traite la détection d'objets comme une tâche unique, prédisant à la fois l'emplacement et la classe des objets en une seule fois à l'aide de CNN. 

Le modèle fonctionne en divisant une image en une grille, chaque partie étant responsable de la détection des objets dans sa zone respective. Il effectue plusieurs prédictions pour chaque section et filtre les résultats les moins fiables, ne conservant que les plus précis. 

Fig 4. Un aperçu du fonctionnement de YOLO.

L'introduction de YOLO dans les applications de vision par ordinateur a rendu la détection d'objets beaucoup plus rapide et efficace que les modèles précédents. Grâce à sa vitesse et à sa précision, YOLO est rapidement devenu un choix populaire pour les solutions en temps réel dans des secteurs tels que la fabrication, la santé et la robotique.

Un autre point important à noter est que, comme YOLO était open source, les développeurs et les chercheurs ont pu l'améliorer continuellement, ce qui a conduit à des versions encore plus avancées.

Le chemin de YOLO à YOLO11

Les modèles YOLO se sont constamment améliorés au fil du temps, en s'appuyant sur les avancées de chaque version. Outre de meilleures performances, ces améliorations ont rendu les modèles plus faciles à utiliser pour les personnes ayant différents niveaux d'expérience technique.

Par exemple, lorsque Ultralytics YOLOv5 a été introduit, le déploiement de modèles est devenu plus simple avec PyTorch, permettant à un plus large éventail d'utilisateurs de travailler avec l'IA avancée. Il a réuni la précision et la convivialité, donnant à davantage de personnes la possibilité de mettre en œuvre la détection d'objets sans avoir besoin d'être des experts en codage.

Fig 5. L'évolution des modèles YOLO.

Ultralytics YOLOv8 a poursuivi ces progrès en ajoutant la prise en charge de tâches telles que la segmentation d'instances et en rendant les modèles plus flexibles. Il est devenu plus facile d'utiliser YOLO pour des applications basiques et plus complexes, ce qui l'a rendu utile dans un éventail de scénarios.

Avec le dernier modèle, Ultralytics YOLO11, d'autres optimisations ont été apportées. En réduisant le nombre de paramètres tout en améliorant la précision, il est désormais plus efficace pour les tâches en temps réel. Que vous soyez un développeur expérimenté ou un novice en matière d'IA, YOLO11 offre une approche avancée de la détection d'objets qui est facilement accessible.

Découverte de YOLO11 : nouvelles fonctionnalités et améliorations

YOLO11, lancé lors de l'événement hybride annuel d'Ultralytics, YOLO Vision 2024 (YV24), prend en charge les mêmes tâches de vision par ordinateur que YOLOv8, telles que la détection d'objets, la segmentation d'instances, la classification d'images et l'estimation de pose. Ainsi, les utilisateurs peuvent facilement passer à ce nouveau modèle sans avoir à ajuster leurs flux de travail. De plus, l'architecture améliorée de YOLO11 rend les prédictions encore plus précises. En fait, YOLO11m atteint une précision moyenne (mAP) plus élevée sur l'ensemble de données COCO avec 22 % de paramètres en moins que YOLOv8m.

YOLO11 est également conçu pour fonctionner efficacement sur une gamme de plateformes, des smartphones et autres appareils périphériques aux systèmes cloud plus puissants. Cette flexibilité garantit des performances fluides sur différentes configurations matérielles pour les applications en temps réel. De plus, YOLO11 est plus rapide et plus efficace, ce qui réduit les coûts de calcul et accélère les temps d'inférence. Que vous utilisiez le package Python Ultralytics ou Ultralytics HUB sans code, il est facile d'intégrer YOLO11 dans vos flux de travail existants.

L'avenir des modèles YOLO et de la détection d'objets

L'impact de la détection d'objets avancée sur les applications en temps réel et l'IA en périphérie se fait déjà sentir dans tous les secteurs. Alors que des secteurs tels que le pétrole et le gaz, la santé et le commerce de détail dépendent de plus en plus de l'IA, la demande de détection d'objets rapide et précise ne cesse d'augmenter. YOLO11 vise à répondre à cette demande en permettant une détection haute performance, même sur les appareils dotés d'une puissance de calcul limitée. 

Avec l'essor de l'IA en périphérie, il est probable que les modèles de détection d'objets tels que YOLO11 deviendront encore plus essentiels pour la prise de décision en temps réel dans les environnements où la vitesse et la précision sont essentielles. Grâce aux améliorations continues en matière de conception et d'adaptabilité, l'avenir de la détection d'objets semble prometteur et apportera encore plus d'innovations dans diverses applications.

Principaux points à retenir

La détection d'objets a parcouru un long chemin, évoluant des méthodes simples aux techniques avancées d'apprentissage profond que nous connaissons aujourd'hui. Les modèles YOLO sont au cœur de ces progrès, offrant une détection en temps réel plus rapide et plus précise dans différents secteurs. YOLO11 s'appuie sur cet héritage, améliorant l'efficacité, réduisant les coûts de calcul et améliorant la précision, ce qui en fait un choix fiable pour une variété d'applications en temps réel. Avec les progrès constants de l'IA et de la vision par ordinateur, l'avenir de la détection d'objets semble prometteur, avec la possibilité d'encore plus d'améliorations en termes de vitesse, de précision et d'adaptabilité.

Curieux au sujet de l’IA ? Restez connecté avec notre communauté pour continuer à apprendre ! Consultez notre dépôt GitHub pour découvrir comment nous utilisons l’IA pour créer des solutions innovantes dans des secteurs tels que la fabrication et la santé. 🚀

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers