Comparaison entre Ultralytics YOLO11 et les modèles YOLO précédents

Abirami Vina

4 min lire

2 avril 2025

Comparez Ultralytics YOLOv8, YOLOv9, YOLOv10, et Ultralytics YOLO11 pour comprendre comment ces modèles ont évolué et se sont améliorés de 2023 à 2025.

De l'automatisation des tâches quotidiennes à l'aide à la prise de décisions éclairées en temps réel, l'intelligence artificielle (IA) est en train de remodeler l'avenir de diverses industries. Un domaine particulièrement fascinant de l'IA est la vision par ordinateur, également connue sous le nom d'IA de vision. Il s'agit de permettre aux machines d'analyser et d'interpréter des données visuelles comme le font les humains. 

Plus précisément, les modèles de vision par ordinateur sont à l'origine d'innovations qui améliorent à la fois la sécurité et l'efficacité. Par exemple, ces modèles sont utilisés dans les voitures autonomes pour détecter les piétons et dans les caméras de sécurité pour surveiller les locaux 24 heures sur 24. 

Certains des modèles de vision par ordinateur les plus connus sont les modèles YOLO (You Only Look Once), réputés pour leurs capacités de détection d'objets en temps réel. Au fil du temps, les modèles YOLO se sont améliorés, chaque nouvelle version offrant de meilleures performances et une plus grande flexibilité.

Les versions les plus récentes, comme Ultralytics YOLO11, peuvent gérer une grande variété de tâches, telles que la segmentation d'instances, la classification d'images, l'estimation de la pose et le suivi de plusieurs objets, avec une précision, une rapidité et une exactitude jamais atteintes auparavant.

Dans cet article, nous allons comparer Ultralytics YOLOv8, YOLOv9, YOLOv10 et Ultralytics YOLO11 pour avoir une meilleure idée de l'évolution de ces modèles. Nous analyserons leurs principales caractéristiques, les résultats des analyses comparatives et les différences de performances. C'est parti !

Un aperçu d'Ultralytics YOLOv8

YOLOv8, publié par Ultralytics le 10 janvier 2023, constitue une avancée majeure par rapport aux modèles YOLO précédents. Il est optimisé pour une détection précise en temps réel, combinant des approches éprouvées avec des mises à jour innovantes pour de meilleurs résultats.

Au-delà de la détection d'objets, il prend également en charge les tâches de vision par ordinateur suivantes : segmentation d'instances, estimation de la pose, détection d'objets dans des boîtes de délimitation orientées (OBB) et classification d'images. Une autre caractéristique importante de YOLOv8 est qu'il est disponible en cinq modèles différents - Nano, Small, Medium, Large et X - afin que vous puissiez choisir le bon équilibre entre vitesse et précision en fonction de vos besoins.

Grâce à sa polyvalence et à ses solides performances, YOLOv8 peut être utilisé dans de nombreuses applications réelles, telles que les systèmes de sécurité, les villes intelligentes, les soins de santé et l'automatisation industrielle.

__wf_reserved_inherit
Fig. 1. Gestion du stationnement dans les villes intelligentes avec YOLOv8.

Principales caractéristiques de YOLOv8

Voici un aperçu plus détaillé des autres caractéristiques principales de YOLOv8 :

  • Architecture de détection améliorée: YOLOv8 utilise un réseau de base CSPDarknet amélioré. Ce réseau est optimisé pour l'extraction de caractéristiques - le processus d'identification et de capture de modèles ou de détails importants à partir d'images d'entrée qui aident le modèle à faire des prédictions précises.

  • Tête de détection: Elle utilise une conception découplée et sans ancrage, ce qui signifie qu'elle ne s'appuie pas sur des formes prédéfinies de boîtes de délimitation (ancres) et qu'elle apprend à prédire directement l'emplacement des objets. Grâce à la configuration découplée, les tâches de classification de l'objet et de prédiction de son emplacement (régression) sont traitées séparément, ce qui permet d'améliorer la précision et d'accélérer l'apprentissage.

  • Équilibre entre précision et rapidité: ce modèle atteint une précision impressionnante tout en conservant des temps d'inférence rapides, ce qui le rend adapté aux environnements en nuage et en périphérie.

  • Convivialité: YOLOv8 est conçu pour être facile à utiliser - vous pouvez commencer à prédire et à voir des résultats en quelques minutes seulement en utilisant le package Ultralytics Python.

YOLOv9 se concentre sur l'efficacité des calculs

YOLOv9 a été publié le 21 février 2024 par Chien-Yao Wang et Hong-Yuan Mark Liao de l'Institut des sciences de l'information, Academia Sinica, Taïwan. Il prend en charge des tâches telles que la détection d'objets et la segmentation d'instances

Ce modèle s'appuie sur Ultralytics YOLOv5 et introduit deux innovations majeures : Programmable Gradient Information (PGI) et Generalized Efficient Layer Aggregation Network (GELAN). 

L'IGP aide YOLOv9 à conserver les informations importantes lorsqu'il traite les données à travers ses couches, ce qui permet d'obtenir des résultats plus précis. Parallèlement, GELAN améliore la façon dont le modèle utilise ses couches, ce qui stimule les performances et l'efficacité des calculs. Grâce à ces améliorations, YOLOv9 peut gérer des tâches en temps réel sur des appareils périphériques et des applications mobiles, où les ressources informatiques sont souvent limitées.

__wf_reserved_inherit
Fig 2. Comprendre comment GELAN améliore la précision de YOLOv9.

Principales caractéristiques de YOLOv9

Voici un aperçu des autres caractéristiques principales de YOLOv8 :

  • Haute précision et efficacité: YOLOv9 offre une grande précision de détection sans consommer beaucoup de puissance de calcul, ce qui en fait un excellent choix lorsque les ressources sont limitées.
  • Modèles légers: Les variantes de modèles légers de YOLOv9 sont optimisées pour les déploiements en périphérie et mobiles.
  • Facile à utiliser : YOLOv9 est pris en charge par le paquetage Ultralytics Python. Il est donc facile à configurer et à exécuter dans différents environnements, que vous utilisiez le code ou la ligne de commande.

YOLOv10 permet la détection d'objets sans NMS

YOLOv10 a été présenté le 23 mai 2024 par des chercheurs de l'université de Tsinghua et se concentre sur la détection d'objets en temps réel. Il s'attaque aux limites des versions précédentes de YOLO en supprimant la nécessité d'une suppression non maximale (NMS), une étape de post-traitement utilisée pour éliminer les détections en double, et en affinant la conception générale du modèle. Il en résulte une détection d'objets plus rapide et plus efficace, tout en conservant une précision de pointe.

Une partie essentielle de ce qui rend cela possible est une approche de formation connue sous le nom d'affectations cohérentes à deux étiquettes. Elle combine deux stratégies : l'une qui permet à plusieurs prédictions d'apprendre du même objet (one-to-many) et l'autre qui se concentre sur le choix de la meilleure prédiction unique (one-to-one). Comme les deux stratégies suivent les mêmes règles de correspondance, le modèle apprend de lui-même à éviter les doublons, de sorte que le NMS n'est pas nécessaire.

__wf_reserved_inherit
Fig. 3. YOLOv10 utilise des attributions cohérentes d'étiquettes doubles pour l'apprentissage sans NMS.

L'architecture de YOLOv10 utilise également une colonne vertébrale CSPNet améliorée pour apprendre les caractéristiques plus efficacement et un cou PAN (Path Aggregation Network) qui combine des informations provenant de différentes couches, ce qui lui permet de mieux détecter les objets de petite et de grande taille. Ces améliorations permettent d'utiliser YOLOv10 pour des applications réelles dans les secteurs de la fabrication, de la vente au détail et de la conduite autonome.

Principales caractéristiques de YOLOv10

Voici quelques-unes des autres caractéristiques de YOLOv10 :

  • Convolutions à grand noyau : Le modèle utilise des convolutions à grand noyau pour capturer davantage de contexte dans des zones plus larges de l'image, ce qui l'aide à mieux comprendre la scène dans son ensemble.
  • Modules d'auto-attention partielle : Le modèle intègre des modules d'auto-attention partielle pour se concentrer sur les parties les plus importantes de l'image sans utiliser trop de puissance de calcul, ce qui améliore efficacement les performances.
  • Variante unique du modèle : Outre les tailles habituelles de YOLOv10 - Nano, Small, Medium, Large et X - il existe également une version spéciale appelée YOLOv10b (Balanced). Il s'agit d'un modèle plus large, qui traite davantage de caractéristiques à chaque couche, ce qui permet d'améliorer la précision tout en équilibrant la vitesse et la taille.
  • Convivialité : YOLOv10 est compatible avec le logiciel Ultralytics Python, ce qui le rend facile à utiliser.

Ultralytics YOLO11 : Vitesse et précision accrues

Cette année, le 30 septembre, Ultralytics a officiellement lancé YOLO11 - l'un des derniers modèles de la série YOLO - lors de son événement hybride annuel, YOLO Vision 2024 (YV24).

Cette version a apporté des améliorations significatives par rapport aux versions précédentes. YOLO11 est plus rapide, plus précis et très efficace. Il prend en charge l'ensemble des tâches de vision par ordinateur auxquelles les utilisateurs de YOLOv8 sont habitués, notamment la détection d'objets, la segmentation d'instances et la classification d'images. La compatibilité avec les flux de travail de YOLOv8 est également maintenue, ce qui permet aux utilisateurs de passer facilement à la nouvelle version.

En outre, YOLO11 est conçu pour répondre à un large éventail de besoins informatiques, qu'il s'agisse d'appareils légers en périphérie ou de puissants systèmes en nuage. Le modèle est disponible à la fois en version open-source et en version entreprise, ce qui permet de l'adapter à différents cas d'utilisation.

Il s'agit d'une excellente option pour les tâches de précision telles que l'imagerie médicale et la détection de satellites, ainsi que pour des applications plus larges dans les domaines des véhicules autonomes, de l'agriculture et des soins de santé.

__wf_reserved_inherit
Fig. 4. Utilisation de Ultralytics YOLO11 pour détecter, compter et suivre le trafic.

Caractéristiques principales de YOLO11

Voici quelques-unes des autres caractéristiques uniques de YOLO11 :

  • Une détection rapide et efficace : YOLO11 dispose d'une tête de détection conçue pour un temps de latence minimal, en mettant l'accent sur la vitesse dans les couches de prédiction finales sans compromettre les performances.
  • Amélioration de l'extraction des caractéristiques: Une architecture optimisée de l'épine dorsale et du cou améliore l'extraction des caractéristiques, ce qui permet d'obtenir des prédictions plus précises.
  • Déploiement transparent sur toutes les plateformes: YOLO11 est optimisé pour fonctionner efficacement sur les appareils périphériques, les plates-formes cloud et les GPU NVIDIA, garantissant ainsi l'adaptabilité à différents environnements.

Analyse comparative des modèles YOLO sur le jeu de données COCO

Lorsqu'on explore différents modèles, il n'est pas toujours facile de les comparer simplement en regardant leurs caractéristiques. C'est là qu'intervient l'analyse comparative. En exécutant tous les modèles sur le même ensemble de données, nous pouvons mesurer et comparer objectivement leurs performances. Examinons les performances de chaque modèle sur l'ensemble de données COCO.

Lorsque l'on compare les modèles YOLO, chaque nouvelle version apporte des améliorations notables en termes de précision, de vitesse et de flexibilité. En particulier, YOLO11m fait un bond en avant car il utilise 22 % de paramètres en moins que YOLOv8m, ce qui signifie qu'il est plus léger et plus rapide à exécuter. En outre, malgré sa taille réduite, il atteint une précision moyenne plus élevée (mAP) sur l'ensemble de données COCO. Cette mesure permet d'évaluer l'efficacité avec laquelle le modèle détecte et localise les objets ; une précision moyenne plus élevée signifie donc des prédictions plus précises. 

__wf_reserved_inherit
Fig. 5. Comparaison de YOLO11 et d'autres modèles YOLO sur l'ensemble de données COCO.

Test et comparaison des modèles YOLO sur une vidéo

Voyons comment ces modèles fonctionnent dans une situation réelle.

Pour comparer YOLOv8, YOLOv9, YOLOv10 et YOLO11, les quatre ont été exécutés sur la même vidéo de trafic en utilisant un score de confiance de 0,3 (le modèle n'affiche les détections que lorsqu'il est sûr à au moins 30 % d'avoir correctement identifié un objet) et une taille d'image de 640 pour une évaluation équitable. Les résultats de la détection et du suivi d'objets ont mis en évidence des différences importantes en termes de précision, de vitesse et d'exactitude de la détection. 

Dès la première image, YOLO11 a repéré des véhicules de grande taille, tels que des camions, que YOLOv10 n'avait pas détectés. Les modèles YOLOv8 et YOLOv9 ont affiché des performances satisfaisantes, mais variables en fonction des conditions d'éclairage et de la taille de l'objet. Les véhicules plus petits et plus éloignés sont restés un défi pour tous les modèles, bien que YOLO11 ait montré des améliorations notables dans ces détections également.

__wf_reserved_inherit
Fig. 6. Comparaison entre YOLOv8, YOLOv9, YOLOv10 et YOLO11.

En termes de vitesse, tous les modèles ont fonctionné entre 10 et 20 millisecondes par image, ce qui est suffisamment rapide pour traiter des tâches en temps réel à plus de 50 images par seconde. D'une part, YOLOv8 et YOLOv9 ont fourni des détections régulières et fiables tout au long de la vidéo. Il est intéressant de noter que YOLOv10, conçu pour une latence plus faible, était plus rapide mais présentait des incohérences dans la détection de certains types d'objets. 

YOLO11, quant à lui, s'est distingué par sa précision, offrant un bon équilibre entre vitesse et précision. Bien qu'aucun des modèles n'ait fonctionné parfaitement dans chaque image, la comparaison côte à côte a clairement démontré que YOLO11 a fourni la meilleure performance globale. 

Quel est le meilleur modèle YOLO pour les tâches de vision par ordinateur ?

Le choix d'un modèle pour un projet dépend de ses exigences spécifiques. Par exemple, certaines applications peuvent privilégier la vitesse, tandis que d'autres peuvent nécessiter une plus grande précision ou être confrontées à des contraintes de déploiement qui influencent la décision. 

Un autre facteur important est le type de tâches de vision par ordinateur que vous devez accomplir. Si vous recherchez une plus grande flexibilité pour différentes tâches, YOLOv8 et YOLO11 sont de bonnes options.

Le choix de YOLOv8 ou de YOLO11 dépend vraiment de vos besoins. YOLOv8 est une option solide si vous êtes nouveau dans le domaine de la vision par ordinateur et que vous appréciez une plus grande communauté, davantage de tutoriels et des intégrations tierces étendues. 

En revanche, si vous recherchez des performances de pointe avec une meilleure précision et une plus grande rapidité, YOLO11 est le meilleur choix, bien qu'il soit accompagné d'une communauté plus petite et de moins d'intégrations en raison d'une version plus récente.

Principaux enseignements

D'Ultralytics YOLOv8 à Ultralytics YOLO11, l'évolution de la série de modèles YOLO reflète une tendance constante vers des modèles de vision par ordinateur plus intelligents. Chaque version de YOLO apporte des améliorations significatives en termes de vitesse, d'exactitude et de précision. 

Alors que la vision par ordinateur continue de progresser, ces modèles offrent des solutions fiables aux défis du monde réel, de la détection d'objets aux systèmes autonomes. Le développement continu des modèles YOLO montre à quel point le domaine a progressé et ce que nous pouvons attendre de l'avenir.

Pour en savoir plus sur l'IA, visitez notre dépôt GitHub et participez à la vie de notre communauté. Découvrez les avancées dans tous les secteurs, de l'IA de vision dans la fabrication à la vision par ordinateur dans les soins de santé. Consultez nos options de licence pour commencer vos projets Vision AI dès aujourd'hui.

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers