Comparaison des modèles YOLO : YOLOv11 vs précédent

De l'automatisation des tâches quotidiennes à l'aide à la prise de décisions éclairées en temps réel, l'intelligence artificielle (IA) remodèle l'avenir de divers secteurs. Un domaine particulièrement fascinant de l'IA est la vision par ordinateur, également connue sous le nom de Vision AI. Elle se concentre sur la capacité des machines à analyser et à interpréter les données visuelles comme le font les humains.

Plus précisément, les modèles de vision par ordinateur sont à l'origine d'innovations qui améliorent à la fois la sécurité et l'efficacité. Par exemple, ces modèles sont utilisés dans les voitures autonomes pour detect piétons et dans les caméras de sécurité pour surveiller les locaux 24 heures sur 24.

Certains des modèles de vision par ordinateur les plus connus sont les modèles YOLO (You Only Look Once), réputés pour leurs capacités de détection d'objets en temps réel. Au fil du temps, les modèles YOLO se sont améliorés, chaque nouvelle version offrant de meilleures performances et une plus grande flexibilité.

Des versions plus récentes comme Ultralytics YOLO11 peuvent prendre en charge une grande variété de tâches, telles que la segmentation d'instances, la classification d'images, l'estimation de la pose et le suivi de plusieurs objets, avec une précision, une vitesse et une exactitude jamais atteintes auparavant.

Dans cet article, nous allons comparer Ultralytics YOLOv8YOLOv9, YOLOv10, et Ultralytics YOLO11 pour avoir une meilleure idée de l'évolution de ces modèles. Nous analyserons leurs principales caractéristiques, les résultats des analyses comparatives et les différences de performances. C'est parti !

Un aperçu d'Ultralytics YOLOv8

YOLOv8, publié par Ultralytics le 10 janvier 2023, constitue une avancée majeure par rapport aux modèles YOLO précédents. Il est optimisé pour une détection précise en temps réel, combinant des approches éprouvées avec des mises à jour innovantes pour de meilleurs résultats.

Au-delà de la détection d'objets, il prend également en charge les tâches de vision par ordinateur suivantes : segmentation d'instances, estimation de la pose, détection d'objets dans des boîtes de délimitation orientées (OBB) et classification d'images. Une autre caractéristique importante de YOLOv8 est qu'il est disponible en cinq modèles différents - Nano, Small, Medium, Large et X - afin que vous puissiez choisir le bon équilibre entre vitesse et précision en fonction de vos besoins.

Grâce à sa polyvalence et à ses solides performances, YOLOv8 peut être utilisé dans de nombreuses applications réelles, telles que les systèmes de sécurité, les villes intelligentes, les soins de santé et l'automatisation industrielle.

__wf_reserved_inherit — Fig. 1. Gestion du stationnement dans les villes intelligentes avec YOLOv8.

‍

Principales caractéristiques de YOLOv8

Voici un aperçu plus détaillé des autres caractéristiques principales de YOLOv8:

Architecture de détection améliorée: YOLOv8 utilise un réseau de base CSPDarknet amélioré. Ce réseau est optimisé pour l'extraction de caractéristiques - le processus d'identification et de capture de modèles ou de détails importants à partir d'images d'entrée qui aident le modèle à faire des prédictions précises.
Tête de détection : Elle utilise une conception découplée sans ancrage, ce qui signifie qu'elle ne s'appuie pas sur des formes de boîtes englobantes prédéfinies (ancres) et qu'elle apprend plutôt à prédire directement les emplacements des objets. En raison de la configuration découplée, les tâches de classification de ce qu'est l'objet et de prédiction de son emplacement (régression) sont traitées séparément, ce qui contribue à améliorer la précision et à accélérer l'entraînement.
Équilibre la précision et la vitesse : Ce modèle atteint une précision impressionnante tout en maintenant des temps d'inférence rapides, ce qui le rend adapté aux environnements cloud et edge.
Convivialité: YOLOv8 est conçu pour être facile à utiliser - vous pouvez commencer à prédire et à voir des résultats en quelques minutes seulement en utilisant le packageUltralytics Python .

YOLOv9 se concentre sur l'efficacité des calculs

YOLOv9 a été publié le 21 février 2024 par Chien-Yao Wang et Hong-Yuan Mark Liao de l'Institut des sciences de l'information, Academia Sinica, Taïwan. Il prend en charge des tâches telles que la détection d'objets et la segmentation d'instances.

Ce modèle s'appuie sur Ultralytics YOLOv5 et introduit deux innovations majeures : Programmable Gradient Information (PGI) et Generalized Efficient Layer Aggregation Network (GELAN).

L'IGP aide YOLOv9 à conserver les informations importantes lorsqu'il traite les données à travers ses couches, ce qui permet d'obtenir des résultats plus précis. De son côté, GELAN améliore la façon dont le modèle utilise ses couches, ce qui stimule les performances et l'efficacité des calculs. Grâce à ces améliorations, YOLOv9 peut gérer des tâches en temps réel sur des appareils périphériques et des applications mobiles, où les ressources informatiques sont souvent limitées.

‍

Principales caractéristiques de YOLOv9

Voici un aperçu des autres caractéristiques principales de YOLOv8:

Haute précision et efficacité: YOLOv9 offre une grande précision de détection sans consommer beaucoup de puissance de calcul, ce qui en fait un excellent choix lorsque les ressources sont limitées.
‍
Modèles légers: Les variantes de modèles légers de YOLOv9sont optimisées pour les déploiements en périphérie et mobiles.
‍
Facile à utiliser : YOLOv9 est pris en charge par le paquetage Ultralytics Python . Il est donc facile à configurer et à exécuter dans différents environnements, que vous utilisiez le code ou la ligne de commande.

YOLOv10 permet la détection d'objets NMS

YOLOv10 a été présenté le 23 mai 2024 par des chercheurs de l'université de Tsinghua et se concentre sur la détection d'objets en temps réel. Il s'attaque aux limites des versions précédentes de YOLO en supprimant la nécessité d'une suppression non maximaleNMS, une étape de post-traitement utilisée pour éliminer les détections en double, et en affinant la conception générale du modèle. Il en résulte une détection d'objets plus rapide et plus efficace, tout en conservant une précision de pointe.

Une partie essentielle de ce qui rend cela possible est une approche de formation connue sous le nom d'affectations cohérentes à deux étiquettes. Elle combine deux stratégies : l'une qui permet à plusieurs prédictions d'apprendre du même objet (one-to-many) et l'autre qui se concentre sur le choix de la meilleure prédiction unique (one-to-one). Comme les deux stratégies suivent les mêmes règles de correspondance, le modèle apprend de lui-même à éviter les doublons, de sorte que le NMS 'est pas nécessaire.

‍

L'architecture de YOLOv10utilise également une colonne vertébrale CSPNet améliorée pour apprendre les caractéristiques plus efficacement et un cou PAN (Path Aggregation Network) qui combine des informations provenant de différentes couches, ce qui lui permet de mieux détecter les objets de petite et de grande taille. Ces améliorations permettent d'utiliser YOLOv10 pour des applications réelles dans les secteurs de la fabrication, de la vente au détail et de la conduite autonome.

Principales caractéristiques de YOLOv10

Voici quelques-unes des autres caractéristiques de YOLOv10:

Convolutions à grand noyau : Le modèle utilise des convolutions à grand noyau pour capturer plus de contexte à partir de zones plus larges de l'image, ce qui l'aide à mieux comprendre la scène globale.
‍
Modules d'auto-attention partielle : Le modèle intègre des modules d'auto-attention partielle pour se concentrer sur les parties les plus importantes de l'image sans utiliser trop de puissance de calcul, ce qui améliore efficacement les performances.

Variante unique du modèle : Outre les tailles habituelles de YOLOv10 - Nano, Small, Medium, Large et X - il existe également une version spéciale appelée YOLOv10b (Balanced). Il s'agit d'un modèle plus large, qui traite davantage de caractéristiques à chaque couche, ce qui permet d'améliorer la précision tout en équilibrant la vitesse et la taille.
‍
Convivialité : YOLOv10 est compatible avec le logiciel Ultralytics Python , ce qui le rend facile à utiliser.

Ultralytics YOLO11: Vitesse et précision accrues

Cette année, le 30 septembre, Ultralytics a officiellement lancé YOLO11 - l'un des derniers modèles de la série YOLO - lors de son événement hybride annuel, YOLO Vision 2024 (YV24).

Cette version a apporté des améliorations significatives par rapport aux versions précédentes. YOLO11 est plus rapide, plus précis et très efficace. Il prend en charge l'ensemble des tâches de vision par ordinateur auxquelles les utilisateurs de YOLOv8 sont habitués, notamment la détection d'objets, la segmentation d'instances et la classification d'images. La compatibilité avec les flux de travail de YOLOv8 est également maintenue, ce qui permet aux utilisateurs de passer facilement à la nouvelle version.

En outre, YOLO11 est conçu pour répondre à un large éventail de besoins informatiques, qu'il s'agisse d'appareils légers en périphérie ou de puissants systèmes en nuage. Le modèle est disponible à la fois en version open-source et en version entreprise, ce qui permet de l'adapter à différents cas d'utilisation.

C'est une excellente option pour les tâches de précision comme l'imagerie médicale et la détection par satellite, ainsi que pour des applications plus larges dans les véhicules autonomes, l'agriculture et les soins de santé.

‍

Caractéristiques principales de YOLO11

Voici quelques-unes des autres caractéristiques uniques de YOLO11:

Une détection rapide et efficace : YOLO11 dispose d'une tête de détection conçue pour un temps de latence minimal, en mettant l'accent sur la vitesse dans les couches de prédiction finales sans compromettre les performances.
‍
Amélioration de l'extraction des caractéristiques : Une architecture dorsale et de cou optimisée améliore l'extraction des caractéristiques, conduisant à des prédictions plus précises.
‍
Déploiement transparent sur toutes les plateformes: YOLO11 est optimisé pour fonctionner efficacement sur les appareils périphériques, les plates-formes cloud et les GPU NVIDIA , garantissant ainsi l'adaptabilité à différents environnements.

Analyse comparative des modèles YOLO sur le jeu de données COCO

Lorsqu'on explore différents modèles, il n'est pas toujours facile de les comparer simplement en regardant leurs caractéristiques. C'est là qu'intervient l'analyse comparative. En exécutant tous les modèles sur le même ensemble de données, nous pouvons mesurer et comparer objectivement leurs performances. Examinons les performances de chaque modèle sur l'ensemble de donnéesCOCO .

Lorsque l'on compare les modèles YOLO , chaque nouvelle version apporte des améliorations notables en termes de précision, de vitesse et de flexibilité. En particulier, YOLO11m fait un bond en avant car il utilise 22 % de paramètres en moins que YOLOv8m, ce qui signifie qu'il est plus léger et plus rapide à exécuter. En outre, malgré sa taille réduite, il atteint une précision moyenne plus élevéemAP) sur l'ensemble de données COCO . Cette mesure permet d'évaluer l'efficacité avec laquelle le modèle détecte et localise les objets ; une précision mAP plus élevée signifie donc des prédictions plus précises.

‍

Test et comparaison des modèles YOLO sur une vidéo

Voyons comment ces modèles se comportent dans une situation réelle.

Pour comparer YOLOv8, YOLOv9, YOLOv10 et YOLO11, les quatre ont été exécutés sur la même vidéo de trafic en utilisant un score de confiance de 0,3 (le modèle n'affiche les détections que lorsqu'il est sûr à au moins 30 % d'avoir correctement identifié un objet) et une taille d'image de 640 pour une évaluation équitable. Les résultats de la détection et du suivi d'objets ont mis en évidence des différences importantes en termes de précision, de vitesse et d'exactitude de la détection.

Dès la première image, YOLO11 a repéré des véhicules de grande taille, tels que des camions, que YOLOv10 n'avait pas détectés. Les YOLOv8 et YOLOv9 ont affiché des performances satisfaisantes, mais variables en fonction des conditions d'éclairage et de la taille de l'objet. Les véhicules plus petits et plus éloignés sont restés un défi pour tous les modèles, bien que YOLO11 ait montré des améliorations notables dans ces détections également.

‍

En termes de vitesse, tous les modèles ont fonctionné entre 10 et 20 millisecondes par image, ce qui est suffisamment rapide pour traiter des tâches en temps réel à plus de 50 images par seconde. D'une part, YOLOv8 et YOLOv9 ont fourni des détections régulières et fiables tout au long de la vidéo. Il est intéressant de noter que YOLOv10, conçu pour une latence plus faible, était plus rapide mais présentait des incohérences dans la détection de certains types d'objets.

YOLO11, quant à lui, s'est distingué par sa précision, offrant un bon équilibre entre vitesse et précision. Bien qu'aucun des modèles n'ait fonctionné parfaitement dans chaque image, la comparaison côte à côte a clairement démontré que YOLO11 a fourni la meilleure performance globale.

Quel est le meilleur modèle YOLO pour les tâches de vision par ordinateur ?

La sélection d'un modèle pour un projet dépend de ses exigences spécifiques. Par exemple, certaines applications peuvent privilégier la vitesse, tandis que d'autres peuvent nécessiter une plus grande précision ou être confrontées à des contraintes de déploiement qui influencent la décision.

Un autre facteur important est le type de tâches de vision par ordinateur que vous devez accomplir. Si vous recherchez une plus grande flexibilité pour différentes tâches, YOLOv8 et YOLO11 sont de bonnes options.

Le choix de YOLOv8 ou de YOLO11 dépend vraiment de vos besoins. YOLOv8 est une option solide si vous êtes nouveau dans le domaine de la vision par ordinateur et que vous appréciez une plus grande communauté, davantage de tutoriels et des intégrations tierces étendues.

En revanche, si vous recherchez des performances de pointe avec une meilleure précision et une plus grande rapidité, YOLO11 est le meilleur choix, bien qu'il soit accompagné d'une communauté plus petite et de moins d'intégrations en raison d'une version plus récente.

Principaux points à retenir

D'Ultralytics YOLOv8 à Ultralytics YOLO11, l'évolution de la série de modèles YOLO reflète une tendance constante vers des modèles de vision par ordinateur plus intelligents. Chaque version de YOLO apporte des améliorations significatives en termes de vitesse, d'exactitude et de précision.

Alors que la vision par ordinateur continue de progresser, ces modèles offrent des solutions fiables aux défis du monde réel, de la détection d'objets aux systèmes autonomes. Le développement continu des modèles YOLO montre à quel point le domaine a progressé et ce que nous pouvons attendre de l'avenir.

Pour en savoir plus sur l'IA, consultez notre dépôt GitHub et échangez avec notre communauté. Découvrez les avancées dans divers secteurs, de l'IA de vision dans la fabrication à la vision par ordinateur dans le secteur de la santé. Consultez nos options de licence pour démarrer vos projets d'IA de vision dès aujourd'hui.

Comparaison entre Ultralytics YOLO11 et les modèles YOLO précédents