Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
IA de vision

Les meilleurs modèles de détection d'objets de 2025

Explore les meilleurs modèles de détection d'objets en 2026, avec un aperçu des architectures populaires, des compromis de performance et des facteurs de déploiement pratiques.

ABAbirami Vina
6 min read
Un exemple de détection d'objets

Plus tôt cette année, Andrew Ng, pionnier de l'IA et de l'apprentissage automatique, a introduit le concept de détection d'objets agentique. Cette approche utilise un agent de raisonnement pour détecter des objets sur la base d'une consigne textuelle sans nécessiter de grandes quantités de données d'entraînement.

Être capable d'identifier des objets dans des images et des vidéos sans avoir besoin d'énormes jeux de données étiquetés est un pas vers des systèmes de computer vision plus intelligents et plus flexibles. Cependant, l'IA de vision agentique n'en est encore qu'à ses débuts.

Bien qu'elle puisse gérer des tâches générales, comme détecter des personnes ou des panneaux de signalisation dans une image, les applications de computer vision plus précises reposent encore sur des modèles de détection d'objets traditionnels. Ces modèles sont entraînés sur de grands jeux de données soigneusement étiquetés pour apprendre exactement quoi chercher et où se trouvent les objets.

Un exemple de détection d'objets

Fig 1. Un exemple de détection d'objets. (Source)

La object detection traditionnelle est essentielle car elle assure à la fois la reconnaissance, pour identifier ce qu'est l'objet, et la localisation, pour déterminer exactement où il se trouve dans l'image. Cette combinaison permet aux machines d'effectuer des tâches complexes du monde réel de manière fiable, des véhicules autonomes à l'automatisation industrielle et aux diagnostics médicaux.

Grâce aux avancées technologiques, les modèles de détection d'objets continuent de s'améliorer, devenant plus rapides, plus précis et mieux adaptés aux environnements réels. Dans cet article, nous passerons en revue certains des meilleurs modèles de détection d'objets disponibles aujourd'hui. Commençons !

Link to this sectionLe besoin de détection d'objets#

Des computer vision tasks comme la classification d'images peuvent être utilisées pour dire si une image contient une voiture, une personne ou un autre objet. Cependant, elles ne peuvent pas déterminer où l'objet est situé dans l'image.

C'est là que la détection d'objets devient instructive. Les modèles de détection d'objets peuvent identifier les objets présents et aussi localiser leurs positions exactes. Ce processus, appelé localisation, permet aux machines de comprendre les scènes plus précisément et de réagir de manière appropriée, qu'il s'agisse d'arrêter une voiture autonome, de guider un bras robotique ou de mettre en évidence une zone dans l'imagerie médicale.

L'essor du deep learning a transformé la détection d'objets. Au lieu de s'appuyer sur des règles codées manuellement, les modèles modernes apprennent des modèles directement à partir d'annotations et de données visuelles. Ces jeux de données enseignent aux modèles à quoi ressemblent les objets, où ils apparaissent habituellement et comment gérer des défis tels que les petits objets, les scènes encombrées ou les conditions d'éclairage variables.

En fait, les systèmes de détection d'objets de pointe peuvent détecter avec précision plusieurs objets à la fois. Cela fait de la détection d'objets une technologie critique dans des applications comme la conduite autonome, la robotique, la santé et l'automatisation industrielle.

Link to this sectionComment fonctionnent les tâches de détection d'objets#

L'entrée d'un modèle de détection d'objets est une image, qui pourrait provenir d'une caméra, d'une image vidéo ou même d'un scan médical. L'image d'entrée est traitée par un réseau de neurones, généralement un réseau de neurones convolutif (CNN), qui est entraîné à reconnaître des motifs dans les données visuelles.

À l'intérieur du réseau, l'image est analysée par étapes. Sur la base des caractéristiques qu'il détecte, le modèle prédit quels objets sont présents et où ils apparaissent.

Ces prédictions sont représentées à l'aide de bbox, qui sont des rectangles tracés autour de chaque objet détecté. Pour chaque bbox, le modèle attribue une étiquette de classe (par exemple, voiture, personne ou chien) et un score de confiance indiquant à quel point il est certain de la prédiction (cela peut aussi être considéré comme une probabilité).

Prédictions de détection d'objets visualisées à l'aide de BBox

Fig 2. Les prédictions de détection d'objets peuvent être visualisées à l'aide de bbox.

Le processus global repose fortement sur l'extraction de caractéristiques. Le modèle apprend à identifier des motifs visuels utiles, tels que les bords, les formes, les textures et d'autres caractéristiques distinctives. Ces motifs sont encodés dans des cartes de caractéristiques, qui aident le réseau à comprendre l'image à plusieurs niveaux de détail.

Link to this sectionDétecter des objets : deux étapes et une étape#

Selon l'architecture du modèle, les détecteurs d'objets utilisent différentes stratégies pour localiser les objets, en équilibrant vitesse, précision et complexité.

De nombreux modèles de détection d'objets, en particulier les détecteurs à deux étapes comme Faster R-CNN, se concentrent sur des parties spécifiques de l'image appelées régions d'intérêt (ROIs). En se concentrant sur ces zones, le modèle donne la priorité aux régions plus susceptibles de contenir des objets plutôt que d'analyser chaque pixel de manière égale.

D'un autre côté, les modèles à une seule étape comme les premiers modèles YOLO ne sélectionnent pas de ROIs spécifiques comme le font les modèles à deux étapes. Au lieu de cela, ils divisent l'image en une grille et utilisent des boîtes prédéfinies, appelées anchor boxes, ainsi que des cartes de caractéristiques pour prédire les objets sur toute l'image en un seul passage.

De nos jours, les modèles de détection d'objets de pointe explorent des approches sans ancres. Contrairement aux modèles à une seule étape traditionnels qui reposent sur des anchor boxes prédéfinies, les modèles sans ancres prédisent les emplacements et les tailles des objets directement à partir des cartes de caractéristiques. Cela peut simplifier l'architecture, réduire la surcharge computationnelle et améliorer les performances, en particulier pour la détection d'objets de formes et de tailles variées.

Link to this sectionUn coup d'œil aux meilleurs modèles de détection d'objets#

Aujourd'hui, il existe de nombreux modèles de détection d'objets, chacun conçu avec des objectifs spécifiques en tête. Certains sont optimisés pour des performances en temps réel, tandis que d'autres se concentrent sur l'obtention de la plus haute précision. Choisir le bon modèle pour une solution de computer vision dépend souvent de ton cas d'utilisation particulier et de tes exigences de performance.

Ensuite, explorons quelques-uns des meilleurs modèles de détection d'objets de 2026.

Link to this sectionModèles Ultralytics YOLO#

L'une des familles de modèles de détection d'objets les plus utilisées aujourd'hui est la famille de modèles Ultralytics YOLO. YOLO, qui signifie You Only Look Once, est populaire dans toutes les industries car il offre des performances de détection solides tout en étant rapide, fiable et facile à utiliser.

La famille Ultralytics YOLO comprend Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11 et le futur Ultralytics YOLO26, offrant une gamme d'options pour différentes exigences de performance et de cas d'utilisation. Grâce à leur conception légère et à leur optimisation de la vitesse, les modèles Ultralytics YOLO sont idéaux pour la détection en temps réel et peuvent être déployés sur des appareils de pointe avec une puissance de calcul et une mémoire limitées.

Utilisation d'Ultralytics YOLO11 pour la détection d'objets

Fig 3. Utilisation de Ultralytics YOLO11 pour la détection d'objets (Source)

Au-delà de la détection d'objets de base, ces modèles sont très polyvalents. Ils prennent également en charge des tâches telles que la segmentation d'instances, qui souligne les objets au niveau du pixel, et l'estimation de pose, qui identifie des points clés sur des personnes ou des objets. Cette flexibilité fait des modèles Ultralytics YOLO une option incontournable pour un large éventail d'applications, de l'agriculture et de la logistique au commerce de détail et à la fabrication.

Une autre raison clé de la popularité des modèles Ultralytics YOLO est le Ultralytics Python package, qui fournit une interface simple et conviviale pour entraîner, affiner et déployer des modèles. Les développeurs peuvent commencer avec des poids pré-entraînés, personnaliser les modèles pour leurs propres jeux de données et les déployer avec seulement quelques lignes de code.

Link to this sectionRT-DETR et RT-DETRv2#

RT‑DETR (Real-Time Detection Transformer) et le plus récent RT‑DETRv2 sont des modèles de détection d'objets conçus pour une utilisation en temps réel. Contrairement à de nombreux modèles traditionnels, ils peuvent prendre une image et donner les détections finales directement sans utiliser de NMS.

Le NMS est une étape qui supprime les boîtes qui se chevauchent inutilement lorsqu'un modèle prédit le même objet plus d'une fois. Sauter le NMS rend le processus de détection plus simple et plus rapide.

Ces modèles combinent des CNN avec des transformers. Le CNN trouve des détails visuels comme les bords et les formes, tandis que le transformer est un type de réseau de neurones qui peut regarder toute l'image à la fois et comprendre comment différentes parties se rapportent les unes aux autres. Cette compréhension complète permet au modèle de détecter des objets proches les uns des autres ou qui se chevauchent.

RT‑DETRv2 améliore le modèle original avec des fonctionnalités comme la détection multi-échelle, qui aide à trouver des petits et grands objets, et une meilleure gestion des scènes complexes. Ces changements maintiennent le modèle rapide tout en améliorant la précision.

Link to this sectionRF-DETR#

RF‑DETR est un modèle en temps réel basé sur transformer, conçu pour combiner la précision des architectures transformer avec la vitesse nécessaire aux applications réelles. Comme RT‑DETR et RT‑DETRv2, il utilise un transformer pour analyser toute l'image et un CNN pour extraire des caractéristiques visuelles fines telles que les bords, les formes et les textures.

Le modèle prédit les objets directement à partir de l'image d'entrée, en sautant les anchor boxes et le NMS, ce qui simplifie le processus de détection et maintient l'inférence rapide. RF‑DETR prend également en charge la segmentation d'instances, lui permettant de souligner les objets au niveau du pixel en plus de prédire des bbox.

Link to this sectionEfficientDet#

Sorti fin 2019, EfficientDet est un modèle de détection d'objets conçu pour une mise à l'échelle efficace et des performances élevées. Ce qui distingue EfficientDet, c'est la mise à l'échelle composée, une méthode qui ajuste simultanément la résolution d'entrée, la profondeur du réseau et la largeur du réseau plutôt que d'ajuster un seul facteur. Cette approche aide le modèle à maintenir une précision stable, qu'il soit mis à l'échelle pour des tâches haute performance ou réduit pour des déploiements légers.

Un autre composant clé d'EfficientDet est son efficient feature pyramid network (FPN), qui permet au modèle d'analyser les images à plusieurs échelles. Cette analyse multi-échelle est cruciale pour détecter des objets de différentes tailles, permettant à EfficientDet d'identifier de manière fiable des petits et grands objets dans la même image.

Link to this sectionPP-YOLOE+#

Sorti en 2022, PP-YOLOE+ est un modèle de détection d'objets de style YOLO, ce qui signifie qu'il détecte et classe les objets en un seul passage sur l'image. Cette approche le rend rapide et adapté aux applications en temps réel, tout en conservant une grande précision.

L'une des améliorations clés de PP-YOLOE+ est l'apprentissage aligné sur les tâches, qui aide les scores de confiance du modèle à refléter avec quelle précision les objets sont localisés. Ceci est particulièrement utile pour détecter des objets petits ou qui se chevauchent.

Détection d'objets à l'aide de PP-YOLOE+

Fig 4. Détection d'objets à l'aide de PP-YOLOE+ (Source)

Le modèle utilise également une architecture à tête découplée, qui sépare les tâches de prédiction des emplacements des objets et des étiquettes de classe. Cela lui permet de dessiner des bbox plus précisément tout en classant les objets correctement.

Link to this sectionGroundingDINO#

GroundingDINO est un modèle de détection d'objets basé sur transformer qui combine vision et langage. Au lieu de s'appuyer sur un ensemble fixe de catégories, il permet aux utilisateurs de détecter des objets à l'aide de prompts en langage naturel.

En alignant les caractéristiques visuelles d'une image avec des descriptions textuelles, le modèle peut localiser des objets même si ces étiquettes exactes ne figuraient pas dans ses données d'entraînement. Cela signifie que tu peux demander au modèle avec des descriptions comme « une personne portant un casque » ou « une voiture rouge près d'un bâtiment », et il générera des bbox précises autour des objets correspondants.

De plus, en prenant en charge la détection zero-shot, GroundingDINO réduit le besoin de réentraîner ou d'affiner le modèle pour chaque nouveau cas d'utilisation, le rendant hautement flexible dans un large éventail d'applications. Cette combinaison de compréhension du langage et de reconnaissance visuelle ouvre de nouvelles possibilités pour des systèmes d'IA interactifs et adaptatifs.

Link to this sectionMesures courantes utilisées pour évaluer les détecteurs d'objets#

Alors que tu compares différents modèles de détection d'objets, tu te demandes peut-être comment savoir lequel est réellement le plus performant. C'est une bonne question, car au-delà de l'architecture du modèle et de la qualité de tes données, de nombreux facteurs peuvent affecter les performances.

Les chercheurs s'appuient souvent sur des benchmarks partagés et des mesures de performance standard pour évaluer les modèles de manière cohérente, comparer les résultats et comprendre les compromis entre vitesse et précision. Les benchmarks standard sont particulièrement importants car de nombreux modèles de détection d'objets sont évalués sur les mêmes jeux de données, comme le jeu de données COCO.

Link to this sectionMesurer la précision et la vitesse de détection#

Voici un examen plus approfondi de certaines mesures courantes utilisées pour évaluer les modèles de détection d'objets :

  • Intersection over union (IoU) : Cette mesure mesure à quel point une bbox prédite chevauche l'objet réel dans une image. Elle compare la boîte dessinée par le modèle avec la boîte de vérité terrain, qui est l'emplacement de l'objet tel qu'étiqueté dans le jeu de données. L'IoU est calculé comme la zone de chevauchement divisée par la zone d'union des deux boîtes. Un IoU plus élevé indique que le modèle place la boîte plus précisément, tandis qu'un IoU plus faible signifie que la prédiction est moins précise. En termes simples, l'IoU montre à quel point les prédictions du modèle correspondent aux emplacements réels des objets.
  • Mean average precision (mAP) : C'est la mesure principale utilisée pour évaluer la performance globale de la détection d'objets. Elle prend en compte à la fois le nombre d'objets que le modèle détecte correctement et la précision de ces détections à travers différents niveaux de confiance et catégories d'objets.
  • Frames per second (FPS) et latence : Les FPS montrent combien d'images ou de frames vidéo un modèle peut traiter en une seconde. Par exemple, un modèle fonctionnant à 30 FPS peut gérer 30 frames chaque seconde. Des FPS plus élevés signifient que le système peut réagir plus rapidement, ce qui est important pour des cas d'utilisation comme la vidéo en direct, la surveillance du trafic ou la robotique. La latence, quant à elle, mesure le temps qu'il faut au modèle pour traiter une seule image ou frame depuis le moment où elle est reçue jusqu'au moment où le résultat est prêt.

Link to this sectionAvantages et inconvénients de l'utilisation d'algorithmes de détection d'objets#

Voici quelques-uns des principaux avantages de l'utilisation de modèles de détection d'objets dans les applications réelles :

  • Évolutif entre les industries : La détection d'objets peut être appliquée à un large éventail de cas d'utilisation, de la surveillance du trafic et de l'analyse du commerce de détail à la santé, l'agriculture et la fabrication.
  • Réduit l'effort manuel : Automatiser les tâches d'inspection visuelle et de surveillance diminue le besoin de supervision humaine constante et aide les équipes à se concentrer sur un travail à plus haute valeur ajoutée.
  • Bénéficie des écosystèmes open-source : Les communautés open-source actives et les ressources sur GitHub facilitent l'accès aux modèles pré-entraînés, l'expérimentation et la personnalisation des solutions.

Malgré ces avantages, il existe des limitations pratiques qui peuvent affecter la façon dont les modèles de détection d'objets fonctionnent. Voici quelques facteurs vitaux à considérer :

  • Exigences en matière de données de haute qualité : Les modèles de détection d'objets reposent sur de grands jeux de données bien annotés pour l'entraînement. Créer et maintenir ces données peut être chronophage, coûteux et difficile à mettre à l'échelle.
  • Demandes computationnelles : Les modèles qui offrent une précision de détection plus élevée nécessitent souvent une puissance de traitement importante, à la fois pendant l'entraînement et le déploiement en temps réel. Cela signifie généralement l'utilisation de GPU haute performance, ce qui peut augmenter les coûts d'infrastructure.
  • Sensibilité aux conditions réelles : Les variations dans l'éclairage, les angles de caméra, la météo et les scènes encombrées peuvent impacter les performances de détection, rendant nécessaires des tests et des ajustements continus.

Link to this sectionPoints clés#

Le meilleur modèle de détection d'objets pour ton projet de computer vision dépend de ton cas d'utilisation, de la configuration des données, des exigences de performance et des contraintes matérielles. Certains modèles sont optimisés pour la vitesse, tandis que d'autres se concentrent sur la précision, et la plupart des applications réelles ont besoin d'un équilibre entre les deux. Grâce aux frameworks open-source et aux communautés actives sur GitHub, ces modèles deviennent plus faciles à évaluer, à adapter et à déployer pour une utilisation pratique.

Pour en savoir plus, explore notre GitHub repository. Rejoins notre community et consulte nos pages de solutions pour lire sur des applications comme AI in healthcare et computer vision in the automotive industrie. Découvre nos licensing options pour commencer avec la vision AI dès aujourd'hui.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique