En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Découvrez YOLO12, le dernier modèle de vision par ordinateur ! Apprenez comment son architecture centrée sur l'attention et la technologie FlashAttention améliorent les tâches de détection d'objets dans tous les secteurs d'activité.
La vision par ordinateur est une branche de l'intelligence artificielle (IA) qui aide les machines à comprendre les images et les vidéos. C'est un domaine qui progresse à un rythme incroyable, car les chercheurs et les développeurs en IA repoussent constamment les limites. La communauté de l'IA cherche toujours à rendre les modèles plus rapides, plus intelligents et plus efficaces. L'une des dernières percées en la matière est YOLO12, le dernier né de la série de modèles YOLO (You Only Look Once), sorti le 18 février 2025.
YOLO12 a été développé par des chercheurs de l'Université de Buffalo, SUNY (State University of New York), et de l'Université de l'Académie chinoise des sciences. Dans une nouvelle approche unique, YOLO12 introduit des mécanismes d'attention, permettant au modèle de se concentrer sur les parties les plus essentielles d'une image plutôt que de tout traiter de manière égale.
Il est également doté de FlashAttention, une technique qui accélère le traitement tout en utilisant moins de mémoire, et d'un mécanisme d'attention par zone, conçu pour imiter la façon dont les humains se concentrent naturellement sur des objets centraux.
Grâce à ces améliorations, YOLO12n est 2,1 % plus précis que YOLOv10n et YOLO12m +1,0 % plus précis que YOLO11m. Cependant, cela implique un compromis : YOLO12n est 9 % plus lent que YOLOv10n et YOLO12m est 3 % plus lent que YOLO11m.
Fig. 1. Exemple d'utilisation de YOLO12 pour la détection d'objets.
Dans cet article, nous examinerons ce qui différencie YOLO12, comment il se compare aux versions précédentes et où il peut être appliqué.
Le chemin vers la sortie de YOLO12
La série de modèles YOLO est une collection de modèles de vision par ordinateur conçus pour la détection d'objets en temps réel, ce qui signifie qu'ils peuvent rapidement identifier et localiser des objets dans des images et des vidéos. Au fil du temps, chaque version s'est améliorée en termes de vitesse, de précision et d'efficacité.
Par exemple, Ultralytics YOLOv5, publié en 2020, est devenu largement utilisé parce qu'il était rapide et facile à former et à déployer. Ultralytics YOLOv8 s'est ensuite amélioré en offrant une prise en charge supplémentaire des tâches de vision par ordinateur telles que la segmentation d'instances et le suivi d'objets.
Plus récemment, Ultralytics YOLO11 s'est concentré sur l'amélioration du traitement en temps réel tout en maintenant un équilibre entre vitesse et précision. Par exemple, YOLO11m avait 22 % de paramètres en moins que YOLOv8m, tout en offrant de meilleures performances de détection sur l'ensemble de données COCO, une référence largement utilisée pour évaluer les modèles de détection d'objets.
S'appuyant sur ces avancées, YOLO12 introduit un changement dans la manière dont il traite les informations visuelles. Plutôt que de traiter toutes les parties d'une image de la même manière, il donne la priorité aux zones les plus pertinentes, améliorant ainsi la précision de la détection. En d'autres termes, YOLO12 s'appuie sur les améliorations précédentes tout en visant à être plus précis.
Caractéristiques principales de YOLO12
YOLO12 apporte plusieurs améliorations qui permettent d'améliorer les tâches de vision par ordinateur tout en conservant la vitesse de traitement en temps réel. Voici un aperçu des principales caractéristiques de YOLO12 :
Une architecture centrée sur l'attention: Au lieu de traiter toutes les parties d'une image de la même manière, YOLO12 se concentre sur les zones les plus importantes. Cela améliore la précision et réduit les traitements inutiles, rendant la détection plus précise et plus efficace, même dans les images encombrées.
FlashAttention : YOLO12 accélère l'analyse des images tout en utilisant moins de mémoire. Grâce à FlashAttention (un algorithme économe en mémoire), il optimise le traitement des données, ce qui réduit la sollicitation du matériel et rend les tâches en temps réel plus fluides et plus fiables.
Réseaux d'agrégation de couches efficaces résiduelles (R-ELAN): YOLO12 organise ses couches plus efficacement à l'aide de R-ELAN, ce qui améliore la façon dont le modèle traite et apprend des données. L'apprentissage est ainsi plus stable, la reconnaissance d'objets plus précise et les besoins informatiques moindres, ce qui lui permet de fonctionner efficacement dans différents environnements.
Pour comprendre comment ces fonctionnalités fonctionnent dans la vie réelle, prenons l'exemple d'un centre commercial. YOLO12 peut aider à suivre les clients, à identifier les décorations du magasin comme les plantes en pot ou les panneaux promotionnels, et à repérer les articles mal placés ou abandonnés.
Son architecture centrée sur l'attention lui permet de se concentrer sur les détails les plus importants, tandis que FlashAttention lui permet de tout traiter rapidement sans surcharger le système. Les exploitants de centres commerciaux peuvent ainsi plus facilement améliorer la sécurité, organiser l'agencement des magasins et améliorer l'expérience globale d'achat.
Fig. 2. Détection d'objets dans un centre commercial à l'aide de YOLO12.
Cependant, YOLO12 comporte également certaines limites à prendre en compte :
Temps de formation plus lent : En raison de son architecture, YOLO12 nécessite plus de temps de formation que YOLO11.
Difficultés d'exportation: Certains utilisateurs peuvent rencontrer des difficultés lors de l'exportation des modèles YOLO12, en particulier lorsqu'ils les intègrent dans des environnements de déploiement spécifiques.
Comprendre les critères de performance de YOLO12
YOLO12 se décline en plusieurs variantes, chacune optimisée pour des besoins différents. Les versions plus petites (nano et small) privilégient la vitesse et l'efficacité, ce qui les rend idéales pour les appareils mobiles et l'informatique périphérique. Les versions moyenne et grande établissent un équilibre entre vitesse et précision, tandis que YOLO12x (extra large) est conçu pour des applications de haute précision, telles que l'automatisation industrielle, l'imagerie médicale et les systèmes de surveillance avancés.
Grâce à ces variations, YOLO12 offre différents niveaux de performance en fonction de la taille du modèle. Les tests de référence montrent que certaines variantes de YOLO12 sont plus performantes que YOLOv10 et YOLO11 en termes de précision, avec une précision moyenne plus élevée (mAP).
Cependant, certains modèles, comme YOLO12m, YOLO12l et YOLO12x, traitent les images plus lentement que YOLO11, ce qui montre un compromis entre la précision de la détection et la vitesse. Malgré cela, YOLO12 reste efficace, car il nécessite moins de paramètres que beaucoup d'autres modèles, même s'il en utilise davantage que YOLO11. Il s'agit donc d'un excellent choix pour les applications où la précision est plus importante que la vitesse brute.
Fig. 3. Comparaison des Ultralytiques YOLO11 et YOLO12.
Utiliser YOLO12 avec le paquetage Ultralytics Python
YOLO12 est pris en charge par le paquetage Python Ultralytics et est facile à utiliser, ce qui le rend accessible aussi bien aux débutants qu'aux professionnels. Avec seulement quelques lignes de code, les utilisateurs peuvent charger des modèles pré-entraînés, exécuter diverses tâches de vision artificielle sur des images et des vidéos, et également entraîner YOLO12 sur des ensembles de données personnalisés. Le package Ultralytics Python rationalise le processus, éliminant le besoin d'étapes de configuration complexes.
Installer le paquetage Ultralytics : Commencez par installer le paquetage Ultralytics Python, qui fournit les outils nécessaires à l'exécution efficace de YOLO12. Cela permet de s'assurer que toutes les dépendances sont correctement configurées.
Chargez un modèle YOLO12 pré-entraîné : Choisissez la variante YOLO12 appropriée (nano, petite, moyenne, grande ou très grande) en fonction du niveau de précision et de la vitesse requis pour votre tâche.
Fournir une image ou une vidéo : Saisissez un fichier image ou vidéo que vous souhaitez analyser. YOLO12 peut également traiter des flux vidéo en direct pour une détection en temps réel.
Exécuter le processus de détection : Le modèle analyse les données visuelles, identifie les objets et les entoure de boîtes de délimitation. Il étiquette chaque objet détecté avec sa classe prédite et son score de confiance.
Ajuster les paramètres de détection : Vous pouvez également modifier des paramètres tels que les seuils de confiance afin d'affiner la précision et les performances de la détection.
Enregistrer ou utiliser le résultat : L'image ou la vidéo traitée, qui contient désormais les objets détectés, peut être enregistrée ou intégrée dans une application à des fins d'analyse, d'automatisation ou de prise de décision.
Ces étapes facilitent l'utilisation de YOLO12 pour toute une série d'applications, allant de la surveillance et du suivi du commerce de détail à l'imagerie médicale et aux véhicules autonomes.
Applications pratiques de YOLO12
YOLO12 peut être utilisé dans une variété d'applications réelles grâce à sa prise en charge de la détection d'objets, de la segmentation d'instances, de la classification d'images, de l'estimation de la pose et de la détection d'objets orientés (OBB).
Fig. 4. YOLO12 prend en charge des tâches telles que la détection d'objets et la segmentation d'instances.
Cependant, comme nous l'avons vu précédemment, les modèles YOLO12 privilégient la précision à la vitesse, ce qui signifie qu'ils prennent un peu plus de temps à traiter les images par rapport aux versions précédentes. Ce compromis fait de YOLO12 la solution idéale pour les applications où la précision est plus importante que la vitesse en temps réel, par exemple :
Imagerie médicale: YOLO12 peut être entraîné sur mesure pour détecter des tumeurs ou des anomalies aux rayons X et à l'IRM avec une grande précision, ce qui en fait un outil utile pour les médecins et les radiologues qui ont besoin d'une analyse d'image précise pour établir un diagnostic.
Contrôle de la qualité dans la fabrication: Il permet d'identifier les défauts des produits au cours du processus de production, ce qui garantit que seuls les produits de haute qualité arrivent sur le marché, tout en réduisant les déchets et en améliorant l'efficacité.
Analyse médico-légale: Les forces de l'ordre peuvent utiliser YOLO12 pour analyser les vidéos de surveillance et recueillir des preuves. Dans les enquêtes criminelles, la précision est essentielle pour identifier les détails clés.
Agriculture de précision: Les agriculteurs peuvent utiliser YOLO12 pour analyser la santé des cultures, détecter les maladies ou les infestations de parasites et surveiller l'état des sols. Des évaluations précises permettent d'optimiser les stratégies agricoles, ce qui se traduit par une meilleure gestion des rendements et des ressources.
Démarrer avec YOLO12
Avant de lancer YOLO12, il est important de s'assurer que votre système répond aux exigences requises.
Techniquement, YOLO12 peut fonctionner sur n'importe quel GPU (Graphics Processing Unit) dédié. Par défaut, il ne nécessite pas FlashAttention, et peut donc fonctionner sur la plupart des systèmes GPU sans cela. Cependant, l'activation de FlashAttention peut s'avérer particulièrement utile lorsque l'on travaille avec de grands ensembles de données ou des images à haute résolution, car elle permet d'éviter les ralentissements, de réduire l'utilisation de la mémoire et d'améliorer l'efficacité du traitement.
Pour utiliser FlashAttention, vous aurez besoin d'un GPU NVIDIA de l'une des séries suivantes : Turing (T4, Quadro RTX), Ampere (série RTX 30, A30, A40, A100), Ada Lovelace (série RTX 40) ou Hopper (H100, H200).
Dans un souci de convivialité et d'accessibilité, le package Ultralytics Python ne prend pas encore en charge l'inférence FlashAttention, car son installation peut s'avérer assez complexe sur le plan technique. Pour en savoir plus sur l'utilisation de YOLO12 et l'optimisation de ses performances, consultez la documentation officielle d'Ultralytics.
Principaux enseignements
Au fur et à mesure que la vision par ordinateur progresse, les modèles deviennent plus précis et plus efficaces. YOLO12 améliore les tâches de vision artificielle telles que la détection d'objets, la segmentation d'instances et la classification d'images grâce au traitement centré sur l'attention et à FlashAttention, améliorant ainsi la précision tout en optimisant l'utilisation de la mémoire.
En même temps, la vision par ordinateur est plus accessible que jamais. YOLO12 est facile à utiliser grâce au paquetage Python Ultralytics et, en mettant l'accent sur la précision plutôt que sur la vitesse, il est bien adapté à l'imagerie médicale, aux inspections industrielles et à la robotique - des applications où la précision est essentielle.