Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

YOLO12 expliqué : Applications concrètes et cas d'utilisation

Abirami Vina

5 min de lecture

26 février 2025

Découvrez YOLO12, le dernier modèle de vision par ordinateur ! Découvrez comment son architecture axée sur l'attention et sa technologie FlashAttention améliorent les tâches de détection d'objets dans tous les secteurs

La vision par ordinateur est une branche de l'intelligence artificielle (IA) qui aide les machines à comprendre les images et les vidéos. C'est un domaine qui progresse à un rythme incroyable, car les chercheurs et les développeurs en IA repoussent constamment les limites. La communauté de l'IA cherche toujours à rendre les modèles plus rapides, plus intelligents et plus efficaces. L'une des dernières percées en la matière est YOLO12, le dernier né de la série de modèles YOLO (You Only Look Once), sorti le 18 février 2025.

YOLO12 a été développé par des chercheurs de l'Université de Buffalo, SUNY (State University of New York) et de l'Université de l'Académie chinoise des sciences. Dans une nouvelle approche unique, YOLO12 introduit des mécanismes d'attention, permettant au modèle de se concentrer sur les parties les plus essentielles d'une image plutôt que de tout traiter de manière égale. 

Il est également doté de FlashAttention, une technique qui accélère le traitement tout en utilisant moins de mémoire, et d'un mécanisme d'attention de zone, conçu pour imiter la façon dont les humains se concentrent naturellement sur les objets centraux.

Ces améliorations rendent YOLO12n 2,1 % plus précis que YOLOv10n et YOLO12m +1,0 % plus précis que YOLO11m. Cependant, cela a un prix : YOLO12n est 9 % plus lent que YOLOv10n, et YOLO12m est 3 % plus lent que YOLO11m.

__wf_reserved_inherit
Fig. 1. Exemple d'utilisation de YOLO12 pour la detect objets.

Dans cet article, nous allons explorer ce qui rend YOLO12 différent, comment il se compare aux versions précédentes et où il peut être appliqué.

La route vers la sortie de YOLO12

La série de modèlesYOLO est une collection de modèles de vision par ordinateur conçus pour la détection d'objets en temps réel, ce qui signifie qu'ils peuvent rapidement identifier et localiser des objets dans des images et des vidéos. Au fil du temps, chaque version s'est améliorée en termes de vitesse, de précision et d'efficacité.

Par exemple, Ultralytics YOLOv5publié en 2020, a été largement utilisé parce qu'il était rapide et facile à former et à déployer. Plus tard, Ultralytics YOLOv8 a amélioré la situation en offrant un soutien supplémentaire pour les tâches de vision par ordinateur telles que la segmentation d'instances et le suivi d'objets. 

Plus récemment, Ultralytics YOLO11 s'est concentré sur l'amélioration du traitement en temps réel tout en maintenant un équilibre entre vitesse et précision. Par exemple, YOLO11m avait 22 % de paramètres en moins que YOLOv8m, tout en offrant de meilleures performances de détection sur l'ensemble de données COCO , une référence largement utilisée pour évaluer les modèles de détection d'objets.

S'appuyant sur ces avancées, YOLO12 introduit un changement dans la façon dont il traite l'information visuelle. Plutôt que de traiter toutes les parties d'une image de la même manière, il donne la priorité aux zones les plus pertinentes, améliorant ainsi la précision de la détection. En termes simples, YOLO12 s'appuie sur les améliorations précédentes tout en visant à être plus précis.

Principales caractéristiques de YOLO12

YOLO12 introduit plusieurs améliorations qui améliorent les tâches de vision par ordinateur tout en conservant des vitesses de traitement en temps réel intactes. Voici un aperçu des principales caractéristiques de YOLO12 :

  • Architecture axée sur l'attention : Au lieu de traiter chaque partie d'une image de manière égale, YOLO12 se concentre sur les zones les plus importantes. Cela améliore la précision et réduit le traitement inutile, rendant la détection plus nette et plus efficace, même dans les images encombrées.
  • FlashAttention : YOLO12 accélère l'analyse d'images tout en utilisant moins de mémoire. Grâce à FlashAttention (un algorithme économe en mémoire), il optimise la gestion des données, réduisant la charge sur le matériel et rendant les tâches en temps réel plus fluides et plus fiables.
  • Réseaux d'agrégation de couches efficaces résiduelles (R-ELAN) : YOLO12 organise ses couches plus efficacement grâce à R-ELAN, ce qui améliore la façon dont le modèle traite les données et en tire des enseignements. Cela rend la formation plus stable, la reconnaissance d'objets plus précise et les besoins en calcul plus faibles, de sorte qu'il fonctionne efficacement dans différents environnements.

Pour comprendre comment ces fonctionnalités fonctionnent dans la vie réelle, prenons l'exemple d'un centre commercial. YOLO12 peut aider à track clients, à identifier les décorations du magasin comme les plantes en pot ou les panneaux promotionnels, et à repérer les articles mal placés ou abandonnés. 

Son architecture axée sur l'attention l'aide à se concentrer sur les détails les plus importants, tandis que FlashAttention lui permet de tout traiter rapidement sans surcharger le système. Il est ainsi plus facile pour les gestionnaires de centres commerciaux d'améliorer la sécurité, d'organiser l'aménagement des magasins et d'améliorer l'expérience d'achat globale.

__wf_reserved_inherit
Fig. 2. Détection d'objets dans un centre commercial à l'aide de YOLO12.

Cependant, YOLO12 présente également certaines limitations à prendre en compte :

  • Temps de formation plus lent : En raison de son architecture, YOLO12 nécessite plus de temps de formation que YOLO11.
  • Difficultés d'exportation : Certains utilisateurs peuvent rencontrer des difficultés lors de l'exportation des modèles YOLO12, en particulier lors de leur intégration dans des environnements de déploiement spécifiques.

Comprendre les bancs d'essai de performance de YOLO12

YOLO12 se décline en plusieurs variantes, chacune étant optimisée pour des besoins différents. Les versions plus petites (nano et small) privilégient la vitesse et l'efficacité, ce qui les rend idéales pour les appareils mobiles et l'edge computing. Les versions medium et large offrent un équilibre entre la vitesse et la précision, tandis que YOLO12x (extra large) est conçu pour les applications de haute précision, telles que l'automatisation industrielle, l'imagerie médicale et les systèmes de surveillance avancés.

Grâce à ces variations, YOLO12 offre différents niveaux de performance en fonction de la taille du modèle. Les tests de référence montrent que certaines variantes de YOLO12 sont plus performantes que YOLOv10 et YOLO11 en termes de précision, avec une précision moyenne plus élevéemAP 

Cependant, certains modèles, comme YOLO12m, YOLO12l et YOLO12x, traitent les images plus lentement que YOLO11, ce qui montre un compromis entre la précision de la détection et la vitesse. Malgré cela, YOLO12 reste efficace, car il nécessite moins de paramètres que beaucoup d'autres modèles, même s'il en utilise davantage que YOLO11. Il s'agit donc d'un excellent choix pour les applications où la précision est plus importante que la vitesse brute.

__wf_reserved_inherit
Fig. 3. Comparaison des Ultralytics YOLO11 et YOLO12.

Utiliser YOLO12 avec le paquetage Ultralytics Python

YOLO12 est pris en charge par le paquetagePython Ultralytics et est facile à utiliser, ce qui le rend accessible aussi bien aux débutants qu'aux professionnels. Avec seulement quelques lignes de code, les utilisateurs peuvent charger des modèles pré-entraînés, exécuter diverses tâches de vision artificielle sur des images et des vidéos, et également entraîner YOLO12 sur des ensembles de données personnalisés. Le package Ultralytics Python rationalise le processus, éliminant le besoin d'étapes de configuration complexes.

Par exemple, voici les étapes à suivre pour utiliser YOLO12 pour la détection d'objets :

  • Installer le paquetage Ultralytics : Commencez par installer le paquetage Ultralytics Python , qui fournit les outils nécessaires à l'exécution efficace de YOLO12. Cela permet de s'assurer que toutes les dépendances sont correctement configurées.
  • Charger un modèle YOLO12 pré-entraîné : Choisissez la variante YOLO12 appropriée (nano, small, medium, large ou extra large) en fonction du niveau de précision et de vitesse requis pour votre tâche.
  • Fournir une image ou une vidéo : Entrez un fichier image ou vidéo que vous souhaitez analyser. YOLO12 peut également traiter des flux vidéo en direct pour la détection en temps réel.
  • Exécuter le processus de détection : Le modèle analyse les données visuelles, identifie les objets et place des cadres de délimitation autour d'eux. Il étiquette chaque objet détecté avec sa classe prédite et son score de confiance.
  • Ajuster les paramètres de détection : Vous pouvez également modifier des paramètres tels que les seuils de confiance pour affiner la précision et les performances de la détection.
  • Enregistrer ou utiliser la sortie : L'image ou la vidéo traitée, contenant désormais les objets détectés, peut être enregistrée ou intégrée dans une application pour une analyse, une automatisation ou une prise de décision plus approfondie.

Ces étapes rendent YOLO12 facile à utiliser pour une variété d'applications, de la surveillance et du suivi de la vente au détail à l'imagerie médicale et aux véhicules autonomes.

Applications pratiques de YOLO12

YOLO12 peut être utilisé dans diverses applications du monde réel grâce à sa prise en charge de la détection d'objets, de la segmentation d'instances, de la classification d'images, de l'estimation de pose et de la détection d'objets orientés (OBB). 

__wf_reserved_inherit
Fig 4. YOLO12 prend en charge des tâches telles que la détection d'objets et la segmentation d'instances.

Cependant, comme nous l'avons mentionné précédemment, les modèles YOLO12 privilégient la précision à la vitesse, ce qui signifie qu'ils mettent légèrement plus de temps à traiter les images par rapport aux versions antérieures. Ce compromis rend YOLO12 idéal pour les applications où la précision est plus importante que la vitesse en temps réel, telles que :

  • Imagerie médicale: YOLO12 peut être entraîné sur mesure pour detect tumeurs ou des anomalies aux rayons X et à l'IRM avec une grande précision, ce qui en fait un outil utile pour les médecins et les radiologues qui ont besoin d'une analyse d'image précise pour établir un diagnostic.
  • Le contrôle qualité dans la fabrication : Il peut aider à identifier les défauts des produits pendant le processus de production, garantissant que seuls les articles de haute qualité arrivent sur le marché, tout en réduisant les déchets et en améliorant l'efficacité.
  • L'analyse forensique : Les forces de l'ordre peuvent affiner YOLO12 pour analyser les images de surveillance et recueillir des preuves. Dans les enquêtes criminelles, la précision est essentielle pour identifier les détails clés.
  • Agriculture de précision: Les agriculteurs peuvent utiliser YOLO12 pour analyser la santé des cultures, detect maladies ou les infestations de parasites et surveiller l'état des sols. Des évaluations précises permettent d'optimiser les stratégies agricoles, ce qui se traduit par une meilleure gestion des rendements et des ressources.

Démarrer avec YOLO12

Avant d'exécuter YOLO12, il est important de s'assurer que votre système répond aux exigences nécessaires.

Techniquement, YOLO12 peut fonctionner sur n'importe quel GPU (Graphics Processing Unit) dédié. Par défaut, il ne nécessite pas FlashAttention, et peut donc fonctionner sur la plupart des systèmes GPU sans cela. Cependant, l'activation de FlashAttention peut s'avérer particulièrement utile lorsque l'on travaille avec de grands ensembles de données ou des images à haute résolution, car elle permet d'éviter les ralentissements, de réduire l'utilisation de la mémoire et d'améliorer l'efficacité du traitement. 

Pour utiliser FlashAttention, vous aurez besoin d'unGPU NVIDIA de l'une des séries suivantes : Turing (T4, Quadro RTX), Ampere (série RTX 30, A30, A40, A100), Ada Lovelace (série RTX 40) ou Hopper (H100, H200).

Dans un souci de convivialité et d'accessibilité, le package Ultralytics Python ne prend pas encore en charge l'inférence FlashAttention, car son installation peut s'avérer assez complexe sur le plan technique. Pour en savoir plus sur l'utilisation de YOLO12 et l'optimisation de ses performances, consultez la documentation officielle d'Ultralytics .

Principaux points à retenir

À mesure que la vision par ordinateur progresse, les modèles deviennent plus précis et efficaces. YOLO12 améliore les tâches de vision par ordinateur telles que la détection d'objets, la segmentation d'instances et la classification d'images grâce au traitement centré sur l'attention et à FlashAttention, améliorant ainsi la précision tout en optimisant l'utilisation de la mémoire.

En même temps, la vision par ordinateur est plus accessible que jamais. YOLO12 est facile à utiliser grâce au paquetagePython Ultralytics et, en mettant l'accent sur la précision plutôt que sur la vitesse, il est bien adapté à l'imagerie médicale, aux inspections industrielles et à la robotique - des applications où la précision est essentielle.

L'IA vous intéresse ? Visitez notre dépôt GitHub et échangez avec notre communauté. Découvrez les innovations dans des secteurs tels que l'IA dans les voitures autonomes et la vision par ordinateur dans l'agriculture sur nos pages de solutions. Consultez nos options de licence et donnez vie à vos projets de Vision IA. 🚀

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement