Découvrez YOLO12, le dernier modèle de vision par ordinateur ! Découvrez comment son architecture axée sur l'attention et sa technologie FlashAttention améliorent les tâches de détection d'objets dans tous les secteurs
Découvrez YOLO12, le dernier modèle de vision par ordinateur ! Découvrez comment son architecture axée sur l'attention et sa technologie FlashAttention améliorent les tâches de détection d'objets dans tous les secteurs
La vision par ordinateur est une branche de l'intelligence artificielle (IA) qui aide les machines à comprendre les images et les vidéos. C'est un domaine qui progresse à un rythme incroyable, car les chercheurs et les développeurs en IA repoussent constamment les limites. La communauté de l'IA cherche toujours à rendre les modèles plus rapides, plus intelligents et plus efficaces. L'une des dernières avancées est YOLO12, le tout dernier ajout à la série de modèles YOLO (You Only Look Once), sorti le 18 février 2025.
YOLO12 a été développé par des chercheurs de l'Université de Buffalo, SUNY (State University of New York) et de l'Université de l'Académie chinoise des sciences. Dans une nouvelle approche unique, YOLO12 introduit des mécanismes d'attention, permettant au modèle de se concentrer sur les parties les plus essentielles d'une image plutôt que de tout traiter de manière égale.
Il est également doté de FlashAttention, une technique qui accélère le traitement tout en utilisant moins de mémoire, et d'un mécanisme d'attention de zone, conçu pour imiter la façon dont les humains se concentrent naturellement sur les objets centraux.
Ces améliorations rendent YOLO12n 2,1 % plus précis que YOLOv10n et YOLO12m +1,0 % plus précis que YOLO11m. Cependant, cela a un prix : YOLO12n est 9 % plus lent que YOLOv10n, et YOLO12m est 3 % plus lent que YOLO11m.

Dans cet article, nous allons explorer ce qui rend YOLO12 différent, comment il se compare aux versions précédentes et où il peut être appliqué.
La série de modèles YOLO est une collection de modèles de vision par ordinateur conçus pour la détection d'objets en temps réel, ce qui signifie qu'ils peuvent identifier et localiser rapidement des objets dans des images et des vidéos. Au fil du temps, chaque version s'est améliorée en termes de vitesse, de précision et d'efficacité.
Par exemple, Ultralytics YOLOv5, sorti en 2020, est devenu largement utilisé parce qu'il était rapide et facile à entraîner et à déployer sur mesure. Plus tard, Ultralytics YOLOv8 a amélioré cela en offrant une assistance supplémentaire pour les tâches de vision par ordinateur comme la segmentation d'instance et le suivi d'objets.
Plus récemment, Ultralytics YOLO11 s'est concentré sur l'amélioration du traitement en temps réel tout en maintenant un équilibre entre la vitesse et la précision. Par exemple, YOLO11m avait 22 % moins de paramètres que YOLOv8m, tout en offrant de meilleures performances de détection sur l'ensemble de données COCO, une référence largement utilisée pour évaluer les modèles de détection d'objets.
S'appuyant sur ces avancées, YOLO12 introduit un changement dans la façon dont il traite l'information visuelle. Plutôt que de traiter toutes les parties d'une image de la même manière, il donne la priorité aux zones les plus pertinentes, améliorant ainsi la précision de la détection. En termes simples, YOLO12 s'appuie sur les améliorations précédentes tout en visant à être plus précis.
YOLO12 introduit plusieurs améliorations qui améliorent les tâches de vision par ordinateur tout en conservant des vitesses de traitement en temps réel intactes. Voici un aperçu des principales caractéristiques de YOLO12 :
Pour comprendre comment ces fonctionnalités fonctionnent dans la vie réelle, prenons l'exemple d'un centre commercial. YOLO12 peut aider à suivre les clients, à identifier les décorations des magasins, comme les plantes en pot ou les panneaux promotionnels, et à repérer les articles égarés ou abandonnés.
Son architecture axée sur l'attention l'aide à se concentrer sur les détails les plus importants, tandis que FlashAttention lui permet de tout traiter rapidement sans surcharger le système. Il est ainsi plus facile pour les gestionnaires de centres commerciaux d'améliorer la sécurité, d'organiser l'aménagement des magasins et d'améliorer l'expérience d'achat globale.

Cependant, YOLO12 présente également certaines limitations à prendre en compte :
YOLO12 se décline en plusieurs variantes, chacune étant optimisée pour des besoins différents. Les versions plus petites (nano et small) privilégient la vitesse et l'efficacité, ce qui les rend idéales pour les appareils mobiles et l'edge computing. Les versions medium et large offrent un équilibre entre la vitesse et la précision, tandis que YOLO12x (extra large) est conçu pour les applications de haute précision, telles que l'automatisation industrielle, l'imagerie médicale et les systèmes de surveillance avancés.
Grâce à ces variations, YOLO12 offre différents niveaux de performance en fonction de la taille du modèle. Les tests de référence montrent que certaines variantes de YOLO12 surpassent YOLOv10 et YOLO11 en termes de précision, atteignant une précision moyenne (mAP) plus élevée.
Cependant, certains modèles, comme YOLO12m, YOLO12l et YOLO12x, traitent les images plus lentement que YOLO11, ce qui montre un compromis entre la précision de la détection et la vitesse. Malgré cela, YOLO12 reste efficace, nécessitant moins de paramètres que de nombreux autres modèles, bien qu'il en utilise toujours plus que YOLO11. Cela en fait un excellent choix pour les applications où la précision est plus importante que la vitesse brute.

YOLO12 est pris en charge par le paquet Python Ultralytics et est facile à utiliser, ce qui le rend accessible aux débutants comme aux professionnels. En quelques lignes de code, les utilisateurs peuvent charger des modèles pré-entraînés, exécuter diverses tâches de vision par ordinateur sur des images et des vidéos, et également entraîner YOLO12 sur des ensembles de données personnalisés. Le paquet Python Ultralytics simplifie le processus, éliminant ainsi la nécessité d'étapes de configuration complexes.
Par exemple, voici les étapes à suivre pour utiliser YOLO12 pour la détection d'objets :
Ces étapes rendent YOLO12 facile à utiliser pour une variété d'applications, de la surveillance et du suivi de la vente au détail à l'imagerie médicale et aux véhicules autonomes.
YOLO12 peut être utilisé dans diverses applications du monde réel grâce à sa prise en charge de la détection d'objets, de la segmentation d'instances, de la classification d'images, de l'estimation de pose et de la détection d'objets orientés (OBB).

Cependant, comme nous l'avons mentionné précédemment, les modèles YOLO12 privilégient la précision à la vitesse, ce qui signifie qu'ils mettent légèrement plus de temps à traiter les images par rapport aux versions antérieures. Ce compromis rend YOLO12 idéal pour les applications où la précision est plus importante que la vitesse en temps réel, telles que :
Avant d'exécuter YOLO12, il est important de s'assurer que votre système répond aux exigences nécessaires.
Techniquement, YOLO12 peut fonctionner sur n'importe quel GPU (Graphics Processing Unit) dédié. Par défaut, il ne nécessite pas FlashAttention, il peut donc fonctionner sur la plupart des systèmes GPU sans lui. Cependant, l'activation de FlashAttention peut être particulièrement utile lorsque vous travaillez avec de grands ensembles de données ou des images haute résolution, car elle permet d'éviter les ralentissements, de réduire l'utilisation de la mémoire et d'améliorer l'efficacité du traitement.
Pour utiliser FlashAttention, vous aurez besoin d'un GPU NVIDIA de l'une de ces séries : Turing (T4, Quadro RTX), Ampere (RTX 30 series, A30, A40, A100), Ada Lovelace (RTX 40 series) ou Hopper (H100, H200).
Dans un souci de convivialité et d'accessibilité, le package Python Ultralytics ne prend pas encore en charge l'inférence FlashAttention, car son installation peut être assez complexe sur le plan technique. Pour en savoir plus sur la façon de démarrer avec YOLO12 et d'optimiser ses performances, consultez la documentation officielle d'Ultralytics.
À mesure que la vision par ordinateur progresse, les modèles deviennent plus précis et efficaces. YOLO12 améliore les tâches de vision par ordinateur telles que la détection d'objets, la segmentation d'instances et la classification d'images grâce au traitement centré sur l'attention et à FlashAttention, améliorant ainsi la précision tout en optimisant l'utilisation de la mémoire.
Parallèlement, la vision par ordinateur est plus accessible que jamais. YOLO12 est facile à utiliser grâce au package Python Ultralytics et, grâce à son orientation sur la précision plutôt que sur la vitesse, il est bien adapté à l'imagerie médicale, aux inspections industrielles et à la robotique - des applications où la précision est essentielle.
L'IA vous intéresse ? Visitez notre dépôt GitHub et échangez avec notre communauté. Découvrez les innovations dans des secteurs tels que l'IA dans les voitures autonomes et la vision par ordinateur dans l'agriculture sur nos pages de solutions. Consultez nos options de licence et donnez vie à vos projets de Vision IA. 🚀