Ultralytics : automatisation de l'annotation grâce à l'IA

Vous souhaitez mettre en place un projet de vision par ordinateur ?

Les solutions de vision par ordinateur qui analysent des images et des vidéos s'intègrent de plus en plus couramment dans les flux de travail de nombreux secteurs, de l'industrie manufacturière à l'imagerie médicale. Dans le secteur manufacturier, par exemple, la détection des défauts de surface sur les produits circulant sur un tapis roulant repose sur des modèles de vision par ordinateur capables de repérer des motifs subtils.

Pour que ces modèles fonctionnent correctement, ils doivent être entraînés à partir de données étiquetées où chaque défaut est clairement identifié. Cela leur permet d'apprendre ce qu'ils doivent rechercher et de reconnaître des schémas similaires.

Le processus de création de ces étiquettes s'appelle l'annotation de données. Plus précisément, l'annotation d'images et l'annotation de vidéos consistent à tracer des cadres de sélection, à délimiter des formes ou à étiqueter des zones spécifiques au sein d'images et d'images vidéo.

Si cela reste gérable pour les petits ensembles de données, la tâche devient rapidement plus ardue à mesure que le volume de données augmente. L'étiquetage de milliers d'images nécessite un travail manuel constant, ce qui fait de l'annotation un goulot d'étranglement majeur. Les outils traditionnels sont souvent lents, fragmentés et difficiles à adapter à l'échelle.

Ultralytics , une solution tout-en-un d'IA visuelle, aide à relever ces défis grâce à l'annotation assistée par l'IA. En utilisant l'IA pour générer automatiquement des étiquettes initiales qui peuvent être rapidement vérifiées et affinées, elle réduit la charge de travail manuel et améliore l'efficacité.

Dans cet article, nous allons découvrir comment fonctionne l'annotation assistée par l'IA au sein de Ultralytics et comment elle améliore le processus d'étiquetage. C'est parti !

Présentation du processus d'annotation des données

Avant d'aborder le fonctionnement de l'annotation basée sur l'IA sur Ultralytics , examinons d'abord de plus près ce qu'est l'annotation de données.

L'annotation de données, également appelée étiquetage de données, consiste à attribuer des étiquettes structurées à des données brutes afin de pouvoir les utiliser pour entraîner des modèles d'apprentissage automatique. En vision par ordinateur, ces étiquettes définissent les objets, les zones ou les caractéristiques d'intérêt présents dans les images ou les vidéos.

Au cours de l'entraînement, les modèles ou les algorithmes apprennent à associer les données d'entrée à ces étiquettes, ce qui fait de la qualité de l'annotation un facteur déterminant pour les performances du modèle. Des ensembles de données annotés avec précision et cohérence permettent au modèle d'apprendre les schémas corrects, tandis que des annotations de mauvaise qualité ou incohérentes peuvent conduire à des prédictions peu fiables.

Par exemple, dans le cadre d'une application de détection de défauts, une image d'un produit sur un tapis roulant peut être annotée en indiquant l'emplacement des défauts et en précisant de quel type de défaut il s'agit. Cela permet au modèle d'apprendre à reconnaître l'apparence des défauts afin de pouvoir les identifier sur de nouvelles images.

Aperçu des tâches d'annotation courantes

Voyons maintenant quelques méthodes courantes d'annotation d'images en vision par ordinateur. Ces méthodes servent à étiqueter des données visuelles pour des tâches telles que la détection d'objets, la segmentation d'instances et la classification d'images. Chaque méthode d'annotation remplit une fonction différente, comme la localisation d'objets, la capture de formes ou l'identification de structures clés.

Boîtes englobantes

Les cadres de sélection sont de simples rectangles tracés autour des objets d'une image afin d'indiquer leur emplacement. Ils constituent l'une des méthodes les plus courantes pour annoter les données en vision par ordinateur.

En s'entraînant sur des images comportant ces cadres, les modèles de détection d'objets apprennent à reconnaître différents objets et à déterminer leur emplacement dans une image. Cela leur permet de detect objets à la fois et d'identifier l'endroit où chacun d'entre eux apparaît.

Prenons par exemple une partie de baseball analysée à l'aide de la vision par ordinateur. Des rectangles peuvent être tracés autour des joueurs, de la batte et de la balle à chaque image, ce qui permet au modèle detect d'identifier ces objets tout au long du match.

Fig. 1. Les cadres de sélection peuvent servir à étiqueter et à localiser plusieurs objets. (Source)

Polygones ou masques de segmentation

Les polygones, également appelés « masques de segmentation », vont plus loin que les cadres de sélection en identifiant les objets au niveau du pixel. Au lieu de dessiner un rectangle approximatif, ils capturent la forme et les contours exacts de chaque objet dans une image. Cela les rend utiles pour les tâches qui nécessitent une compréhension plus détaillée.

Par exemple, dans le domaine de la conduite autonome, les masques de segmentation sont utilisés dans des tâches telles que la segmentation sémantique, où chaque pixel se voit attribuer une catégorie (comme « route » ou « ciel »), et la segmentation d'instances, où des objets individuels, tels que des véhicules ou des piétons, sont identifiés séparément.

Elles sont également utilisées pour des tâches telles que la suppression d'arrière-plan, lorsqu'un objet, par exemple une personne, doit être isolé du reste de l'image.

Points clés

Les points clés servent à marquer des points spécifiques sur un objet, tels que les articulations du corps humain ou certaines parties d'un animal. En identifiant ces points, les modèles peuvent comprendre la structure d'un objet et la manière dont ses parties sont positionnées les unes par rapport aux autres.

En vision par ordinateur, on parle d'estimation de la pose ; l'objectif est d'identifier l'emplacement de ces points clés et de comprendre leurs relations mutuelles. Le suivi de ces points dans le temps permet d'analyser les mouvements et les changements de posture.

Fig. 2. Les annotations de points clés peuvent être utilisées pour marquer les articulations dans le cadre de l'estimation de la posture humaine. (Source)

Un exemple courant consiste à marquer les articulations du corps dans une vidéo afin d'analyser les mouvements humains. En se concentrant sur ces points clés, les modèles peuvent déterminer la position d'une personne et suivre l'évolution de sa posture au fil du temps.

Boîte englobante orientée (OBB)

Tous les objets d'une image ne sont pas parfaitement alignés. Dans de nombreux cas concrets, les objets apparaissent inclinés, pivotés ou sont vus sous différents angles.

Les cadres de sélection standard posent souvent problème dans ces cas-là, car ils peuvent inclure des éléments d'arrière-plan superflus ou ne pas épouser parfaitement la forme de l'objet. Les cadres de sélection orientés résolvent ce problème en utilisant des rectangles pivotés qui s'alignent sur la direction de l'objet. Cela permet d'obtenir des annotations plus précises et mieux ajustées.

Cette approche est utilisée dans la détection par boîte englobante orientée (OBB), où les modèles identifient à la fois l'emplacement d'un objet et son orientation. Prenons l'exemple de l'imagerie aérienne, où des objets tels que des bâtiments, des navires ou des véhicules apparaissent souvent sous différents angles. Les boîtes orientées permettent de mieux saisir leur forme et leur orientation réelles au sein de la scène.

Étiquettes de classification

Les étiquettes de classification se distinguent des autres méthodes d'annotation en ce qu'elles attribuent une seule étiquette à l'ensemble d'une image, plutôt que de marquer des objets ou des zones spécifiques. Elles sont utilisées lorsque l'objectif est d'identifier ce qui est présent dans une image, sans se concentrer sur l'endroit où cela apparaît.

Par exemple, une image peut être classée comme « chat » ou « chien » en fonction de son contenu global. La classification d'images s'avère donc utile pour les tâches où une compréhension générale de l'image suffit.

Limites des outils d'annotation traditionnels

De nombreux outils d'étiquetage traditionnels reposent sur plusieurs étapes et des flux de travail cloisonnés. Les équipes de développement en IA doivent souvent passer d'une plateforme d'annotation à l'autre pour l'étiquetage, le stockage et la validation, ce qui ralentit les projets d'IA.

La plupart des outils ne prennent en charge qu'un ensemble limité de types d'annotations et de types de données, ce qui oblige les équipes à utiliser différents outils pour les cadres de sélection, la segmentation et les points clés. Cette configuration fragmentée peut s'avérer difficile à gérer, en particulier pour les équipes novices en vision par ordinateur.

Le travail manuel constitue un autre défi majeur. Si l'annotation d'une seule image ne prend que quelques minutes, le traitement de grands ensembles de données devient rapidement chronophage, surtout lorsque des images similaires nécessitent des tâches répétitives.

À mesure que les ensembles de données s'étoffent, les équipes doivent également gérer les fichiers, track les versions track et veiller à la cohérence des annotations. Cela alourdit la charge de travail : elles consacrent davantage de temps à la gestion des données et moins à l'amélioration des performances des modèles.

Une approche plus efficace consiste à recourir à l'annotation assistée par l'IA au sein de la Ultralytics , qui utilise l'IA pour générer et affiner les étiquettes, réduisant ainsi la charge de travail manuel tout en améliorant la rapidité et la cohérence, le tout dans un environnement unique qui regroupe la gestion des ensembles de données, l'annotation, l'entraînement des modèles, le déploiement et la surveillance.

Comment Ultralytics facilite le processus d'annotation

Ultralytics simplifie l'annotation en l'intégrant directement au reste du flux de travail de vision par ordinateur. Au lieu de recourir à des outils distincts, les équipes peuvent travailler sur les données, les annotations et les modèles au sein d'un environnement unique.

Il prend en charge toute une série de tâches de vision par ordinateur, notamment la détection d'objets, la classification d'images, la segmentation d'instances, l'estimation de la pose et la détection de cadres de sélection orientés.

Dans ce contexte, l'annotation peut s'effectuer de plusieurs manières. Les équipes peuvent étiqueter les données manuellement pour un contrôle total, utiliser l'annotation intelligente SAM pour un étiquetage interactif par points, ou recourir à l'annotation intelligente YOLO pour générer automatiquement des annotations qui peuvent ensuite être vérifiées et affinées. Cette flexibilité facilite le travail avec différents ensembles de données et différentes exigences en matière d'annotation.

Fig. 3. Aperçu de l'annotation dans Ultralytics (Source)

L'annotation assistée par l'IA et l'annotation manuelle étant intégrées à la gestion des ensembles de données et à l'entraînement des modèles, les équipes peuvent passer sans difficulté de l'étiquetage des données à l'organisation des ensembles de données et à l'entraînement des modèles. Cela permet de maintenir la structure des flux de travail et évite d'avoir à changer d'outil ou à reformater les annotations.

La plateforme prend également en chargeYOLO Ultralytics , tels que Ultralytics YOLO11 et Ultralytics , ce qui permet d'utiliser directement les données annotées pour l'entraînement et les tests. Il est ainsi plus facile d'identifier les lacunes dans les ensembles de données, d'affiner les annotations et de réentraîner les modèles grâce à une itération continue.

Principales fonctionnalités de l'annotation SAM sur Ultralytics

La fonctionnalité d'annotation intelligente SAM sur Ultralytics est conçue pour accélérer l'annotation dans le cadre de tâches de détection d'objets, de segmentation d'instances et de création de cadres de sélection orientés (OBB).

La plateforme propose plusieurs variantes SAM , notamment SAM .1 Tiny, SAM .1 Small, SAM .1 Base, SAM .1 Large et SAM , permettant ainsi aux utilisateurs de choisir entre vitesse et précision.

Fig. 4. Annotation intelligente SAM sur Ultralytics (Source)

Les modèles plus petits, tels que « Tiny » et « Small », sont plus rapides et conviennent parfaitement aux flux de travail d'annotation rapides, tandis que les modèles plus grands, comme « Large » et SAM », offrent une plus grande précision pour les scènes plus complexes. Le fait de passer d'un modèle à l'autre met immédiatement à jour le comportement d'annotation.

Dans l'éditeur d'annotation, une fois qu'un SAM a été sélectionné, les annotateurs humains peuvent passer en mode « Smart » pour commencer l'étiquetage. Au lieu de dessiner des formes manuellement, le modèle est guidé à l'aide de simples saisies ponctuelles.

Un clic gauche ajoute un point positif pour inclure une zone, tandis qu'un clic droit ajoute un point négatif pour exclure les zones indésirables. À partir de ces données, le modèle génère un masque précis en temps réel.

Pour accélérer le processus, il est possible d'activer le mode d'application automatique. Une fois activé, chaque clic génère et enregistre automatiquement une annotation sans nécessiter de confirmation manuelle. Pour les objets plus complexes, les annotateurs peuvent soit maintenir la touche « Maj » enfoncée pour placer plusieurs points avant l'application du masque, soit désactiver l'application automatique afin d'ajouter librement des points, puis appuyer sur « Entrée » pour appliquer le masque.

Comprendre l'annotation YOLO sur Ultralytics

À l'instar de l'annotation intelligente SAM, l'annotation YOLO sur la Ultralytics utilise l'IA pour accélérer le processus d'étiquetage. Au lieu de guider le modèle à l'aide de clics, elle utilise les prédictions du modèle pour générer automatiquement des annotations.

Cette approche prend en charge des tâches telles que la détection d'objets, la segmentation d'instances et l'annotation de cadres de sélection orientés (OBB). Elle est spécialement conçue pour fonctionner avecYOLO Ultralytics , qu'il s'agisse des modèles pré-entraînés fournis par Ultralytics YOLO entraînés sur mesure.

Dans l'éditeur d'annotations, les annotateurs peuvent passer en mode Smart, sélectionner un YOLO dans le sélecteur de modèles, puis cliquer sur « Predict ». Le sélecteur de modèles n'affiche que YOLO correspondant à la tâche actuelle du jeu de données, garantissant ainsi la compatibilité des annotations générées.

Le modèle analyse l'image et génère des annotations en fonction de ses prédictions, qui sont ensuite ajoutées directement à l'image. Si les prédictions recoupent des annotations existantes de la même classe, les détections de doublons sont automatiquement ignorées lorsque le chevauchement dépasse un seuil défini, ce qui permet de garantir la cohérence et la qualité des étiquettes.

Fig. 5. Annotation intelligente rendue possible parYOLO Ultralytics sur Ultralytics (Source)

Une fois les prédictions générées, des annotateurs humains peuvent les examiner, les ajuster ou les supprimer selon les besoins. Cela facilite l'étiquetage rapide de grands ensembles de données, car il s'agit de partir des annotations générées par le modèle pour les affiner, plutôt que de tout annoter manuellement.

Au fil du temps, YOLO améliorés peuvent être réutilisés pour générer de meilleures prédictions, ce qui permet de mettre en place un processus itératif d'étiquetage automatique.

Mise en œuvre de l'étiquetage assisté par l'IA dans les pipelines en conditions réelles

Voyons maintenant quelques exemples illustrant comment la Ultralytics permet l'annotation de données dans des cas d'utilisation concrets.

La segmentation dans la conduite autonome

Les véhicules autonomes équipés de modèles de vision par ordinateur s'appuient sur des données visuelles soigneusement annotées pour comprendre leur environnement en temps réel. Les modèles entraînés à partir de ces données sont capables de detect segment , les piétons, les panneaux de signalisation et les limites de la chaussée.

Les tâches de segmentation nécessitent des limites précises, au niveau du pixel, ce qui rend l'annotation à la fois cruciale et chronophage. L'étiquetage manuel de grands volumes de données de capteurs peut rapidement devenir un goulot d'étranglement, en particulier dans les scènes de conduite complexes.

Ultralytics simplifie ce processus grâce à l'annotation assistée par IA, qui utilise à la fois YOLO SAM YOLO . L'annotation intelligente SAM permet une segmentation rapide par simple clic avec des masques précis, tandis que YOLO peuvent être utilisés pour générer automatiquement des annotations sur l'ensemble des images.

Ensemble, ces approches facilitent le traitement des scènes complexes comportant des objets qui se chevauchent.

L'annotation étant directement liée à l'entraînement des modèles, les ensembles de données à grande échelle mis à jour peuvent être utilisés immédiatement pour réentraîner et évaluer les modèles. Cela permet aux équipes d'améliorer en permanence les performances et de s'adapter plus efficacement aux nouvelles conditions de conduite.

Renforcer les systèmes d'assurance qualité dans le secteur manufacturier

Dans le secteur manufacturier, le maintien d'un contrôle qualité constant repose sur la détection précise des défauts pendant la production. Les modèles de vision par ordinateur sont souvent utilisés pour identifier les problèmes en temps réel, mais leurs performances dépendent de la façon dont les données d'apprentissage reflètent les conditions réelles de production.

Les changements dans les environnements de fabrication, tels que les variations au niveau des matières premières, des réglages des machines ou de l'éclairage, peuvent faire apparaître de nouveaux types de défauts, parfois rares, qui ne figuraient pas dans les données d'apprentissage initiales. Cela crée un décalage entre ce que le modèle a appris et ce qui se produit sur la chaîne de production.

Pour rester à jour, les ensembles de données doivent être régulièrement mis à jour à l'aide d'annotations internes de haute qualité. Ultralytics facilite la mise à jour des annotations et l'enrichissement des ensembles de données à mesure que de nouveaux types de défauts apparaissent. Ces ensembles de données mis à jour peuvent ensuite servir à réentraîner les modèles, ce qui aide les équipes à s'adapter plus rapidement à l'évolution des conditions de production.

Surveillance des chantiers et sécurité dans le secteur de la construction

Les chantiers de construction sont des environnements dynamiques, où se côtoient de multiples équipes, des engins en mouvement et des configurations en constante évolution. Dans ces conditions, le maintien de la sécurité repose sur des données visuelles claires et bien annotées.

Des annotations précises peuvent améliorer la qualité des données et aider les systèmes d'IA à identifier les travailleurs, les équipements, les équipements de sécurité et les risques potentiels dans diverses conditions sur le terrain, notamment dans des environnements très fréquentés, avec des arrière-plans changeants et des conditions d'éclairage variables.

Ultralytics facilite cette tâche en permettant de mettre à jour et d'affiner facilement les annotations à mesure que les conditions sur le terrain évoluent. De nouvelles images peuvent être capturées et ajoutées à l'ensemble de données dès leur apparition, ce qui permet de le maintenir en phase avec les situations réelles.

Principaux points à retenir

Une annotation de haute qualité est essentielle pour développer des modèles fiables de vision par ordinateur et d'intelligence artificielle, mais les processus traditionnels ralentissent souvent les équipes. Ultralytics rationalise ce processus grâce à des outils d'annotation automatisés et à un flux de travail évolutif. Les équipes peuvent ainsi passer plus rapidement des données au modèle tout en garantissant précision et cohérence.

Découvrez notre communauté en pleine expansion et notre dépôt GitHub pour en savoir plus sur la vision par ordinateur. Si vous souhaitez développer des solutions de vision, consultez nos options de licence. Parcourez nos pages consacrées aux solutions pour en savoir plus sur les avantages de la vision par ordinateur dans le secteur manufacturier et de l'IA dans le domaine de la santé.

Comment Ultralytics utilise l'IA pour automatiser l'annotation