Comprendre pourquoi l'annotation humaine est essentielle

Il y a vingt ans, si quelqu'un avait dit qu'il envisageait d'acheter un robot pour l'aider à la maison, cela aurait semblé vraiment farfelu. Cependant, nous sommes en pleine période d'essor de l'IA, et des robots sont actuellement testés dans des scénarios similaires.

Un domaine clé de l'IA qui stimule ces progrès est la vision par ordinateur, qui donne aux machines la capacité de comprendre les images et les vidéos. En d'autres termes, les modèles de vision par ordinateur tels que Ultralytics YOLO11 et le prochain Ultralytics peuvent être entraînés à partir d'ensembles de données composés de données visuelles et d'annotations.

Ces annotations aident le modèle à comprendre les données visuelles. Par exemple, les ensembles de données de détection d'objets utilisent des cadres de sélection pour tracer des rectangles autour des objets d'intérêt. Cela permet au modèle de detect de localiser ces objets dans de nouvelles images, même lorsque la scène est encombrée ou que l'objet est partiellement caché.

D'autres tâches de vision par ordinateur dépendent de différents types d'annotations. Les ensembles de données de segmentation étiquettent le contour exact d'un objet au niveau des pixels, tandis que les ensembles de données de points clés marquent des repères spécifiques tels que les articulations d'une personne.

Cependant, quel que soit le format utilisé, la qualité et la cohérence des étiquettes constituent un facteur crucial. Les modèles apprennent directement à partir des données sur lesquelles ils sont entraînés. Si les étiquettes sont incohérentes ou erronées, le modèle reproduira souvent ces erreurs dans ses prédictions.

Même avec l'automatisation, les ensembles de données annotés par des humains restent essentiels, en particulier dans des domaines à haut risque tels que l'imagerie médicale. De petites erreurs d'étiquetage, comme une limite imprécise d'une tumeur ou une anomalie manquée, peuvent enseigner au modèle un modèle erroné et conduire à des prédictions dangereuses par la suite. Les experts humains fournissent les données de référence et le jugement précis dont ces applications ont besoin.

Fig. 1. Il existe un besoin en ensembles de données annotés par des humains. Image réalisée par l'auteur.

‍

Dans cet article, nous examinerons de plus près pourquoi les données annotées par l'homme sont essentielles, même si l'IA continue de progresser.

La nécessité d'annoter les images et les vidéos

Les modèles de vision par ordinateur apprennent beaucoup comme nous, en observant de nombreux exemples. La différence réside dans le fait qu'ils apprennent grâce à un entraînement sur de grands ensembles de données d'images et de vidéos que les humains étiquettent à l'avance. Ces étiquettes servent de référence, enseignant au modèle des choses telles que « ceci est un piéton », « voici la limite d'une tumeur » ou « cet objet est une voiture ».

Les images du monde réel sont rarement nettes ou cohérentes. L'éclairage peut varier et modifier l'apparence d'un même objet. Les personnes et les véhicules peuvent se chevaucher ou être partiellement cachés. Les arrière-plans peuvent être chargés et distraire l'attention. Lorsque les ensembles de données comprennent des étiquettes précises et cohérentes pour toutes ces situations, les modèles sont bien mieux préparés à ce qu'ils rencontreront en dehors des environnements contrôlés.

L'annotation des données ne se limite pas non plus à dessiner des cadres ou à tracer des contours. Elle implique d'appliquer des lignes directrices et de prendre des décisions pratiques concernant ce qui constitue l'objet, où doivent se situer ses limites et comment procéder en cas d'ambiguïté. Ce jugement humain garantit l'exactitude et l'utilisabilité des données.

Au final, un système de vision par ordinateur n'est performant que dans la mesure où les données étiquetées à partir desquelles il apprend sont fiables. Dans les applications à fort impact, telles que la détection du cancer à partir de scanners ou la détection des dangers routiers pour les voitures autonomes, des étiquettes précises fournies par des personnes qualifiées font toute la différence en termes de précision et de sécurité.

L'essor de l'automatisation dans l'annotation des données

À mesure que la vision par ordinateur évolue et que les ensembles de données s'enrichissent, l'automatisation devient un moyen courant d'accélérer l'annotation. Au lieu d'étiqueter tout manuellement, les équipes utilisent des modèles d'IA pour produire une première série d'étiquettes.

Les humains examinent ensuite les résultats, corrigent les erreurs et traitent les cas que le modèle ne peut pas étiqueter avec certitude. Cette approche accélère l'annotation tout en maintenant un niveau de qualité élevé.

Voici quelques exemples illustrant comment l'automatisation facilite généralement l'annotation des données :

Segmentation automatique : les modèles peuvent suggérer automatiquement les contours des objets ou des masques au niveau des pixels, ce qui réduit la quantité de traçage manuel que les annotateurs doivent effectuer.
Suivi du flux optique : dans le cas des vidéos, les méthodes de suivi peuvent suivre un objet en mouvement d'une image à l'autre et reporter son étiquette, ce qui permet de conserver la cohérence des annotations au fil du temps.
Interpolation d'images : les outils peuvent remplir les étiquettes pour les images situées entre deux images étiquetées à l'aide d'indicateurs de mouvement et de suivi, afin que les annotateurs n'aient pas à étiqueter chaque image individuellement.
Apprentissage actif : les pipelines de formation peuvent identifier les exemples que le modèle juge incertains ou inhabituels et les envoyer en priorité à des humains, afin que les efforts manuels soient consacrés aux données qui améliorent le plus les performances.

Pourquoi l'annotation humaine des données reste-t-elle si cruciale ?

Si l'automatisation permet d'accélérer l'étiquetage, les modèles d'IA ont toujours besoin du jugement humain pour rester précis et fiables.

Voici quelques domaines clés dans lesquels l'expertise humaine a un impact sur l'annotation des données :

Comprendre le contexte : les images et les vidéos réelles sont souvent désordonnées. Les ombres, les reflets, le flou de mouvement et les objets qui se chevauchent peuvent perturber les outils automatisés. Les annotateurs humains peuvent interpréter ce qui se passe réellement, ce qui rend les étiquettes plus précises.
Assurer la cohérence des étiquettes : à mesure que les ensembles de données s'agrandissent, les étiquettes automatisées peuvent dériver ou varier d'un lot à l'autre. Les humains peuvent vérifier, corriger et harmoniser les étiquettes afin que l'ensemble de données reste cohérent du début à la fin.
Réduire les préjugés et les préjudices : les personnes sont plus aptes à repérer les contenus sensibles, les nuances culturelles et les schémas susceptibles d'introduire des préjugés. Leur supervision contribue à rendre les ensembles de données plus équitables et à éviter tout préjudice involontaire.
Application de l'expertise en la matière : certaines tâches nécessitent des connaissances spécialisées, comme l'identification d'anomalies médicales ou de défauts industriels. Les experts peuvent fournir des étiquettes précises et résoudre les cas ambigus afin que le modèle apprenne les détails corrects.

Aperçu général de l'annotation avec intervention humaine

Les outils et plateformes d'annotation tels que Roboflow l'automatisation pour accélérer l'étiquetage, souvent à l'aide de modèles de base tels que Segment Anything Model 3 ou SAM3. SAM3 est le modèle de base de segmentation promptable de Meta AI.

Il peut detect, segment et track dans des images et des vidéos à partir d'indications simples telles que des clics, des cadres de sélection ou de courtes phrases, produisant des masques de segmentation pour faire correspondre les objets sans avoir besoin d'une formation spécifique à chaque nouvelle catégorie.

Même avec ces approches de pointe, des experts humains sont toujours nécessaires pour réviser et finaliser les annotations. Lorsque des outils automatisés produisent une première ébauche et que des humains la vérifient, la corrigent et la peaufinent, le flux de travail est appelé « annotation avec intervention humaine ». Cela permet de maintenir la rapidité de l'annotation tout en garantissant que les étiquettes finales sont suffisamment précises et cohérentes pour former des modèles fiables.

‍

Fig. 2. Aperçu de l'annotation humaine dans la boucle. (Source)

‍

Quand l'automatisation de l'annotation fonctionne et quand elle ne fonctionne pas

L'annotation automatisée fonctionne mieux pour les données provenant de lieux contrôlés. Les images collectées dans les usines, les entrepôts ou les rayons des magasins bénéficient généralement d'un éclairage constant et d'une vue dégagée sur les objets. Les outils automatisés peuvent donc les étiqueter avec précision et aider les équipes à évoluer plus rapidement avec moins de travail manuel.

Les données provenant d'endroits moins contrôlés sont plus complexes. Les images extérieures varient en fonction de l'heure de la journée et des conditions météorologiques, et les scènes filmées dans les rues ou les maisons comportent souvent des éléments encombrants, des flous de mouvement, des objets qui se bloquent mutuellement et de nombreux chevauchements. Les petits objets, les limites fines ou les situations rares augmentent encore davantage le risque d'erreur. Un modèle qui fonctionne bien avec des données intérieures propres peut encore rencontrer des difficultés avec des images réelles plus complexes.

C'est pourquoi l'intervention humaine reste importante. Les personnes peuvent intervenir lorsque le modèle est incertain, interpréter des contextes complexes et corriger les erreurs avant qu'elles ne se retrouvent dans l'ensemble de données final. L'annotation humaine aide l'automatisation à rester ancrée dans les conditions réelles et garantit la fiabilité des modèles après leur déploiement.

Dans quels domaines l'annotation humaine peut-elle faire la différence ?

Maintenant que nous avons vu où l'automatisation fonctionne bien et où elle présente des lacunes, explorons quelques applications dans lesquelles l'annotation humaine joue un rôle important.

Détection des défauts dans la fabrication

Prenons l'exemple d'un tapis roulant dans une usine où des centaines de pièces passent devant une caméra chaque minute. La plupart des défauts sont évidents, mais il arrive parfois qu'une fissure fine apparaisse à un angle inhabituel ou sous l'éclat d'une lumière. Un système automatisé pourrait ne pas la détecter ou la classer comme une texture de surface inoffensive, mais un examinateur humain peut repérer le défaut, corriger l'annotation et s'assurer que le modèle apprend la différence.

C'est là le rôle de l'annotation humaine dans le processus d'inspection industrielle. L'automatisation permet de pré-étiqueter les types de défauts courants et d'accélérer le traitement de grands volumes d'images, mais les humains doivent encore vérifier les résultats, affiner les limites et traiter les défaillances rares qui n'apparaissent pas souvent lors de la formation.

Véhicules autonomes et transport intelligent

De même, les véhicules autonomes utilisent la vision par ordinateur pour repérer les piétons, lire les panneaux et naviguer dans la circulation, mais les routes réelles sont imprévisibles. Par exemple, un piéton qui sort de derrière une voiture garée la nuit peut être partiellement caché et difficile à voir sous l'éblouissement.

‍

Fig. 3. Exemple d'utilisation de la vision par ordinateur pour analyser le trafic. (Source)

‍

Les annotateurs humains peuvent étiqueter ces cas marginaux rares et critiques pour la sécurité pendant la formation afin que les modèles apprennent la bonne réponse, non seulement dans des conditions normales, mais aussi dans les moments les plus importants. Cette étape impliquant l'intervention humaine est essentielle pour apprendre aux systèmes à gérer les événements à faible fréquence qui sont difficiles à saisir avec l'automatisation seule.

L'avenir des ensembles de données annotés par des humains

L'annotation humaine en boucle devient de plus en plus collaborative à mesure que la technologie progresse. Il est intéressant de noter que les modèles de langage visuel (VLM), qui apprennent à partir d'images et de textes, sont désormais utilisés pour créer une première version des étiquettes et suggérer des corrections à partir de simples invites.

Ainsi, au lieu de scanner manuellement chaque image pour décider quoi étiqueter, un annotateur peut demander à un VLM d'étiqueter tous les piétons, voitures et feux de circulation ousegment les défauts sur cette partie, et obtenir un ensemble d'annotations provisoires à examiner.

‍

Fig. 4. Les grands modèles multimodaux peuvent fonctionner avec des annotateurs humains (Source)

‍

Cela réduit le temps d'annotation, car le modèle peut traiter de nombreux cas simples dès le départ, ce qui permet aux humains de se concentrer sur la vérification des résultats, la correction des exemples complexes et la cohérence de l'ensemble de données. Les grands modèles multimodaux commencent également à orienter les annotateurs vers les échantillons les plus incertains, ce qui rend le travail humain plus ciblé et améliore la qualité globale de l'ensemble de données.

Principaux points à retenir

La vision par ordinateur aide les machines à interpréter et à réagir à ce qu'elles voient, mais elle fonctionne mieux lorsqu'elle est associée à l'expertise humaine. Les données annotées par des humains permettent aux modèles de rester ancrés dans les conditions réelles et améliorent leur fiabilité. Grâce à l'automatisation et au jugement humain, les équipes peuvent créer des systèmes de vision performants.

Rejoignez notre communauté active et découvrez des innovations telles que l'IA dans la logistique et la vision IA dans la robotique. Visitez notre référentiel GitHub pour en savoir plus. Pour vous lancer dès aujourd'hui dans la vision par ordinateur, consultez nos options de licence.

Comprendre pourquoi l'annotation humaine est essentielle

La nécessité d'annoter les images et les vidéos

L'essor de l'automatisation dans l'annotation des données

Pourquoi l'annotation humaine des données reste-t-elle si cruciale ?

Aperçu général de l'annotation avec intervention humaine

Quand l'automatisation de l'annotation fonctionne et quand elle ne fonctionne pas

Dans quels domaines l'annotation humaine peut-elle faire la différence ?

Détection des défauts dans la fabrication

Véhicules autonomes et transport intelligent

L'avenir des ensembles de données annotés par des humains

Principaux points à retenir

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Outils d'IA visuelle pour le diagnostic médical

Des données aux décisions : utiliser l'IA visuelle pour la stratégie d'entreprise

Construisons ensemble l'avenir
de l'IA !

Comprendre pourquoi l'annotation humaine est essentielle

La nécessité d'annoter les images et les vidéos

L'essor de l'automatisation dans l'annotation des données

Pourquoi l'annotation humaine des données reste-t-elle si cruciale ?

Aperçu général de l'annotation avec intervention humaine

Quand l'automatisation de l'annotation fonctionne et quand elle ne fonctionne pas

Dans quels domaines l'annotation humaine peut-elle faire la différence ?

Détection des défauts dans la fabrication

Véhicules autonomes et transport intelligent

L'avenir des ensembles de données annotés par des humains

Principaux points à retenir

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Outils d'IA visuelle pour le diagnostic médical

Des données aux décisions : utiliser l'IA visuelle pour la stratégie d'entreprise

Construisons ensemble l'avenir de l'IA !

Construisons ensemble l'avenir
de l'IA !