Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

5 raisons pour lesquelles les modèles de vision par ordinateur échouent en production

Découvrez pourquoi les modèles de vision par ordinateur échouent en production, qu'il s'agisse d'un décalage entre les données ou de latence, et comment les équipes peuvent améliorer les performances de ces modèles dans les systèmes d'IA de vision par ordinateur utilisés dans le monde réel.

Développez vos projets de vision par ordinateur avec Ultralytics

Démarrer

La vision par ordinateur est aujourd'hui une technologie clé de l'intelligence artificielle, adoptée dans la plupart des secteurs d'activité, qui permet aux machines d'interpréter et d'analyser des données visuelles pour accomplir toute une série de tâches. Ces systèmes sont à la base de nombreuses applications concrètes, allant de l'imagerie médicale et de la robotique à l'automatisation de la fabrication et du commerce de détail.

Cependant, la mise en place d'un système de vision par ordinateur n'est pas toujours simple. Elle implique généralement le développement d'un modèle d'IA de vision entraîné à identifier des motifs dans des images et des vidéos afin de faciliter des tâches telles que la détection et le suivi d'objets.

Fig. 1. Exemple de détection et de suivi d'objets (Source)

Bien qu'ils aient gagné en sophistication au fil des ans, les modèles de vision par ordinateur peuvent encore se comporter différemment pendant la phase de développement et après leur déploiement dans des environnements réels. Cela s'explique par le fait que le déploiement de ces modèles en dehors des environnements de développement contrôlés soulève de nouveaux défis, souvent imprévisibles.

Des facteurs tels que le manque de diversité des ensembles de données, un suivi insuffisant des modèles et des contraintes d'infrastructure peuvent faire qu'un même modèle se comporte différemment dans la réalité après son déploiement. 

Dans cet article, nous allons examiner cinq raisons courantes pour lesquelles les modèles de vision par ordinateur peuvent ne pas fonctionner correctement en production. C'est parti !

L'écart entre l'entraînement du modèle et la mise en production 

L'entraînement des modèles se déroule généralement dans un environnement contrôlé. Au cours de cette étape, les développeurs d'IA travaillent avec des ensembles de données d'entraînement soigneusement préparés. 

Ces vastes ensembles de données visuelles comprennent des annotations bien structurées, c'est-à-dire des étiquettes qui décrivent le contenu de chaque image. L'apprentissage s'effectue également dans des conditions constantes, ce qui permet aux modèles d'IA visuelle d'apprendre efficacement les schémas visuels.

Pour s'assurer que ces modèles sont correctement appris, il est possible de les évaluer systématiquement au cours de leur développement à l'aide de mesures d'évaluation standard et d'ensembles de données de référence. Tout comme les ensembles de données d'entraînement, ces ensembles de données de référence sont également préparés avec soin. 

Cependant, les données rencontrées par les systèmes de vision par ordinateur dans le monde réel peuvent être très différentes de celles utilisées lors de l'entraînement et de l'évaluation. Une fois déployés, ces modèles fonctionnent rarement dans des conditions contrôlées.

Ils peuvent être amenés à traiter des images et des vidéos provenant d'environnements imprévisibles où l'éclairage change constamment, où les angles de prise de vue varient et où les arrière-plans évoluent au fil du temps. Par exemple, un modèle d'IA visuelle formé à la détection du trafic peut avoir du mal à detect la nuit s'il a été formé et évalué principalement à partir d'images prises de jour.

Fig. 2. Même après amélioration, les images nocturnes restent difficiles à interpréter pour les modèles entraînés sur des images prises de jour. (Source)

Cette différence entre le développement et le déploiement en conditions réelles constitue le fossé entre l'entraînement et la production. En raison de ce fossé, de nombreuses défaillances des modèles n'apparaissent qu'après le déploiement, ce qui rend indispensable une détection précoce pour mettre au point des systèmes de vision par ordinateur plus fiables et plus robustes.

5 raisons courantes pour lesquelles les modèles de vision par ordinateur échouent en production

Examinons maintenant de plus près cinq raisons courantes pour lesquelles les modèles de vision par ordinateur échouent en production.

1. Ensembles de données d'entraînement de mauvaise qualité 

Les ensembles de données jouent un rôle central dans l'entraînement des modèles de vision par ordinateur, car ils déterminent ce que le modèle apprend pendant l'entraînement et comment il réagit aux données du monde réel après son déploiement. Cela revêt une importance particulière dans l'apprentissage supervisé, où les modèles apprennent à partir d'exemples étiquetés qui indiquent ce que représente chaque image. 

De nombreux modèles d'apprentissage profond, notamment les réseaux neuronaux convolutifs (CNN), s'appuient sur ces exemples étiquetés pour reconnaître des motifs dans les données visuelles. Cependant, lorsque l'ensemble de données d'apprentissage ne reflète pas les conditions réelles, le modèle peut apprendre des motifs qui ne représentent pas pleinement l'apparence des objets en dehors des données d'apprentissage. 

Par exemple, un modèle entraîné sur un ensemble de données contenant des défauts de fissures importantes pourrait ne pas detect type rare de fissure mineure dans les processus de fabrication réels. De même, la qualité de l'annotation peut également influencer le comportement du modèle. Des étiquettes incohérentes ou des détails manquants dans les données étiquetées peuvent amener le modèle à assimiler des informations erronées pendant l'entraînement. 

Fig. 3. Aperçu des annotations d'images (Source)

Dans l'ensemble, la qualité et la diversité des données d'entraînement sont essentielles et peuvent déterminer les performances d'un modèle dans des applications concrètes. Lorsque les ensembles de données sont représentatifs et correctement étiquetés, un modèle fonctionne généralement de manière plus fiable une fois déployé.

2. Surapprentissage et généralisation

Les modèles d'apprentissage automatique, comme les modèles de vision, apprennent des schémas à partir d'ensembles de données d'entraînement. Mais il arrive parfois qu'un modèle s'appuie trop fortement sur quelques schémas seulement. 

Au lieu d'apprendre des relations visuelles plus générales, il peut finir par mémoriser les schémas limités issus des données d'apprentissage. Ce phénomène est connu sous le nom de surapprentissage.

Le surapprentissage survient généralement lorsque les ensembles de données d'apprentissage sont de petite taille ou manquent de diversité. Dans ce cas, le modèle parvient à reconnaître efficacement les images qu'il a déjà vues, mais éprouve des difficultés à interpréter de nouvelles données ou des entrées inconnues.

De ce fait, un modèle peut donner de bons résultats sur des données de test (puisqu’elles sont similaires aux données d’apprentissage), mais se comporter différemment dans de nouvelles conditions après son déploiement. C’est pourquoi le concept de généralisation est essentiel. En termes simples, il s’agit de la capacité des modèles à appliquer ce qu’ils ont appris pendant l’apprentissage à de nouveaux scénarios. 

Pour limiter le surapprentissage, les spécialistes de l'IA entraînent souvent leurs modèles sur des ensembles de données plus variés et ont recours à l'augmentation des données, une méthode qui consiste à modifier légèrement les images d'entraînement afin d'introduire davantage de variation dans les données. Sans ces précautions, les performances du modèle peuvent chuter rapidement dès que le système est mis en service dans des environnements réels.

Fig. 4. L'augmentation des données permet de créer des variantes d'une même image au sein d'un ensemble de données. (Source)

3. Cas limites cachés dans les environnements réels

Même lorsque les modèles de vision par ordinateur s'adaptent bien à de nouvelles données, les environnements réels peuvent néanmoins présenter des cas limites inattendus. Il s'agit de situations inhabituelles qui s'écartent des schémas typiques que le modèle apprend pendant l'entraînement. 

Bon nombre de ces scénarios sont difficiles à prendre en compte lors du développement, car ils se produisent rarement, sont difficiles à reproduire ou peuvent s'avérer coûteux à collecter en tant que données d'apprentissage. Par exemple, les objets peuvent présenter des formes inhabituelles, se déplacer de manière imprévisible ou être partiellement masqués par d'autres objets. 

Les variations de l'éclairage, des angles de prise de vue ou des conditions d'arrière-plan peuvent également créer des situations qui compliquent la reconnaissance. Ces cas limites ne sont souvent détectés qu'une fois le système déployé dans des applications concrètes. 

En robotique et dans l'automatisation industrielle, par exemple, les objets peuvent être placés ou positionnés différemment de ce qui était prévu, ce qui crée des situations pour lesquelles le modèle n'a pas été conçu. Au final, des prévisions qui semblaient fiables lors des tests peuvent s'avérer moins cohérentes une fois que le système fonctionne dans des environnements réels.

4. Absence de suivi et de débogage après le déploiement 

Outre le développement d'un modèle d'IA visuelle, il est essentiel de surveiller et d'améliorer ses performances. Cependant, une fois le système opérationnel, l'accent est souvent mis sur le simple maintien de son fonctionnement plutôt que sur le suivi minutieux de ses performances au fil du temps. De ce fait, les changements dans le comportement du modèle peuvent passer inaperçus.

Parallèlement, des facteurs tels que les variations des données entrantes, les réglages des caméras ou les conditions d'exploitation peuvent progressivement altérer la précision avec laquelle le modèle détecte ou classe les objets. Ces changements ne sont pas toujours évidents et peuvent passer inaperçus dans le cadre de l'exploitation quotidienne.

Le suivi des résultats des modèles et du comportement global du système peut aider les équipes à détecter ces problèmes plus tôt. Des contrôles réguliers, des routines de validation et des procédures de débogage permettent aux équipes d'examiner les résultats inhabituels et d'en comprendre les causes possibles. 

Prenons l'exemple du secteur manufacturier: il peut arriver qu'un modèle se mette soudainement à identifier de manière erronée des objets sur une chaîne de montage à la suite d'un changement de configuration des caméras. track un système d'IA de vision déployé, il est plus facile de s'adapter à ces changements et de maintenir des performances stables dans des environnements réels.

5. Contraintes liées à l'infrastructure et latence

De nombreux systèmes de vision par ordinateur doivent fonctionner en temps réel, ce qui peut exercer une pression considérable sur le matériel, les réseaux et les chaînes de traitement. Lorsque les ressources sont limitées, des retards de calcul ou une latence réseau peuvent survenir, ce qui ralentit la génération des prédictions et nuit aux performances globales du système.

Dans certains cas, les modèles avancés d'apprentissage profond peuvent également poser des défis en matière d'infrastructure. Par exemple, les architectures basées sur les transformateurs sont conçues pour traiter de grandes quantités de données visuelles et apprendre des relations complexes au sein des images, mais elles nécessitent souvent des ressources informatiques considérables. L'exécution de ces modèles peut nécessiter du matériel plus puissant ou plus coûteux.

Sans une optimisation adéquate, même les modèles qui s'exécutent rapidement pendant les tests peuvent ralentir ou présenter un comportement irrégulier après leur déploiement. Pour remédier à cela, les équipes optimisent souvent les pipelines, réduisent la complexité des modèles dans la mesure du possible et trouvent un équilibre entre précision et rapidité. 

Cela peut passer par la compression de modèles volumineux en versions allégées, l'utilisation d'architectures plus efficaces ou le traitement des images à des résolutions inférieures afin que le système fonctionne correctement sur le matériel disponible. Dans de nombreux cas, les équipes optent également pour des modèles légers et plus rapides, tels que Ultralytics , afin de respecter les contraintes de déploiement.

Bonnes pratiques pour éviter les défaillances des modèles de vision par ordinateur

Voici quelques bonnes pratiques qui peuvent contribuer à réduire les défaillances lors du déploiement de modèles de vision par ordinateur en production :

  • Adoptez des stratégies de déploiement par étapes: mettez progressivement les modèles en production afin que les équipes puissent observer leur comportement et apporter des ajustements si nécessaire.
  • Intégrer des boucles de rétroaction: collecter de nouvelles images et analyser les prédictions erronées afin de réentraîner les modèles à l'aide d'ensembles de données mis à jour et d'améliorer leurs performances au fil du temps.
  • Limites du modèle de documentation : répertorier clairement les situations dans lesquelles le modèle peut rencontrer des difficultés afin que les équipes puissent anticiper les problèmes potentiels lors du déploiement.
  • Conception tenant compte des variations réelles: anticiper les variations de luminosité, d'angles de prise de vue, de disposition des objets ou de conditions d'arrière-plan peut contribuer à la stabilité des modèles dans différents scénarios d'utilisation.

Principaux points à retenir

Les modèles de vision par ordinateur échouent rarement parce que les algorithmes eux-mêmes sont déficients. Dans la plupart des cas, le véritable défi réside dans les environnements dans lesquels ces systèmes fonctionnent. Les modèles qui donnent de bons résultats pendant l'entraînement sont souvent confrontés à des conditions imprévisibles dans le monde réel, susceptibles d'influencer leur comportement.

C'est pourquoi la mise en place de systèmes d'IA visuelle fiables ne se limite pas à l'entraînement d'un modèle. Elle implique également de préparer minutieusement les ensembles de données, de surveiller les performances du modèle après son déploiement et d'adapter en permanence les systèmes aux conditions réelles. 

Vous souhaitez approfondir vos connaissances en matière d'IA appliquée à la vision ? Rejoignez notre communauté et découvrez des applications telles que l'IA dans le secteur automobile et la vision par ordinateur dans la logistique. Consultez nos options de licence pour vous lancer dans des projets de vision par ordinateur. Rendez-vous sur notre dépôt GitHub pour en savoir plus. 

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique