Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Qu'est-ce que l'informatique visuelle ? Une brève introduction

Découvrez ce qu'est l'informatique visuelle, comment elle fonctionne et comment elle est appliquée dans les domaines de la santé, de la conduite autonome et d'autres systèmes intelligents modernes.

Lorsque vous vous promenez dans un centre commercial ou dans une rue très fréquentée, des caméras installées au-dessus des entrées et des allées enregistrent l'activité. Elles génèrent des données visuelles à chaque seconde, et la plupart du temps, nous ne le remarquons même pas.

Ce flux constant de données alimente les systèmes modernes basés sur l'IA, des systèmes de sécurité intelligents aux voitures autonomes. Ces innovations sont rendues possibles grâce à l'imagerie informatique, un domaine polyvalent qui combine l'informatique, les mathématiques et la physique.

Le traitement d'images aide les machines à comprendre ce qu'elles voient dans une image. Il permet aux systèmes de reconnaître ce qui se passe dans une scène et de décider comment fonctionner ou réagir, par exemple en arrêtant une voiture autonome lorsqu'un obstacle apparaît.

Dans cet article, nous allons explorer ce qu'est l'informatique visuelle et comment elle est utilisée dans les systèmes d'intelligence artificielle (IA) de pointe. C'est parti !

Comprendre l'informatique visuelle

Le traitement d'images est le processus qui consiste à capturer, traiter et analyser des images à l'aide d'algorithmes avancés. Il traite les images comme des données que les machines peuvent comprendre et exploiter.

En d'autres termes, chaque image est traitée comme une grille de chiffres. Pour ce faire, les pixels, qui sont les plus petites unités d'une image, sont convertis en une matrice composée de lignes et de colonnes. Chaque pixel a une valeur numérique qui indique à la machine le degré de luminosité ou d'obscurité d'une zone spécifique de l'image.

La manière dont ces valeurs sont organisées dépend du type d'image : en niveaux de gris ou en couleurs. Dans les images en niveaux de gris, les valeurs des pixels vont généralement de 0 (noir) à 255 (blanc). Dans les images en couleurs, plusieurs matrices sont utilisées pour représenter les différents canaux de couleur, tels que le rouge, le vert et le bleu (RVB) ou la teinte, la saturation et la valeur (HSV).

Fig. 1. Représentations matricielles des images (Source)

En plus des matrices de pixels, une image contient souvent des informations contextuelles cachées, appelées métadonnées. Les métadonnées fournissent des détails importants tels que la résolution de l'image, la profondeur de bits, les réglages de l'appareil photo ou du capteur, et l'heure exacte à laquelle l'image a été prise. Les images sont stockées dans des formats de fichiers spécifiques afin de préserver à la fois les données visuelles et les métadonnées.

Par exemple, dans le domaine de l'imagerie biomédicale, les images sont généralement stockées au format DICOM (Digital Imaging and Communications in Medicine). Le format DICOM combine les données d'images visuelles avec les informations relatives aux patients, telles que les détails d'identification et les paramètres des équipements, garantissant ainsi la précision, la cohérence et la sécurité de l'analyse des images médicales.

Comment fonctionne le traitement d'images

Maintenant que nous comprenons mieux ce qu'est l'informatique visuelle, passons en revue les étapes nécessaires pour convertir les images capturées par une caméra en informations utiles.

Bien que le déroulement exact puisse varier selon l'application, la plupart des systèmes de traitement d'images suivent les étapes principales suivantes :

  • Acquisition d'images: tout d'abord, les données visuelles sont capturées à l'aide de caméras et de capteurs ou collectées à partir d'ensembles de données d'images open source.
  • Prétraitement des images: ensuite, les images acquises sont redimensionnées, débruitées, améliorées et converties dans un espace colorimétrique spécifique afin de normaliser les entrées.
  • Extraction de caractéristiques: des algorithmes d'apprentissage profond sont utilisés pour apprendre les motifs importants dans l'image, tels que les contours, les formes et les textures.
  • Interprétation: les caractéristiques extraites sont analysées afin d'effectuer des tâches telles que la détection d'objets, la segmentation d'images et le suivi d'objets.
  • Sortie: enfin, le système génère des sorties structurées, telles que des étiquettes de classe ou des cadres de sélection, et les présente d'une manière facile à comprendre et à utiliser pour la visualisation par les personnes ou d'autres systèmes.

Calcul d'images vs vision par ordinateur vs traitement d'images

Lorsque vous abordez le domaine de l'informatique visuelle, vous pouvez également rencontrer des termes tels que « traitement d'images » et « vision par ordinateur ». Bien que ces termes soient souvent utilisés de manière interchangeable, ils décrivent différentes façons dont les systèmes d'IA interagissent avec les données visuelles.

Par exemple, le traitement d'images se concentre sur l'amélioration des images ou la qualité des images d'entrée à l'aide d'opérations de base telles que la suppression du bruit, le redimensionnement et le réglage du contraste. Quant à la vision par ordinateur, qui est une branche de l'IA, elle s'appuie sur le traitement d'images pour permettre aux machines de reconnaître des objets, d'interpréter des scènes et de comprendre ce qui se passe dans des images ou des vidéos.

L'informatique visuelle combine le traitement d'images et la vision par ordinateur afin de transformer les données visuelles en résultats significatifs et exploitables pour les systèmes intelligents.

Fig. 2. Traitement d'images, vision par ordinateur et calcul d'images. Image réalisée par l'auteur.

Comment l'informatique visuelle est mise en œuvre aujourd'hui

Voyons maintenant comment l'informatique visuelle est mise en œuvre aujourd'hui.

Au début de l'informatique visuelle, les caractéristiques telles que les contours, les angles et les textures étaient définies manuellement à l'aide d'algorithmes basés sur des règles et conçus à la main. Si ces méthodologies fonctionnaient assez bien dans des environnements contrôlés, elles avaient du mal à s'adapter à des conditions complexes et réelles.

Les systèmes informatiques modernes de traitement d'images pallient ces limites en utilisant des approches basées sur l'apprentissage profond. Des modèles tels que les réseaux neuronaux convolutifs (CNN) et les transformateurs de vision apprennent automatiquement les caractéristiques pertinentes à partir de grands ensembles de données d'images. Cela leur permet d'effectuer des tâches telles que la détection d'objets, la segmentation d'instances et le suivi d'objets avec une plus grande précision et une plus grande robustesse.

Aujourd'hui, les flux de travail liés au traitement des images s'appuient souvent sur des modèles de vision en temps réel conçus pour être déployés dans des systèmes d'IA de pointe. Par exemple, les modèles d'IA visuelle tels que Ultralytics permettent des capacités de vision par ordinateur rapides et efficaces, telles que la détection d'objets et la segmentation d'instances, à la fois sur les appareils périphériques et dans les environnements cloud.

Fig. 3. Exemple d'utilisation de YOLO26 pour detect segment dans une image.

Applications concrètes de l'informatique visuelle

L'informatique visuelle est largement utilisée dans des applications concrètes pour comprendre et exploiter les données visuelles. Découvrons comment l'informatique visuelle est appliquée dans différents domaines.

Imagerie médicale pour la détection précoce des maladies

L'imagerie informatique peut aider les médecins et les cliniciens à détecter plus tôt les maladies et à analyser plus efficacement les examens médicaux. Ces systèmes de santé innovants peuvent traiter rapidement les données d'imagerie médicale telles que les radiographies et les examens par imagerie par résonance magnétique (IRM) et fournissent souvent des résultats plus cohérents que l'examen manuel.

Par exemple, des modèles tels que Ultralytics peuvent être entraînés à partir de vastes ensembles d'images radiographiques thoraciques afin d'apprendre à reconnaître les schémas associés aux infections et aux anomalies. Une fois entraînés, ces modèles peuvent aider à déterminer si un scanner semble normal ou s'il présente des signes de pathologies telles que la pneumonie ou la COVID-19.

Traitement d'images pour la conduite autonome

Les véhicules autonomes utilisent l'informatique visuelle pour comprendre ce qui se passe autour d'eux et prendre des décisions de conduite. Cette technologie transforme les images brutes capturées par les caméras en informations en temps réel qui aident le véhicule à se déplacer de manière sûre et fluide.

L'imagerie informatique est couramment utilisée dans les systèmes avancés d'aide à la conduite (ADAS). Au lieu de simplement enregistrer des vidéos, ces modules analysent chaque image afin de repérer les marquages au sol, les autres véhicules, les piétons et les obstacles. Cela permet à la voiture de réagir aux conditions routières changeantes avec une intervention humaine minimale.

Une autre utilisation courante consiste à combiner les images provenant de plusieurs caméras afin de créer une vue à 360 degrés de l'environnement du véhicule. Le traitement d'images permet de corriger la distorsion de l'objectif, d'améliorer la clarté de l'image et d'équilibrer la luminosité et les couleurs sur toutes les images provenant des caméras. Il en résulte une vue claire et homogène qui permet au véhicule de rouler en toute sécurité, même par mauvais temps ou dans des conditions de faible luminosité.

Fig. 4. Assemblage d'images à l'aide de l'apprentissage profond (Source)

Avantages et inconvénients de l'informatique d'image

Voici quelques-uns des avantages de l'informatique d'image :

  • Évolutivité : une fois formés, les systèmes informatiques d'analyse d'images peuvent analyser en continu et à grande échelle de grands volumes de données visuelles.
  • Prise de décision: il prend en charge les applications où le temps est un facteur critique, telles que la conduite autonome, le dépistage médical et la surveillance industrielle.
  • Rentabilité à long terme : bien que la mise en place initiale puisse être coûteuse, l'analyse visuelle automatisée peut réduire les coûts opérationnels à long terme.

Bien que l'informatique d'image présente de nombreux avantages, elle comporte également certaines limites. Voici quelques facteurs à prendre en considération :

  • Qualité des données: les méthodes d'imagerie informatique dépendent fortement d'un étiquetage précis et de jeux de données de haute qualité, dont la création peut être coûteuse et fastidieuse.
  • Sensibilité aux conditions : les changements d'éclairage, d'occlusion, de flou de mouvement, de météo ou d'angles de caméra peuvent avoir un impact négatif sur les performances du modèle.
  • Explicabilité limitée : les modèles d'images basés sur l'apprentissage profond peuvent agir comme des boîtes noires, ce qui rend difficile l'explication du processus décisionnel.

Principaux points à retenir

L'informatique visuelle a évolué, passant du simple traitement d'images à une technologie qui permet aux systèmes d'IA de percevoir et de comprendre le monde réel en temps réel. À mesure que l'apprentissage profond continue de progresser, l'informatique visuelle devient un élément essentiel de la création d'outils et d'applications plus intelligents et plus pratiques.

Rejoignez notre communauté et consultez notre référentiel GitHub pour en savoir plus sur l'IA. Explorez nos pages Solutions pour découvrir les applications de l'IA dans l'agriculture et de la vision par ordinateur dans la logistique. Découvrez nos options de licence et commencez à créer des modèles Vision AI.

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement