Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
IA de vision

Une histoire des modèles de vision

Explore l'histoire, les réalisations, les défis et les orientations futures des modèles de vision.

MOMostafa Ibrahim
5 min read
Une histoire des modèles de vision

Link to this sectionQu'est-ce que la vision par ordinateur#

Imagine que tu entres dans un magasin où une caméra identifie ton visage, analyse ton humeur et suggère des produits adaptés à tes préférences, le tout en temps réel. Ce n'est pas de la science-fiction, mais une réalité rendue possible par les modèles de vision modernes. Selon un rapport de Fortune Business Insight, la taille du marché mondial de la vision par ordinateur était évaluée à 20,31 milliards USD en 2023 et devrait passer de 25,41 milliards USD en 2024 à 175,72 milliards USD d'ici 2032, reflétant les progrès rapides et l'adoption croissante de cette technologie dans diverses industries.

Le domaine de la vision par ordinateur permet aux ordinateurs de détecter, d'identifier et d'analyser des objets dans des images. À l'instar d'autres domaines liés à l'IA, la vision par ordinateur a connu une évolution rapide au cours des dernières décennies, réalisant des avancées remarquables.

L'histoire de la vision par ordinateur est vaste. À ses débuts, les modèles de vision étaient capables de détecter des formes et des contours simples, souvent limités à des tâches basiques comme la reconnaissance de motifs géométriques ou la distinction entre des zones claires et sombres. Cependant, les modèles d'aujourd'hui peuvent effectuer des tâches complexes telles que la détection d'objets en temps réel, la reconnaissance faciale, et même interpréter les émotions à partir d'expressions faciales avec une précision et une efficacité exceptionnelles. Cette progression spectaculaire souligne les progrès incroyables réalisés en matière de puissance de calcul, de sophistication algorithmique et de disponibilité de vastes quantités de données pour l'entraînement.

Dans cet article, nous explorerons les étapes clés de l'évolution de la vision par ordinateur. Nous parcourrons ses débuts, plongerons dans l'impact transformateur des réseaux de neurones convolutifs (CNN) et examinerons les avancées significatives qui ont suivi.

Link to this sectionLes débuts de la vision par ordinateur#

Comme pour les autres domaines de l'IA, le développement précoce de la vision par ordinateur a commencé par de la recherche fondamentale et des travaux théoriques. Une étape importante fut le travail pionnier de Lawrence G. Roberts sur la reconnaissance d'objets 3D, documenté dans sa thèse "Machine Perception of Three-Dimensional Solids" au début des années 1960. Ses contributions ont jeté les bases des avancées futures dans le domaine.

Link to this sectionLes premiers algorithmes - détection de contours#

La recherche initiale en vision par ordinateur s'est concentrée sur des techniques de traitement d'image, telles que la détection de contours et l'extraction de caractéristiques. Des algorithmes comme l'opérateur de Sobel, développé à la fin des années 1960, furent parmi les premiers à détecter les contours en calculant le gradient de l'intensité de l'image.

Une image illustrant la détection de contours

Fig 1. Une image illustrant la détection de contours, où le côté gauche montre l'objet original et le côté droit affiche la version avec les contours détectés.

Des techniques comme les détecteurs de contours de Sobel et de Canny ont joué un rôle crucial dans l'identification des frontières au sein des images, ce qui est essentiel pour reconnaître des objets et comprendre des scènes.

Link to this sectionApprentissage automatique et vision par ordinateur#

Link to this sectionReconnaissance de formes#

Dans les années 1970, la reconnaissance de formes est devenue un domaine clé de la vision par ordinateur. Les chercheurs ont développé des méthodes pour reconnaître des formes, des textures et des objets dans les images, ce qui a ouvert la voie à des tâches de vision plus complexes.

Reconnaissance de motifs

Fig 2. Reconnaissance de formes.

L'une des premières méthodes de reconnaissance de formes impliquait le matching de modèles (template matching), où une image est comparée à un ensemble de modèles pour trouver la meilleure correspondance. Cette approche était limitée par sa sensibilité aux variations d'échelle, de rotation et de bruit.

Correspondance de modèles dans une image

Fig 3. Un modèle sur le côté gauche trouvé dans l'image de droite.

Les premiers systèmes de vision par ordinateur étaient limités par la puissance de calcul réduite de l'époque. Les ordinateurs des années 1960 et 1970 étaient encombrants, coûteux et dotés de capacités de traitement limitées.

Link to this sectionChanger la donne avec le Deep Learning#

Link to this sectionDeep Learning et réseaux de neurones convolutifs#

Le deep learning et les réseaux de neurones convolutifs (CNN) ont marqué un tournant décisif dans le domaine de la vision par ordinateur. Ces avancées ont radicalement transformé la manière dont les ordinateurs interprètent et analysent les données visuelles, permettant une large gamme d'applications auparavant jugées impossibles.

Link to this sectionComment fonctionnent les CNN ?#

Architecture d'un réseau de neurones convolutif (CNN)

Fig 4. Architecture d'un réseau de neurones convolutif (CNN).

  1. Couches convolutives : Les CNN utilisent des couches convolutives, qui sont un type de modèle de deep learning conçu pour traiter des données structurées sous forme de grille, comme des images ou des séquences, en apprenant automatiquement des modèles hiérarchiques, pour scanner une image en utilisant des filtres ou des noyaux. Ces filtres détectent diverses caractéristiques telles que les contours, les textures et les couleurs en glissant sur l'image et en calculant des produits scalaires. Chaque filtre active des modèles spécifiques dans l'image, permettant au modèle d'apprendre des caractéristiques hiérarchiques.
  2. Fonctions d'activation : Après la convolution, des fonctions d'activation comme ReLU (Rectified Linear Unit), qui est une fonction d'activation populaire en deep learning, renvoient l'entrée directement si elle est positive, et zéro sinon, aidant les réseaux de neurones à apprendre des relations non linéaires dans les données de manière efficace. Cela aide le réseau à apprendre des modèles et des représentations complexes.
  3. Couches de pooling : Les couches de pooling fournissent une opération de sous-échantillonnage qui réduit la dimensionnalité de la carte de caractéristiques, aidant à extraire les caractéristiques les plus pertinentes tout en réduisant le coût computationnel et le surapprentissage.
  4. Couches entièrement connectées : Les dernières couches d'un CNN sont des couches entièrement connectées qui interprètent les caractéristiques extraites par les couches convolutives et de pooling pour effectuer des prédictions. Ces couches sont similaires à celles des réseaux de neurones traditionnels.

Link to this sectionÉvolution des modèles de vision CNN#

Le parcours des modèles de vision a été vaste, mettant en avant certains des plus notables :

  • LeNet (1989) : LeNet fut l'une des premières architectures CNN, principalement utilisée pour la reconnaissance de chiffres sur des chèques manuscrits. Son succès a jeté les bases de CNN plus complexes, prouvant le potentiel du deep learning dans le traitement d'image.

  • AlexNet (2012) : AlexNet a surpassé de manière significative les modèles existants lors de la compétition ImageNet, démontrant la puissance du deep learning. Ce modèle utilisait les activations ReLU, le dropout et l'augmentation de données, établissant de nouveaux standards dans la classification d'images et suscitant un intérêt généralisé pour les CNN.

  • VGGNet (2014) : En utilisant des filtres convolutifs plus petits (3x3), VGGNet a obtenu des résultats impressionnants sur les tâches de classification d'images, renforçant l'importance de la profondeur du réseau pour atteindre une plus grande précision.

  • ResNet (2015) : ResNet a résolu le problème de dégradation dans les réseaux profonds en introduisant l'apprentissage résiduel. Cette innovation a permis l'entraînement de réseaux beaucoup plus profonds, menant à des performances de pointe dans diverses tâches de vision par ordinateur.

  • YOLO (You Only Look Once) : YOLO a révolutionné la détection d'objets en la formulant comme un problème de régression unique, prédisant directement les bounding boxes et les probabilités de classe à partir d'images complètes en une seule évaluation. Cette approche a permis une détection d'objets en temps réel avec une vitesse et une précision sans précédent, la rendant adaptée aux applications nécessitant un traitement instantané, telles que la conduite autonome et la surveillance.

Link to this sectionApplications de la vision par ordinateur#

Link to this sectionSanté#

Les utilisations de la vision par ordinateur sont nombreuses. Par exemple, des modèles de vision comme Ultralytics YOLOv8 sont utilisés en imagerie médicale pour détecter des maladies telles que le cancer et la rétinopathie diabétique. Ils analysent les radiographies, les IRM et les scanners avec une grande précision, identifiant les anomalies précocement. Cette capacité de détection précoce permet des interventions rapides et de meilleurs résultats pour les patients.

Détection de tumeur cérébrale utilisant Ultralytics YOLOv8

Fig 5. Détection de tumeur cérébrale utilisant Ultralytics YOLOv8.

Link to this sectionPréservation de l'environnement#

Les modèles de vision par ordinateur aident à surveiller et à protéger les espèces en voie de disparition en analysant des images et des vidéos provenant d'habitats sauvages. Ils identifient et suivent le comportement des animaux, fournissant des données sur leur population et leurs déplacements. Cette technologie éclaire les stratégies de conservation et les décisions politiques pour protéger des espèces comme les tigres et les éléphants.

Avec l'aide de l'IA visuelle, d'autres menaces environnementales telles que les feux de forêt et la déforestation peuvent être surveillées, garantissant des temps de réponse rapides de la part des autorités locales.

Une image satellite d'un feu de forêt

Fig 6. Une image satellite d'un feu de forêt.

Link to this sectionDéfis et orientations futures#

Bien qu'ils aient déjà accompli des prouesses significatives, en raison de leur extrême complexité et de la nature exigeante de leur développement, les modèles de vision font face à de nombreux défis qui nécessitent une recherche continue et des avancées futures.

Link to this sectionInterprétabilité et explicabilité#

Les modèles de vision, surtout ceux basés sur le deep learning, sont souvent perçus comme des "boîtes noires" avec une transparence limitée. Cela est dû au fait que ces modèles sont incroyablement complexes. Le manque d'interprétabilité entrave la confiance et la responsabilité, notamment dans les applications critiques comme la santé par exemple.

Link to this sectionExigences computationnelles#

L'entraînement et le déploiement de modèles d'IA de pointe exigent des ressources computationnelles importantes. C'est particulièrement vrai pour les modèles de vision, qui nécessitent souvent le traitement de grandes quantités de données d'images et de vidéos. Les images et vidéos haute définition, étant parmi les entrées d'entraînement les plus gourmandes en données, ajoutent au fardeau computationnel. Par exemple, une seule image HD peut occuper plusieurs mégaoctets de stockage, rendant le processus d'entraînement intensif en ressources et chronophage.

Cela nécessite un matériel puissant et des algorithmes de vision par ordinateur optimisés pour gérer les données étendues et les calculs complexes impliqués dans le développement de modèles de vision efficaces. La recherche sur des architectures plus efficaces, la compression de modèles et les accélérateurs matériels comme les GPU et les TPU sont des domaines clés qui feront progresser l'avenir des modèles de vision.

Ces améliorations visent à réduire les demandes computationnelles et à augmenter l'efficacité du traitement. De plus, exploiter des modèles pré-entraînés avancés comme YOLOv8 peut réduire considérablement le besoin d'un entraînement extensif, rationalisant le processus de développement et améliorant l'efficacité.

Link to this sectionUn paysage en constante évolution#

De nos jours, les applications des modèles de vision sont répandues, allant de la santé, comme la détection de tumeurs, aux utilisations quotidiennes comme la surveillance du trafic. Ces modèles avancés ont apporté de l'innovation à d'innombrables industries en offrant une précision, une efficacité et des capacités améliorées qui étaient auparavant inimaginables.

Alors que la technologie continue de progresser, le potentiel des modèles de vision pour innover et améliorer divers aspects de la vie et de l'industrie reste illimité. Cette évolution constante souligne l'importance de poursuivre la recherche et le développement dans le domaine de la vision par ordinateur.

Curieux de connaître l'avenir de l'IA visuelle ? Pour plus d'informations sur les dernières avancées, explore les Ultralytics Docs, et jette un œil à leurs projets sur le Ultralytics GitHub et le YOLOv8 GitHub. De plus, pour des perspectives sur les applications de l'IA à travers diverses industries, les pages de solutions sur les Voitures Autonomes et la Fabrication offrent des informations particulièrement utiles.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique