Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Reconnaissance optique de caractères (OCR)

Découvrez comment l'OCR convertit les images et les PDF en texte consultable et modifiable en utilisant l'IA et YOLO11 pour une détection et une extraction de texte rapides et précises.

La reconnaissance optique de caractères (ROC) est une technologie qui convertit différents types de documents, tels que des documents papier scannés, des PDF ou des images capturées par un appareil photo numérique, en données modifiables et consultables. Initialement développée pour aider les malvoyants en transformant le texte imprimé en parole, l'OCR est devenue la pierre angulaire de la transformation numérique dans divers secteurs d'activité. En tirant parti des progrès de l'intelligence artificielle (IA) et de la vision par ordinateur, les systèmes d'OCR modernes peuvent reconnaître des textes dans un large éventail de polices, de langues et même de styles d'écriture manuscrite avec une précision remarquable.

Comment fonctionne la reconnaissance optique de caractères

Le processus de conversion d'une image en texte numérique comporte plusieurs étapes clés. Les pipelines d'OCR modernes, améliorés par l'apprentissage profond, sont beaucoup plus robustes que les premiers systèmes de correspondance de modèles.

  • Prétraitement de l'image: La première étape consiste à nettoyer et à améliorer la qualité de l'image source. Des techniques telles que l'ajustement de la luminosité et du contraste, la réduction du bruit et la netteté de l'image sont appliquées pour rendre le texte plus clair et plus facile à détecter. Cette étape est cruciale, en particulier lorsqu'il s'agit de scans de faible qualité ou d'images prises dans de mauvaises conditions d'éclairage.
  • Détection de texte: Avant de reconnaître les caractères, le système doit localiser le texte dans l'image. Pour ce faire, on utilise souvent de puissants modèles de détection d'objets, tels que Ultralytics YOLO11, qui peuvent identifier et isoler des blocs de texte, des lignes ou des mots individuels.
  • Reconnaissance de caractères: Une fois les zones de texte détectées, un réseau neuronal entraîné sur de vastes ensembles de données de caractères analyse les formes et les motifs pour identifier chaque lettre et chaque chiffre. C'est là qu'entrent en jeu des outils tels que le moteur Tesseract à code source ouvert, développé à l'origine par HP et aujourd'hui maintenu par Google.
  • Le post-traitement: La dernière étape consiste à convertir les caractères reconnus en texte structuré et utilisable. Il peut s'agir de modéliser le langage pour corriger les erreurs ou de formater la sortie dans un format spécifique tel que JSON ou XML pour faciliter l'intégration avec d'autres logiciels.

ROC et tâches connexes de vision par ordinateur

Bien que l'OCR soit une technologie hautement spécialisée, elle est étroitement liée à d'autres tâches de vision par ordinateur. Il est important de comprendre son rôle unique.

L'OCR est fondamentalement différente de la reconnaissance d'images au sens large. Alors que la reconnaissance d'images vise à identifier des objets, des scènes et des visages dans une image, l'OCR se concentre exclusivement sur l'interprétation de caractères textuels. Toutefois, ces technologies fonctionnent souvent ensemble. Par exemple, une application peut utiliser la reconnaissance d'images pour identifier un panneau de signalisation, puis utiliser l'OCR pour lire le texte de ce panneau. De même, dans l'analyse de documents, un modèle de détection d'objets identifie d'abord l'emplacement d'une signature ou d'un numéro de facture avant que l'OCR ne soit appliquée pour extraire l'information spécifique.

Applications concrètes

La combinaison de la vision par ordinateur et de l'OCR a permis d'améliorer l'efficacité et l'automatisation dans de nombreux secteurs.

  • Reconnaissance automatique des plaques d'immatriculation (RAPI) : Dans le domaine de la gestion du trafic et de l'application de la loi, les systèmes de reconnaissance automatique des plaques d'immatriculation utilisent des modèles de détection d'objets pour localiser la plaque d'immatriculation d'un véhicule dans une image ou un flux vidéo. Une fois la plaque isolée, la technologie OCR lit les caractères alphanumériques et les convertit en texte lisible par une machine pour la consultation de bases de données, la perception de péages ou le suivi de véhicules volés.
  • Traitement des factures et des reçus: Les services financiers et le commerce de détail font appel à l'OCR pour automatiser le traitement des factures, des reçus et des relevés bancaires. Un modèle de vision artificielle peut détecter des champs clés tels que le nom du vendeur, la date et le montant total d'une facture. L'OCR extrait ensuite le texte de ces zones spécifiques, éliminant ainsi la saisie manuelle des données, réduisant les erreurs et accélérant les cycles de paiement.

D'autres applications importantes comprennent la numérisation d'archives historiques à des fins de préservation et de recherche, la rationalisation de la gestion des dossiers des patients dans le secteur de la santé et la vérification de l'identité par l'extraction de données à partir de passeports et de cartes d'identité. Des bibliothèques populaires à code source ouvert comme EasyOCR et PaddleOCR ont rendu cette technologie encore plus accessible aux développeurs pour qu'ils l'intègrent dans leurs applications.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers