Découvrez comment l'OCR convertit les images et les PDF en texte consultable et modifiable en utilisant l'IA et YOLO11 pour une détection et une extraction de texte rapides et précises.
La reconnaissance optique de caractères (OCR) est une technologie essentielle dans le domaine de la vision par ordinateur qui permet de convertir différents types de caractères. de la vision par ordinateur qui convertit différents types de documents, tels que des documents papier scannés, des fichiers PDF ou des images capturées par un appareil photo numérique, en données modifiables et consultables. modifiables et consultables. En comblant le fossé entre le papier physique et les données numériques, l'OCR permet aux machines de "lire" et de traiter le texte d'une manière qui n'était pas possible auparavant. et de traiter du texte d'une manière qui était historiquement limitée aux capacités humaines. Alors que les premières versions s'appuyaient sur une simple de modèles, l'OCR moderne s'appuie sur des techniques avancées d'apprentissage apprentissage automatique et d'apprentissage automatique et d'apprentissage profond pour traiter des polices de caractères complexes, l'écriture manuscrite et les caractères bruyants, l'écriture manuscrite et les arrière-plans bruyants avec une précision remarquable.
Les systèmes d'OCR contemporains fonctionnent comme un pipeline à plusieurs étapes qui transforme les données visuelles brutes en informations structurées. structurées. Ce processus a considérablement évolué, passant d'une mise en correspondance rigide de modèles à des approches flexibles basées sur l'intelligence artificielle.
L'intégration de l'OCR à d'autres disciplines de l'IA a conduit à une automatisation généralisée dans divers secteurs.
Dans l'infrastructure des villes intelligentes, l'OCR est le moteur de la reconnaissance automatique des plaques d'immatriculation. Reconnaissance automatisée des plaques d'immatriculation. Un détecteur d'objets identifie d'abord le véhicule et la plaque d'immatriculation dans une image vidéo. Ensuite, les algorithmes d'OCR extraient les caractères alphanumériques afin de les recouper avec des bases de données pour la perception des péages ou la surveillance de la sécurité. la surveillance de la sécurité. Cela nécessite des capacités d'inférence en temps réel pour traiter les données. des capacités d'inférence en temps réel pour traiter des données de trafic à grande vitesse.
Les secteurs financier et juridique utilisent l'OCR pour l 'analyse intelligente des documents. Au lieu de saisir manuellement les données, les systèmes d'IA scannent les factures, les reçus et les contrats. En combinant l'OCR avec la reconnaissance d'entités nommées (NER), ces systèmes peuvent systèmes peuvent extraire automatiquement des champs spécifiques tels que les dates, les noms des fournisseurs et les montants totaux, ce qui réduit considérablement les frais administratifs et le temps de latence de l'inférence. les frais administratifs et le temps de latence de l'inférence.
Il est important de distinguer l'OCR de la de la classification d'images. Alors que la classification d'images d'image catégorise une image entière (par exemple, en la qualifiant de "document" ou de "plaque de rue"), l'OCR est granulaire ; elle localise et identifie la séquence spécifique de caractères à l'intérieur de cette image. ou "panneau de signalisation"), l'OCR est granulaire ; elle localise et identifie la séquence spécifique de caractères à l'intérieur de cette image. l'image. De même, l'OCR diffère de la détection d'objets standard, d'objet standard, qui pourrait trouver un "panneau stop" comme classe d'objet, alors que l'OCR lirait les lettres "S-T-O-P" sur le panneau. sur le panneau.
Un flux de travail courant utilise un modèle YOLO pour detect régions de texte avant de les transmettre à un moteur de reconnaissance (tel que le moteur YOLO moteur d'OCR open-source Tesseract). L'exemple suivant montre comment charger un modèle pré-entraîné pour detect objets qui contiennent généralement du texte, tels que des plaques d'immatriculation ou des panneaux de signalisation. plaques d'immatriculation ou les panneaux de signalisation.
from ultralytics import YOLO
# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")
# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)
# Display the detected class names (e.g., 'stop sign')
for r in results:
print(f"Detected classes: {r.boxes.cls}")
Pour explorer les ensembles de données fondamentaux qui ont été à l'origine des premières recherches sur l'OCR, la base de données MNIST, qui contient des chiffres manuscrits, a été utilisée. base de donnéesMNIST de chiffres manuscrits est une ressource classique. Pour ceux qui s'intéressent à l'évolution de la technologie, l'histoire du projet projet Tesseract donne un aperçu des contributions à open-source. Les solutions modernes basées sur le cloud, telles que Google Cloud Vision API et Amazon Textract représentent l'état de l'art actuel en matière de services d'OCR gérés. En outre, la recherche sur la reconnaissance de texte sur scène continue de repousser les limites, permettant à l'IA de lire du texte dans des environnements "sauvages" sans contraintes. de repousser les limites, permettant à l'IA de lire des textes dans des environnements "sauvages" sans contraintes.