Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Riconoscimento ottico dei caratteri (OCR)

Scoprite come l'OCR converte immagini e PDF in testo ricercabile e modificabile utilizzando l'AI e YOLO11 per un rilevamento e un'estrazione del testo rapidi e accurati.

Il riconoscimento ottico dei caratteri (OCR) è una tecnologia fondamentale nell'ambito della che converte diversi tipi di documenti, come documenti cartacei scannerizzati, file PDF o immagini catturate da una fotocamera digitale, in documenti modificabili e documenti, come documenti cartacei scansionati, file PDF o immagini catturate da una fotocamera digitale, in dati modificabili e ricercabili. dati modificabili e ricercabili. Colmando il divario tra la carta fisica e i dati digitali, l'OCR consente alle macchine di "leggere" ed elaborare il testo in un modo che prima non esisteva. e di elaborare il testo in un modo che storicamente era limitato alle capacità umane. Mentre le prime versioni si basavano sulla semplice modelli, l'OCR moderno sfrutta l'apprendimento apprendimento automatico e algoritmi avanzati di apprendimento automatico e di apprendimento profondo per gestire caratteri complessi, scrittura a mano e sfondi rumorosi con notevole precisione.

La meccanica dell'OCR moderno

I moderni sistemi OCR funzionano come una pipeline a più stadi che trasforma l'input visivo grezzo in informazioni strutturate. informazioni strutturate. Questo processo si è evoluto in modo significativo, passando da una rigida corrispondenza di modelli ad approcci flessibili e guidati dall'intelligenza artificiale.

  • Preelaborazione dell'immagine: Prima che il testo possa essere letto, l'input grezzo viene sottoposto a una di preelaborazione dei dati per migliorarne la qualità. Tecniche come la sogliatura e la riduzione del rumore aiutano a isolare il testo dallo sfondo.
  • Rilevamento del testo: Questa fase critica consiste nell'individuare le regioni specifiche all'interno di un'immagine che contengono testo. testo. I modelli di rilevamento degli modelli di rilevamento degli oggetti ad alte prestazioni, come Ultralytics YOLO11sono spesso utilizzati per disegnare di delimitazione intorno alle parole o alle linee, anche in scene ingombrate.
  • Riconoscimento del testo: Una volta localizzati, i segmenti dell'immagine vengono inseriti in una rete neurale. rete neurale. Architetture che combinano reti neurali convoluzionali (CNN) per l'estrazione delle caratteristiche e reti neurali ricorrenti (RNN) o trasformatori per la modellazione delle sequenze. trasformatori per la modellazione delle sequenze sono standard per decodifica delle sequenze di caratteri.
  • Post-elaborazione: L'output finale viene perfezionato utilizzando elaborazione del linguaggio naturale (NLP) e dizionari per correggere gli errori ortografici e garantire che il testo riconosciuto abbia un senso semantico.

Applicazioni dell'intelligenza artificiale nel mondo reale

L'integrazione dell'OCR con altre discipline dell'IA ha portato a un'automazione diffusa in vari settori.

Riconoscimento automatico delle targhe (ANPR)

Nelle infrastrutture delle città intelligenti, l'OCR è il motore del Riconoscimento automatico delle targhe. Un rilevatore di oggetti identifica innanzitutto il veicolo e la targa all'interno di un fotogramma video. Successivamente, gli algoritmi OCR estrarre i caratteri alfanumerici per incrociarli con i database per la riscossione dei pedaggi o il monitoraggio della sicurezza. monitoraggio della sicurezza. Ciò richiede capacità di inferenza in tempo reale per elaborare dati sul traffico ad alta velocità.

Elaborazione intelligente dei documenti (IDP)

I settori finanziario e legale utilizzano l'OCR per l 'analisi intelligente dei documenti. Invece di inserire manualmente i dati, i sistemi di intelligenza artificiale scansionano fatture, ricevute e contratti. Combinando l'OCR con il Riconoscimento delle Entità Nominate (NER), questi sistemi possono questi sistemi possono estrarre automaticamente campi specifici come le date, i nomi dei fornitori e gli importi totali, riducendo in modo significativo i costi amministrativi e la latenza di inferenza. l'onere amministrativo e la latenza di inferenza.

OCR e classificazione delle immagini

È importante distinguere l'OCR dalla classificazione delle immagini. Mentre la classificazione delle immagini classificazione delle immagini categorizza un'intera immagine (ad esempio, etichettando un'immagine come "documento" o "cartello stradale"), l'OCR è granulare; individua e identifica la sequenza specifica di caratteri all'interno di tale immagine. cartello stradale"), l'OCR è granulare; individua e identifica la sequenza specifica di caratteri all'interno dell'immagine. immagine. Allo stesso modo, l'OCR si differenzia dal rilevamento standard degli oggetti, che potrebbe trovare un "cartello di stop" come classe di oggetti, mentre l'OCR leggerebbe le lettere "S-T-O-P" sul cartello. sul cartello.

Implementazione del rilevamento del testo con YOLO11

Un flusso di lavoro comune utilizza un modello YOLO per detect regioni di testo prima di passarle a un motore di riconoscimento (come il motore OCR open-source Tesseract). motore OCR open-source Tesseract). Il seguente esempio mostra come caricare un modello pre-addestrato per detect oggetti che contengono tipicamente testo, come targhe o segnali stradali. segnali stradali.

from ultralytics import YOLO

# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)

# Display the detected class names (e.g., 'stop sign')
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

Ulteriori letture e risorse

Per esplorare i set di dati fondamentali che hanno guidato le prime ricerche sull'OCR, il database MNIST di cifre scritte a mano. databaseMNIST di cifre scritte a mano è una risorsa classica. Per chi è interessato all'evoluzione della tecnologia, la storia del progetto Tesseract offre una panoramica dei contributi open-source. contributi open-source. Le moderne soluzioni basate sul cloud, come Google Cloud Vision API e Amazon Textract rappresentano l'attuale stato dell'arte dei servizi OCR gestiti. gestiti. Inoltre, la ricerca sul riconoscimento del testo in scena continua a a superare i limiti, consentendo all'intelligenza artificiale di leggere il testo in ambienti "selvaggi" e senza vincoli.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora