Scoprite come l'OCR converte immagini e PDF in testo ricercabile e modificabile utilizzando l'AI e YOLO11 per un rilevamento e un'estrazione del testo rapidi e accurati.
Il riconoscimento ottico dei caratteri (OCR) è una tecnologia fondamentale nell'ambito della che converte diversi tipi di documenti, come documenti cartacei scannerizzati, file PDF o immagini catturate da una fotocamera digitale, in documenti modificabili e documenti, come documenti cartacei scansionati, file PDF o immagini catturate da una fotocamera digitale, in dati modificabili e ricercabili. dati modificabili e ricercabili. Colmando il divario tra la carta fisica e i dati digitali, l'OCR consente alle macchine di "leggere" ed elaborare il testo in un modo che prima non esisteva. e di elaborare il testo in un modo che storicamente era limitato alle capacità umane. Mentre le prime versioni si basavano sulla semplice modelli, l'OCR moderno sfrutta l'apprendimento apprendimento automatico e algoritmi avanzati di apprendimento automatico e di apprendimento profondo per gestire caratteri complessi, scrittura a mano e sfondi rumorosi con notevole precisione.
I moderni sistemi OCR funzionano come una pipeline a più stadi che trasforma l'input visivo grezzo in informazioni strutturate. informazioni strutturate. Questo processo si è evoluto in modo significativo, passando da una rigida corrispondenza di modelli ad approcci flessibili e guidati dall'intelligenza artificiale.
L'integrazione dell'OCR con altre discipline dell'IA ha portato a un'automazione diffusa in vari settori.
Nelle infrastrutture delle città intelligenti, l'OCR è il motore del Riconoscimento automatico delle targhe. Un rilevatore di oggetti identifica innanzitutto il veicolo e la targa all'interno di un fotogramma video. Successivamente, gli algoritmi OCR estrarre i caratteri alfanumerici per incrociarli con i database per la riscossione dei pedaggi o il monitoraggio della sicurezza. monitoraggio della sicurezza. Ciò richiede capacità di inferenza in tempo reale per elaborare dati sul traffico ad alta velocità.
I settori finanziario e legale utilizzano l'OCR per l 'analisi intelligente dei documenti. Invece di inserire manualmente i dati, i sistemi di intelligenza artificiale scansionano fatture, ricevute e contratti. Combinando l'OCR con il Riconoscimento delle Entità Nominate (NER), questi sistemi possono questi sistemi possono estrarre automaticamente campi specifici come le date, i nomi dei fornitori e gli importi totali, riducendo in modo significativo i costi amministrativi e la latenza di inferenza. l'onere amministrativo e la latenza di inferenza.
È importante distinguere l'OCR dalla classificazione delle immagini. Mentre la classificazione delle immagini classificazione delle immagini categorizza un'intera immagine (ad esempio, etichettando un'immagine come "documento" o "cartello stradale"), l'OCR è granulare; individua e identifica la sequenza specifica di caratteri all'interno di tale immagine. cartello stradale"), l'OCR è granulare; individua e identifica la sequenza specifica di caratteri all'interno dell'immagine. immagine. Allo stesso modo, l'OCR si differenzia dal rilevamento standard degli oggetti, che potrebbe trovare un "cartello di stop" come classe di oggetti, mentre l'OCR leggerebbe le lettere "S-T-O-P" sul cartello. sul cartello.
Un flusso di lavoro comune utilizza un modello YOLO per detect regioni di testo prima di passarle a un motore di riconoscimento (come il motore OCR open-source Tesseract). motore OCR open-source Tesseract). Il seguente esempio mostra come caricare un modello pre-addestrato per detect oggetti che contengono tipicamente testo, come targhe o segnali stradali. segnali stradali.
from ultralytics import YOLO
# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")
# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)
# Display the detected class names (e.g., 'stop sign')
for r in results:
print(f"Detected classes: {r.boxes.cls}")
Per esplorare i set di dati fondamentali che hanno guidato le prime ricerche sull'OCR, il database MNIST di cifre scritte a mano. databaseMNIST di cifre scritte a mano è una risorsa classica. Per chi è interessato all'evoluzione della tecnologia, la storia del progetto Tesseract offre una panoramica dei contributi open-source. contributi open-source. Le moderne soluzioni basate sul cloud, come Google Cloud Vision API e Amazon Textract rappresentano l'attuale stato dell'arte dei servizi OCR gestiti. gestiti. Inoltre, la ricerca sul riconoscimento del testo in scena continua a a superare i limiti, consentendo all'intelligenza artificiale di leggere il testo in ambienti "selvaggi" e senza vincoli.