Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Optik Karakter Tanıma (OCR)

OCR'nin hızlı, doğru metin algılama ve çıkarma için yapay zeka ve YOLO11 kullanarak görüntüleri ve PDF'leri nasıl aranabilir, düzenlenebilir metne dönüştürdüğünü keşfedin.

Optik Karakter Tanıma (OCR), aşağıdaki alanlarda çok önemli bir teknolojidir farklı türdeki görüntüleri dönüştüren bilgisayar görüşü Taranmış kağıt belgeler, PDF dosyaları veya dijital kamera tarafından çekilen görüntüler gibi belgeler düzenlenebilir ve aranabilir veri. OCR, fiziksel kağıt ile dijital veri arasındaki boşluğu doldurarak makinelerin verileri "okumasını" sağlar. ve metni tarihsel olarak insan kapasitesiyle sınırlı bir şekilde işlemek. İlk yinelemeler basit bir şekilde desen eşleştirme, modern OCR gelişmiş makine öğrenimi ve karmaşık yazı tiplerini işlemek için derin öğrenme algoritmaları, el yazısı ve gürültülü arka planlar olağanüstü bir hassasiyetle.

Modern OCR'nin Mekaniği

Çağdaş OCR sistemleri, ham görsel girdiyi yapılandırılmış görsel girdiye dönüştüren çok aşamalı bir boru hattı olarak işlev görür. Bilgi. Bu süreç, katı şablon eşleştirmeden esnek, yapay zeka odaklı yaklaşımlara doğru önemli ölçüde gelişmiştir.

  • Görüntü Ön İşleme: Metin okunmadan önce, ham girdi aşağıdaki işlemlerden geçirilir kaliteyi artırmak için veri ön işleme. Eşikleme gibi teknikler ve gürültü azaltma, metni arka plandan ayırmaya yardımcı olur.
  • Metin Algılama: Bu kritik adım, bir görüntü içindeki belirli bölgelerin bulunmasını içerir metin içeriyor. Yüksek performans nesne algılama modelleri, örneğin Ultralytics YOLO11burada sık sık çizmek için kullanılır sözcüklerin veya satırların etrafındaki sınırlayıcı kutular, hatta darmadağın sahneler.
  • Metin Tanıma: Yerelleştirildikten sonra, görüntü segmentleri bir sinir ağı. Birleştiren mimariler Evrişimsel Sinir Ağları (CNN) özellik çıkarımı için ve Tekrarlayan Sinir Ağları (RNN) veya Sıra modelleme için transformatörler aşağıdakiler için standarttır karakter dizilerinin kodunu çözer.
  • İşlem Sonrası: Nihai çıktı şu şekilde rafine edilir Doğal Dil İşleme (NLP) Yazım hatalarını düzeltmek ve tanınan metnin anlamsal olarak anlamlı olmasını sağlamak için teknikler ve sözlükler.

Gerçek Dünya Yapay Zeka Uygulamaları

OCR'nin diğer yapay zeka disiplinleriyle entegrasyonu, çeşitli sektörlerde yaygın otomasyona yol açmıştır.

Otomatik Plaka Tanıma (ANPR)

Akıllı şehir altyapısında, OCR arkasındaki motordur Otomatik Plaka Tanıma. Bir nesne dedektörü ilk olarak bir video karesi içindeki aracı ve plakayı tanımlar. Daha sonra, OCR Algoritmalar, alfanümerik karakterleri çıkararak bunları geçiş ücreti toplama veya güvenlik izleme. Bu şunları gerektirir işlemek için gerçek zamanlı çıkarım yetenekleri yüksek hızlı trafik verileri.

Akıllı Belge İşleme (IDP)

Finans ve hukuk sektörleri aşağıdakiler için OCR kullanmaktadır akıllı belge analizi. Yapay zeka sistemleri manuel veri girişi yerine faturaları, makbuzları ve sözleşmeleri tarar. OCR ile birleştirerek İsimlendirilmiş Varlık Tanıma (NER), bunlar sistemler tarihler, satıcı adları ve toplam tutarlar gibi belirli alanları otomatik olarak çıkararak idari ek yük ve çıkarım gecikmesi.

OCR ve Görüntü Sınıflandırma

OCR'yi aşağıdakilerden ayırt etmek önemlidir görüntü sınıflandırması. Görüntü sınıflandırma tüm bir görüntüyü kategorize eder (örneğin, bir görüntüyü "belge" veya "sokak" olarak etiketlemek). işareti"), OCR ayrıntılıdır; bu işaret içindeki belirli karakter dizisini bulur ve tanımlar. görüntü. Benzer şekilde, OCR standart nesne tespitinden farklıdır, bir nesne sınıfı olarak "dur işareti" bulabilirken, OCR "S-T-O-P" harflerini okuyacaktır. İşaret.

YOLO11 ile Metin Algılama Uygulaması

Yaygın bir iş akışı, metin bölgelerini bir tanıma motoruna aktarmadan önce detect etmek için bir YOLO modeli kullanır (örneğin açık kaynaklı Tesseract OCR motoru). Aşağıdaki örnek plaka veya araç plakası gibi tipik olarak metin içeren nesneleri detect etmek için önceden eğitilmiş bir modelin nasıl yükleneceğini gösterir. trafik işaretleri.

from ultralytics import YOLO

# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)

# Display the detected class names (e.g., 'stop sign')
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

Daha Fazla Okuma ve Kaynak

İlk OCR araştırmalarına yön veren temel veri kümelerini keşfetmek için El yazısı rakamlardan oluşanMNIST veritabanı klasik bir kaynaktır. Teknolojinin evrimiyle ilgilenenler için, teknolojinin tarihi Tesseract projesi açık kaynak konusunda fikir veriyor Katkılar. Gibi modern bulut tabanlı çözümler Google Cloud Vision API ve Amazon Textract, yönetilen OCR alanında en son teknolojiyi temsil etmektedir hizmetler. Ayrıca, Sahne Metni Tanıma konusundaki araştırmalar devam etmektedir sınırları zorlayarak yapay zekanın kısıtlanmamış, "vahşi" ortamlarda metin okumasını sağlar.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın