Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Optik Karakter Tanıma (OCR)

Optik Karakter Tanıma (OCR) teknolojisinin görüntüleri aranabilir verilere nasıl dönüştürdüğünü keşfedin. Metin algılama için Ultralytics kullanarak OCR ardışık düzenleri oluşturmayı öğrenin.

Optik Karakter Tanıma (OCR), bilgisayar görme alanında taranmış kağıt belgeler, PDF dosyaları veya dijital kamera ile çekilmiş görüntüler gibi farklı türdeki belgeleri düzenlenebilir ve aranabilir verilere dönüştürmeyi sağlayan önemli bir teknolojidir. Metnin görsel temsilini makine tarafından kodlanmış karakterlere çevirerek, OCR fiziksel ve dijital dünyalar arasındaki boşluğu doldurarak, yapay zeka (AI) sistemlerinin önceden statik piksellerde kilitli olan metin bilgilerini yorumlamasına ve işlemesine olanak tanır. OCR'nin ilk sürümleri saklanan şablonlarla basit desen eşleştirmesine dayanırken, modern sistemler sofistike derin öğrenme mimarilerini kullanarak çeşitli yazı tiplerini, karmaşık düzenleri ve hatta el yazısını yüksek doğrulukla işleyebilir.

OCR Boru Hattı

Günümüz OCR sistemleri genellikle çok aşamalı bir boru hattı olarak çalışır ve ham görüntü verilerini birkaç farklı adımda yapılandırılmış bilgiye dönüştürür. Bu süreç genellikle standart görüntü işlemeyi gelişmiş sinir ağlarıyla birleştirir .

  • Görüntü Ön İşleme: Metin tanınmadan önce, ham girdi kaliteyi artırmak için veri ön işleme tabi tutulur. Eşikleme gibi teknikler görüntüleri ikili siyah beyaz görüntülere dönüştürürken, gürültü azaltma karakter vuruşlarını karmaşık arka planlardan ayırmaya yardımcı olur.
  • Metin Algılama: Bu kritik adım, bir görüntü içinde metin içeren belirli bölgeleri bulmayı içerir. En son teknoloji Ultralytics gibi yüksek performanslı nesne algılama modelleri, kelimelerin, satırların veya paragrafların etrafına sınırlayıcı kutular çizmek için sık sık kullanılır. Bu yerelleştirme, sonraki tanıma motorunun yalnızca ilgili alanlara odaklanmasını sağlar. Metin Algılama: Bu kritik adım, bir görüntü içinde metin içeren belirli bölgeleri bulmayı içerir.
  • Metin Tanıma: Metin bölgeleri kırpıldıktan sonra, bir tanıma modeline aktarılır. Özellik çıkarma için Konvolüsyonel Sinir Ağları (CNN) ve dizi modelleme için Tekrarlayan Sinir Ağları (RNN) birleştiren mimariler, piksel desenlerini karakter dizilerine kod çözmek için standarttır.
  • Son İşleme: NLP (Doğal Dil İşleme)teknikleri kullanılarak nihai çıktı genellikle iyileştirilir. Sözlükler ve dil modelleri, yazım hatalarını düzeltmeye ve tanınan metnin anlamsal olarak tutarlı olmasını sağlamaya yardımcı olur ve genel doğruluğu önemli ölçüde artırır.

Gerçek Dünya Uygulamaları

OCR'nin diğer yapay zeka disiplinleriyle entegrasyonu, çeşitli endüstrilerde yaygın otomasyona yol açmış ve işletmelerin verileri işleme şeklini dönüştürmüştür.

Otomatik Plaka Tanıma (ANPR)

Akıllı şehir altyapısında, OCR, Otomatik Plaka Tanıma'nın arkasındaki temel motor görevi görür. Bir nesne algılayıcı, önce video karesi içindeki aracı ve plakayı tanımlar. Ardından, OCR algoritmaları alfasayısal karakterleri çıkararak otomatik ücret tahsilatı veya güvenlik izleme için veritabanlarıyla çapraz referanslama yapar. Bu, yüksek hızlı trafik verilerini etkili bir şekilde işlemek için sağlam gerçek zamanlı çıkarım yetenekleri gerektirir. .

Akıllı Belge İşleme (IDP)

Finans ve hukuk sektörleri, akıllı belge analizi için OCR'yi kullanmaktadır. Manuel veri girişi yerine, AI sistemleri faturaları, makbuzları ve sözleşmeleri taramaktadır. OCR'yi Adlandırılmış Varlık Tanıma (NER) ile birleştirerek, bu sistemler tarihler, satıcı isimleri ve toplam tutarlar gibi belirli alanları otomatik olarak çıkarabilir, böylece idari masrafları azaltabilir ve iş akışlarını hızlandırabilir.

OCR'yi İlgili Terimlerden Ayırma

OCR ile görüntü sınıflandırmasını birbirinden ayırmak önemlidir. Görüntü sınıflandırması tüm görüntüyü kategorize ederken (örneğin, bir görüntüyü "belge" veya "fatura" olarak etiketler), OCR daha ayrıntılıdır; görüntüdeki belirli karakter dizisini bulur ve tanımlar. Benzer şekilde, OCR, "dur işareti"ni genel bir nesne sınıfı olarak tanımlayabilen standart nesne algılamadan farklıdır; OCR ise işarete basılmış "S-T-O-P" harflerini okur. "

Ultralytics ile Metin Algılama

Yaygın bir modern iş akışı, detect bölgelerini detect için bir YOLO kullanmayı ve ardından bunları Tesseract veya PaddleOCR gibi özel bir tanıma motoruna aktarmayı içerir. Ultralytics , bu algılama modellerinin özel veri kümeleri üzerinde eğitilmesini basitleştirir. Aşağıdaki örnek, önceden eğitilmiş bir Ultralytics modelini, genellikle metin içeren detect (örneğin, plakalar) detect için nasıl kullanabileceğinizi gösterir.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (ideal for locating text regions)
model = YOLO("yolo26n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes, acting as the localization step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")
    # Further processing would pass these crops to an OCR engine

Daha Fazla Okuma ve Kaynak

Erken OCR araştırmalarını yönlendiren temel veri kümelerini keşfetmek için, el yazısı rakamlarınMNIST , karşılaştırma için klasik bir kaynak olmaya devam etmektedir. Teknolojinin açık kaynaklı evrimiyle ilgilenenler için, Tesseract projesinin tarihi, topluluk odaklı katkılar hakkında fikir vermektedir. Google Vision API ve Amazon Textract gibi modern bulut tabanlı çözümler, yönetilen OCR hizmetlerinde mevcut en son teknolojiyi temsil etmektedir. Ayrıca, Sahne Metin Tanıma alanındaki araştırmalar sınırları zorlamaya devam ederek, AI'nın ışıklandırma ve perspektifin değiştiği kısıtlamasız, "vahşi" ortamlarda metinleri okumasını sağlamaktadır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın