Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Optik Karakter Tanıma (OCR)

OCR'nin hızlı, doğru metin algılama ve çıkarma için yapay zeka ve YOLO11 kullanarak görüntüleri ve PDF'leri nasıl aranabilir, düzenlenebilir metne dönüştürdüğünü keşfedin.

Optik Karakter Tanıma (OCR), bilgisayar görüşünde temel bir teknolojidir ve taranmış belgeler, PDF dosyaları veya sokak işaretlerinin görüntüleri gibi metinlerin görsel temsillerini makine tarafından kodlanmış, düzenlenebilir Fiziksel yazı ile dijital veri arasındaki boşluğu dolduran OCR, yapay zeka (AI) sistemlerinin önceden statik piksellerde kilitli olan bilgileri "okumasını" ve işlemesini sağlar. İlk versiyonlar katı desen eşleştirmeye dayanırken, modern OCR sofistike derin öğrenme algoritmalarını kullanarak çeşitli yazı tiplerini, el yazısı stillerini ve gürültülü arka planları yüksek doğrulukla işler.

OCR Boru Hattı

Günümüz OCR sistemleri genellikle çok aşamalı bir boru hattı olarak çalışır ve ham görüntü verilerini yapılandırılmış bilgiye dönüştürür. Bu süreç, çeşitli makine öğrenimi disiplinlerini birleştirir.

  • Görüntü Ön İşleme: Metin okunmadan önce, ham girdi kaliteyi artırmak için veri ön işleme tabi tutulur. Eşikleme (görüntüleri ikili siyah beyaz dönüştürme) ve gürültü azaltma gibi teknikler, karakter vuruşlarını arka plandan ayırmaya yardımcı olur.
  • Metin Algılama: Bu kritik adım, bir görüntü içinde metin içeren belirli bölgeleri bulmayı içerir. En son teknoloji Ultralytics gibi yüksek performanslı nesne algılama modelleri, burada kelimelerin veya satırların etrafına sınırlayıcı kutular çizmek için sık sık kullanılır. Bu yerelleştirme, sistemin metin dışı görsel öğeleri yok sayarak yalnızca ilgili alanlara odaklanmasını sağlar.
  • Metin Tanıma: Yerelleştirildikten sonra, görüntü segmentleri bir tanıma modeline beslenir. Özellik çıkarma için Konvolüsyonel Sinir Ağları (CNN) ve dizi modelleme için Tekrarlayan Sinir Ağları (RNN)
  • Son İşleme: NLP teknikleri kullanılarak son çıktı genellikle iyileştirilir. Sözlükler ve dil modelleri, yazım hatalarını düzeltmeye ve tanınan metnin anlamsal olarak uygun olmasını sağlamaya yardımcı olarak genel doğruluğu artırır.

Gerçek Dünya Uygulamaları

OCR'nin diğer yapay zeka disiplinleriyle entegrasyonu, çeşitli sektörlerde yaygın otomasyona yol açmıştır.

Otomatik Plaka Tanıma (ANPR)

Akıllı şehir altyapısında, OCR, Otomatik Plaka Tanıma'nın arkasındaki itici güçtür. Bir nesne algılayıcı, önce video karesi içindeki aracı ve plakayı tanımlar. Ardından, OCR algoritmaları alfasayısal karakterleri çıkararak bunları ücret toplama veya güvenlik izleme için veritabanlarıyla çapraz referanslar. Bu, yüksek hızlı trafik verilerini etkili bir şekilde işlemek için gerçek zamanlı çıkarım yetenekleri gerektirir.

Akıllı Belge İşleme (IDP)

Finans ve hukuk sektörleri, akıllı belge analizi için OCR'yi kullanmaktadır. Manuel veri girişi yerine, AI sistemleri faturaları, makbuzları ve sözleşmeleri taramaktadır. OCR'yi Adlandırılmış Varlık Tanıma (NER) ile birleştirerek, bu sistemler tarihler, satıcı isimleri ve toplam tutarlar gibi belirli alanları otomatik olarak çıkarabilir ve idari masrafları önemli ölçüde azaltabilir.

OCR'yi İlgili Terimlerden Ayırma

OCR'yi görüntü sınıflandırmasından ayırmak önemlidir. Görüntü sınıflandırması tüm görüntüyü kategorize ederken (örneğin, bir görüntüyü "belge" veya "sokak işareti" olarak etiketler), OCR daha ayrıntılıdır; o görüntüdeki belirli karakter dizisini bulur ve tanımlar. OCR, Benzer şekilde, OCR, "dur işareti"ni bir nesne sınıfı olarak bulabilen standart nesne algılamadan farklıdır; OCR ise işaretteki "S-T-O-P" harflerini okur.

Ultralytics ile Metin Algılama

Yaygın bir iş akışı, detect bölgelerini detect için bir YOLO kullanır ve ardından bunları bir tanıma motoruna (örneğin açık kaynaklı Tesseract OCR motoru) aktarır. Aşağıdaki örnek önceden eğitilmiş bir Ultralytics YOLO11 modelinin, genellikle metin içeren detect (örneğin, plaka veya trafik işaretleri) detect için nasıl yükleneceğini göstermektedir.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (often used to locate text regions)
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes which acts as the first step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

Daha Fazla Okuma ve Kaynak

Erken OCR araştırmalarını yönlendiren temel veri kümelerini keşfetmek için, MNIST el yazısı rakamMNIST klasik bir kaynaktır. Teknolojinin evrimiyle ilgilenenler için, Tesseract projesinin tarihi açık kaynak katkıları hakkında fikir verir. Google Vision API ve Amazon Textract gibi modern bulut tabanlı çözümler, yönetilen OCR hizmetlerinde günümüzün en son teknolojisini temsil etmektedir. Ayrıca, Sahne Metin Tanıma alanındaki araştırmalar, sınırları zorlamaya devam ederek AI'nın kısıtlanmamış, "vahşi" ortamlarda metin okuyabilmesini sağlamaktadır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın