OCR'nin hızlı, doğru metin algılama ve çıkarma için yapay zeka ve YOLO11 kullanarak görüntüleri ve PDF'leri nasıl aranabilir, düzenlenebilir metne dönüştürdüğünü keşfedin.
Optik Karakter Tanıma (OCR), bilgisayar görüşünde temel bir teknolojidir ve taranmış belgeler, PDF dosyaları veya sokak işaretlerinin görüntüleri gibi metinlerin görsel temsillerini makine tarafından kodlanmış, düzenlenebilir Fiziksel yazı ile dijital veri arasındaki boşluğu dolduran OCR, yapay zeka (AI) sistemlerinin önceden statik piksellerde kilitli olan bilgileri "okumasını" ve işlemesini sağlar. İlk versiyonlar katı desen eşleştirmeye dayanırken, modern OCR sofistike derin öğrenme algoritmalarını kullanarak çeşitli yazı tiplerini, el yazısı stillerini ve gürültülü arka planları yüksek doğrulukla işler.
Günümüz OCR sistemleri genellikle çok aşamalı bir boru hattı olarak çalışır ve ham görüntü verilerini yapılandırılmış bilgiye dönüştürür. Bu süreç, çeşitli makine öğrenimi disiplinlerini birleştirir.
OCR'nin diğer yapay zeka disiplinleriyle entegrasyonu, çeşitli sektörlerde yaygın otomasyona yol açmıştır.
Akıllı şehir altyapısında, OCR, Otomatik Plaka Tanıma'nın arkasındaki itici güçtür. Bir nesne algılayıcı, önce video karesi içindeki aracı ve plakayı tanımlar. Ardından, OCR algoritmaları alfasayısal karakterleri çıkararak bunları ücret toplama veya güvenlik izleme için veritabanlarıyla çapraz referanslar. Bu, yüksek hızlı trafik verilerini etkili bir şekilde işlemek için gerçek zamanlı çıkarım yetenekleri gerektirir.
Finans ve hukuk sektörleri, akıllı belge analizi için OCR'yi kullanmaktadır. Manuel veri girişi yerine, AI sistemleri faturaları, makbuzları ve sözleşmeleri taramaktadır. OCR'yi Adlandırılmış Varlık Tanıma (NER) ile birleştirerek, bu sistemler tarihler, satıcı isimleri ve toplam tutarlar gibi belirli alanları otomatik olarak çıkarabilir ve idari masrafları önemli ölçüde azaltabilir.
OCR'yi görüntü sınıflandırmasından ayırmak önemlidir. Görüntü sınıflandırması tüm görüntüyü kategorize ederken (örneğin, bir görüntüyü "belge" veya "sokak işareti" olarak etiketler), OCR daha ayrıntılıdır; o görüntüdeki belirli karakter dizisini bulur ve tanımlar. OCR, Benzer şekilde, OCR, "dur işareti"ni bir nesne sınıfı olarak bulabilen standart nesne algılamadan farklıdır; OCR ise işaretteki "S-T-O-P" harflerini okur.
Yaygın bir iş akışı, detect bölgelerini detect için bir YOLO kullanır ve ardından bunları bir tanıma motoruna (örneğin açık kaynaklı Tesseract OCR motoru) aktarır. Aşağıdaki örnek önceden eğitilmiş bir Ultralytics YOLO11 modelinin, genellikle metin içeren detect (örneğin, plaka veya trafik işaretleri) detect için nasıl yükleneceğini göstermektedir.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model (often used to locate text regions)
model = YOLO("yolo11n.pt")
# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")
# Display detected classes which acts as the first step in an OCR pipeline
for r in results:
print(f"Detected classes: {r.boxes.cls}")
Erken OCR araştırmalarını yönlendiren temel veri kümelerini keşfetmek için, MNIST el yazısı rakamMNIST klasik bir kaynaktır. Teknolojinin evrimiyle ilgilenenler için, Tesseract projesinin tarihi açık kaynak katkıları hakkında fikir verir. Google Vision API ve Amazon Textract gibi modern bulut tabanlı çözümler, yönetilen OCR hizmetlerinde günümüzün en son teknolojisini temsil etmektedir. Ayrıca, Sahne Metin Tanıma alanındaki araştırmalar, sınırları zorlamaya devam ederek AI'nın kısıtlanmamış, "vahşi" ortamlarda metin okuyabilmesini sağlamaktadır.