Optik Karakter Tanıma (OCR) teknolojisinin görüntüleri aranabilir verilere nasıl dönüştürdüğünü keşfedin. Metin algılama için Ultralytics kullanarak OCR ardışık düzenleri oluşturmayı öğrenin.
Optik Karakter Tanıma (OCR), bilgisayar görme alanında taranmış kağıt belgeler, PDF dosyaları veya dijital kamera ile çekilmiş görüntüler gibi farklı türdeki belgeleri düzenlenebilir ve aranabilir verilere dönüştürmeyi sağlayan önemli bir teknolojidir. Metnin görsel temsilini makine tarafından kodlanmış karakterlere çevirerek, OCR fiziksel ve dijital dünyalar arasındaki boşluğu doldurarak, yapay zeka (AI) sistemlerinin önceden statik piksellerde kilitli olan metin bilgilerini yorumlamasına ve işlemesine olanak tanır. OCR'nin ilk sürümleri saklanan şablonlarla basit desen eşleştirmesine dayanırken, modern sistemler sofistike derin öğrenme mimarilerini kullanarak çeşitli yazı tiplerini, karmaşık düzenleri ve hatta el yazısını yüksek doğrulukla işleyebilir.
Günümüz OCR sistemleri genellikle çok aşamalı bir boru hattı olarak çalışır ve ham görüntü verilerini birkaç farklı adımda yapılandırılmış bilgiye dönüştürür. Bu süreç genellikle standart görüntü işlemeyi gelişmiş sinir ağlarıyla birleştirir .
OCR'nin diğer yapay zeka disiplinleriyle entegrasyonu, çeşitli endüstrilerde yaygın otomasyona yol açmış ve işletmelerin verileri işleme şeklini dönüştürmüştür.
Akıllı şehir altyapısında, OCR, Otomatik Plaka Tanıma'nın arkasındaki temel motor görevi görür. Bir nesne algılayıcı, önce video karesi içindeki aracı ve plakayı tanımlar. Ardından, OCR algoritmaları alfasayısal karakterleri çıkararak otomatik ücret tahsilatı veya güvenlik izleme için veritabanlarıyla çapraz referanslama yapar. Bu, yüksek hızlı trafik verilerini etkili bir şekilde işlemek için sağlam gerçek zamanlı çıkarım yetenekleri gerektirir. .
Finans ve hukuk sektörleri, akıllı belge analizi için OCR'yi kullanmaktadır. Manuel veri girişi yerine, AI sistemleri faturaları, makbuzları ve sözleşmeleri taramaktadır. OCR'yi Adlandırılmış Varlık Tanıma (NER) ile birleştirerek, bu sistemler tarihler, satıcı isimleri ve toplam tutarlar gibi belirli alanları otomatik olarak çıkarabilir, böylece idari masrafları azaltabilir ve iş akışlarını hızlandırabilir.
OCR ile görüntü sınıflandırmasını birbirinden ayırmak önemlidir. Görüntü sınıflandırması tüm görüntüyü kategorize ederken (örneğin, bir görüntüyü "belge" veya "fatura" olarak etiketler), OCR daha ayrıntılıdır; görüntüdeki belirli karakter dizisini bulur ve tanımlar. Benzer şekilde, OCR, "dur işareti"ni genel bir nesne sınıfı olarak tanımlayabilen standart nesne algılamadan farklıdır; OCR ise işarete basılmış "S-T-O-P" harflerini okur. "
Yaygın bir modern iş akışı, detect bölgelerini detect için bir YOLO kullanmayı ve ardından bunları Tesseract veya PaddleOCR gibi özel bir tanıma motoruna aktarmayı içerir. Ultralytics , bu algılama modellerinin özel veri kümeleri üzerinde eğitilmesini basitleştirir. Aşağıdaki örnek, önceden eğitilmiş bir Ultralytics modelini, genellikle metin içeren detect (örneğin, plakalar) detect için nasıl kullanabileceğinizi gösterir.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (ideal for locating text regions)
model = YOLO("yolo26n.pt")
# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")
# Display detected classes, acting as the localization step in an OCR pipeline
for r in results:
print(f"Detected classes: {r.boxes.cls}")
# Further processing would pass these crops to an OCR engine
Erken OCR araştırmalarını yönlendiren temel veri kümelerini keşfetmek için, el yazısı rakamlarınMNIST , karşılaştırma için klasik bir kaynak olmaya devam etmektedir. Teknolojinin açık kaynaklı evrimiyle ilgilenenler için, Tesseract projesinin tarihi, topluluk odaklı katkılar hakkında fikir vermektedir. Google Vision API ve Amazon Textract gibi modern bulut tabanlı çözümler, yönetilen OCR hizmetlerinde mevcut en son teknolojiyi temsil etmektedir. Ayrıca, Sahne Metin Tanıma alanındaki araştırmalar sınırları zorlamaya devam ederek, AI'nın ışıklandırma ve perspektifin değiştiği kısıtlamasız, "vahşi" ortamlarda metinleri okumasını sağlamaktadır.