Popüler açık kaynaklı OCR modelleri ve nasıl çalıştıkları

Abirami Vina

5 dakika okuma

7 Temmuz 2025

Popüler OCR modellerini, görüntüleri metne nasıl dönüştürdüklerini ve yapay zeka ve bilgisayarla görme uygulamalarındaki rollerini keşfederken bize katılın.

Birçok işletme ve dijital sistem, taranmış faturalar, kimlik kartları veya elle yazılmış formlar gibi belgelerdeki bilgilere dayanır. Ancak bu bilgiler görüntü olarak saklandığında, bilgisayarların bunları araması, ayıklaması veya çeşitli görevler için kullanması zordur. 

Bununla birlikte, makinelerin görsel bilgileri yorumlamasını ve anlamasını sağlayan bir yapay zeka alanı olan bilgisayarla görme gibi araçlarla, görüntüleri metne dönüştürmek çok daha kolay hale geliyor. Özellikle Optik Karakter Tanıma (OCR), metni algılamak ve çıkarmak için kullanılabilen bir bilgisayarla görme teknolojisidir. 

OCR modelleri, çeşitli formatlardaki metinleri tanımak ve bunları düzenlenebilir, aranabilir verilere dönüştürmek için eğitilir. Belge otomasyonu, kimlik doğrulama ve gerçek zamanlı tarama sistemlerinde yaygın olarak kullanılırlar.

Bu makalede, OCR modellerinin nasıl çalıştığını, popüler açık kaynak modellerini, nerede kullanıldıklarını, yaygın uygulamaları ve gerçek dünyada kullanım için önemli hususları inceleyeceğiz.

OCR nedir?

OCR modelleri, basılı veya el yazısı metinleri okumamıza benzer şekilde makinelerin görsel kaynaklardan metin okumasına yardımcı olmak için tasarlanmıştır. Bu modeller taranmış belgeler, resimler veya el yazısı notların fotoğrafları gibi girdileri alır ve bunları aranabilen, düzenlenebilen veya yazılım sistemlerinde kullanılabilen dijital metinlere dönüştürür.

Daha önceki OCR sistemleri katı bir şablonu takip ederken, modern OCR modelleri metni tanımak için derin öğrenmeyi kullanır. Düşük kaliteli görüntüleri işlerken farklı metin yazı tiplerini, dilleri ve hatta dağınık el yazılarını bile kolayca tanıyabilirler. Bu gelişmeler, OCR modellerini finans, sağlık, lojistik ve kamu hizmetleri gibi metin ağırlıklı sektörlerde otomasyonun önemli bir parçası haline getirmiştir.

OCR modelleri, metnin net ve yapılandırılmış olduğu görüntüler için harika olsa da, metin karmaşık görsellerin yanında veya dinamik sahnelerde göründüğünde zorluklarla karşılaşabilirler. Bu durumlarda, OCR modelleri Ultralytics YOLO11 gibi bilgisayarla görme modelleriyle birlikte kullanılabilir. 

YOLO11, bir görüntüdeki işaretler, belgeler veya etiketler gibi belirli nesneleri algılayabilir ve asıl içeriği çıkarmak için OCR kullanılmadan önce metin bölgelerinin bulunmasına yardımcı olur.

Örneğin, otonom araçlarda YOLO11 bir dur işaretini algılayabilir ve ardından OCR metni okuyarak sistemin hem nesneyi hem de anlamını doğru bir şekilde yorumlamasını sağlayabilir.

Şekil 1. OCR kullanımına bir örnek(kaynak).

OCR modellerinin nasıl çalıştığına genel bir bakış

OCR'nin ne olduğunu anlattığımıza göre, şimdi OCR modellerinin gerçekte nasıl çalıştığına daha yakından bakalım.

Bir görüntüden metin okumak ve çıkarmak için bir OCR modeli kullanılmadan önce, görüntü genellikle iki önemli adımdan geçirilir: ön işleme ve nesne algılama.

İlk olarak, görüntü ön işleme yoluyla temizlenir ve geliştirilir. Görüntünün genel kalitesini artırmak ve metnin algılanmasını kolaylaştırmak için keskinleştirme, gürültü azaltma ve parlaklık veya kontrastı ayarlama gibi temel görüntü işleme teknikleri uygulanır.

Daha sonra, nesne algılama gibi bilgisayarla görme görevleri kullanılır. Bu adımda, plaka, sokak levhaları, formlar veya kimlik kartları gibi metin içeren belirli nesneler bulunur. Sistem bu nesneleri tanımlayarak anlamlı metinlerin bulunduğu alanları izole eder ve bunları tanıma için hazırlar.

OCR modeli ancak bu adımlardan sonra çalışmaya başlar. İlk olarak, tespit edilen bölgeleri alır ve bunları daha küçük parçalara ayırır - tek tek karakterleri, kelimeleri veya metin satırlarını tanımlar. 

Model, derin öğrenme tekniklerini kullanarak harflerin şekillerini, desenlerini ve aralıklarını analiz eder, bunları eğitim sırasında öğrendikleriyle karşılaştırır ve en olası karakterleri tahmin eder. Daha sonra, tanınan karakterleri daha ileri işlemler için tutarlı metinler halinde yeniden yapılandırır.

Şekil 2. OCR'nin nasıl çalıştığını anlamak. Yazar tarafından resim.

Popüler açık kaynaklı OCR modelleri 

Metin çıkarmayı içeren bir bilgisayarla görme uygulaması oluştururken, doğru OCR modelini seçmek doğruluk, dil desteği ve gerçek dünya sistemlerine ne kadar kolay uyacağı gibi faktörlere bağlıdır. 

Günümüzde birçok açık kaynak modeli, geliştiricilerin ihtiyaç duyduğu esnekliği, güçlü topluluk desteğini ve güvenilir performansı sağlamaktadır. En popüler seçeneklerden bazılarını ve onları öne çıkaran özellikleri inceleyelim.

Tesseract OCR

Tesseract günümüzde en yaygın kullanılan açık kaynaklı OCR modellerinden biridir. İlk olarak 1985-1994 yılları arasında Bristol, İngiltere ve Greeley, Colorado'daki Hewlett-Packard Laboratuvarlarında geliştirilmiştir. 2005 yılında HP, Tesseract'ı açık kaynaklı yazılım olarak yayınladı ve 2006'dan beri açık kaynak topluluğunun sürekli katkılarıyla Google tarafından sürdürülüyor.

Tesseract'ın en önemli özelliklerinden biri 100'den fazla dili işleyebilmesidir, bu da onu çok dilli projeler için güvenilir bir seçim haline getirir. Sürekli iyileştirmeler, özellikle formlar ve raporlar gibi yapılandırılmış belgelerde basılı metni okumadaki güvenilirliğini artırmıştır.

Şekil 3. Tesseract OCR kullanarak metin tanıma(kaynak).

Tesseract genellikle faturaların taranmasını, evrakların arşivlenmesini veya standart düzenlere sahip belgelerden metin çıkarılmasını içeren projelerde kullanılır. Belge kalitesi iyi olduğunda ve düzen önemli ölçüde değişmediğinde en iyi performansı gösterir.

EasyOCR

Benzer şekilde EasyOCR, Jaided AI tarafından geliştirilen Python tabanlı, açık kaynaklı bir OCR kütüphanesidir. Latince, Çince, Arapça ve Kiril alfabesi dahil olmak üzere 80'den fazla dili destekleyerek çok dilli metin tanıma için çok yönlü bir araç haline getirir.

Hem basılı hem de el yazısı metinleri işlemek için tasarlanan EasyOCR, düzen, yazı tipi veya yapı bakımından farklılık gösteren belgelerle iyi çalışır. Bu esneklik, makbuzlar, sokak tabelaları ve karışık dilli girdilere sahip formlar gibi çeşitli kaynaklardan metin ayıklamak için mükemmel bir seçenek haline getirir.

PyTorch üzerine inşa edilen EasyOCR, doğru metin algılama ve tanıma için derin öğrenme tekniklerinden yararlanır. Hem CPU'larda hem de GPU'larda verimli bir şekilde çalışır ve yerel olarak birkaç görüntüyü işlemek veya daha güçlü sistemlerde büyük dosya gruplarını işlemek gibi göreve bağlı olarak ölçeklenmesine olanak tanır.

Açık kaynaklı bir araç olarak EasyOCR, düzenli güncellemelerden ve topluluk odaklı iyileştirmelerden yararlanarak güncel kalmasına ve çok çeşitli gerçek dünya OCR ihtiyaçlarına uyarlanabilmesine yardımcı olur.

PaddleOCR

PaddleOCR, Baidu tarafından geliştirilen, metin algılama ve tanımayı tek bir modern işlem hattında birleştiren yüksek performanslı bir OCR araç setidir. 80 dil desteği ile makbuzlar, tablolar ve formlar gibi karmaşık belgelerin üstesinden gelebilir.

PaddleOCR'yi farklı kılan şey, PaddlePaddle derin öğrenme çerçevesi üzerine inşa edilmiş olmasıdır. PaddlePaddle çerçevesi kolay, güvenilir ve ölçeklenebilir yapay zeka modeli geliştirme ve dağıtımı için tasarlanmıştır. Ayrıca, PaddleOCR düşük kaliteli veya karmaşık görüntülerde bile yüksek doğruluk sağlar, bu da onu hassasiyet ve güvenilirliğin önemli olduğu gerçek dünya OCR görevleri için iyi bir seçim haline getirir.

Şekil 4. PaddleOCR'nin iş akışı(kaynak).

Bunun da ötesinde, PaddleOCR son derece modülerdir ve geliştiricilerin belirli algılama, tanıma ve sınıflandırma bileşenlerini seçerek boru hatlarını özelleştirmelerine olanak tanır. İyi belgelenmiş Python API'leri ve güçlü topluluk desteği ile çok çeşitli OCR uygulamaları için esnek, üretime hazır bir çözümdür.

Diğer popüler açık kaynaklı OCR modelleri

İşte yaygın olarak kullanılan diğer bazı açık kaynaklı OCR modelleri:

  • MMOCR: Daha karmaşık projeler için tasarlanan MMOCR, metni algılayabilir ve ayrıca bir sayfada nasıl düzenlendiğini anlayabilir. Tablolar, çok sütunlu düzenler ve diğer görsel olarak karmaşık belgelerle çalışmak için idealdir.
  • TrOCR: Metin dizilerini anlamada özellikle iyi olan bir tür derin öğrenme modeli olan transformatörler üzerine inşa edilen TrOCR, daha uzun pasajları ve dağınık, yapılandırılmamış düzenleri ele almada mükemmeldir. İçeriğin izole etiketlerden ziyade sürekli bir dil gibi okunduğu durumlarda güvenilir bir seçimdir.

OCR modellerinin yaygın uygulamaları

OCR teknolojisi daha da geliştikçe, rolü temel dijitalleştirmenin çok ötesine geçmiştir. Aslında, OCR modelleri artık metinsel bilgilere dayanan çeşitli sektörlerde benimsenmektedir. İşte OCR'nin bugün gerçek dünya sistemlerinde uygulandığı bazı yollara bir bakış:

  • Hukuk endüstrisi ve e-keşif: Hukuk firmaları binlerce sayfa yasal belgeyi taramak için OCR uygulayarak sözleşmeleri, mahkeme dosyalarını ve kanıtları daha hızlı keşif ve analiz için aranabilir hale getirir.
  • Sağlık Hizmetleri: Hastaneler hasta kayıtlarını dijitalleştirmek, elle yazılmış reçeteleri yorumlamak ve laboratuvar raporlarını verimli bir şekilde yönetmek için OCR modellerini kullanıyor. Bu, idari görevleri kolaylaştırıyor ve tıbbi iş akışlarında doğruluğu artırıyor.
  • Tarihi koruma: Müzeler, kütüphaneler ve arşivler eski kitapları, el yazmalarını ve gazeteleri dijitalleştirmek için OCR uygulayarak değerli kültürel mirası korur ve araştırmacılar için aranabilir hale getirir.
  • Kimlik ve pasaport doğrulama: Birçok dijital işe alım ve seyahat sistemi, devlet tarafından verilen belgelerden önemli verileri çıkarmak için OCR'ye güvenir. Daha hızlı kimlik kontrolleri ve daha az manuel giriş hatası, daha sorunsuz kullanıcı deneyimleri ve daha yüksek güvenlik sağlar.
Şekil 5. Pasaport kimlik doğrulaması için OCR tabanlı tarayıcı.(kaynak).

OCR modellerinin artıları ve eksileri

OCR modelleri 1950'lerde ilk tasarlandıklarından bu yana uzun bir yol kat etti. Artık daha erişilebilir, doğru ve farklı içerik ve platformlara uyarlanabilir durumdalar. İşte günümüzün OCR modellerinin masaya getirdiği temel güçlü yönler:

  • Erişilebilirlik iyileştirmeleri: OCR, basılı materyalleri görme engelli kullanıcılar için ekran okuyucular tarafından okunabilir biçimlere dönüştürerek içeriğin daha erişilebilir olmasına yardımcı olur.
  • Geliştirir makine öğrenimi boru hatları: Yapılandırılmamış görsel verileri yapılandırılmış metne dönüştürerek aşağı yönde makine öğrenimi modelleri için kullanılabilir hale getiren bir köprü görevi görür.
  • Şablonsuz ayıklama: Gelişmiş OCR artık katı şablonlara ihtiyaç duymaz - düzenler belgeler arasında farklılık gösterse bile bilgileri akıllıca ayıklayabilir.

Avantajlarına rağmen OCR modellerinin, özellikle de girdi mükemmel olmadığında bazı zorlukları vardır. İşte akılda tutulması gereken bazı yaygın sınırlamalar:

  • Görüntü kalitesine duyarlıdır: OCR en iyi net görüntülerle çalışır; bulanık veya karanlık fotoğraflar sonuçları etkileyebilir.
  • Belirli el yazıları veya yazı tipleri ile mücadele: Süslü veya dağınık yazılar en iyi modellerin bile kafasını karıştırabilir.
  • İşlem sonrası hala gerekli: Yüksek doğrulukta bile OCR çıktıları, özellikle kritik belgeler için genellikle bir miktar insan incelemesine veya temizliğine ihtiyaç duyar.

Önemli çıkarımlar

OCR, bilgisayarların görüntülerden metin okumasını sağlayarak bu bilgilerin dijital sistemlerde kullanılmasını mümkün kılar. Belgelerin, işaretlerin ve el yazısı notların işlenmesinde önemli bir rol oynar ve hız ve doğruluğun kritik olduğu alanlarda etkilidir.

OCR modelleri de genellikle Ultralytics YOLO11 gibi görüntülerdeki nesneleri algılayabilen modellerle birlikte çalışır. Birlikte, sistemlerin ne yazıldığını ve nerede göründüğünü anlamasını sağlarlar. Bu teknolojiler gelişmeye devam ettikçe, OCR makinelerin dünyayı yorumlama ve dünyayla etkileşim kurma biçiminin temel bir parçası haline geliyor.

Görüntü yapay zekası hakkında merak ettikleriniz mi var? Keşfetmeye devam etmek için GitHub depomuzu ziyaret edin ve topluluğumuzla bağlantı kurun. Çözüm sayfalarımızda sürücüsüz araçlarda yapay zeka ve tarımda görü yapay zekası gibi yenilikler hakkında bilgi edinin. Lisanslama seçeneklerimize göz atın ve bir bilgisayarla görme projesine başlayın!

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Panoya kopyalanan bağlantı