YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

Popüler açık kaynaklı OCR modelleri ve nasıl çalıştıkları

Abirami Vina

5 dakikalık okuma

7 Temmuz 2025

Popüler OCR modellerini, görüntüleri nasıl metne dönüştürdüklerini ve AI ve bilgisayarlı görü uygulamalarındaki rollerini keşfederken bize katılın.

Birçok işletme ve dijital sistem, taranmış faturalar, kimlik kartları veya el yazısıyla yazılmış formlar gibi belgelerdeki bilgilere güvenir. Ancak bu bilgiler bir görüntü olarak saklandığında, bilgisayarların çeşitli görevler için arama yapması, bilgileri ayıklaması veya kullanması zorlaşır. 

Ancak, makinelerin görsel bilgileri yorumlamasını ve anlamasını sağlayan bir yapay zeka alanı olan bilgisayarlı görü gibi araçlarla, görüntüleri metne dönüştürmek çok daha kolay hale geliyor. Özellikle Optik Karakter Tanıma (OCR), metni algılamak ve çıkarmak için kullanılabilen bir bilgisayarlı görü teknolojisidir. 

OCR modelleri, çeşitli formatlardaki metinleri tanımak ve bunları düzenlenebilir, aranabilir verilere dönüştürmek için eğitilmiştir. Belge otomasyonu, kimlik doğrulama ve gerçek zamanlı tarama sistemlerinde yaygın olarak kullanılırlar.

Bu makalede, OCR modellerinin nasıl çalıştığını, popüler açık kaynak modellerini, nerelerde kullanıldıklarını, yaygın uygulamalarını ve gerçek dünyadaki kullanım için temel hususları inceleyeceğiz.

OCR nedir?

OCR modelleri, makinelerin basılı veya el yazısıyla yazılmış metinleri okuduğumuz gibi, görsel kaynaklardan metin okumasına yardımcı olmak için tasarlanmıştır. Bu modeller, taranmış belgeler, görüntüler veya el yazısı notlarının fotoğrafları gibi girdileri alır ve bunları aranabilir, düzenlenebilir veya yazılım sistemlerinde kullanılabilir dijital metne dönüştürür.

Daha önceki OCR sistemleri katı bir şablonu takip ederken, modern OCR modelleri metni tanımak için derin öğrenmeyi kullanır. Düşük kaliteli görüntüleri işlerken bile farklı türdeki metin yazı tiplerini, dilleri ve hatta karmaşık el yazılarını kolayca tanıyabilirler. Bu gelişmeler, OCR için modelleri finans, sağlık, lojistik ve devlet hizmetleri gibi metin ağırlıklı endüstrilerde otomasyonun önemli bir parçası haline getirmiştir.

OCR modelleri, metnin net ve yapılandırılmış olduğu görüntüler için harika olsa da, metin karmaşık görsellerle birlikte veya dinamik sahnelerde göründüğünde zorluklarla karşılaşabilirler. Bu durumlarda, OCR modelleri Ultralytics YOLO11 gibi bilgisayar görüşü modelleriyle birlikte kullanılabilir. 

YOLO11, bir görüntüdeki işaretler, belgeler veya etiketler gibi belirli nesneleri algılayabilir ve OCR (Optik Karakter Tanıma) kullanılmadan önce metin bölgelerini bulmaya yardımcı olur.

Örneğin, otonom araçlarda, YOLO11 bir dur işaretini algılayabilir ve ardından OCR metni okuyarak sistemin hem nesneyi hem de anlamını doğru bir şekilde yorumlamasını sağlar.

Şekil 1. OCR kullanımına bir örnek (kaynak).

OCR modellerinin nasıl çalıştığına genel bir bakış

Artık OCR'nin ne olduğunu ele aldığımıza göre, OCR modellerinin gerçekte nasıl çalıştığına daha yakından bakalım.

Bir OCR modeli bir görüntüden metin okumak ve çıkarmak için kullanılmadan önce, görüntü genellikle iki önemli adımdan geçirilir: ön işleme ve nesne algılama.

İlk olarak, görüntü ön işleme yoluyla temizlenir ve iyileştirilir. Görüntünün genel kalitesini artırmak ve metni daha kolay tespit etmek için keskinleştirme, gürültü azaltma ve parlaklık veya kontrastı ayarlama gibi temel görüntü işleme teknikleri uygulanır.

Ardından, nesne tespiti gibi bilgisayarla görü görevleri kullanılır. Bu adımda, metin içeren belirli ilgi nesneleri (örneğin, plakalar, trafik işaretleri, formlar veya kimlik kartları) bulunur. Sistem, bu nesneleri tanımlayarak anlamlı metnin bulunduğu alanları izole eder ve tanıma için hazırlar.

OCR modeli çalışmasına ancak bu adımlardan sonra başlar. İlk olarak, algılanan bölgeleri alır ve daha küçük parçalara ayırır - tek tek karakterleri, kelimeleri veya metin satırlarını tanımlar. 

Model, derin öğrenme tekniklerini kullanarak harflerin şekillerini, desenlerini ve aralıklarını analiz eder, bunları eğitim sırasında öğrendikleriyle karşılaştırır ve en olası karakterleri tahmin eder. Daha sonra tanınan karakterleri daha fazla işlenmek üzere tutarlı bir metin halinde yeniden yapılandırır.

Şekil 2. OCR'nin nasıl çalıştığını anlama. Yazarın görseli.

Popüler açık kaynaklı OCR modelleri 

Metin çıkarma içeren bir bilgisayar görüşü uygulaması oluştururken, doğru OCR modelini seçmek doğruluk, dil desteği ve gerçek dünya sistemlerine ne kadar kolay uyum sağladığı gibi faktörlere bağlıdır. 

Günümüzde, birçok açık kaynaklı model, geliştiricilerin ihtiyaç duyduğu esnekliği, güçlü topluluk desteğini ve güvenilir performansı sağlıyor. En popüler seçeneklerden bazılarına ve onları öne çıkaran özelliklere göz atalım.

Tesseract OCR

Tesseract, günümüzde mevcut olan en yaygın kullanılan açık kaynaklı OCR modellerinden biridir. Başlangıçta 1985 ile 1994 yılları arasında İngiltere, Bristol ve Colorado, Greeley'deki Hewlett-Packard Laboratuvarları'nda geliştirildi. 2005 yılında HP, Tesseract'i açık kaynaklı yazılım olarak yayınladı ve 2006'dan beri Google tarafından, açık kaynak topluluğunun devam eden katkılarıyla sürdürülmektedir.

Tesseract'in temel özelliklerinden biri, 100'den fazla dili işleyebilme yeteneğidir ve bu da onu çok dilli projeler için güvenilir bir seçim haline getirir. Sürekli iyileştirmeler, özellikle formlar ve raporlar gibi yapılandırılmış belgelerde basılı metinleri okuma konusundaki güvenilirliğini artırmıştır.

Şekil 3. Tesseract OCR kullanılarak metin tanıma (kaynak).

Tesseract, genellikle fatura tarama, evrak arşivleme veya standart düzenlere sahip belgelerden metin çıkarma içeren projelerde kullanılır. Belge kalitesi iyi olduğunda ve düzen önemli ölçüde değişmediğinde en iyi performansı gösterir.

EasyOCR

Benzer şekilde, EasyOCR, Jaided AI tarafından geliştirilen Python tabanlı, açık kaynaklı bir OCR kütüphanesidir. Latin, Çince, Arapça ve Kiril alfabeleri de dahil olmak üzere 80'den fazla dili destekleyerek, çok dilli metin tanıma için çok yönlü bir araçtır.

Hem basılı hem de el yazısıyla yazılmış metinleri işlemek üzere tasarlanan EasyOCR, düzen, yazı tipi veya yapısı farklı olan belgelerle iyi çalışır. Bu esneklik, onu makbuzlar, sokak tabelaları ve karma dilli girdiler içeren formlar gibi çeşitli kaynaklardan metin çıkarmak için harika bir seçenek haline getirir.

PyTorch üzerine kurulu EasyOCR, doğru metin algılama ve tanıma için derin öğrenme tekniklerinden yararlanır. Hem CPU'larda hem de GPU'larda verimli bir şekilde çalışır ve bu da onu göreve bağlı olarak ölçeklendirmesini sağlar - ister yerel olarak birkaç görüntüyü işlemek ister daha güçlü sistemlerde büyük dosya gruplarını işlemek olsun.

Açık kaynaklı bir araç olan EasyOCR, düzenli güncellemelerden ve topluluk odaklı iyileştirmelerden yararlanarak, çok çeşitli gerçek dünya OCR ihtiyaçlarına güncel ve uyarlanabilir kalmasına yardımcı olur.

PaddleOCR

PaddleOCR, Baidu tarafından geliştirilen ve metin algılama ve tanımayı tek bir akıcı işlem hattında birleştiren yüksek performanslı bir OCR araç setidir. 80 dil desteğiyle, makbuzlar, tablolar ve formlar gibi karmaşık belgeleri işleyebilir.

PaddleOCR'yi farklı kılan şey, PaddlePaddle derin öğrenme çerçevesi üzerine inşa edilmiş olmasıdır. PaddlePaddle çerçevesi, kolay, güvenilir ve ölçeklenebilir yapay zeka modeli geliştirme ve dağıtımı için tasarlanmıştır. Ayrıca PaddleOCR, düşük kaliteli veya karmaşık görüntülerde bile yüksek doğruluk sağlar, bu da onu hassasiyet ve güvenilirliğin önemli olduğu gerçek dünya OCR görevleri için iyi bir seçim haline getirir.

Şekil 4. PaddleOCR'nin iş akışı (kaynak).

Buna ek olarak, PaddleOCR oldukça modülerdir ve geliştiricilerin belirli algılama, tanıma ve sınıflandırma bileşenlerini seçerek işlem hatlarını özelleştirmesine olanak tanır. İyi belgelenmiş Python API'leri ve güçlü topluluk desteği ile çok çeşitli OCR uygulamaları için esnek, üretime hazır bir çözümdür.

Diğer popüler açık kaynaklı OCR modelleri

İşte yaygın olarak kullanılan diğer bazı açık kaynak OCR modelleri:

  • MMOCR: Daha karmaşık projeler için tasarlanan MMOCR, metni algılayabilir ve ayrıca bir sayfada nasıl düzenlendiğini de anlayabilir. Tablolar, çok sütunlu düzenler ve diğer görsel olarak karmaşık belgelerle çalışmak için idealdir.
  • TrOCR: Özellikle metin dizilerini anlamada iyi olan bir tür derin öğrenme modeli olan transformer'lar üzerine inşa edilen TrOCR, daha uzun pasajları ve karmaşık, yapılandırılmamış düzenleri işlemekte mükemmeldir. İçerik, yalıtılmış etiketlerden ziyade sürekli bir dil gibi okunduğunda güvenilir bir seçimdir.

OCR modellerinin yaygın uygulamaları

OCR teknolojisi daha da geliştikçe, rolü temel dijitalleştirmenin çok ötesine geçti. Hatta OCR modelleri, metinsel bilgilere dayanan çeşitli sektörlerde benimseniyor. İşte OCR'nin günümüzde gerçek dünya sistemlerinde uygulandığı bazı yollara bir bakış:

  • Hukuk sektörü (Legal industry) ve e-keşif: Hukuk firmaları, binlerce sayfalık yasal belgeyi taramak için OCR uygulayarak sözleşmeleri, mahkeme dosyalarını ve kanıtları daha hızlı keşif ve analiz için aranabilir hale getirir.
  • Sağlık Hizmetleri: Hastaneler, hasta kayıtlarını dijitalleştirmek, el yazısıyla yazılmış reçeteleri yorumlamak ve laboratuvar raporlarını verimli bir şekilde yönetmek için OCR modellerini kullanıyor. Bu, idari görevleri kolaylaştırır ve tıbbi iş akışlarında doğruluğu artırır.
  • Tarihi koruma: Müzeler, kütüphaneler ve arşivler, eski kitapları, el yazmalarını ve gazeteleri dijitalleştirmek, değerli kültürel mirası korumak ve araştırmacılar için aranabilir hale getirmek için OCR uygular.
  • Kimlik ve pasaport doğrulama: Birçok dijital kayıt ve seyahat sistemi, devlet tarafından verilen belgelerden önemli verileri çıkarmak için OCR'ye güvenir. Daha hızlı kimlik kontrolleri ve daha az manuel giriş hatası, daha sorunsuz kullanıcı deneyimlerine ve daha yüksek güvenliğe yol açar.
Şekil 5. Pasaport kimlik doğrulaması için OCR tabanlı tarayıcı. (kaynak).

OCR modellerinin artıları ve eksileri

OCR modelleri, ilk tasarlandıkları 1950'lerden bu yana çok yol kat etti. Artık daha erişilebilir, doğru ve farklı içeriklere ve platformlara uyarlanabilir durumdalar. Günümüzün OCR modellerinin sunduğu temel güçlü yönler şunlardır:

  • Erişilebilirlik iyileştirmeleri: OCR, basılı materyali görme engelli kullanıcılar için ekran okuyucular tarafından okunabilir biçimlere dönüştürerek içeriğin daha erişilebilir olmasına yardımcı olur.
  • Geliştirir makine öğrenimi ardışık düzenlerini: Yapılandırılmamış görsel verileri yapılandırılmış metne dönüştüren bir köprü görevi görerek, aşağı akışta makine öğrenimi modelleri için kullanılabilir hale getirir.
  • Şablonsuz çıkarma: Gelişmiş OCR artık katı şablonlar gerektirmiyor; belgeler arasında düzenler değiştiğinde bile bilgileri akıllıca çıkarabilir.

Avantajlarına rağmen, OCR modelleri özellikle girdi mükemmel olmadığında bazı zorluklarla karşılaşır. İşte akılda tutulması gereken bazı yaygın sınırlamalar:

  • Sensitive to image quality (Görüntü kalitesine duyarlı): OCR en iyi net görüntülerle çalışır; bulanık veya karanlık fotoğraflar sonuçları etkileyebilir.
  • Belirli el yazıları veya yazı tipleriyle ilgili zorluklar: Gösterişli veya karmaşık yazılar, en iyi modelleri bile şaşırtmaya devam edebilir.
  • Hala son işlem gerekiyor: Yüksek doğrulukta bile, OCR çıktıları genellikle, özellikle kritik belgeler için, bir miktar insan incelemesi veya temizleme gerektirir.

Önemli çıkarımlar

OCR, bilgisayarların görüntülerdeki metinleri okumasını sağlayarak bu bilgilerin dijital sistemlerde kullanılmasını mümkün kılar. Belgelerin, işaretlerin ve el yazısı notların işlenmesinde önemli bir rol oynar ve hız ile doğruluğun kritik olduğu alanlarda etkilidir.

OCR modelleri genellikle Ultralytics YOLO11 gibi, görüntülerdeki nesneleri algılayabilen modellerle birlikte çalışır. Birlikte, sistemlerin ne yazıldığını ve nerede göründüğünü anlamalarını sağlarlar. Bu teknolojiler gelişmeye devam ettikçe, OCR, makinelerin dünyayı nasıl yorumladığının ve etkileşim kurduğunun temel bir parçası haline geliyor.

Görüntü yapay zekasını merak ediyor musunuz? Keşfetmeye devam etmek için GitHub depomuzu ziyaret edin ve topluluğumuzla bağlantı kurun. Çözüm sayfalarımızda otonom sürüşlü araçlarda yapay zekâ ve tarımda Vision AI gibi yenilikler hakkında bilgi edinin. Lisanslama seçeneklerimize göz atın ve bir bilgisayarlı görü projesine başlayın!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı