Popüler açık kaynaklı OCR modelleri ve nasıl çalıştıkları
Popüler OCR modellerini, görüntüleri nasıl metne dönüştürdüklerini ve yapay zeka ve bilgisayarlı görü uygulamalarındaki rollerini keşfederken bize katıl.

Bu makalede ele alınan kavramların görsel bir anlatımı için aşağıdaki videoyu izle.
Birçok işletme ve dijital sistem, taranmış faturalar, kimlik kartları veya el yazısı formlar gibi belgelerden gelen bilgilere dayanır. Ancak bu bilgiler bir görüntü olarak saklandığında, bilgisayarların bunları araması, çıkarması veya çeşitli görevler için kullanması zordur.
Bununla birlikte, makinelerin görsel bilgileri yorumlamasını ve anlamasını sağlayan bir yapay zeka alanı olan computer vision gibi araçlarla, görüntüleri metne dönüştürmek çok daha kolay hale geliyor. Özellikle Optical Character Recognition (OCR), metni algılamak ve çıkarmak için kullanılabilen bir bilgisayarlı görü teknolojisidir.
OCR modelleri, metni çeşitli biçimlerde tanımak ve düzenlenebilir, aranabilir verilere dönüştürmek üzere eğitilirler. Belge otomasyonu, kimlik doğrulama ve gerçek zamanlı tarama sistemlerinde yaygın olarak kullanılırlar.
Bu makalede OCR modellerinin nasıl çalıştığını, popüler open-source modelleri, nerede kullanıldıklarını, yaygın uygulamalarını ve gerçek dünyadaki kullanımına dair temel hususları inceleyeceğiz.
Link to this sectionOCR nedir?#
OCR modelleri, basılı veya el yazısı metinleri okuduğumuz gibi, makinelerin de görsel kaynaklardan metin okumasına yardımcı olmak için tasarlanmıştır. Bu modeller, taranmış belgeler, görüntüler veya el yazısı notların fotoğrafları gibi girdileri alır ve bunları aranabilir, düzenlenebilir veya yazılım sistemlerinde kullanılabilir dijital metinlere dönüştürür.
Eski OCR sistemleri katı şablonları takip etse de, modern OCR modelleri metni tanımak için derin öğrenmeyi kullanır. Farklı metin fontlarını, dilleri ve hatta karmaşık el yazılarını kolayca tanıyabilir, düşük kaliteli görüntüleri işleyebilirler. Bu gelişmeler, OCR modellerini finans, sağlık, lojistik ve devlet hizmetleri gibi metin yoğunluklu sektörlerde otomasyonun önemli bir parçası haline getirmiştir.
OCR modelleri, metnin net ve yapılandırılmış olduğu görüntüler için harika olsa da, metnin karmaşık görsellerin yanında veya dinamik sahnelerin içinde yer aldığı durumlarda zorluklarla karşılaşabilirler. Bu gibi durumlarda, OCR modelleri Ultralytics YOLO11 gibi bilgisayarlı görü modelleriyle birlikte kullanılabilir.
YOLO11, bir görüntüdeki tabelalar, belgeler veya etiketler gibi belirli nesneleri algılayabilir ve OCR'ın asıl içeriği çıkarmasından önce metin bölgelerinin konumunu belirlemeye yardımcı olabilir.
Örneğin, autonomous vehicles alanında, YOLO11 bir dur tabelasını algılayabilir ve ardından OCR metni okuyarak sistemin hem nesneyi hem de anlamını doğru bir şekilde yorumlamasını sağlayabilir.

Şekil 1. OCR kullanımına bir örnek (kaynak).
Link to this sectionOCR modellerinin nasıl çalıştığına genel bir bakış#
OCR'ın ne olduğunu anlattığımıza göre, şimdi OCR modellerinin gerçekte nasıl çalıştığına daha yakından bakalım.
Bir OCR modeli, bir görüntüden metin okumak ve çıkarmak için kullanılmadan önce, görüntü genellikle iki önemli adımdan geçirilir: ön işleme ve nesne algılama.
İlk olarak görüntü, ön işleme yoluyla temizlenir ve iyileştirilir. Görüntünün genel kalitesini artırmak ve metnin daha kolay algılanmasını sağlamak için keskinleştirme, gürültü azaltma ve parlaklık veya kontrast ayarı gibi temel image processing teknikleri uygulanır.
Ardından nesne algılama gibi computer vision tasks kullanılır. Bu adımda, plaka, sokak tabelası, form veya kimlik kartı gibi üzerinde metin bulunan ilgi çekici nesneler konumlandırılır. Sistem, bu nesneleri tanımlayarak anlamlı metinlerin bulunduğu alanları izole eder ve onları tanıma işlemine hazırlar.
OCR modeli ancak bu adımlardan sonra işine başlar. İlk olarak, algılanan bölgeleri alır ve daha küçük parçalara ayırarak karakterleri, kelimeleri veya metin satırlarını tek tek tanımlar.
Derin öğrenme tekniklerini kullanarak model; harflerin şekillerini, desenlerini ve aralıklarını analiz eder, bunları eğitim sırasında öğrendikleriyle karşılaştırır ve en olası karakterleri tahmin eder. Daha sonra, tanınan karakterleri daha fazla işleme için tutarlı bir metin halinde yeniden birleştirir.

Şekil 2. OCR'ın çalışma mantığını anlamak. Görüntü yazara aittir.
Link to this sectionPopüler açık kaynak OCR modelleri#
Metin çıkarma içeren bir bilgisayarlı görü uygulaması oluştururken, doğru OCR modelini seçmek; doğruluk, dil desteği ve gerçek dünya sistemlerine ne kadar kolay entegre edilebildiği gibi faktörlere bağlıdır.
Günümüzde birçok açık kaynak modeli; geliştiricilerin ihtiyaç duyduğu esnekliği, güçlü topluluk desteğini ve güvenilir performansı sağlıyor. En popüler seçeneklerden bazılarını ve onları öne çıkaran özellikleri gözden geçirelim.
Link to this sectionTesseract OCR#
Tesseract, günümüzde mevcut olan en yaygın kullanılan açık kaynak OCR modellerinden biridir. İlk olarak 1985 ile 1994 yılları arasında Bristol, İngiltere ve Greeley, Colorado'daki Hewlett-Packard Laboratuvarlarında geliştirilmiştir. 2005 yılında HP, Tesseract'ı açık kaynaklı yazılım olarak yayınladı ve 2006'dan bu yana, açık kaynak topluluğunun devam eden katkılarıyla Google tarafından desteklenmektedir.
Tesseract'ın temel özelliklerinden biri, 100'den fazla dili işleyebilme yeteneğidir, bu da onu çok dilli projeler için güvenilir bir seçenek haline getirir. Sürekli yapılan iyileştirmeler, özellikle formlar ve raporlar gibi yapılandırılmış belgelerde basılı metinleri okumadaki güvenilirliğini artırmıştır.

Şekil 3. Tesseract OCR kullanarak metin tanıma (kaynak).
Tesseract, scanning invoices, evrakları arşivleme veya standart düzenlere sahip belgelerden metin çıkarma gibi projelerde yaygın olarak kullanılır. Belge kalitesi iyi olduğunda ve düzen önemli ölçüde değişmediğinde en iyi performansı gösterir.
Link to this sectionEasyOCR#
Benzer şekilde EasyOCR, Jaided AI tarafından geliştirilen, Python tabanlı bir açık kaynak OCR kütüphanesidir. Latin, Çince, Arapça ve Kiril alfabeleri dahil olmak üzere 80'den fazla dili destekler ve bu da onu çok dilli metin tanıma için çok yönlü bir araç haline getirir.
Hem basılı hem de el yazısı metinleri işlemek üzere tasarlanan EasyOCR, düzeni, yazı tipi veya yapısı değişkenlik gösteren belgelerle iyi çalışır. Bu esneklik; makbuzlar, sokak tabelaları ve karma dilli girdilere sahip formlar gibi çeşitli kaynaklardan metin çıkarmak için onu harika bir seçenek haline getirir.
PyTorch üzerine inşa edilen EasyOCR, doğru metin algılama ve tanıma için derin öğrenme tekniklerinden yararlanır. Hem CPU hem de GPU üzerinde verimli bir şekilde çalışır; bu da yerel olarak birkaç görüntüyü işlemekten daha güçlü sistemlerde büyük dosya yığınlarını yönetmeye kadar göreve bağlı olarak ölçeklenmesine olanak tanır.
Açık kaynaklı bir araç olan EasyOCR, düzenli güncellemelerden ve topluluk odaklı iyileştirmelerden yararlanarak güncel kalmasını ve gerçek dünyadaki çok çeşitli OCR ihtiyaçlarına uyum sağlamasını kolaylaştırır.
Link to this sectionPaddleOCR#
PaddleOCR, Baidu tarafından geliştirilen, metin algılama ve tanımayı tek bir akıcı hat üzerinde birleştiren yüksek performanslı bir OCR araç setidir. 80 dili destekleyerek makbuzlar, tablolar ve formlar gibi karmaşık belgeleri işleyebilir.
PaddleOCR'ı farklı kılan şey, PaddlePaddle derin öğrenme çerçevesi üzerine inşa edilmiş olmasıdır. PaddlePaddle çerçevesi, kolay, güvenilir ve ölçeklenebilir yapay zeka modeli geliştirme ve dağıtımı için tasarlanmıştır. Ayrıca PaddleOCR, düşük kaliteli veya karmaşık görüntülerde bile yüksek doğruluk sunar; bu da onu hassasiyet ve güvenilirliğin kritik olduğu gerçek dünya OCR görevleri için iyi bir seçim haline getirir.

Şekil 4. PaddleOCR iş akışı (kaynak).
Bunun da ötesinde PaddleOCR son derece modülerdir; geliştiricilerin belirli algılama, tanıma ve sınıflandırma bileşenlerini seçerek hatlarını özelleştirmelerine olanak tanır. İyi belgelenmiş Python API'leri ve güçlü topluluk desteğiyle, çok çeşitli OCR uygulamaları için esnek ve üretime hazır bir çözümdür.
Link to this sectionDiğer popüler açık kaynak OCR modelleri#
İşte yaygın olarak kullanılan diğer bazı açık kaynak OCR modelleri:
- MMOCR: Daha karmaşık projeler için tasarlanmış olan MMOCR, metni algılayabilir ve ayrıca bir sayfada nasıl düzenlendiğini anlayabilir. Tablolar, çok sütunlu düzenler ve görsel olarak karmaşık diğer belgelerle çalışmak için idealdir.
- TrOCR: Metin dizilerini anlamada özellikle iyi olan bir derin öğrenme modeli türü olan transformer'lar üzerine inşa edilen TrOCR, daha uzun pasajları ve karmaşık, yapılandırılmamış düzenleri işlemede mükemmeldir. İçerik izole etiketlerden ziyade sürekli bir dil olarak okunduğunda güvenilir bir seçimdir.
Link to this sectionOCR modellerinin yaygın uygulamaları#
OCR teknolojisi daha gelişmiş hale geldikçe, rolü temel dijitalleştirmenin çok ötesine geçti. Aslında OCR modelleri artık metinsel bilgilere dayanan çeşitli sektörlerde benimseniyor. İşte OCR'ın günümüzde gerçek dünya sistemlerinde uygulanma biçimlerinden bazılarına bir bakış:
- Legal industry ve e-keşif: Hukuk büroları, binlerce sayfalık yasal belgeyi taramak için OCR uygulayarak sözleşmeleri, mahkeme dosyalarını ve kanıtları daha hızlı keşif ve analiz için aranabilir hale getirir.
- Sağlık hizmetleri: Hastaneler, hasta kayıtlarını dijitalleştirmek, el yazısı reçeteleri yorumlamak ve laboratuvar raporlarını verimli bir şekilde yönetmek için OCR modellerini kullanıyor. Bu, idari görevleri kolaylaştırır ve tıbbi iş akışlarında doğruluğu artırır.
- Tarihsel koruma: Müzeler, kütüphaneler ve arşivler; eski kitapları, el yazmalarını ve gazeteleri dijitalleştirmek, değerli kültürel mirası korumak ve araştırmacılar için aranabilir hale getirmek için OCR uygular.
- Kimlik ve pasaport doğrulama: Birçok dijital işe alım ve seyahat sistemi, devlet tarafından verilen belgelerden önemli verileri çıkarmak için OCR'a güvenir. Daha hızlı kimlik kontrolleri ve daha az manuel giriş hatası, daha sorunsuz kullanıcı deneyimleri ve daha yüksek güvenlik sağlar.

Şekil 5. Pasaport kimlik doğrulaması için OCR tabanlı tarayıcı. (kaynak).
Link to this sectionOCR modellerinin artıları ve eksileri#
OCR modelleri, 1950'lerde ilk tasarlandıklarından bu yana çok yol kat etti. Artık farklı içerikler ve platformlar için daha erişilebilir, doğru ve uyarlanabilir durumdalar. İşte günümüzün OCR modellerinin sunduğu temel güçler:
- Erişilebilirlik iyileştirmeleri: OCR, basılı materyalleri görme engelli kullanıcılar için ekran okuyucular tarafından okunabilir formatlara dönüştürerek içeriği daha erişilebilir hale getirmeye yardımcı olur.
- machine learning hatlarını geliştirir: Yapılandırılmamış görsel verileri yapılandırılmış metne dönüştüren bir köprü görevi görerek, bunları sonraki aşamadaki makine öğrenimi modelleri için kullanılabilir hale getirir.
- Şablonsuz çıkarma: Gelişmiş OCR artık katı şablonlar gerektirmez; belgeler arasında düzenler farklılık gösterse bile bilgileri akıllıca çıkarabilir.
Avantajlarına rağmen, OCR modelleri özellikle girdi mükemmel olmadığında hala birkaç zorlukla karşı karşıyadır. İşte akılda tutulması gereken bazı yaygın sınırlamalar:
- Görüntü kalitesine duyarlılık: OCR, net görüntülerle en iyi şekilde çalışır; bulanık veya karanlık fotoğraflar sonuçları etkileyebilir.
- Bazı el yazıları veya yazı tipleriyle zorlanma: Süslü veya karmaşık yazılar en iyi modelleri bile şaşırtabilir.
- Son işleme hala gereklidir: Yüksek doğrulukta bile, özellikle kritik belgeler için OCR çıktıları genellikle bir miktar insan incelemesi veya temizlik gerektirir.
Link to this sectionÖne çıkanlar#
OCR, bilgisayarların görüntülerdeki metni okumasını sağlayarak bu bilgilerin dijital sistemlerde kullanılmasını mümkün kılar. Belgeleri, tabelaları ve el yazısı notları işlemede kilit bir rol oynar ve hız ile doğruluğun kritik olduğu alanlarda etkilidir.
OCR modelleri ayrıca genellikle görüntülerdeki nesneleri algılayabilen Ultralytics YOLO11 gibi modellerle birlikte çalışır. Birlikte, sistemlerin neyin yazılı olduğunu ve nerede göründüğünü anlamalarını sağlarlar. Bu teknolojiler gelişmeye devam ettikçe, OCR makinelerin dünyayı yorumlama ve dünyayla etkileşim kurma biçiminin temel bir parçası haline geliyor.
Görüntü tabanlı yapay zekayı merak mı ediyorsun? GitHub depomuzu ziyaret et ve keşfetmeye devam etmek için topluluğumuzla bağlantı kur. AI in self-driving cars ve vision AI in agriculture gibi yenilikler hakkında bilgi edinmek için çözüm sayfalarımıza göz at. Lisanslama seçeneklerimizi incele ve bir bilgisayarlı görü projesine başla!






