استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

التعرف الضوئي على الحروف (OCR)

اكتشف كيفية تحويل OCR للصور وملفات PDF إلى نصوص قابلة للبحث والتحرير باستخدام الذكاء الاصطناعي و YOLO11 لاكتشاف النصوص واستخراجها بسرعة ودقة.

التعرّف الضوئي على الحروف (OCR) هي تقنية تقوم بتحويل أنواع مختلفة من المستندات، مثل المستندات الورقية الممسوحة ضوئيًا أو ملفات PDF أو الصور الملتقطة بواسطة كاميرا رقمية، إلى بيانات قابلة للتحرير والبحث. تم تطوير تقنية التعرف الضوئي على الحروف (OCR) في البداية لمساعدة ضعاف البصر من خلال تحويل النص المطبوع إلى كلام، ثم تطورت لتصبح حجر الزاوية في التحول الرقمي في مختلف الصناعات. من خلال الاستفادة من التطورات في مجال الذكاء الاصطناعي (AI) والرؤية الحاسوبية، يمكن لأنظمة التعرف الضوئي على الحروف الحديثة التعرف على النصوص في مجموعة كبيرة من الخطوط واللغات وحتى الأنماط المكتوبة بخط اليد بدقة ملحوظة.

كيف يعمل التعرف الضوئي على الحروف

تتضمن عملية تحويل الصورة إلى نص رقمي عدة مراحل رئيسية. تُعد خطوط أنابيب التعرف الضوئي على الحروف الحديثة، المعززة بالتعلم العميق، أكثر قوة بكثير من أنظمة مطابقة القوالب القديمة.

  • المعالجة المسبقة للصور: الخطوة الأولى هي تنظيف الصورة المصدر وتحسينها لتحسين جودتها. يتم تطبيق تقنيات مثل ضبط السطوع والتباين، وتقليل التشويش، وزيادة حدة الصورة لجعل النص أكثر وضوحاً وأسهل في الكشف عنه. هذه المرحلة مهمة، خاصةً عند التعامل مع عمليات المسح الضوئي منخفضة الجودة أو الصور الملتقطة في ظروف إضاءة ضعيفة.
  • اكتشاف النص: قبل التعرف على الأحرف، يجب على النظام تحديد مكان النص داخل الصورة. وغالباً ما يتم تحقيق ذلك باستخدام نماذج قوية للكشف عن الكائنات، مثل Ultralytics YOLO11، والتي يمكنها تحديد وعزل كتل النص أو الأسطر أو الكلمات الفردية.
  • التعرّف على الأحرف: بمجرد اكتشاف مناطق النص، تقوم شبكة عصبية مدرّبة على مجموعات بيانات ضخمة من الأحرف بتحليل الأشكال والأنماط لتحديد كل حرف ورقم. وهنا يأتي دور أدوات مثل محرك Tesseract المفتوح المصدر، الذي طورته شركة HP في الأصل وتحتفظ به Google الآن.
  • المعالجة اللاحقة: تتضمن المرحلة الأخيرة تحويل الأحرف التي تم التعرف عليها إلى نص منظم وقابل للاستخدام. قد يتضمن ذلك نمذجة اللغة لتصحيح الأخطاء أو تنسيق المخرجات إلى تنسيق معين مثل JSON أو XML لتسهيل التكامل مع البرامج الأخرى.

التعرف الضوئي على الحروف ومهام الرؤية الحاسوبية ذات الصلة

على الرغم من أن التعرف الضوئي على الحروف تقنية متخصصة للغاية، إلا أنها ترتبط ارتباطًا وثيقًا بمهام الرؤية الحاسوبية الأخرى. ومن المهم فهم دورها الفريد من نوعه.

يختلف التعرّف الضوئي على الحروف اختلافًا جوهريًا عن التعرّف الأوسع نطاقًا على الصور. فبينما يهدف التعرف على الصور إلى تحديد الكائنات والمشاهد والوجوه داخل الصورة، يركز التعرف الضوئي على الحروف (OCR) حصريًا على تفسير الأحرف النصية. ومع ذلك، غالبًا ما تعمل هذه التقنيات معًا. على سبيل المثال، قد يستخدم أحد التطبيقات تقنية التعرّف على الصور لتحديد لافتة في الشارع ثم يستخدم التعرف الضوئي على الحروف لقراءة النص الموجود على تلك اللافتة. وبالمثل، في تحليل المستندات، يقوم نموذج الكشف عن الكائنات أولاً بتحديد موقع توقيع أو رقم فاتورة قبل تطبيق التعرف الضوئي على الحروف لاستخراج المعلومات المحددة.

تطبيقات واقعية

لقد أدى الجمع بين الرؤية الحاسوبية والتعرف الضوئي على الحروف (OCR) إلى تحقيق الكفاءة والأتمتة في العديد من القطاعات.

  • التعرّف التلقائي على لوحة الأرقام (ANPR): في إدارة حركة المرور وإنفاذ القانون، تستخدم أنظمة التعرّف الآلي على لوحات الأرقام (ANPR) نماذج الكشف عن الأجسام لتحديد موقع لوحة ترخيص السيارة أولاً في صورة أو فيديو. وبمجرد عزل اللوحة، تقرأ تقنية التعرف الضوئي على الحروف الأبجدية الرقمية وتحولها إلى نص يمكن قراءته آلياً للبحث في قاعدة البيانات أو تحصيل الرسوم أو تتبع المركبات المسروقة.
  • معالجة الفواتير والإيصالات: تعتمد صناعات الخدمات المالية وتجارة التجزئة على تقنية التعرف الضوئي على الحروف (OCR) لأتمتة معالجة الفواتير والإيصالات وكشوف الحسابات المصرفية. يمكن لنموذج رؤية الكمبيوتر اكتشاف الحقول الرئيسية مثل اسم البائع والتاريخ والمبلغ الإجمالي في الفاتورة. بعد ذلك، يستخرج OCR النص من هذه المناطق المحددة، مما يلغي الإدخال اليدوي للبيانات ويقلل من الأخطاء ويسرّع دورات الدفع.

وتشمل التطبيقات المهمة الأخرى رقمنة المحفوظات التاريخية للحفظ والبحث، وتبسيط إدارة سجلات المرضى في مجال الرعاية الصحية، وتمكين التحقق من الهوية عن طريق استخراج البيانات من جوازات السفر وبطاقات الهوية. وقد جعلت المكتبات الشهيرة مفتوحة المصدر مثل EasyOCR و PaddleOCR هذه التكنولوجيا أكثر سهولة للمطورين لدمجها في تطبيقاتهم.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة