كيف تعمل نماذج التعرف الضوئي على الحروف (OCR)؟

للحصول على شرح مرئي للمفاهيم التي تتناولها هذه المقالة، شاهد الفيديو أدناه.

‍

تعتمد العديد من الشركات والأنظمة الرقمية على معلومات من المستندات، مثل الفواتير الممسوحة ضوئيًا أو بطاقات الهوية أو النماذج المكتوبة بخط اليد. ولكن عندما يتم تخزين هذه المعلومات كصورة، يصعب على أجهزة الكمبيوتر البحث عنها أو استخراجها أو استخدامها في مهام مختلفة.

ومع ذلك، مع وجود أدوات مثل الرؤية الحاسوبية، وهو مجال من مجالات الذكاء الاصطناعي يمكّن الآلات من تفسير المعلومات المرئية وفهمها، أصبح تحويل الصور إلى نصوص أسهل بكثير. التعرف الضوئي على الحروف (OCR)، على وجه الخصوص، هي تقنية رؤية حاسوبية يمكن استخدامها detect النصوص واستخراجها.

تم تدريب نماذج التعرف البصري على الحروف (OCR) للتعرف على النصوص بتنسيقات متنوعة وتحويلها إلى بيانات قابلة للتحرير والبحث. وهي تستخدم على نطاق واسع في أتمتة المستندات والتحقق من الهوية وأنظمة المسح الضوئي في الوقت الفعلي.

في هذه المقالة، سوف نستكشف كيفية عمل نماذج التعرف الضوئي على الحروف (OCR)، والنماذج مفتوحة المصدر الشائعة، وأين يتم استخدامها، والتطبيقات الشائعة، والاعتبارات الرئيسية للاستخدام في العالم الحقيقي.

ما هو التعرف الضوئي على الحروف (OCR)؟

تم تصميم نماذج التعرف البصري على الحروف (OCR) لمساعدة الآلات على قراءة النصوص من مصادر مرئية، على غرار الطريقة التي نقرأ بها النصوص المطبوعة أو المكتوبة بخط اليد. تأخذ هذه النماذج مدخلات مثل المستندات الممسوحة ضوئيًا أو الصور أو صور الملاحظات المكتوبة بخط اليد وتحولها إلى نصوص رقمية يمكن البحث فيها أو تعديلها أو استخدامها في الأنظمة البرمجية.

بينما اتبعت أنظمة التعرف الضوئي على الحروف (OCR) السابقة قالبًا صارمًا، تستخدم نماذج التعرف الضوئي على الحروف الحديثة التعلم العميق للتعرف على النص. يمكنهم بسهولة التعرف على أنواع مختلفة من الخطوط واللغات وحتى الكتابة اليدوية الفوضوية مع التعامل مع الصور منخفضة الجودة. هذه التطورات جعلت نماذج التعرف الضوئي على الحروف جزءًا أساسيًا من الأتمتة في الصناعات التي تعتمد على النصوص بشكل كبير مثل التمويل والرعاية الصحية والخدمات اللوجستية والخدمات الحكومية.

على الرغم من أن نماذج التعرف الضوئي على الحروف رائعة للصور التي يكون فيها النص واضحًا ومنظمًا، إلا أنها قد تواجه تحديات عندما يظهر النص إلى جانب صور معقدة أو ضمن مشاهد ديناميكية. في هذه الحالات، يمكن استخدام نماذج التعرف الضوئي على الحروف إلى جانب نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11.

يمكن YOLO11 detect كائنات محددة في الصورة، مثل اللافتات أو المستندات أو الملصقات، مما يساعد على تحديد مناطق النص قبل استخدام التعرف الضوئي على الحروف لاستخراج المحتوى الفعلي.

على سبيل المثال، في المركبات ذاتية القيادة، يمكن لـ YOLO11 detect علامة توقّف، ومن ثم يمكن لنظام التعرف الضوئي على الحروف قراءة النص، مما يسمح للنظام بتفسير كل من الكائن ومعناه بدقة.

الشكل 1. مثال على استخدام التعرف الضوئي على الحروف (OCR) (المصدر).

‍

نظرة عامة على كيفية عمل نماذج التعرف الضوئي على الحروف (OCR)

الآن بعد أن غطينا ماهية التعرف الضوئي على الحروف (OCR)، دعونا نلقي نظرة فاحصة على كيفية عمل نماذج التعرف الضوئي على الحروف (OCR) فعليًا.

قبل استخدام نموذج التعرف الضوئي على الحروف (OCR) لقراءة النص واستخراجه من صورة، عادةً ما يتم تمرير الصورة عبر خطوتين مهمتين: المعالجة المسبقة واكتشاف الكائنات.

أولاً، يتم تنظيف الصورة وتحسينها من خلال المعالجة المسبقة. يتم تطبيق تقنيات معالجة الصور الأساسية، مثل زيادة الوضوح وتقليل الضوضاء وضبط السطوع أو التباين، لتحسين الجودة الإجمالية للصورة وتسهيل detect النص.

بعد ذلك، يتم استخدام مهام الرؤية الحاسوبية مثل اكتشاف الكائنات. في هذه الخطوة، يتم تحديد مواقع كائنات معينة ذات أهمية تحتوي على نص - مثل لوحات الترخيص أو لافتات الشوارع أو النماذج أو بطاقات الهوية. من خلال تحديد هذه الكائنات، يعزل النظام المناطق التي يوجد بها نص ذو معنى، ويجهزها للتعرف عليها.

فقط بعد هذه الخطوات يبدأ نموذج التعرف الضوئي على الحروف (OCR) عمله. أولاً، يأخذ المناطق المكتشفة ويقسمها إلى أجزاء أصغر - تحديد الأحرف أو الكلمات أو سطور النص الفردية.

باستخدام تقنيات التعلم العميق، يحلل النموذج الأشكال والأنماط والتباعد بين الحروف، ويقارنها بما تعلمه أثناء التدريب، ويتوقع الأحرف الأكثر احتمالاً. ثم يعيد بناء الأحرف التي تم التعرف عليها في نص متماسك لمزيد من المعالجة.

الشكل 2. فهم كيفية عمل التعرف الضوئي على الحروف (OCR). صورة من إعداد المؤلف.

‍

نماذج OCR مفتوحة المصدر الشائعة

عندما تقوم ببناء تطبيق رؤية حاسوبية يتضمن استخراج النصوص، فإن اختيار نموذج التعرف الضوئي على الحروف (OCR) المناسب يعتمد على عوامل مثل الدقة ودعم اللغة ومدى سهولة ملاءمته للأنظمة الواقعية.

في الوقت الحاضر، توفر العديد من النماذج مفتوحة المصدر المرونة ودعم المجتمع القوي والأداء الموثوق الذي يحتاجه المطورون. دعونا نشرح بعض الخيارات الأكثر شيوعًا وما الذي يميزها.

Tesseract OCR

Tesseract هو أحد أكثر نماذج التعرف الضوئي على الحروف مفتوحة المصدر المتاحة اليوم. وقد تم تطويره في البداية في مختبرات هيوليت-باكارد في بريستول، إنجلترا، وغريلي، كولورادو، بين عامي 1985 و 1994. في عام 2005، أصدرت HP برنامج Tesseract كبرنامج مفتوح المصدر، ومنذ عام 2006، تحتفظ به Google مع مساهمات مستمرة من مجتمع المصادر المفتوحة.

إحدى الميزات الرئيسية في Tesseract هي قدرته على التعامل مع أكثر من 100 لغة، مما يجعله خيارًا موثوقًا به للمشاريع متعددة اللغات. أدت التحسينات المستمرة إلى تعزيز موثوقيته في قراءة النصوص المطبوعة، خاصة في المستندات المنظمة مثل النماذج والتقارير.

الشكل 3. التعرف على النصوص باستخدام برنامج Tesseract OCR (المصدر).

‍

يشيع استخدام Tesseract في المشاريع التي تتضمن مسح الفواتير أو أرشفة الأوراق أو استخراج النصوص من المستندات ذات التخطيطات القياسية. يكون أداؤه أفضل عندما تكون جودة المستند جيدة، ولا يختلف التخطيط اختلافًا كبيرًا.

EasyOCR

وبالمثل، فإن EasyOCR هي مكتبة للتعرّف الضوئي على الحروف مفتوحة المصدر Python طوّرتها شركة Jaided AI. وهي تدعم أكثر من 80 لغة، بما في ذلك اللاتينية والصينية والعربية والسيريلية، مما يجعلها أداة متعددة الاستخدامات للتعرّف على النصوص متعددة اللغات.

تم تصميم EasyOCR للتعامل مع النصوص المطبوعة والمكتوبة بخط اليد، ويعمل بشكل جيد مع المستندات التي تختلف في التخطيط أو الخط أو البنية. هذه المرونة تجعله خيارًا رائعًا لاستخراج النص من مصادر متنوعة مثل الإيصالات وعلامات الشوارع والنماذج ذات المدخلات متعددة اللغات.

مبني على PyTorchEasyOCR، تستفيد من تقنيات التعلّم العميق للكشف عن النصوص والتعرف عليها بدقة. وهو يعمل بكفاءة على كلٍ من وحدات المعالجة المركزية ووحدات معالجة الرسومات، مما يسمح له بالتوسع حسب المهمة، سواءً كانت معالجة بعض الصور محليًا أو معالجة مجموعات كبيرة من الملفات على أنظمة أكثر قوة.

باعتبارها أداة مفتوحة المصدر، تستفيد EasyOCR من التحديثات المنتظمة والتحسينات التي يقودها المجتمع، مما يساعدها على البقاء حديثة وقابلة للتكيف مع مجموعة واسعة من احتياجات التعرف الضوئي على الحروف (OCR) في العالم الحقيقي.

PaddleOCR

PaddleOCR هي مجموعة أدوات OCR عالية الأداء تم تطويرها بواسطة Baidu تجمع بين اكتشاف النصوص والتعرف عليها في مسار مبسط واحد. مع دعم 80 لغة، يمكنه التعامل مع المستندات المعقدة مثل الإيصالات والجداول والنماذج.

ما يجعل PaddleOCR مختلفًا هو أنه مبني على PaddlePaddle للتعلم العميق. تم تصميم إطار عمل PaddlePaddle من أجل تطوير ونشر نموذج ذكاء اصطناعي سهل وموثوق وقابل للتطوير. بالإضافة إلى ذلك، يوفر PaddleOCR دقة عالية حتى على الصور منخفضة الجودة أو المشوشة، مما يجعله خيارًا جيدًا لمهام التعرف الضوئي على الحروف في العالم الحقيقي حيث الدقة والموثوقية أمران أساسيان.

‍

وعلاوة على ذلك، فإن PaddleOCR هو حل معياري للغاية، مما يسمح للمطورين بتخصيص خطوط الأنابيب الخاصة بهم عن طريق اختيار مكونات محددة للكشف والتعرف والتصنيف. وبفضل واجهات برمجة تطبيقات Python الموثقة جيدًا والدعم المجتمعي القوي، فهو حل مرن وجاهز للإنتاج لمجموعة واسعة من تطبيقات التعرف الضوئي على الحروف.

نماذج OCR مفتوحة المصدر الشائعة الأخرى

فيما يلي بعض نماذج التعرف الضوئي على الحروف (OCR) مفتوحة المصدر الأخرى شائعة الاستخدام:

MMOCR: تم تصميم MMOCR للمشاريع الأكثر تعقيدًا، ويمكنه detect النص وفهم كيفية ترتيبه على الصفحة. إنه مثالي للعمل مع الجداول والتخطيطات متعددة الأعمدة وغيرها من المستندات المعقدة بصريًا.
‍
TrOCR: يعتمد على المحولات (transformers)، وهو نوع من نماذج التعلم العميق الجيدة بشكل خاص في فهم تسلسل النصوص، يتفوق TrOCR في التعامل مع المقاطع الأطول والتخطيطات الفوضوية وغير المنظمة. إنه خيار موثوق به عندما تكون قراءة المحتوى مثل لغة مستمرة بدلاً من تسميات معزولة.

التطبيقات الشائعة لنماذج التعرف الضوئي على الحروف (OCR)

مع ازدياد تطور تكنولوجيا التعرف الضوئي على الحروف (OCR)، توسع دورها إلى أبعد من الرقمنة الأساسية. في الواقع، يتم الآن اعتماد نماذج التعرف الضوئي على الحروف (OCR) في مختلف الصناعات التي تعتمد على المعلومات النصية. إليك لمحة عن بعض الطرق التي يتم بها تطبيق التعرف الضوئي على الحروف (OCR) في الأنظمة الواقعية اليوم:

الصناعة القانونية والاكتشاف الإلكتروني: تطبق شركات المحاماة التعرف الضوئي على الحروف (OCR) لمسح آلاف الصفحات من المستندات القانونية، مما يجعل العقود والإيداعات القضائية والأدلة قابلة للبحث لاكتشافها وتحليلها بشكل أسرع.
‍
الرعاية الصحية: تستخدم المستشفيات نماذج التعرف الضوئي على الحروف لرقمنة سجلات المرضى وتفسير الوصفات الطبية المكتوبة بخط اليد وإدارة تقارير المختبر بكفاءة. وهذا يبسط المهام الإدارية ويحسن الدقة في جميع سير العمل الطبية.
‍
الحفاظ على التراث التاريخي: تطبق المتاحف والمكتبات ودور المحفوظات تقنية التعرف الضوئي على الحروف (OCR) لرقمنة الكتب والمخطوطات والصحف القديمة، والحفاظ على التراث الثقافي القيم وجعله قابلاً للبحث للباحثين.
‍
التحقق من الهوية وجواز السفر: تعتمد العديد من أنظمة الإعداد الرقمي والسفر على التعرف الضوئي على الحروف (OCR) لاستخراج البيانات الرئيسية من المستندات الصادرة عن الحكومة. تؤدي فحوصات الهوية الأسرع وتقليل أخطاء الإدخال اليدوي إلى تجارب مستخدم أكثر سلاسة وأمانًا أعلى.

الشكل 5. ماسح ضوئي يعتمد على التعرف الضوئي على الحروف (OCR) للتحقق من هوية جواز السفر. (المصدر).

‍

إيجابيات وسلبيات نماذج التعرف الضوئي على الحروف (OCR)

لقد قطعت نماذج التعرف البصري على الحروف (OCR) شوطًا طويلاً منذ أن تم تصورها لأول مرة في الخمسينيات من القرن الماضي. وهي الآن أكثر سهولة ودقة وقابلية للتكيف مع المحتوى والمنصات المختلفة. فيما يلي نقاط القوة الرئيسية التي تقدمها نماذج التعرف البصري على الحروف (OCR) اليوم:

تحسينات إمكانية الوصول: يساعد التعرف الضوئي على الحروف (OCR) في جعل المحتوى أكثر سهولة من خلال تحويل المواد المطبوعة إلى تنسيقات يمكن قراءتها بواسطة برامج قراءة الشاشة للمستخدمين ضعاف البصر.
‍
تحسين خطوات تعلم الآلة: إنه يعمل كجسر يحول البيانات المرئية غير المنظمة إلى نص منظم، مما يجعلها قابلة للاستخدام لنماذج تعلم الآلة في المراحل النهائية.
‍
استخراج بدون قوالب: لم يعد التعرف الضوئي المتقدم على الحروف (OCR) يتطلب قوالب جامدة - بل يمكنه استخراج المعلومات بذكاء حتى عندما تختلف التخطيطات بين المستندات.

على الرغم من مزاياها، لا تزال نماذج التعرف الضوئي على الحروف (OCR) تواجه بعض التحديات، خاصة عندما لا تكون المدخلات مثالية. فيما يلي بعض القيود الشائعة التي يجب وضعها في الاعتبار:

حساس لجودة الصورة: يعمل التعرف الضوئي على الحروف بشكل أفضل مع الصور الواضحة؛ يمكن أن تؤثر الصور الضبابية أو الداكنة على النتائج.
‍
صعوبات في التعامل مع خط اليد أو الخطوط المعينة: قد يظل الكتابة الفاخرة أو الفوضوية تربك حتى أفضل النماذج.
‍
لا تزال المعالجة اللاحقة مطلوبة: حتى مع الدقة العالية، غالبًا ما تحتاج مخرجات التعرف الضوئي على الحروف (OCR) إلى بعض المراجعة أو التنظيف البشري، خاصةً للمستندات الهامة.

النقاط الرئيسية

تمكّن تقنية التعرف البصري على الحروف (OCR) أجهزة الكمبيوتر من قراءة النصوص من الصور، مما يجعل من الممكن استخدام هذه المعلومات في الأنظمة الرقمية. وهي تلعب دورًا رئيسيًا في معالجة المستندات واللافتات والملاحظات المكتوبة بخط اليد، وتحدث تأثيرًا في المجالات التي تكون فيها السرعة والدقة بالغة الأهمية.

كما تعمل نماذج التعرّف الضوئي على الحروف غالبًا جنبًا إلى جنب مع نماذج مثل Ultralytics YOLO11 والتي يمكنها detect الكائنات داخل الصور. تعمل هذه النماذج معاً على تمكين الأنظمة من فهم ما هو مكتوب ومكان ظهوره. ومع استمرار تحسّن هذه التقنيات، أصبح التعرف الضوئي على الحروف جزءاً أساسياً من كيفية تفسير الآلات للعالم وتفاعلها معه.

هل أنت مهتم بالذكاء الاصطناعي البصري؟ قم بزيارة مستودع GitHub الخاص بنا وتواصل مع مجتمعنا لمواصلة الاستكشاف. تعرف على الابتكارات مثل الذكاء الاصطناعي في السيارات ذاتية القيادة و الذكاء الاصطناعي البصري في الزراعة في صفحات الحلول الخاصة بنا. تحقق من خيارات الترخيص الخاصة بنا وابدأ مشروع رؤية الكمبيوتر!

نماذج OCR مفتوحة المصدر الشائعة وكيفية عملها

ما هو التعرف الضوئي على الحروف (OCR)؟

نظرة عامة على كيفية عمل نماذج التعرف الضوئي على الحروف (OCR)