Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعرف الضوئي على الحروف (OCR)

اكتشف كيف يحول التعرف الضوئي على الحروف (OCR) الصور إلى بيانات قابلة للبحث. تعلم كيفية إنشاء مسارات OCR باستخدام Ultralytics لاكتشاف النصوص.

التعرف الضوئي على الحروف (OCR) هو تقنية محورية في مجال الرؤية الحاسوبية تتيح تحويل أنواع مختلفة من المستندات — مثل المستندات الورقية الممسوحة ضوئيًا أو ملفات PDF أو الصور الملتقطة بواسطة كاميرا رقمية — إلى بيانات قابلة للتحرير والبحث. من خلال ترجمة التمثيلات المرئية للنص إلى أحرف مشفرة آليًا، يعمل OCR تجسر الفجوة بين العالمين المادي والرقمي، مما يسمح لأنظمة الذكاء الاصطناعي (AI) بتفسير ومعالجة المعلومات النصية التي كانت في السابق محصورة في وحدات بكسل ثابتة. في حين أن الإصدارات الأولى من OCR كانت تعتمد على مطابقة الأنماط البسيطة مع القوالب المخزنة، فإن الأنظمة الحديثة تستفيد من بنى التعلم العميق المتطورة للتعامل مع الخطوط المتنوعة والتصميمات المعقدة وحتى الكتابة اليدوية بدقة عالية.

خط أنابيب OCR

تعمل أنظمة التعرف الضوئي على الحروف (OCR) المعاصرة عادةً كخط أنابيب متعدد المراحل، حيث تقوم بتحويل بيانات الصور الأولية إلى معلومات منظمة من خلال عدة خطوات متميزة. غالبًا ما تجمع هذه العملية بين معالجة الصور القياسية والشبكات العصبية المتقدمة .

  • المعالجة المسبقة للصور: قبل أن يتم التعرف على النص، تخضع المدخلات الأولية لمعالجة مسبقة للبيانات من أجل تحسين الجودة. تقوم تقنيات مثل تحديد العتبة بتحويل الصور إلى صور ثنائية بالأبيض والأسود، بينما تساعد تقنية تقليل الضوضاء على عزل حروف الأحرف عن الخلفيات المزدحمة.
  • الكشف عن النص: تتضمن هذه الخطوة الحاسمة تحديد مناطق معينة داخل الصورة تحتوي على نص. غالبًا ما يتم استخدام نماذج الكشف عن الكائنات عالية الأداء، مثل Ultralytics المتطورة، لرسم مربعات تحيط بالكلمات أو الأسطر أو الفقرات. يتيح هذا التوطين لمحرك التعرف اللاحق التركيز فقط على المناطق ذات الصلة.
  • التعرف على النص: بمجرد قص مناطق النص، يتم إدخالها في نموذج التعرف. تعد البنى التي تجمع بين الشبكات العصبية التلافيفية (CNN) لاستخراج الميزات و الشبكات العصبية المتكررة (RNN) لنمذجة التسلسلات معيارًا لفك تشفير أنماط البكسل إلى تسلسلات أحرف.
  • المعالجة اللاحقة: غالبًا ما يتم تحسين الناتج النهائي باستخدام تقنيات معالجة اللغة الطبيعية (NLP). تساعد المعاجم ونماذج اللغة في تصحيح الأخطاء الإملائية وضمان اتساق النص المعترف به من الناحية الدلالية ، مما يحسن الدقة الإجمالية بشكل كبير.

تطبيقات واقعية

أدى دمج تقنية التعرف الضوئي على الحروف (OCR) مع تخصصات الذكاء الاصطناعي الأخرى إلى انتشار الأتمتة على نطاق واسع في مختلف الصناعات، مما أدى إلى تغيير طريقة تعامل الشركات مع البيانات.

التعرف الآلي على لوحات أرقام المركبات (ANPR)

في البنية التحتية للمدن الذكية، يعمل OCR كمحرك أساسي وراء التعرف الآلي على لوحات الأرقام. يقوم كاشف الأجسام أولاً بتحديد السيارة ولوحة الترخيص داخل إطار الفيديو. بعد ذلك، تستخرج خوارزميات OCR الأحرف الأبجدية الرقمية لمقارنتها مع قواعد البيانات من أجل التحصيل الآلي للرسوم أو المراقبة الأمنية. وهذا يتطلب قدرات استدلال قوية في الوقت الفعلي لمعالجة بيانات حركة المرور عالية السرعة بفعالية.

المعالجة الذكية للمستندات (IDP)

يستخدم القطاعان المالي والقانوني تقنية التعرف الضوئي على الحروف (OCR) من أجل تحليل المستندات الذكي. فبدلاً من إدخال البيانات يدويًا، تقوم أنظمة الذكاء الاصطناعي بمسح الفواتير والإيصالات والعقود ضوئيًا. ومن خلال الجمع بين تقنية التعرف الضوئي على الحروف (OCR) و تقنية التعرف على الكيانات المسماة (NER)، يمكن لهذه الأنظمة استخراج حقول محددة تلقائيًا مثل التواريخ وأسماء الموردين والمبالغ الإجمالية، مما يقلل من النفقات الإدارية ويُسرّع سير العمل.

التمييز بين OCR والمصطلحات ذات الصلة

من المهم التمييز بين OCR و تصنيف الصور. في حين أن تصنيف الصور يصنف الصورة بأكملها (على سبيل المثال، تصنيف صورة على أنها "مستند" أو "فاتورة")، فإن OCR أكثر دقة؛ فهو يحدد موقع التسلسل المحدد للأحرف داخل تلك الصورة ويحدده. وبالمثل، يختلف OCR عن الكشف القياسي عن الكائنات، الذي قد يحدد "علامة توقف" كفئة كائن عامة، في حين أن OCR يقرأ الحروف المحددة "S-T-O-P" المطبوعة على العلامة.

الكشف عن النصوص باستخدام Ultralytics

يتضمن سير العمل الحديث الشائع استخدام YOLO detect مناطق detect قبل تمريرها إلى محرك التعرف المخصص مثل Tesseract أو PaddleOCR. تعمل Ultralytics على تبسيط تدريب نماذج الكشف هذه على مجموعات البيانات المخصصة. يوضح المثال التالي كيفية استخدام نموذج Ultralytics المدرب مسبقًا detect التي تحتوي عادةً على نص، مثل لوحات الترخيص.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (ideal for locating text regions)
model = YOLO("yolo26n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes, acting as the localization step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")
    # Further processing would pass these crops to an OCR engine

مزيد من القراءة والمصادر

لاستكشاف مجموعات البيانات الأساسية التي دفعت أبحاث OCR المبكرة، تظل MNIST للأرقام المكتوبة بخط اليد موردًا كلاسيكيًا للمقارنة المعيارية. بالنسبة للمهتمين بتطور التكنولوجيا مفتوحة المصدر، يوفر تاريخ مشروع Tesseract نظرة ثاقبة على المساهمات التي يقودها المجتمع. تمثل الحلول الحديثة المستندة إلى السحابة مثل Google Vision API و Amazon Textract أحدث ما توصلت إليه التكنولوجيا في مجال خدمات التعرف الضوئي على الحروف (OCR) المدارة. بالإضافة إلى ذلك، تواصل الأبحاث في مجال التعرف على النصوص في المشاهد تخطي الحدود، مما يمكّن الذكاء الاصطناعي من قراءة النصوص في بيئات "برية" غير مقيدة تتنوع فيها الإضاءة والمنظور.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن