Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التعرف الضوئي على الحروف (OCR)

اكتشف كيفية تحويل OCR للصور وملفات PDF إلى نصوص قابلة للبحث والتحرير باستخدام الذكاء الاصطناعي و YOLO11 لاكتشاف النصوص واستخراجها بسرعة ودقة.

التعرف الضوئي على الحروف (OCR) هي تقنية محورية في مجال الرؤية الحاسوبية التي تحوّل أنواعًا مختلفة من المستندات، مثل المستندات الورقية الممسوحة ضوئيًا أو ملفات PDF أو الصور الملتقطة بواسطة كاميرا رقمية، إلى بيانات قابلة للتحرير والبحث بيانات قابلة للتحرير والبحث. من خلال سد الفجوة بين البيانات الورقية والرقمية، تمكّن تقنية التعرف الضوئي على الحروف الآلات من "قراءة" ومعالجة النصوص بطريقة كانت تقتصر تاريخياً على القدرات البشرية. بينما اعتمدت التكرارات الأولى على على مطابقة الأنماط البسيطة، فإن التعرف الضوئي على الحروف الحديث يستفيد من الآلية المتقدمة و وخوارزميات التعلم العميق المتقدمة للتعامل مع الخطوط المعقدة والكتابة اليدوية والخلفيات الصاخبة بدقة ملحوظة.

ميكانيكيات التعرف الضوئي على الحروف (OCR) الحديثة

تعمل أنظمة التعرف الضوئي على الحروف (OCR) المعاصرة كخط أنابيب متعدد المراحل يقوم بتحويل المدخلات المرئية الأولية إلى معلومات منظمة. وقد تطورت هذه العملية بشكل كبير من مطابقة القوالب الجامدة إلى مناهج مرنة تعتمد على الذكاء الاصطناعي.

  • المعالجة المسبقة للصور: قبل أن يمكن قراءة النص، يخضع الإدخال الخام إلى معالجة مسبقة للبيانات لتحسين الجودة. تقنيات مثل تحديد العتبة و والحد من الضوضاء في عزل النص عن الخلفية.
  • اكتشاف النص: تتضمن هذه الخطوة الحاسمة تحديد المناطق المحددة داخل الصورة التي تحتوي على تحتوي على نص. نماذج عالية الأداء عالية الأداء، مثل Ultralytics YOLO11كثيرًا ما تُستخدم هنا لرسم المربعات المحدودة حول الكلمات أو الخطوط، حتى في المشاهد المزدحمة.
  • التعرّف على النص: بمجرد تحديد موقعها، يتم إدخال مقاطع الصورة في شبكة عصبية. البنى التي تجمع بين الشبكات العصبية التلافيفية (CNN) لاستخراج السمات و الشبكات العصبية المتكررة (RNN) أو المحولات لنمذجة التسلسل هي المعيار القياسي لـ لفك تشفير تسلسل الأحرف.
  • المعالجة اللاحقة: يتم تنقيح الناتج النهائي باستخدام معالجة اللغة الطبيعية (NLP) تقنيات وقواميس لتصحيح الأخطاء الإملائية والتأكد من أن النص الذي تم التعرف عليه له معنى دلالي.

تطبيقات الذكاء الاصطناعي في العالم الحقيقي

أدى تكامل التعرف الضوئي على الحروف مع تخصصات الذكاء الاصطناعي الأخرى إلى انتشار الأتمتة على نطاق واسع في مختلف الصناعات.

التعرف الآلي على لوحات أرقام المركبات (ANPR)

في البنية التحتية للمدن الذكية، يعد التعرف الضوئي على الحروف (OCR) هو المحرك وراء التعرّف الآلي على لوحة الأرقام. يقوم كاشف الأجسام أولاً بتحديد السيارة ولوحة الترخيص داخل إطار فيديو. بعد ذلك، تقوم خوارزميات التعرف الضوئي على الحروف تستخرج الخوارزميات الأحرف الأبجدية الرقمية لمقارنتها بقواعد البيانات لتحصيل الرسوم أو أو المراقبة الأمنية. يتطلب ذلك قدرات استدلالية في الوقت الحقيقي لمعالجة بيانات حركة المرور عالية السرعة.

المعالجة الذكية للمستندات (IDP)

يستخدم القطاعان المالي والقانوني خاصية التعرف الضوئي على الحروف (OCR) من أجل التحليل الذكي للمستندات. بدلاً من الإدخال اليدوي للبيانات، تقوم أنظمة الذكاء الاصطناعي بمسح الفواتير والإيصالات والعقود ضوئيًا. من خلال الجمع بين التعرف الضوئي على الحروف التعرف على الكيانات المسماة (NER)، يمكن لهذه الأنظمة يمكن لهذه الأنظمة استخراج حقول محددة تلقائيًا مثل التواريخ وأسماء البائعين والمبالغ الإجمالية، مما يقلل بشكل كبير من من النفقات الإدارية العامة الإدارية وزمن الاستنتاج.

التعرف الضوئي على الحروف الضوئي على الحروف (OCR) مقابل تصنيف الصور

من المهم التمييز بين OCR و تصنيف الصور. في حين أن تصنيف الصور يصنّف الصورة بأكملها (على سبيل المثال، تصنيف الصورة على أنها "مستند" أو "علامة شارع"). أو "لافتة شارع")، فإن التعرف الضوئي على الحروف (OCR) هو تصنيف دقيق؛ فهو يحدد موقع التسلسل المحدد للأحرف داخل تلك الصورة. وبالمثل، يختلف التعرف الضوئي على الحروف عن الكشف عن الكائنات القياسية, الذي قد يعثر على "علامة توقف" كفئة كائن، في حين أن التعرف الضوئي على الحروف "S-T-O-P" على على اللافتة.

تنفيذ اكتشاف النص باستخدام YOLO11

يستخدم سير العمل الشائع نموذج YOLO detect مناطق النص قبل تمريرها إلى محرك التعرف (مثل محرك مفتوح المصدر Tesseract OCR). المثال التالي يوضح كيفية تحميل نموذج مُدرَّب مسبقًا detect الكائنات التي تحتوي عادةً على نص، مثل لوحات السيارات أو أو إشارات المرور.

from ultralytics import YOLO

# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)

# Display the detected class names (e.g., 'stop sign')
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

مزيد من القراءة والمصادر

لاستكشاف مجموعات البيانات التأسيسية التي قادت أبحاث التعرف الضوئي على الحروف في وقت مبكر، قاعدة بيانات قاعدة بياناتMNIST للأرقام المكتوبة بخط اليد هي مورد كلاسيكي. أما بالنسبة للمهتمين بتطور التكنولوجيا، فإن تاريخ مشروع مشروع "تيسيراكت" يوفر نظرة ثاقبة على المساهمات المفتوحة المصدر. الحلول الحديثة القائمة على السحابة مثل Google Cloud Vision API و أمازون تيكستراكت يمثلان أحدث ما توصلت إليه التكنولوجيا الحالية في خدمات التعرف الضوئي على الحروف المُدارة المُدارة. بالإضافة إلى ذلك، تستمر الأبحاث في مجال التعرّف على النصوص في المشهد لتخطي الحدود، وتمكين الذكاء الاصطناعي من قراءة النصوص في بيئات "جامحة" غير مقيدة.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن