اكتشف كيفية تحويل OCR للصور وملفات PDF إلى نصوص قابلة للبحث والتحرير باستخدام الذكاء الاصطناعي و YOLO11 لاكتشاف النصوص واستخراجها بسرعة ودقة.
التعرف الضوئي على الحروف (OCR) هي تقنية محورية في مجال الرؤية الحاسوبية التي تحوّل أنواعًا مختلفة من المستندات، مثل المستندات الورقية الممسوحة ضوئيًا أو ملفات PDF أو الصور الملتقطة بواسطة كاميرا رقمية، إلى بيانات قابلة للتحرير والبحث بيانات قابلة للتحرير والبحث. من خلال سد الفجوة بين البيانات الورقية والرقمية، تمكّن تقنية التعرف الضوئي على الحروف الآلات من "قراءة" ومعالجة النصوص بطريقة كانت تقتصر تاريخياً على القدرات البشرية. بينما اعتمدت التكرارات الأولى على على مطابقة الأنماط البسيطة، فإن التعرف الضوئي على الحروف الحديث يستفيد من الآلية المتقدمة و وخوارزميات التعلم العميق المتقدمة للتعامل مع الخطوط المعقدة والكتابة اليدوية والخلفيات الصاخبة بدقة ملحوظة.
تعمل أنظمة التعرف الضوئي على الحروف (OCR) المعاصرة كخط أنابيب متعدد المراحل يقوم بتحويل المدخلات المرئية الأولية إلى معلومات منظمة. وقد تطورت هذه العملية بشكل كبير من مطابقة القوالب الجامدة إلى مناهج مرنة تعتمد على الذكاء الاصطناعي.
أدى تكامل التعرف الضوئي على الحروف مع تخصصات الذكاء الاصطناعي الأخرى إلى انتشار الأتمتة على نطاق واسع في مختلف الصناعات.
في البنية التحتية للمدن الذكية، يعد التعرف الضوئي على الحروف (OCR) هو المحرك وراء التعرّف الآلي على لوحة الأرقام. يقوم كاشف الأجسام أولاً بتحديد السيارة ولوحة الترخيص داخل إطار فيديو. بعد ذلك، تقوم خوارزميات التعرف الضوئي على الحروف تستخرج الخوارزميات الأحرف الأبجدية الرقمية لمقارنتها بقواعد البيانات لتحصيل الرسوم أو أو المراقبة الأمنية. يتطلب ذلك قدرات استدلالية في الوقت الحقيقي لمعالجة بيانات حركة المرور عالية السرعة.
يستخدم القطاعان المالي والقانوني خاصية التعرف الضوئي على الحروف (OCR) من أجل التحليل الذكي للمستندات. بدلاً من الإدخال اليدوي للبيانات، تقوم أنظمة الذكاء الاصطناعي بمسح الفواتير والإيصالات والعقود ضوئيًا. من خلال الجمع بين التعرف الضوئي على الحروف التعرف على الكيانات المسماة (NER)، يمكن لهذه الأنظمة يمكن لهذه الأنظمة استخراج حقول محددة تلقائيًا مثل التواريخ وأسماء البائعين والمبالغ الإجمالية، مما يقلل بشكل كبير من من النفقات الإدارية العامة الإدارية وزمن الاستنتاج.
من المهم التمييز بين OCR و تصنيف الصور. في حين أن تصنيف الصور يصنّف الصورة بأكملها (على سبيل المثال، تصنيف الصورة على أنها "مستند" أو "علامة شارع"). أو "لافتة شارع")، فإن التعرف الضوئي على الحروف (OCR) هو تصنيف دقيق؛ فهو يحدد موقع التسلسل المحدد للأحرف داخل تلك الصورة. وبالمثل، يختلف التعرف الضوئي على الحروف عن الكشف عن الكائنات القياسية, الذي قد يعثر على "علامة توقف" كفئة كائن، في حين أن التعرف الضوئي على الحروف "S-T-O-P" على على اللافتة.
يستخدم سير العمل الشائع نموذج YOLO detect مناطق النص قبل تمريرها إلى محرك التعرف (مثل محرك مفتوح المصدر Tesseract OCR). المثال التالي يوضح كيفية تحميل نموذج مُدرَّب مسبقًا detect الكائنات التي تحتوي عادةً على نص، مثل لوحات السيارات أو أو إشارات المرور.
from ultralytics import YOLO
# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")
# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)
# Display the detected class names (e.g., 'stop sign')
for r in results:
print(f"Detected classes: {r.boxes.cls}")
لاستكشاف مجموعات البيانات التأسيسية التي قادت أبحاث التعرف الضوئي على الحروف في وقت مبكر، قاعدة بيانات قاعدة بياناتMNIST للأرقام المكتوبة بخط اليد هي مورد كلاسيكي. أما بالنسبة للمهتمين بتطور التكنولوجيا، فإن تاريخ مشروع مشروع "تيسيراكت" يوفر نظرة ثاقبة على المساهمات المفتوحة المصدر. الحلول الحديثة القائمة على السحابة مثل Google Cloud Vision API و أمازون تيكستراكت يمثلان أحدث ما توصلت إليه التكنولوجيا الحالية في خدمات التعرف الضوئي على الحروف المُدارة المُدارة. بالإضافة إلى ذلك، تستمر الأبحاث في مجال التعرّف على النصوص في المشهد لتخطي الحدود، وتمكين الذكاء الاصطناعي من قراءة النصوص في بيئات "جامحة" غير مقيدة.