اكتشف كيفية تحويل OCR للصور وملفات PDF إلى نصوص قابلة للبحث والتحرير باستخدام الذكاء الاصطناعي و YOLO11 لاكتشاف النصوص واستخراجها بسرعة ودقة.
التعرف الضوئي على الحروف (OCR) هو تقنية أساسية في الرؤية الحاسوبية التي تحول التمثيلات المرئية للنص — مثل المستندات الممسوحة ضوئيًا أو ملفات PDF أو صور لافتات الشوارع — إلى نص رقمي قابل للتحرير ومشفّر آليًا . من خلال سد الفجوة بين الكتابة المادية والبيانات الرقمية، يتيح OCR لأنظمة الذكاء الاصطناعي (AI) "قراءة" ومعالجة المعلومات التي كانت في السابق محصورة في وحدات بكسل ثابتة. في حين اعتمدت الإصدارات الأولى على مطابقة الأنماط الصارمة، يستفيد OCR الحديث من خوارزميات التعلم العميق المتطورة للتعامل مع الخطوط المتنوعة وأنماط الكتابة اليدوية والخلفيات المضطربة بدقة عالية.
تعمل أنظمة التعرف الضوئي على الحروف (OCR) المعاصرة عادةً كخط أنابيب متعدد المراحل، حيث تقوم بتحويل بيانات الصور الأولية إلى معلومات منظمة . تجمع هذه العملية بين عدة تخصصات في مجال التعلم الآلي.
أدى تكامل التعرف الضوئي على الحروف مع تخصصات الذكاء الاصطناعي الأخرى إلى انتشار الأتمتة على نطاق واسع في مختلف الصناعات.
في البنية التحتية للمدن الذكية، يعد OCR المحرك وراء التعرف الآلي على لوحات الأرقام. يقوم كاشف الأجسام أولاً بتحديد السيارة ولوحة الترخيص داخل إطار الفيديو. بعد ذلك، تستخرج خوارزميات OCR الأحرف الأبجدية الرقمية لمقارنتها مع قواعد البيانات لجمع الرسوم أو المراقبة الأمنية. وهذا يتطلب قدرات استدلال في الوقت الفعلي لمعالجة بيانات حركة المرور عالية السرعة بشكل فعال.
يستخدم القطاعان المالي والقانوني تقنية OCR لتحليل المستندات الذكية. بدلاً من إدخال البيانات يدويًا، تقوم أنظمة الذكاء الاصطناعي بمسح الفواتير والإيصالات والعقود ضوئيًا. من خلال الجمع بين تقنية OCR و تقنية التعرف على الكيانات المسماة (NER)، يمكن لهذه الأنظمة استخراج حقول محددة تلقائيًا مثل التواريخ وأسماء الموردين والمبالغ الإجمالية، مما يقلل بشكل كبير من النفقات الإدارية.
من المهم التمييز بين OCR و تصنيف الصور. في حين أن تصنيف الصور يصنف الصورة بأكملها (على سبيل المثال، تصنيف صورة على أنها "وثيقة" أو "لافتة شارع ")، فإن OCR أكثر دقة؛ فهو يحدد موقع التسلسل المحدد للأحرف داخل تلك الصورة ويحدده. وبالمثل، يختلف OCR عن الكشف القياسي عن الكائنات، الذي قد يجد "علامة توقف" كفئة كائن، في حين أن OCR سيقرأ الحروف "S-T-O-P" على العلامة.
يستخدم سير العمل الشائع YOLO detect مناطق detect قبل تمريرها إلى محرك التعرف (مثل محرك Tesseract OCR مفتوح المصدر). يوضح المثال التالي كيفية تحميل نموذج Ultralytics YOLO11detect التي تحتوي عادةً على نص، مثل لوحات الترخيص أو إشارات المرور.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model (often used to locate text regions)
model = YOLO("yolo11n.pt")
# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")
# Display detected classes which acts as the first step in an OCR pipeline
for r in results:
print(f"Detected classes: {r.boxes.cls}")
لاستكشاف مجموعات البيانات الأساسية التي دفعت أبحاث OCR في بداياتها، تعد MNIST للأرقام المكتوبة بخط اليد موردًا كلاسيكيًا . بالنسبة للمهتمين بتطور هذه التكنولوجيا، يوفر تاريخ مشروع Tesseract نظرة ثاقبة على المساهمات مفتوحة المصدر . تمثل الحلول الحديثة المستندة إلى السحابة مثل Google Vision API و Amazon Textract أحدث ما توصلت إليه التكنولوجيا في خدمات التعرف الضوئي على الحروف (OCR) المدارة. بالإضافة إلى ذلك، تواصل الأبحاث في مجال التعرف على النصوص في المشاهد تخطي الحدود، مما يمكّن الذكاء الاصطناعي من قراءة النصوص في بيئات "برية" غير مقيدة.