التدفق البصري
اكتشف قوة التدفق البصري في الرؤية الحاسوبية. تعرّف على كيفية تقدير الحركة، وتعزيز تحليل الفيديو، ودفع الابتكارات في مجال الذكاء الاصطناعي.
التدفق البصري هو مفهوم أساسي في الرؤية الحاسوبية (CV) يتضمن تقدير حركة الأجسام والأسطح والحواف في مشهد مرئي ناتج عن الحركة النسبية بين المراقب (مثل الكاميرا) والمشهد. ويحسب مجالاً من المتجهات التي تصف اتجاه وسرعة الحركة للبكسلات أو السمات بين إطارين متتاليين من إطارات الفيديو. يوفر ذلك فهمًا تفصيليًا منخفض المستوى ل "كيفية" حركة الأشياء، وهو أمر أساسي للعديد من مهام تحليل المشهد الديناميكي.
كيف يعمل التدفق البصري
إن الافتراض المركزي وراء معظم خوارزميات التدفق البصري هو "ثبات السطوع"، والذي يفترض أن شدة البكسل المطابق لنقطة معينة على جسم ما تظل ثابتة على فترات زمنية قصيرة. من خلال إيجاد الإزاحة التي تحافظ على هذا السطوع، يمكن للخوارزميات تقدير الحركة. هناك طريقتان رئيسيتان لحساب التدفق البصري:
- التدفق البصري الكثيف: تحسب هذه الطريقة متجه حركة لكل بكسل واحد في الصورة. يوفر مجال حركة مفصّل للغاية، وهو مفيد لمهام مثل تجزئة الصور وفهم ديناميكيات المشهد المعقدة. تُعد طريقة Horn-Schunck مثالاً كلاسيكيًا، في حين أن نماذج التعلم العميق الحديثة مثل RAFT تقدم أداءً متطورًا للغاية.
- التدفق البصري المتفرّق: بدلاً من تحليل كل بكسل، تقوم هذه الطريقة بتتبع مجموعة متفرقة من الميزات "المثيرة للاهتمام" (مثل الزوايا أو النقاط الرئيسية) عبر الإطارات. طريقة Lucas-Kanade هي خوارزمية متناثرة معروفة. هذا النهج أكثر كفاءة من الناحية الحسابية وهو مناسب تمامًا للتطبيقات التي تحتاج فقط إلى حركة نقاط محددة، كما هو الحال في تتبع الأجسام.
التدفق البصري مقابل تتبع الكائنات
في حين أن التدفق البصري وتتبع الأجسام يحلان مشكلتين مختلفتين رغم ارتباطهما ببعضهما البعض.
- يصف التدفق البصري الحركة منخفضة المستوى للبكسلات. مخرجاته عبارة عن مجموعة من المتجهات التي تمثل الحركة بين إطارين. لا يفهم بطبيعته مفهوم "الكائن" أو يحافظ على هويته بمرور الوقت.
- تتبع الكائن هي مهمة ذات مستوى أعلى تركز على تحديد موقع كائن معين وتتبع مساره عبر إطارات متعددة، وتعيين معرّف ثابت له. غالبًا ما تستخدم خوارزميات التتبع تقنيات مثل التدفق البصري كمدخل للتنبؤ بموضع الكائن في الإطار التالي بعد تحديده بواسطة نموذج اكتشاف الك ائن، مثل نموذج Ultralytics YOLO. يمكنك رؤية ذلك أثناء العمل في وضع تتبع الكائنات في Ultralytics.
باختصار، يجيب التدفق الضوئي على سؤال "كيف تتحرك وحدات البكسل؟
التطبيقات الواقعية
يعد التدفق البصري أمرًا بالغ الأهمية للعديد من التطبيقات التي تتطلب فهم الحركة من الفيديو:
- الأنظمة المستقلة: تستخدم المركبات والروبوتات ذاتية القيادة التدفق البصري لقياس المسافات البصرية (تقدير الحركة الذاتية)، واكتشاف العوائق، وفهم الحركة النسبية للأجسام في بيئتها. على سبيل المثال، تساعد السيارة ذاتية القيادة على تقدير سرعتها بالنسبة إلى الطريق أو تتبع المركبات القريبة. تعتمد شركات مثل Waymo بشكل كبير على إدراك الحركة. استكشف الذكاء الاصطناعي في السيارات ذاتية القيادة لمزيد من المعلومات.
- ضغط الفيديو: تستخدم معايير مثل MPEG تقنيات تقدير الحركة المشابهة للتدفق البصري للتنبؤ بالإطارات اللاحقة بناءً على الإطارات السابقة. من خلال ترميز متجهات الحركة وأخطاء التنبؤ (البقايا) فقط، يتم تحقيق ضغط كبير للبيانات.
- التعرّف على الحركة: غالبًا ما يتضمن فهم الإجراءات البشرية في مقاطع الفيديو، وهو جزء أساسي من تقدير الوضعية، تحليل أنماط الحركة المستمدة من التدفق البصري. وهذا أمر بالغ الأهمية للتطبيقات في التحليلات الرياضية وتقنية اللياقة البدنية الذكية.
- تثبيت الفيديو: يمكن لتقنيات تثبيت الصورة الرقمية استخدام التدفق البصري لتقدير اهتزاز الكاميرا وتعويضه، مما ينتج مقاطع فيديو أكثر سلاسة. هذه التقنية شائعة في الهواتف الذكية والكاميرات الحديثة.
- تحليل الصور الطبية: يُستخدم لتتبع حركة الأنسجة، مثل حركة عضلة القلب في تخطيط صدى القلب أو تشوه الأعضاء أثناء العمليات الجراحية. راجع مصادر مثل مجلة علم الأشعة: الذكاء الاصطناعي للاطلاع على التطورات ذات الصلة.
- الروبوتات: تُمكّن الروبوتات من التنقل والتفاعل مع الأجسام وأداء المهام استناداً إلى التغذية الراجعة البصرية حول الحركة في محيطها. وغالباً ما يتضمن التكامل مع أنظمة مثل ROS تحليل الحركة.
الأدوات والتنفيذ
توفر مكتبات مثل OpenCV تطبيقات لخوارزميات التدفق البصري الكلاسيكية، وتتضمن وثائقها دروسًا تعليمية مفصلة حول التدفق البصري OpenCV. بالنسبة لمناهج التعلّم العميق، يشيع استخدام أطر عمل مثل PyTorch (قم بزيارة الموقع الرسمي PyTorch) و TensorFlow (قم بزيارة الموقع الرسمي TensorFlow)، وغالبًا ما يتم استخدام نماذج مُدرّبة مسبقًا متاحة من خلال منصات مثل Hugging Face. يتطلب تدريب هذه النماذج مجموعات بيانات فيديو واسعة النطاق مع معلومات التدفق الحقيقي، مثل مجموعات بيانات FlyingThings3D أو Sintel. يمكن أن تساعد منصات مثل Ultralytics HUB في إدارة مجموعات البيانات وسير عمل تدريب النماذج لمهام الرؤية الحاسوبية ذات الصلة.