Multi-Object Tracking (MOT)
استكشف تتبع الكائنات المتعددة (MOT) في رؤية الحاسوب. تعلم كيفية اكتشاف وتتبع الكيانات باستخدام Ultralytics YOLO26 للقيادة المستقلة، وتجارة التجزئة، والمزيد.
تتبع الأجسام المتعددة (MOT) هو مهمة ديناميكية في الرؤية الحاسوبية (CV) تتضمن اكتشاف كيانات متعددة متميزة ضمن تدفق الفيديو والحفاظ على هوياتها بمرور الوقت. على عكس اكتشاف الأجسام القياسي، الذي يعامل كل إطار كلقطة معزولة، يقدم MOT بُعداً زمنياً لـ الذكاء الاصطناعي (AI). من خلال تعيين رقم تعريف فريد (ID) لكل مثيل مكتشف - مثل مشاة معين في حشد أو مركبة على طريق سريع - تسمح خوارزميات MOT للأنظمة بتتبع المسارات وتحليل السلوك وفهم التفاعلات. تعد هذه القدرة أساسية لـ فهم الفيديو الحديث وتمكن الآلات من إدراك الاستمرارية في بيئة متغيرة.
Link to this sectionكيف يعمل MOT#
تعمل معظم أنظمة التتبع المعاصرة وفق نموذج "التتبع عبر الاكتشاف". يفصل هذا النهج العملية إلى مرحلتين رئيسيتين: تحديد ما يوجد في الإطار ثم ربط تلك النتائج بأجسام معروفة من الماضي.
-
الاكتشاف: في كل إطار، يقوم نموذج عالي الأداء مثل YOLO26 بمسح الصورة لتحديد مواقع الأجسام، مما يؤدي إلى إنشاء صناديق الإحاطة واحتمالات الفئات.
-
توقع الحركة: لتوقع المكان الذي سيتحرك إليه الجسم بعد ذلك، غالباً ما تستخدم الخوارزميات مرشح كالمان. تقوم هذه الأداة الرياضية بتقدير حالة النظام الديناميكي - مثل السرعة والموقع - مما يساعد في تضييق منطقة البحث في الإطار اللاحق.
-
ربط البيانات: يطابق النظام الاكتشافات الجديدة مع المسارات الحالية. تحل طرق التحسين مثل خوارزمية المجرية مشكلة التعيين هذه عن طريق تقليل تكلفة المطابقة، وغالباً ما تعتمد على تقاطع الاتحاد (IoU) لقياس التداخل المكاني.
-
إعادة التعريف (ReID): عند حدوث عوائق بصرية - تُعرف باسم الانسداد - تستخدم أدوات التتبع المتقدمة تضمينات بصرية للتعرف على الجسم عندما يظهر مرة أخرى. يساعد هذا في منع "تبديل الهوية"، مما يضمن أن النظام يعرف أن السيارة الخارجة من نفق هي نفس السيارة التي دخلته.
Link to this sectionالتمييز بين MOT وتتبع الجسم الواحد#
على الرغم من تشابه المصطلحات، يختلف تتبع الأجسام المتعددة (MOT) بشكل كبير عن تتبع الجسم الواحد (SOT). يركز SOT على متابعة هدف واحد محدد تم تهيئته في الإطار الأول، وغالباً ما يتجاهل جميع الكيانات الأخرى. في المقابل، يجب أن يتعامل MOT مع عدد غير معروف ومتغير من الأهداف التي قد تدخل أو تخرج من المشهد في أي وقت. وهذا يجعل MOT أكثر تطلباً من الناحية الحسابية، لأنه يتطلب منطقاً قوياً للتعامل مع بدء المسار، وإنهاؤه، والتفاعلات المعقدة بين الأجسام المتحركة المتعددة.
Link to this sectionتطبيقات العالم الحقيقي#
تُحفز القدرة على تتبع كيانات متعددة في وقت واحد الابتكار عبر العديد من الصناعات الرئيسية.
- القيادة الذاتية: تعتمد السيارات ذاتية القيادة بشكل كبير على MOT للتنقل بأمان. من خلال تتبع المشاة وراكبي الدراجات والمركبات الأخرى، يمكن للأنظمة ذاتية القيادة التنبؤ بالمواقع المستقبلية لتجنب الاصطدامات. يتضمن ذلك غالباً دمج البيانات من الكاميرات ومستشعرات LiDAR لتحقيق أقصى قدر من الموثوقية.
- تحليلات التجزئة: في المتاجر الفعلية، يستخدم تجار التجزئة الذكاء الاصطناعي في التجزئة لرسم خرائط رحلات العملاء. تولد خوارزميات MOT خرائط حرارية لحركة الأقدام، مما يساعد المديرين على تحسين تخطيطات المتاجر وتحسين إدارة الطوابير خلال ساعات الذروة.
- تحليلات الرياضة: تستخدم الفرق المحترفة MOT لتحليل تحركات اللاعبين وتشكيلات الفرق. من خلال تتبع كل لاعب في الملعب، يمكن للمدربين استخراج مقاييس مفصلة حول السرعة والمسافة المقطوعة والتمركز التكتيكي باستخدام تقنيات تقدير الوضعية.
Link to this sectionتنفيذ MOT باستخدام Python#
تجعل Ultralytics تنفيذ التتبع باستخدام أحدث النماذج أمراً مباشراً. تدمج طريقة track() منطق الاكتشاف والتتبع بسلاسة، وتدعم خوارزميات مثل ByteTrack وBoT-SORT. يوضح المثال أدناه تتبع المركبات في فيديو باستخدام نموذج YOLO26 الموصى به.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")Link to this sectionتحديات في تتبع الأجسام المتعددة#
على الرغم من التقدم المحرز، لا يزال MOT مجالاً مليئاً بالتحديات. يُعد الانسداد صعوبة رئيسية؛ فعندما تتقاطع مسارات الأجسام أو تختبئ خلف عوائق، يصبح الحفاظ على الهوية أمراً معقداً. تختبر المشاهد المزدحمة، مثل ماراثون مزدحم أو سرب من الطيور، حدود خوارزميات ربط البيانات. علاوة على ذلك، يتطلب الحفاظ على سرعات الاستدلال في الوقت الفعلي أثناء معالجة تدفقات الفيديو عالية الدقة بنى تحتية فعالة للنماذج وغالباً أجهزة متخصصة مثل أجهزة NVIDIA Jetson.
لمعالجة هذه التحديات، يستكشف الباحثون نهج التعلم العميق المتكامل (end-to-end) الذي يوحد الاكتشاف والتتبع في شبكة واحدة، بالإضافة إلى الاستفادة من منصة Ultralytics لتعليق مجموعات البيانات الصعبة وتدريب نماذج مخصصة قوية.






