Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التتبع متعدد الأجسام (MOT)

استكشف تتبع الكائنات المتعددة (MOT) في الرؤية الحاسوبية. تعلم كيفية detect track باستخدام Ultralytics للقيادة الذاتية والتجزئة وغير ذلك.

تعد متابعة الكائنات المتعددة (MOT) مهمة ديناميكية في الرؤية الحاسوبية (CV) تتضمن اكتشاف عدة كائنات متميزة داخل دفق فيديو والحفاظ على هوياتها بمرور الوقت. على عكس اكتشاف الكائنات القياسي، الذي يعامل كل إطار على أنه لقطة منعزلة، تضيف MOT بعدًا زمنيًا إلى الذكاء الاصطناعي (AI). من خلال تعيين رقم تعريف فريد (ID) لكل حالة تم اكتشافها — مثل مشاة معين في حشد من الناس أو مركبة على الطريق السريع — تسمح خوارزميات MOT للأنظمة بتتبع المسارات وتحليل السلوك وفهم التفاعلات. هذه القدرة أساسية لفهم الفيديو الحديث وتتيح للآلات إدراك الاستمرارية في بيئة متغيرة.

كيف يعمل MOT

تعمل معظم أنظمة التتبع المعاصرة على أساس نموذج "التتبع عن طريق الكشف". يقسم هذا النهج العملية إلى مرحلتين رئيسيتين: تحديد ما يوجد في الإطار ثم ربط تلك النتائج بالأشياء المعروفة من الماضي.

  1. الكشف: في كل إطار، يقوم نموذج عالي الأداء مثل YOLO26 بمسح الصورة لتحديد مواقع الكائنات، وإنشاء مربعات حدودية واحتمالات التصنيف.
  2. توقع الحركة: لتوقع المكان الذي سيتحرك إليه الجسم بعد ذلك، غالبًا ما تستخدم الخوارزميات مرشح كالمان. تقدر هذه الأداة الرياضية حالة النظام الديناميكي — مثل السرعة والموضع — مما يساعد على تضييق منطقة البحث في الإطار التالي .
  3. ربط البيانات: يقوم النظام بمطابقة الاكتشافات الجديدة مع المسارات الموجودة. طرق التحسين مثل خوارزمية هنغاريا تحل مشكلة التخصيص هذه عن طريق تقليل تكلفة المطابقة، وغالبًا ما تعتمد على التقاطع فوق الاتحاد (IoU) لقياس التداخل المكاني.
  4. إعادة التعرف (ReID): عند حدوث عوائق بصرية — تُعرف باسم الانسداد — تستخدم أجهزة التتبع المتقدمة التضمينات البصرية للتعرف على الكائن عند ظهوره مرة أخرى. وهذا يساعد على منع "تبديل الهوية"، مما يضمن أن النظام يعرف أن السيارة التي تخرج من النفق هي نفس السيارة التي دخلت إليه.

التمييز بين MOT وتتبع الكائنات الفردية

على الرغم من تشابه المصطلحات، إلا أن تتبع الكائنات المتعددة (MOT) يختلف بشكل كبير عن تتبع الكائنات الفردية (SOT). يركز SOT على متابعة هدف محدد واحد تم تهيئته في الإطار الأول، وغالبًا ما يتجاهل جميع الكيانات الأخرى. في المقابل، يجب أن يتعامل MOT مع عدد غير معروف ومتغير من الأهداف التي قد تدخل المشهد أو تغادره في أي وقت. وهذا يجعل MOT أكثر صعوبة من الناحية الحسابية، لأنه يتطلب منطقًا قويًا للتعامل مع track وإنهائه والتفاعلات المعقدة بين الأجسام المتحركة المتعددة.

تطبيقات واقعية

القدرة على track كيانات في وقت واحد تدفع عجلة الابتكار في العديد من الصناعات الرئيسية.

  • القيادة الذاتية: تعتمد السيارات ذاتية القيادة بشكل كبير على MOT للتنقل بأمان. من خلال تتبع المشاة وراكبي الدراجات والمركبات الأخرى، يمكن للأنظمة الذاتية التنبؤ بالمواقع المستقبلية لتجنب الاصطدامات. وغالبًا ما يتضمن ذلك دمج البيانات من الكاميرات وأجهزة استشعار LiDAR لتحقيق أقصى قدر من الموثوقية.
  • تحليلات البيع بالتجزئة: في المتاجر الفعلية، يستخدم تجار التجزئة الذكاء الاصطناعي في البيع بالتجزئة لرسم خرائط رحلات العملاء. تولد خوارزميات MOT خرائط حرارية لحركة المرور، مما يساعد المديرين على تحسين تخطيط المتاجر وتحسين إدارة الطوابير خلال ساعات الذروة.
  • تحليلات رياضية: تستخدم الفرق المحترفة تقنية MOT لتحليل تحركات اللاعبين وتشكيلات الفرق. من خلال تتبع كل لاعب على أرض الملعب، يمكن للمدربين استخراج مقاييس تفصيلية عن السرعة والمسافة المقطوعة والمواقع التكتيكية باستخدام تقنيات تقدير الوضع.

تنفيذ MOT باستخدام Python

Ultralytics من السهل تنفيذ التتبع باستخدام أحدث النماذج. track() تدمج هذه الطريقة منطق الكشف والتتبع بسلاسة، وتدعم خوارزميات مثل بايت تراك و بوت-سورت. يوضح المثال أدناه تتبع المركبات في مقطع فيديو باستخدام نموذج YOLO26.

from ultralytics import YOLO

# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")

# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)

# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
    print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")

التحديات في تتبع الأهداف المتعددة

على الرغم من التقدم المحرز، لا يزال مجال MOT مجالًا صعبًا. يعد الانسداد صعوبة أساسية؛ فعندما تتقاطع المسارات أو تختفي الأشياء خلف العوائق، يصبح الحفاظ على الهوية أمرًا معقدًا. وتختبر المشاهد المزدحمة، مثل ماراثون مزدحم أو سرب من الطيور، حدود خوارزميات ربط البيانات. علاوة على ذلك، يتطلب الحفاظ على سرعات الاستدلال في الوقت الفعلي أثناء معالجة تدفقات الفيديو عالية الدقة بنى نماذج فعالة وأجهزة متخصصة في كثير من الأحيان مثل أجهزة NVIDIA .

لمواجهة هذه التحديات، يبحث الباحثون في نُهج التعلم العميق الشاملة التي توحد الكشف والتتبع في شبكة واحدة، بالإضافة إلى الاستفادة من Ultralytics لتعليق مجموعات البيانات الصعبة وتدريب نماذج مخصصة قوية .

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن