استكشف تتبع الكائنات المتعددة (MOT) في الرؤية الحاسوبية. تعلم كيفية detect track باستخدام Ultralytics للقيادة الذاتية والتجزئة وغير ذلك.
تعد متابعة الكائنات المتعددة (MOT) مهمة ديناميكية في الرؤية الحاسوبية (CV) تتضمن اكتشاف عدة كائنات متميزة داخل دفق فيديو والحفاظ على هوياتها بمرور الوقت. على عكس اكتشاف الكائنات القياسي، الذي يعامل كل إطار على أنه لقطة منعزلة، تضيف MOT بعدًا زمنيًا إلى الذكاء الاصطناعي (AI). من خلال تعيين رقم تعريف فريد (ID) لكل حالة تم اكتشافها — مثل مشاة معين في حشد من الناس أو مركبة على الطريق السريع — تسمح خوارزميات MOT للأنظمة بتتبع المسارات وتحليل السلوك وفهم التفاعلات. هذه القدرة أساسية لفهم الفيديو الحديث وتتيح للآلات إدراك الاستمرارية في بيئة متغيرة.
تعمل معظم أنظمة التتبع المعاصرة على أساس نموذج "التتبع عن طريق الكشف". يقسم هذا النهج العملية إلى مرحلتين رئيسيتين: تحديد ما يوجد في الإطار ثم ربط تلك النتائج بالأشياء المعروفة من الماضي.
على الرغم من تشابه المصطلحات، إلا أن تتبع الكائنات المتعددة (MOT) يختلف بشكل كبير عن تتبع الكائنات الفردية (SOT). يركز SOT على متابعة هدف محدد واحد تم تهيئته في الإطار الأول، وغالبًا ما يتجاهل جميع الكيانات الأخرى. في المقابل، يجب أن يتعامل MOT مع عدد غير معروف ومتغير من الأهداف التي قد تدخل المشهد أو تغادره في أي وقت. وهذا يجعل MOT أكثر صعوبة من الناحية الحسابية، لأنه يتطلب منطقًا قويًا للتعامل مع track وإنهائه والتفاعلات المعقدة بين الأجسام المتحركة المتعددة.
القدرة على track كيانات في وقت واحد تدفع عجلة الابتكار في العديد من الصناعات الرئيسية.
Ultralytics من السهل تنفيذ التتبع باستخدام أحدث النماذج.
track() تدمج هذه الطريقة منطق الكشف والتتبع بسلاسة، وتدعم خوارزميات مثل
بايت تراك و
بوت-سورت. يوضح المثال أدناه
تتبع المركبات في مقطع فيديو باستخدام
نموذج YOLO26.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")
على الرغم من التقدم المحرز، لا يزال مجال MOT مجالًا صعبًا. يعد الانسداد صعوبة أساسية؛ فعندما تتقاطع المسارات أو تختفي الأشياء خلف العوائق، يصبح الحفاظ على الهوية أمرًا معقدًا. وتختبر المشاهد المزدحمة، مثل ماراثون مزدحم أو سرب من الطيور، حدود خوارزميات ربط البيانات. علاوة على ذلك، يتطلب الحفاظ على سرعات الاستدلال في الوقت الفعلي أثناء معالجة تدفقات الفيديو عالية الدقة بنى نماذج فعالة وأجهزة متخصصة في كثير من الأحيان مثل أجهزة NVIDIA .
لمواجهة هذه التحديات، يبحث الباحثون في نُهج التعلم العميق الشاملة التي توحد الكشف والتتبع في شبكة واحدة، بالإضافة إلى الاستفادة من Ultralytics لتعليق مجموعات البيانات الصعبة وتدريب نماذج مخصصة قوية .