اكتشف تتبع الكائنات باستخدام Ultralytics! تعرّف على كيفية track الحركة والسلوك والتفاعلات في الفيديو باستخدام نماذج YOLO للتطبيقات في الوقت الفعلي.
تعقب الأجسام هو مهمة محورية في مجال الرؤية الحاسوبية (CV) التي تتضمن تحديد كيانات محددة ضمن تسلسل فيديو ومراقبة حركتها عبر إطارات متتالية. على عكس تحليل الصور الثابتة فإن هذه العملية تقدم بُعدًا زمنيًا، مما يسمح للأنظمة بالحفاظ على هوية فريدة لكل عنصر مكتشف أثناء عبوره المشهد. من خلال تعيين رقم تعريف ثابت (ID) لكل كيان, يمكن لنماذج الذكاء الاصطناعي (AI) تحليل المسارات وحساب السرعات وفهم التفاعلات مع مرور الوقت. هذه القدرة ضرورية من أجل لتحويل بيانات الفيديو الأولية إلى رؤى قابلة للتنفيذ، وهي بمثابة العمود الفقري لأنظمة أنظمة فهم الفيديو المتقدمة.
تعمل أنظمة التتبع الحديثة عادةً باستخدام نموذج "التتبع بالكشف". يبدأ سير العمل هذا بنموذج الكشف عن الأجسام، مثل النموذج الحديث YOLO11الذي يحدد موقع الأجسام في كل إطار فردي. بمجرد اكتشاف الأجسام وتحديد موقعها باستخدام تتولى خوارزمية التتبع مهمة ربط هذه الاكتشافات بالمسارات الموجودة من الإطارات السابقة.
تتضمن العملية بشكل عام ثلاث خطوات حاسمة:
على الرغم من أن هذه المصطلحات غالبًا ما يتم ذكرها معًا، إلا أنها تخدم أغراضًا مختلفة في التعلم الآلي (ML).
تعمل القدرة على تتبع الأجسام بشكل موثوق على تحويل مختلف الصناعات من خلال تمكين الاستدلال في الوقت الحقيقي في البيئات الديناميكية.
يعد تنفيذ التتبع عالي الأداء أمرًا سهلاً ومباشرًا باستخدام ultralytics الحزمة. يوضح المثال التالي
يوضح المثال التالي كيفية تحميل حزمة مُدرَّبة مسبقًا
طراز YOLO11
track الكائنات في ملف فيديو. إن track يتعامل الوضع تلقائياً مع الاكتشاف وتعيين الهوية.
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Track objects in a video source (use '0' for webcam)
# The 'show=True' argument visualizes the tracking IDs in real-time
results = model.track(source="https://supervision.roboflow.com/assets/", show=True)
# Print the unique IDs detected in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.cpu().numpy()}")
لفهم الفروق الدقيقة في التتبع بشكل كامل، من المفيد فهم ما يلي التتبع متعدد الأجسام (MOT)، والذي الذي يركز بشكل خاص على التعامل مع أهداف متعددة في وقت واحد في المشاهد المزدحمة. علاوة على ذلك، غالبًا ما يتم الجمع بين التتبع مع تجزئة المثيل track ملامح دقيقة للأشياء بدلاً من مجرد مربعات محدودة، مما يوفر مستوى أعلى من التفصيل لمهام مثل التصوير الطبي التصوير الطبي أو المعالجة الروبوتية.