Изучите основы отслеживания объектов в области компьютерного зрения. Узнайте, как Ultralytics и передовые модели искусственного интеллекта track движения для робототехники и визуальных эффектов.
Отслеживание точек — это одна из основных задач в области компьютерного зрения, которая заключается в оценке и отслеживании движения конкретных локализованных точек (таких как пиксели или отличительные признаки) последовательно по кадрам видеопоследовательности во времени. В отличие от отслеживания объектов, которое контролирует общее положение целых объектов с помощью ограничительных рамок или масок сегментации, отслеживание точек фокусируется на гораздо более тонком, субпиксельном уровне детализации. Идентифицируя и поддерживая соответствия между этими точными положениями, системы искусственного интеллекта (ИИ) могут выполнять сложные задачи по пониманию видео, которые требуют тщательного анализа движения.
Точное отслеживание точек в динамичной сцене представляет собой сложную задачу. Отслеживаемые точки часто подвержены закрытию— когда объекты временно перекрывают обзор камеры — или могут полностью выходить из поля зрения. Кроме того, изменения освещения, сдвиги перспективы и быстрые движения могут радикально изменить визуальный облик точки.
Исторически для решения этих задач использовались классические алгоритмы, такие как алгоритм оптического потока Лукаса-Канаде. Однако современные подходы используют мощные архитектуры глубокого обучения. Недавние инновации от ведущих исследовательских организаций, такие как TAPIR (Tracking Any Point with Initialization and Refinement) Google и CoTracker3 от Meta AI, произвели революцию в этой области. В отличие от старых методов, которые отслеживали точки независимо друг от друга, модели, подобные CoTracker3, используют трансформеры для совместного отслеживания нескольких точек, используя физические зависимости между точками, принадлежащими одному объекту. Эти передовые модели также используют псевдомаркировку на реальных видео для обучения высокоточных систем с радикально сниженными требованиями к данным.
Несмотря на тесную взаимосвязь, отслеживание точек значительно отличается от других задач компьютерного зрения:
Отслеживание точек является ключевым фактором, обеспечивающим работу различных сложных приложений:
В то время как обычные системы отслеживания точек используют произвольные визуальные пиксели, вы можете track структурные ориентиры (такие как
глаза, плечи или запястья человека) с помощью функций отслеживания позы, реализованных в ultralytics пакет.
Рекомендуемый YOLO26 Эта модель обеспечивает высокоскоростное сквозное
отслеживание ключевых точек, что идеально подходит для анализа движения.
from ultralytics import YOLO
# Load the recommended YOLO26 pose model for keypoint tracking
model = YOLO("yolo26n-pose.pt")
# Perform pose tracking on a video stream to follow human keypoints over time
results = model.track(source="video.mp4", stream=True)
# Iterate through the stream to process temporal keypoint tracking data
for frame_result in results:
# Each keypoint maintains its association across frames
print(f"Tracked {len(frame_result.keypoints)} human skeletons in current frame.")
При масштабном внедрении рабочих процессов компьютерного зрения Ultralytics предлагает оптимизированное решение для аннотирования данных, обучения моделей и беспроблемного развертывания, обеспечивая стабильную работу в различных пограничных и облачных средах.
Начните свой путь в будущее машинного обучения