探索计算机视觉中点跟踪的基础知识。了解Ultralytics 及先进 AI 模型如何为机器人技术和视觉特效(VFX)track 运动track 。
点跟踪是计算机视觉中的一项基础任务,它涉及估算并追踪 特定、局域化的点(如像素或显著特征) 在视频序列中随时间推移的连续帧之间的运动。 与 物体跟踪不同,后者通过边界框或 分割掩膜来监测整个物体的 大致位置,点跟踪则专注于更精细的、 亚像素级别的细节。通过识别并维持这些精确位置之间的对应关系, 人工智能(AI)系统能够 完成需要复杂运动分析的 高级视频理解任务。
在动态场景中准确追踪点是一项极具挑战性的任务。被追踪的点经常会受到 遮挡——即物体暂时阻挡了摄像头的视线——或者它们可能会完全离开 视野范围。此外,光照变化、 透视偏移以及快速运动都可能极大地改变点的视觉外观。
历史上,诸如 Lucas-Kanade 光流等经典算法曾用于处理此类任务。 然而,现代方法则采用了强大的 深度学习架构。主要研究机构近期的创新成果,例如 Google TAPIR(Tracking Any Point with Initialization and Refinement)和Meta AI 的 CoTracker3,已彻底改变了该领域。 与过去独立追踪单个点的传统方法不同,CoTracker3等模型利用 Transformer架构对多个 点进行联合追踪,充分利用了同一物体上各点之间的物理依赖关系。这些最先进的 模型还利用对真实世界 视频的伪标注技术,在大幅降低数据需求的同时,训练出了高精度的系统。
尽管点跟踪与其他计算机视觉任务密切相关,但二者仍存在显著差异:
点追踪是实现各种高级应用的关键技术:
虽然一般的点跟踪器追踪的是任意的视觉像素,但您可以利用该算法的姿势估计 功能track 结构关键点(例如
人的眼睛、肩膀或手腕)。 ultralytics 包。
建议 YOLO26 该模型提供高速、端到端的
关键点跟踪功能,非常适合运动分析。
from ultralytics import YOLO
# Load the recommended YOLO26 pose model for keypoint tracking
model = YOLO("yolo26n-pose.pt")
# Perform pose tracking on a video stream to follow human keypoints over time
results = model.track(source="video.mp4", stream=True)
# Iterate through the stream to process temporal keypoint tracking data
for frame_result in results:
# Each keypoint maintains its association across frames
print(f"Tracked {len(frame_result.keypoints)} human skeletons in current frame.")
在进行大规模计算机视觉工作流部署时, Ultralytics 提供了一套简化的解决方案, 涵盖数据标注、模型训练和无缝 部署,确保在各种 边缘和云环境中都能实现可靠的性能。
开启您的机器学习未来之旅