探索空间智能如何赋能人工智能感知并导航三维世界。Ultralytics Ultralytics 构建具备空间感知能力的系统。
空间智能指人工智能系统感知、理解并导航三维物理世界的能力。与传统计算机视觉常将二维图像视为静态快照不同,空间智能涉及对动态环境中物体的深度、几何结构、运动轨迹及相互关系的推理。 它赋予机器不仅能"看见"像素,更能理解场景的物理语境,从而更有效地与现实世界交互。这种能力是连接数字视觉数据与物理动作的桥梁,成为高级人工智能代理和机器人系统的基石。
要实现类人空间理解能力,人工智能系统依赖于若干相互关联的技术与概念。
空间智能正通过使机器能够在复杂环境中自主运作,从而改变着各行各业。
虽然二者密切相关,但区分空间智能与计算机视觉仍颇有裨益。 计算机视觉是更广阔的领域,专注于从数字图像、视频及其他视觉输入中提取有意义的信息,涵盖分类或基础二维检测等任务。 空间智能则是计算机视觉的专项子集或进化形态,其核心在于融入空间维度与 物理特性。它突破了"这是什么物体?"(视觉认知)的局限,进阶至"物体位于何处?如何定位?如何与之交互?"(空间智能)的维度。
开发者可借助Ultralytics 构建空间智能系统的基石。通过Ultralytics 模型完成定向边界旋转框检测或姿势估计 任务,工程师能为下游机器人或增强现实应用提供必要的几何数据。
以下是一个使用姿势估计 模型提取空间关键点的简单示例,这是理解三维空间中人体运动的关键步骤:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
视觉变换器(ViT) 和基础模型的最新进展正进一步加速该领域发展,使系统能够在不同环境中泛化空间理解能力,而无需大量重新训练。随着斯坦福大学人机交互实验室( Google ) Google 团队的持续研究,空间智能有望成为下一代智能设备的标准功能。