Spatial Intelligence
探索空间智能如何使 AI 能够感知和导航 3D 世界。学习使用 Ultralytics YOLO26 和 Ultralytics Platform 构建具有空间感知能力的系统。
空间智能是指人工智能系统感知、理解并在三维物理世界中导航的能力。与通常将二维图像分析为静态快照的传统计算机视觉不同,空间智能涉及对动态环境中深度、几何、运动以及物体之间关系的推理。它使机器不仅能“看到”像素,还能理解场景的物理环境,从而更有效地与现实世界交互。这种能力是连接数字视觉数据与物理行动的桥梁,也是高级 AI agents 和机器人系统的基石。
Link to this section空间智能的核心组件#
为了实现类似人类的空间理解,AI 系统依赖于多种相互关联的技术和概念。
- 深度感知与三维重建: 系统必须将来自摄像头的二维输入转换为三维表示。诸如 monocular depth estimation 之类的技术允许模型从单张图像中预测距离,而 3D object detection 有助于识别该空间内物体的体积和方向。
- SLAM(同步定位与建图): 这使得机器人或无人机等设备能够在未知环境中进行建图,同时跟踪其自身在该环境中的位置。现代方法通常将 visual SLAM 与深度学习相结合,以提高在不断变化的光照条件下的稳健性。
- 几何推理: 除了检测之外,系统还必须理解物理约束——比如知道杯子放在桌子上,或者必须打开门才能穿过。这通常涉及 pose estimation 以实时跟踪物体或人体关节的方向。
- 具身智能(Embodied AI): 这个概念将感知与行动联系起来。具身智能体不仅进行观察,它还利用空间数据来规划动作、避开障碍物并操纵物体,这类似于 AI in robotics 在工厂车间的运作方式。
Link to this section实际应用#
空间智能通过使机器能够在复杂环境中自主运行,正在改变各行各业。
- Autonomous Robotics and Logistics: In warehousing, robots use spatial intelligence to navigate crowded aisles, identify specific packages using object detection, and place them precisely onto conveyors. They must calculate the spatial relationship between their gripper and the box to ensure a secure hold without crushing the item.
- 增强现实 (AR) 与混合现实: 智能眼镜等设备利用空间计算将数字内容锚定到物理世界中。例如,AR 维修应用可以将维修说明直接叠加在特定的发动机部件上。这需要精确的 object tracking,以确保当用户移动头部时图形保持对齐。
Link to this section空间智能与计算机视觉的对比#
虽然两者密切相关,但区分 spatial intelligence vs. computer vision 很有帮助。计算机视觉是一个更广泛的领域,专注于从数字图像、视频和其他视觉输入中获取有意义的信息,其中包括分类或基本的二维检测等任务。空间智能是计算机视觉的一个专门子集或演进,它专门增加了空间和物理维度。它从“这是什么物体?”(视觉)转向“这个物体在哪里、方向如何,我该如何与它交互?”(空间智能)。
Link to this section使用 Ultralytics 实现空间感知#
开发者可以使用 Ultralytics Platform 构建空间智能系统的基础。通过在定向边界框 (OBB) 检测或姿态估计等任务上训练 Ultralytics YOLO26 等模型,工程师可以为下游机器人或 AR 应用提供必要的几何数据。
以下是使用姿态估计模型提取空间关键点的简单示例,这是理解三维空间内人体运动的关键步骤:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")Vision Transformers (ViT) 和 foundation models 的最新进展正在进一步加速该领域的发展,使系统能够在无需大量重新训练的情况下跨不同环境泛化空间理解能力。随着 Stanford's HAI 和 Google DeepMind 等团队的研究持续深入,我们可以期待空间智能成为下一代智能设备的标准功能。






