深圳Yolo 视觉
深圳
立即加入
词汇表

空间智能

探索空间智能如何使AI感知和导航3D世界。学习如何使用Ultralytics YOLO26和Ultralytics Platform构建空间感知系统。

空间智能是指人工智能系统在三维空间中感知、理解和导航物理世界的能力。与通常将2D图像作为静态快照分析的传统计算机视觉不同,空间智能涉及对动态环境中深度、几何、运动以及物体之间关系的推理。它使机器不仅能够“看到”像素,还能理解场景的物理上下文,从而更有效地与现实世界互动。这种能力是数字视觉数据与物理行动之间的桥梁,是先进AI代理和机器人系统的基石。

空间智能的核心组成部分

为了实现对空间的类人理解,AI 系统依赖于几种相互关联的技术和概念。

  • 深度感知与 3D 重建: 系统必须将来自摄像头的 2D 输入转换为 3D 表示。诸如 单目深度估计 等技术允许模型从单张图像预测距离,而 3D object detect 则有助于识别该空间内物体的体积 和方向。
  • SLAM(同步定位与建图):这使得设备(如机器人或无人机)能够在绘制未知环境地图的同时,跟踪自身在环境中的位置。现代方法通常将视觉 SLAM与深度学习相结合,以提高在光照条件变化下的鲁棒性。
  • 几何推理:除了检测之外,系统还必须理解物理约束——例如,知道杯子放在桌子上,或者门必须打开才能通过。这通常涉及姿势估计,以实时跟踪物体或人体关节的方向。
  • 具身AI:这个概念将感知与行动联系起来。具身智能体不只是观察;它利用空间数据规划运动、避开障碍物和操纵物体,类似于机器人AI在制造车间中的运作方式。

实际应用

空间智能通过使机器能够在复杂环境中自主运行,正在变革各行各业。

  • 自动机器人与物流:在仓储中,机器人利用空间智能导航拥挤的过道,使用目标检测识别特定包裹,并将其精确放置到传送带上。它们必须计算抓手与箱子之间的空间关系,以确保牢固抓取而不损坏物品。
  • 增强现实 (AR) 与混合现实:智能眼镜等设备利用空间计算将数字内容锚定到物理世界。例如,AR 维护应用程序可以将维修说明直接叠加到特定发动机部件上。这需要精确的object tracking,以确保用户移动头部时图形保持对齐。

空间智能与计算机视觉对比

虽然密切相关,但区分空间智能与计算机视觉会很有帮助。计算机视觉是一个更广泛的领域,专注于从数字图像、视频和其他视觉输入中提取有意义的信息。它包括分类或基本2D detect等任务。空间智能是计算机视觉的一个专业子集或演进,它特别增加了空间物理的维度。它从“这是什么物体?”(视觉)转变为“这个物体在哪里,它是如何定向的,以及我如何与它互动?”(空间智能)。

使用 Ultralytics 实现空间感知

开发者可以使用Ultralytics 平台构建空间智能系统的基础。通过训练像Ultralytics YOLO26这样的模型来执行旋转框检测 (obb) 或姿势估计等任务,工程师可以为下游的机器人或AR应用提供必要的几何数据。

以下是一个使用姿势估计模型提取空间关键点的简单示例,这是理解3D空间中人体运动的关键一步:

from ultralytics import YOLO

# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")

# Access the keypoints (x, y coordinates and confidence)
for result in results:
    # keypoints.xy returns a tensor of shape (N, 17, 2)
    keypoints = result.keypoints.xy
    print(f"Detected keypoints for {len(keypoints)} persons.")

视觉 Transformer (ViT)基础模型 的最新进展正在进一步加速这一领域的发展,使系统能够在不同环境中泛化空间理解,而无需大量重新训练。随着 斯坦福 HAIGoogle DeepMind 等团队的研究不断深入,我们可以期待空间智能成为下一代智能设备的标准功能。

让我们一起共建AI的未来!

开启您的机器学习未来之旅