深圳Yolo 视觉
深圳
立即加入
词汇表

空间智能

探索空间智能如何赋能人工智能感知并导航三维世界。Ultralytics Ultralytics 构建具备空间感知能力的系统。

空间智能指人工智能系统感知、理解并导航三维物理世界的能力。与传统计算机视觉常将二维图像视为静态快照不同,空间智能涉及对动态环境中物体的深度、几何结构、运动轨迹及相互关系的推理。 它赋予机器不仅能"看见"像素,更能理解场景的物理语境,从而更有效地与现实世界交互。这种能力是连接数字视觉数据与物理动作的桥梁,成为高级人工智能代理和机器人系统的基石。

空间智能的核心要素

要实现类人空间理解能力,人工智能系统依赖于若干相互关联的技术与概念。

  • 深度感知与三维重建:系统必须将摄像头采集的二维输入转化为三维表示。诸如单目深度估计等技术可使模型通过单帧图像预测距离,而三维物体检测则有助于识别空间内物品的体积与方位。
  • SLAM(同步定位与建图):该技术使设备(如机器人或无人机)能够在未知环境中绘制地图的同时,持续track 在环境中的位置。现代方法常将视觉SLAM与深度学习相结合,以增强设备在光照条件变化时的鲁棒性。
  • 几何推理:除检测功能外,系统还需理解物理约束——例如认知杯子置于桌面,或知晓通行需先开启门扉。这通常涉及姿势估计 ,用于实时track 物体或人体关节的track 。
  • 具身人工智能:该概念将感知与行动相联结。具身智能体不仅能观察环境,还能利用空间数据规划移动路径、规避障碍物并操控物体,其运作方式类似于制造车间中机器人所采用的人工智能技术

实际应用

空间智能正通过使机器能够在复杂环境中自主运作,从而改变着各行各业。

  • 自主机器人与物流:在仓储环境中,机器人运用空间智能在拥挤的通道中导航,通过物体检测识别特定包裹,并将其精准放置于传送带上。它们必须计算夹爪与箱体之间的空间关系,确保牢固抓取的同时避免挤压物品。
  • 增强现实(AR)与混合现实:智能眼镜等设备通过空间计算技术将数字内容锚定于物理世界。例如,AR维护应用可将维修说明直接叠加在特定发动机部件上。这需要精确的物体追踪技术,确保用户转动头部时图形始终保持对齐。

空间智能与计算机视觉

虽然二者密切相关,但区分空间智能与计算机视觉仍颇有裨益 计算机视觉是更广阔的领域,专注于从数字图像、视频及其他视觉输入中提取有意义的信息,涵盖分类或基础二维检测等任务。 空间智能则是计算机视觉的专项子集或进化形态,其核心在于融入空间维度与 物理特性。它突破了"这是什么物体?"(视觉认知)的局限,进阶至"物体位于何处?如何定位?如何与之交互?"(空间智能)的维度。

使用Ultralytics实现空间感知

开发者可借助Ultralytics 构建空间智能系统的基石。通过Ultralytics 模型完成定向边界旋转框检测或姿势估计 任务,工程师能为下游机器人或增强现实应用提供必要的几何数据。

以下是一个使用姿势估计 模型提取空间关键点的简单示例,这是理解三维空间中人体运动的关键步骤:

from ultralytics import YOLO

# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")

# Access the keypoints (x, y coordinates and confidence)
for result in results:
    # keypoints.xy returns a tensor of shape (N, 17, 2)
    keypoints = result.keypoints.xy
    print(f"Detected keypoints for {len(keypoints)} persons.")

视觉变换器(ViT) 和基础模型的最新进展正进一步加速该领域发展,使系统能够在不同环境中泛化空间理解能力,而无需大量重新训练。随着斯坦福大学人机交互实验室( Google Google 团队的持续研究,空间智能有望成为下一代智能设备的标准功能。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入