探索空间智能如何使AI感知和导航3D世界。学习如何使用Ultralytics YOLO26和Ultralytics Platform构建空间感知系统。
空间智能是指人工智能系统在三维空间中感知、理解和导航物理世界的能力。与通常将2D图像作为静态快照分析的传统计算机视觉不同,空间智能涉及对动态环境中深度、几何、运动以及物体之间关系的推理。它使机器不仅能够“看到”像素,还能理解场景的物理上下文,从而更有效地与现实世界互动。这种能力是数字视觉数据与物理行动之间的桥梁,是先进AI代理和机器人系统的基石。
为了实现对空间的类人理解,AI 系统依赖于几种相互关联的技术和概念。
空间智能通过使机器能够在复杂环境中自主运行,正在变革各行各业。
虽然密切相关,但区分空间智能与计算机视觉会很有帮助。计算机视觉是一个更广泛的领域,专注于从数字图像、视频和其他视觉输入中提取有意义的信息。它包括分类或基本2D detect等任务。空间智能是计算机视觉的一个专业子集或演进,它特别增加了空间和物理的维度。它从“这是什么物体?”(视觉)转变为“这个物体在哪里,它是如何定向的,以及我如何与它互动?”(空间智能)。
开发者可以使用Ultralytics 平台构建空间智能系统的基础。通过训练像Ultralytics YOLO26这样的模型来执行旋转框检测 (obb) 或姿势估计等任务,工程师可以为下游的机器人或AR应用提供必要的几何数据。
以下是一个使用姿势估计模型提取空间关键点的简单示例,这是理解3D空间中人体运动的关键一步:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
视觉 Transformer (ViT) 和 基础模型 的最新进展正在进一步加速这一领域的发展,使系统能够在不同环境中泛化空间理解,而无需大量重新训练。随着 斯坦福 HAI 和 Google DeepMind 等团队的研究不断深入,我们可以期待空间智能成为下一代智能设备的标准功能。

开启您的机器学习未来之旅