深圳Yolo 视觉
深圳
立即加入
词汇表

具身智能

探索具身智能,了解智能系统如何与物理世界交互。发现如何利用 Ultralytics YOLO26 赋能机器人感知。

具身AI代表着从被动算法到智能系统的重大转变,这些系统能够在物理或模拟的3D环境中感知、推理和交互。与纯粹在静态数据集上运行的传统机器学习模型不同,这些系统拥有一个“身体”——无论是物理机器人底盘还是虚拟化身——使它们能够执行动作并从持续的环境反馈中学习。通过将传感器输入与智能决策相结合,具身智能体弥合了数字计算与现实世界执行之间的鸿沟。

具身系统如何感知世界

这些动态系统的核心是先进的计算机视觉,它使智能体能够空间地理解其周围环境。为了安全有效地导航,具身智能体严重依赖实时object detection和持续的姿势估计。当开发者为这些智能体构建神经网络通路时,他们通常会集成来自PyTorch ecosystemTensorFlow deployment tools的深度学习框架,以处理复杂的空间数据。

为了实现真正的自主性,这些系统正越来越多地利用视觉语言模型以及强大的real-time inference引擎。这使得AI不仅能识别一个杯子,还能理解复杂的指令,例如“拿起桌子边缘的那个红杯子”。斯坦福大学以人为本人工智能研究院 (HAI)等机构的研究不断推动着这些智能体如何整合多感官数据的边界。

区分相关人工智能术语

理解这个领域需要将其与密切相关的概念区分开来:

  • 机器人技术: 机器人技术主要关注机械硬件、执行器和电机控制。具身 AI 提供了 认知软件层,使硬件实现自主化,就像 波士顿动力公司的 Atlas 机器人项目所展示的那样。
  • 物理AI: 物理AI虽然经常互换使用,但严格要求有形的、真实世界的硬件。具身AI更广泛,涵盖在模拟3D物理环境中训练的虚拟智能体,例如NVIDIA的Isaac机器人平台
  • AI 代理:传统 AI 代理在数字空间中运行(例如,浏览网页或编写代码)。具身代理则专门处理空间维度、物理约束和连续的感官流。

实际应用

认知推理与物理行动的结合带来了跨越多个行业的变革性应用,这些在ACM AI 研究数字图书馆中得到了大量记录。

  • 自动驾驶汽车: 自动驾驶汽车依靠具身智能在城市街道上导航。它们处理连续的激光雷达和摄像头数据以解释交通标志和行人移动,就像Waymo 的自动驾驶技术安全地与动态城市环境交互一样。
  • 智能制造:配备Ultralytics YOLO26模型的机械臂执行复杂的装配线任务。它们动态识别、抓取和分类有缺陷的零件,展现了近期DeepMind机器人研究中探索的原理。
  • 农业无人机: 无人机利用空间感知能力监测作物健康,并仅在需要的地方智能喷洒资源,从而减少浪费并提高产量。

构建具身智能体的感知能力

开发这些物理系统的开发者经常利用Ultralytics Platform来标注动态training data,并无缝部署轻量级edge AI模型直接到低功耗硬件上。

下面是一个 python 示例,演示了机器人智能体如何使用视觉模型在其环境中持续地 detect 交互式对象。

from ultralytics import YOLO

# Load the lightweight YOLO26 model designed for real-time edge hardware
model = YOLO("yolo26n.pt")

# Perform continuous object detection on a robotic camera feed
results = model.predict(source="camera_feed.mp4", stream=True)

# Process the spatial bounding boxes to guide robotic interaction
for r in results:
    print(f"Detected {len(r.boxes)} objects ready for physical interaction.")

随着硬件设计和认知建模领域的成熟——在Anthropic 关于AI安全的研究OpenAI 最新的推理模型等对齐工作的指导下——具身系统将继续从研究实验室过渡到日常环境,正如IEEE Spectrum 机器人报道中经常强调的那样。

让我们一起共建AI的未来!

开启您的机器学习未来之旅