敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

Grounding

了解 AI 中的 grounding 如何将抽象概念与真实世界的数据联系起来,从而增强动态应用中的上下文、准确性和信任。

Grounding 是人工智能中的一项任务,涉及将自然语言表达的概念连接或“grounding”到其他模态中的相应数据,最常见的是图像或视频等视觉数据。简单来说,就是教机器理解“狗接飞盘”这样的短语在特定图片中指的是什么。这超越了简单的识别,通过将语言描述链接到感知世界中的特定对象、属性和关系。Grounding 是创建能够以更像人类的方式与世界互动的 AI 系统的关键能力,弥合了抽象语言和具体感官输入之间的差距。它是集成自然语言处理 (NLP)计算机视觉 (CV)的先进多模态模型的关键组成部分。

Grounding 的工作原理是什么?

Grounding 模型在将图像与文本描述配对的大型数据集上进行训练。这些描述通常包含链接到图像中特定区域或对象的详细短语,有时由边界框定义。该模型通常使用基于 Transformer 的架构,学习为文本和图像创建丰富的数值表示或嵌入。然后,它学习对齐这些嵌入,以便“右侧的高楼”短语的表示与图像中相应像素区域的表示紧密匹配。此过程是符号接地问题的基础,这是一个哲学和技术挑战,涉及符号(单词)如何获得其含义。像 YOLO-World 这样的现代模型正在开创开放词汇检测,这是 grounding 原则的实际应用。

实际应用

通过 Grounding,可以实现需要对视觉场景进行细致理解的复杂应用。

  • 交互式机器人技术:机器人技术 中,基础化允许机器人遵循自然语言命令。例如,用户可以指示仓库机器人“拿起大蓝色盒子后面的小红色盒子”。机器人的 AI 必须理解整个短语,理解对象、属性(小、红、大、蓝)和空间关系(后面),才能正确执行任务。这对于从 制造自动化医疗保健 中的辅助机器人等应用至关重要。
  • 视觉问答 (VQA) 和图像搜索: 当你向系统提问“停在消防栓旁边的车是什么颜色?”时,它首先需要将“the car”和“the fire hydrant”这两个短语定位到图像中的位置。然后才能识别汽车的颜色并回答问题。这为更直观和强大的语义搜索工具提供支持,并有助于开发更有帮助的虚拟助手

与相关概念的区别

区分 Grounding 与其他计算机视觉任务非常重要。

  • 目标检测: 标准目标检测识别来自固定词汇表的预定义类别(例如,“人”、“自行车”)的实例。 相比之下,grounding 是一项开放词汇任务。 它基于自由形式的描述性自然语言(例如“一个在阳光明媚的日子里骑自行车的人”)来定位对象,这是标准检测器无法处理的。
  • 语义分割: 此任务将类标签分配给图像中的每个像素(例如,将所有像素标记为“天空”、“道路”或“树木”)。Grounding 更侧重于此;它仅隔离文本提示所描述的特定对象或区域。它与一个名为 referring expression segmentation 的子任务更密切相关,后者是实例分割的一种形式。

挑战和未来方向

开发强大的 grounding 模型面临着若干挑战。人类语言固有的模糊性和丰富性难以建模。创建必要的大规模、准确 标注的数据集 既昂贵又费力;示例包括像 RefCOCO 这样的数据集。此外,训练这些复杂模型所需的计算资源可能非常大,通常需要 分布式训练 或广泛的 云训练。确保模型能够有效地执行 实时推理 是另一个关键障碍。

未来的研究(通常在 arXiv 等平台上发表)侧重于通过诸如零样本学习等技术来提高性能,从而更好地泛化到未见过的对象描述。诸如 艾伦人工智能研究所 (AI2) 等组织正在积极研究这些领域。随着 grounding 技术的成熟,它将实现更自然的人机协作,并使 AI 系统更接近于对世界的真实、可操作的理解。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板