词汇表

Grounding

了解 AI 中的 grounding 如何将抽象概念与真实世界的数据联系起来，从而增强动态应用中的上下文、准确性和信任。

Grounding 是人工智能中的一项任务，涉及将自然语言表达的概念连接或“grounding”到其他模态中的相应数据，最常见的是图像或视频等视觉数据。简单来说，就是教机器理解“狗接飞盘”这样的短语在特定图片中指的是什么。这超越了简单的识别，通过将语言描述链接到感知世界中的特定对象、属性和关系。Grounding 是创建能够以更像人类的方式与世界互动的 AI 系统的关键能力，弥合了抽象语言和具体感官输入之间的差距。它是集成自然语言处理 (NLP)和计算机视觉 (CV)的先进多模态模型的关键组成部分。

Grounding 的工作原理是什么？

Grounding 模型在将图像与文本描述配对的大型数据集上进行训练。这些描述通常包含链接到图像中特定区域或对象的详细短语，有时由边界框定义。该模型通常使用基于 Transformer 的架构，学习为文本和图像创建丰富的数值表示或嵌入。然后，它学习对齐这些嵌入，以便“右侧的高楼”短语的表示与图像中相应像素区域的表示紧密匹配。此过程是符号接地问题的基础，这是一个哲学和技术挑战，涉及符号（单词）如何获得其含义。像 YOLO-World 这样的现代模型正在开创开放词汇检测，这是 grounding 原则的实际应用。

实际应用

通过 Grounding，可以实现需要对视觉场景进行细致理解的复杂应用。

交互式机器人技术： 在机器人技术中，基础化允许机器人遵循自然语言命令。例如，用户可以指示仓库机器人“拿起大蓝色盒子后面的小红色盒子”。机器人的 AI 必须理解整个短语，理解对象、属性（小、红、大、蓝）和空间关系（后面），才能正确执行任务。这对于从制造自动化到医疗保健中的辅助机器人等应用至关重要。
视觉问答 (VQA) 和图像搜索： 当你向系统提问“停在消防栓旁边的车是什么颜色？”时，它首先需要将“the car”和“the fire hydrant”这两个短语定位到图像中的位置。然后才能识别汽车的颜色并回答问题。这为更直观和强大的语义搜索工具提供支持，并有助于开发更有帮助的虚拟助手。

与相关概念的区别

区分 Grounding 与其他计算机视觉任务非常重要。

目标检测: 标准目标检测识别来自固定词汇表的预定义类别（例如，“人”、“自行车”）的实例。相比之下，grounding 是一项开放词汇任务。它基于自由形式的描述性自然语言（例如“一个在阳光明媚的日子里骑自行车的人”）来定位对象，这是标准检测器无法处理的。
语义分割: 此任务将类标签分配给图像中的每个像素（例如，将所有像素标记为“天空”、“道路”或“树木”）。Grounding 更侧重于此；它仅隔离文本提示所描述的特定对象或区域。它与一个名为 referring expression segmentation 的子任务更密切相关，后者是实例分割的一种形式。

挑战和未来方向

开发强大的 grounding 模型面临着若干挑战。人类语言固有的模糊性和丰富性难以建模。创建必要的大规模、准确标注的数据集既昂贵又费力；示例包括像 RefCOCO 这样的数据集。此外，训练这些复杂模型所需的计算资源可能非常大，通常需要分布式训练或广泛的云训练。确保模型能够有效地执行实时推理是另一个关键障碍。

未来的研究（通常在 arXiv 等平台上发表）侧重于通过诸如零样本学习等技术来提高性能，从而更好地泛化到未见过的对象描述。诸如艾伦人工智能研究所 (AI2) 等组织正在积极研究这些领域。随着 grounding 技术的成熟，它将实现更自然的人机协作，并使 AI 系统更接近于对世界的真实、可操作的理解。

Grounding

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

Grounding 的工作原理是什么？

实际应用

与相关概念的区别

挑战和未来方向

阅读更多此类别的内容

从比特到量子比特：量子优化如何重塑人工智能

如何训练人工智能模型的初学者快速指南

来自迪拜的真知灼见：2025 年 GDG 中东和北非峰会的主要收获

加入 Ultralytics 社区