了解 AI 中的 grounding 如何将抽象概念与真实世界的数据联系起来,从而增强动态应用中的上下文、准确性和信任。
Grounding 是人工智能中的一项任务,涉及将自然语言表达的概念连接或“grounding”到其他模态中的相应数据,最常见的是图像或视频等视觉数据。简单来说,就是教机器理解“狗接飞盘”这样的短语在特定图片中指的是什么。这超越了简单的识别,通过将语言描述链接到感知世界中的特定对象、属性和关系。Grounding 是创建能够以更像人类的方式与世界互动的 AI 系统的关键能力,弥合了抽象语言和具体感官输入之间的差距。它是集成自然语言处理 (NLP)和计算机视觉 (CV)的先进多模态模型的关键组成部分。
Grounding 模型在将图像与文本描述配对的大型数据集上进行训练。这些描述通常包含链接到图像中特定区域或对象的详细短语,有时由边界框定义。该模型通常使用基于 Transformer 的架构,学习为文本和图像创建丰富的数值表示或嵌入。然后,它学习对齐这些嵌入,以便“右侧的高楼”短语的表示与图像中相应像素区域的表示紧密匹配。此过程是符号接地问题的基础,这是一个哲学和技术挑战,涉及符号(单词)如何获得其含义。像 YOLO-World 这样的现代模型正在开创开放词汇检测,这是 grounding 原则的实际应用。
通过 Grounding,可以实现需要对视觉场景进行细致理解的复杂应用。
区分 Grounding 与其他计算机视觉任务非常重要。
开发强大的 grounding 模型面临着若干挑战。人类语言固有的模糊性和丰富性难以建模。创建必要的大规模、准确 标注的数据集 既昂贵又费力;示例包括像 RefCOCO 这样的数据集。此外,训练这些复杂模型所需的计算资源可能非常大,通常需要 分布式训练 或广泛的 云训练。确保模型能够有效地执行 实时推理 是另一个关键障碍。
未来的研究(通常在 arXiv 等平台上发表)侧重于通过诸如零样本学习等技术来提高性能,从而更好地泛化到未见过的对象描述。诸如 艾伦人工智能研究所 (AI2) 等组织正在积极研究这些领域。随着 grounding 技术的成熟,它将实现更自然的人机协作,并使 AI 系统更接近于对世界的真实、可操作的理解。