术语表

接地

了解人工智能如何将抽象概念与现实世界的数据联系起来,从而增强动态应用中的语境、准确性和信任度。

接地 "是人工智能中的一项任务,涉及将自然语言表达的概念与其他模式中的相应数据(最常见的是图像或视频等可视数据)进行连接或 "接地"。简单地说,就是教会机器理解 "狗在接飞盘 "这样的短语在特定图片中的含义。这超越了简单的识别,而是将语言描述与感知世界中的具体对象、属性和关系联系起来。要创建能以更接近人类的方式与世界互动的人工智能系统,缩小抽象语言与具体感官输入之间的差距,"接地 "是一项至关重要的能力。它是整合了自然语言处理(NLP)计算机视觉(CV)的先进多模态模型的关键组成部分。

如何接地

接地模型是在将图像与文本描述配对的大型数据集上进行训练的。这些描述通常包含与图像中特定区域或对象相关联的详细短语,有时由边界框定义。该模型通常使用基于变换器的架构,可学习为文本和图像创建丰富的数字表示或嵌入。然后,它将学习如何对齐这些嵌入,从而使短语 "右边的高楼 "的表示与图像中相应像素区域的表示紧密匹配。这一过程是 "符号基础问题"(Symbol Grounding Problem)的基础,这是一个哲学和技术上的难题,涉及符号(文字)如何获得其意义。像YOLO-World这样的现代模型是开放词汇检测的先驱,也是接地原则的实际应用。

实际应用

通过接地技术,可以实现需要对视觉场景进行细致理解的复杂应用。

  • 交互式机器人:机器人技术中,"接地 "可以让机器人听从自然语言指令。例如,用户可以指示仓库机器人 "捡起蓝色大箱子后面的红色小箱子"。机器人的人工智能必须将这句话完整落地,理解物体、属性(小、红、大、蓝)和空间关系(后面),才能正确执行任务。这对于从制造自动化医疗辅助机器人等各种应用都至关重要。
  • 视觉问题解答(VQA)和图像搜索:当您向系统提问:"停在消防栓旁边的汽车是什么颜色的?"系统首先需要将 "汽车 "和 "消防栓 "这两个短语置于图像中,以确定它们的位置。只有这样,它才能识别汽车的颜色并回答问题。这为更直观、更强大的语义搜索工具提供了动力,也有助于开发更有用的虚拟助手

与相关概念的区别

必须将接地与其他计算机视觉任务区分开来。

  • 对象检测标准对象检测是从固定词汇中识别预定义类别(如 "人"、"自行车")的实例。相比之下,接地是一项开放式词汇任务。它根据自由形式的描述性自然语言来定位对象,例如 "一个人在阳光明媚的日子里骑着自行车",这是标准检测器无法处理的。
  • 语义分割这项任务为图像中的每个像素分配一个类别标签(例如,将所有像素标记为 "天空"、"道路 "或 "树木")。定位任务更有针对性;它只隔离文本提示所描述的特定对象或区域。它与称为引用表达分割的子任务关系更为密切,后者是实例分割的一种形式。

挑战与未来方向

开发稳健的接地模型面临多项挑战。人类语言固有的模糊性和丰富性难以建模。创建必要的大规模精确注释数据集既昂贵又耗费人力,例如RefCOCO 等数据集。此外,训练这些复杂模型所需的计算资源可能非常庞大,通常需要分布式训练或广泛的云训练。确保模型能高效地进行实时推理是另一个关键障碍。

未来的研究通常发表在arXiv 等平台上,重点是通过零点学习等技术提高性能,以便更好地泛化到未见过的物体描述。艾伦人工智能研究所(AI2)等机构正在积极研究这些领域。随着接地技术的成熟,它将使人类与人工智能之间的协作更加自然,并使人工智能系统更接近于对世界真正的、可操作的理解。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板