了解人工智能如何将抽象概念与现实世界的数据联系起来,从而增强动态应用中的语境、准确性和信任度。
接地 "是人工智能中的一项任务,涉及将自然语言表达的概念与其他模式中的相应数据(最常见的是图像或视频等可视数据)进行连接或 "接地"。简单地说,就是教会机器理解 "狗在接飞盘 "这样的短语在特定图片中的含义。这超越了简单的识别,而是将语言描述与感知世界中的具体对象、属性和关系联系起来。要创建能以更接近人类的方式与世界互动的人工智能系统,缩小抽象语言与具体感官输入之间的差距,"接地 "是一项至关重要的能力。它是整合了自然语言处理(NLP)和计算机视觉(CV)的先进多模态模型的关键组成部分。
接地模型是在将图像与文本描述配对的大型数据集上进行训练的。这些描述通常包含与图像中特定区域或对象相关联的详细短语,有时由边界框定义。该模型通常使用基于变换器的架构,可学习为文本和图像创建丰富的数字表示或嵌入。然后,它将学习如何对齐这些嵌入,从而使短语 "右边的高楼 "的表示与图像中相应像素区域的表示紧密匹配。这一过程是 "符号基础问题"(Symbol Grounding Problem)的基础,这是一个哲学和技术上的难题,涉及符号(文字)如何获得其意义。像YOLO-World这样的现代模型是开放词汇检测的先驱,也是接地原则的实际应用。
通过接地技术,可以实现需要对视觉场景进行细致理解的复杂应用。
必须将接地与其他计算机视觉任务区分开来。
开发稳健的接地模型面临多项挑战。人类语言固有的模糊性和丰富性难以建模。创建必要的大规模精确注释数据集既昂贵又耗费人力,例如RefCOCO 等数据集。此外,训练这些复杂模型所需的计算资源可能非常庞大,通常需要分布式训练或广泛的云训练。确保模型能高效地进行实时推理是另一个关键障碍。
未来的研究通常发表在arXiv 等平台上,重点是通过零点学习等技术提高性能,以便更好地泛化到未见过的物体描述。艾伦人工智能研究所(AI2)等机构正在积极研究这些领域。随着接地技术的成熟,它将使人类与人工智能之间的协作更加自然,并使人工智能系统更接近于对世界真正的、可操作的理解。