深圳Yolo 视觉
深圳
立即加入
词汇表

Grounding

了解 AI 中的 grounding 如何将抽象概念与真实世界的数据联系起来,从而增强动态应用中的上下文、准确性和信任。

接地是 人工智能(AI)中将抽象概念 将抽象概念(通常是自然语言中的单词或短语)与物理世界中的具体表征(如图像中的像素或机器人的感官数据)连接起来的过程。 物理世界中的具体表现,如图像中的像素或机器人的感官数据。简单地说,如果计算机读到 如果计算机读到的文字是 "一只睡着的猫",那么 "接地 "就能通过观察照片识别出猫所在的具体区域。 猫所在的具体区域。这种能力弥补了语言符号和感知信息之间的语义鸿沟。 信息之间的语义鸿沟。 认知科学中著名的符号接地问题。虽然 传统系统可能会将文本和图像分开处理,而接地技术能让多模态人工智能 多模态人工智能能够理解两者之间的关系,从而促进更直观的人机交互。 这有助于实现更直观的人机交互。

接地机制

在技术层面上,接地依赖于高维向量空间的对齐。现代模型利用 深度学习(DL)架构,特别是 Transformer将文本和图像转换为 称为嵌入的数字表示。在训练过程中 在训练过程中,该模型学会将文本短语(如 "红色汽车")的嵌入映射到与该对象相对应的视觉特征的嵌入上。 与该对象相对应的视觉特征。

这一过程可实现开放式词汇检测。与标准的 不同,标准的对象检测仅限于固定的 不同,接地模型可以识别文本提示中描述的任何对象。 提示所描述的任何对象。这利用了零镜头学习,即 在这种情况下,模型只需理解描述对象的语言,就能识别出在训练过程中从未见过的对象。 描述它们。OpenAI等组织对 CLIP 的研究奠定了 等组织在 CLIP 方面的研究奠定了将这些视觉和文本表征统一起来的基础。

实际应用

接地改变了机器解读用户意图和与环境互动的方式。

  • 机器人和自主代理:在机器人人工智能领域,基础知识对于 接地对于执行自然语言命令至关重要。如果用户告诉服务机器人 "拿起杯子旁边的苹果 杯子",机器人必须将 "苹果"、"杯子 "和空间关系 "旁边 "旁边 "的空间关系与摄像头画面中的具体物理坐标相关联。这样就能在非结构化的环境中动态执行任务 这也是IEEE 机器人研究的一个重点。
  • 语义搜索和检索:为先进的 语义搜索引擎。与匹配 关键字,系统可以搜索视频数据库中的复杂查询,如 "一个骑自行车的人在日落时左转"。 日落时左转 "这样的复杂查询。该引擎将查询与视频文件的视觉内容相结合,以检索精确的 时间戳。这项技术增强了 视频理解和数字资产 管理工具。

接地与Ultralytics YOLO

"(《世界人权宣言》) ultralytics 软件包支持通过 YOLO 模型。这种模式 允许用户使用文本提示即时定义自定义类,有效地将文本 "接地 "到图像上,而无需重新训练。 无需重新训练。

下面的示例演示了如何加载预训练模型并定义自定义提示以detect 特定的 对象:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

区分接地与相关概念

要理解 "接地",最好将其与类似的计算机视觉任务区分开来:

  • 对物体检测:标准检测,如 YOLO11从一组封闭的类别(如 "人"、"车 "等)中识别物体。 (例如 "人"、"车")。接地是开放式的,可以根据训练数据中没有的自由格式文本描述来detect 物体。 的自由文本描述来检测物体。
  • 与图像标题对比: 图像标题从图像中生成文字说明 (Image $\to$ Text)。接地通常是反向或双向的,根据文本输入(文本 $\to$ 图像区域)定位视觉元素。 基于文本输入(文本 $\to$ 图像区域)。
  • 与语义分割语义分割将每个 像素归入一个类别,但本质上并没有将这些像素与特定的语言短语或由复杂属性定义的独特实例联系起来(例如 "闪闪发光的红苹果 "与仅仅 "苹果")。 例如,"闪闪发光的红苹果 "与单纯的 "苹果")。

当前的挑战

尽管取得了进步,但接地仍然是计算密集型工作。将大规模语言模型与视觉 编码器对齐需要大量 GPU 资源。此外,模型 银行 "可能指河岸或金融机构、 这就要求人工智能依靠上下文窗口来 解决正确的视觉定位问题。

确保这些模型高效运行以进行 实时推理是一个持续发展的领域。 开发领域。研究人员还在解决 数据偏差,以确保基础模型能在不同文化和背景下公平地概括 在不同的文化和环境中公平地通用,这也是人工智能文献中经常讨论的话题。 人工智能文献中经常讨论的一个话题。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入