深圳Yolo 视觉
深圳
立即加入
词汇表

Grounding

探索 AI 中基础 (grounding) 的基本原理。了解如何使用 Ultralytics YOLO26 和 YOLO-World 将自然语言与视觉数据连接起来,实现开放词汇检测。

接地(Grounding)指的是人工智能系统连接抽象概念的能力——这些概念通常源自自然语言——与物理世界中具体的、具象的表示(如视觉数据或感官输入)联系起来。在计算机视觉的背景下,这意味着模型不仅仅是处理文本;它能够解析“一个人遛狗”这样的短语,并精确地在图像或视频流中定位这些实体。这个过程弥合了符号推理和像素级感知之间的鸿沟,解决了认知科学中基本的符号接地问题。通过将语言符号与视觉特征联系起来,接地成为现代多模态AI的基石,使机器能够更直观地与动态的人类环境交互。

接地机制

在技术层面,接地涉及将来自不同模态的数据对齐到一个共享的高维向量空间中。先进的架构,通常基于用于自然语言处理 (NLP)Transformer框架构建,为文本描述和视觉输入生成称为嵌入的数值表示。在训练过程中,模型学习最小化文本提示(例如,“蓝色背包”)的嵌入与相应视觉区域的嵌入之间的距离。

这种对齐实现了开放词汇检测。与传统的监督学习(模型仅限于固定类别的集合)不同,接地实现了零样本学习。一个接地的模型可以识别在训练期间从未明确见过的对象,前提是它理解描述这些对象的语言。这种灵活性得到了PyTorch等深度学习框架的支持,这些框架促进了这些多模态对齐所需的复杂矩阵运算。

实际应用

接地技术通过使系统能够解释用户意图并有效地导航非结构化环境,正在重塑各行各业。

  • 机器人中的人工智能 接地(Grounding)对于执行口头指令的自主代理至关重要。如果一个仓库机器人被告知“拿起 顶层货架上的包裹”,它必须将“包裹”和“顶层货架”的概念与 其视野中的特定 3D 坐标进行接地。这种能力是 麻省理工学院 CSAIL 机器人研究 的主要焦点,使 机器人能够安全地与人类协同操作。
  • 语义搜索与媒体检索: 基础化技术驱动着超越关键词匹配的先进搜索引擎。用户可以使用“一名骑自行车的人在日落时左转”等复杂描述来查询视频档案,系统利用基础化技术检索特定时间戳。这显著增强了 视频理解能力,适用于安全和媒体管理。
  • 辅助技术:对于视障用户,基础模型(grounding)使应用程序能够实时描述周围环境或回答有关环境的问题,这依赖于与语音生成相结合的强大图像识别技术。

接地与Ultralytics YOLO

Ultralytics生态系统通过YOLO-World等专业架构支持接地。虽然标准模型需要针对特定数据集进行训练,但YOLO-World允许用户使用文本提示即时定义自定义检测类别。这有效地将自然语言输入“接地”到图像上,而无需重新训练。

下面的示例演示了如何使用 ultralytics 基于自定义文本描述detect 包:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

区分接地与相关概念

为了充分理解关联的实用性,有必要将其与类似的计算机视觉任务区分开来:

  • 对比目标检测 传统检测模型,例如最先进的YOLO26,从封闭的、预定义类别集(例如COCO中的80个类别)中识别对象。概念关联是开放式的,它根据自由形式的文本识别对象。
  • 对比图像描述生成 图像描述生成为整张图像生成一个描述性句子(图像 $\to$ 文本)。概念关联通常以反向或双向操作,根据文本输入定位特定的视觉元素(文本 $\to$ 图像区域)。
  • 对比视觉问答 (VQA) VQA涉及回答关于图像的特定问题(例如,“汽车是什么颜色的?”)。概念关联则专注于定位步骤——在提及的对象周围绘制边界框

挑战与未来展望

尽管取得了进展,关联仍然计算密集。将大型语言模型与视觉编码器对齐需要大量的 GPU 资源 和高效的内存管理,这是 NVIDIA 等硬件创新者经常解决的挑战。此外,模型可能难以处理语言歧义,需要大的 上下文窗口 来解决“bat”一词是指体育器械还是动物。

未来的发展正朝着原生多模态的统一基础模型迈进。像 Ultralytics Platform 这样的工具正在不断发展,以帮助开发者管理这些任务所需的复杂数据集,提供简化的 数据标注 和模型部署工作流程。随着这些技术的成熟,我们可以期待将关联无缝集成到边缘设备中,从而实现更智能、响应更快的AI应用。

让我们一起共建AI的未来!

开启您的机器学习未来之旅