探索 AI 中基础 (grounding) 的基本原理。了解如何使用 Ultralytics YOLO26 和 YOLO-World 将自然语言与视觉数据连接起来,实现开放词汇检测。
接地(Grounding)指的是人工智能系统连接抽象概念的能力——这些概念通常源自自然语言——与物理世界中具体的、具象的表示(如视觉数据或感官输入)联系起来。在计算机视觉的背景下,这意味着模型不仅仅是处理文本;它能够解析“一个人遛狗”这样的短语,并精确地在图像或视频流中定位这些实体。这个过程弥合了符号推理和像素级感知之间的鸿沟,解决了认知科学中基本的符号接地问题。通过将语言符号与视觉特征联系起来,接地成为现代多模态AI的基石,使机器能够更直观地与动态的人类环境交互。
在技术层面,接地涉及将来自不同模态的数据对齐到一个共享的高维向量空间中。先进的架构,通常基于用于自然语言处理 (NLP)的Transformer框架构建,为文本描述和视觉输入生成称为嵌入的数值表示。在训练过程中,模型学习最小化文本提示(例如,“蓝色背包”)的嵌入与相应视觉区域的嵌入之间的距离。
这种对齐实现了开放词汇检测。与传统的监督学习(模型仅限于固定类别的集合)不同,接地实现了零样本学习。一个接地的模型可以识别在训练期间从未明确见过的对象,前提是它理解描述这些对象的语言。这种灵活性得到了PyTorch等深度学习框架的支持,这些框架促进了这些多模态对齐所需的复杂矩阵运算。
接地技术通过使系统能够解释用户意图并有效地导航非结构化环境,正在重塑各行各业。
Ultralytics生态系统通过YOLO-World等专业架构支持接地。虽然标准模型需要针对特定数据集进行训练,但YOLO-World允许用户使用文本提示即时定义自定义检测类别。这有效地将自然语言输入“接地”到图像上,而无需重新训练。
下面的示例演示了如何使用 ultralytics 基于自定义文本描述detect 包:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
为了充分理解关联的实用性,有必要将其与类似的计算机视觉任务区分开来:
尽管取得了进展,关联仍然计算密集。将大型语言模型与视觉编码器对齐需要大量的 GPU 资源 和高效的内存管理,这是 NVIDIA 等硬件创新者经常解决的挑战。此外,模型可能难以处理语言歧义,需要大的 上下文窗口 来解决“bat”一词是指体育器械还是动物。
未来的发展正朝着原生多模态的统一基础模型迈进。像 Ultralytics Platform 这样的工具正在不断发展,以帮助开发者管理这些任务所需的复杂数据集,提供简化的 数据标注 和模型部署工作流程。随着这些技术的成熟,我们可以期待将关联无缝集成到边缘设备中,从而实现更智能、响应更快的AI应用。
开启您的机器学习未来之旅