Explore how grounding connects natural language to visual data. Learn about open-vocabulary detection and how to implement it using [YOLO26](https://docs.ultralytics.com/models/yolo26/) and YOLO-World for real-time [multimodal AI](https://www.ultralytics.com/glossary/multimodal-ai) applications.
接地能力指人工智能系统将抽象概念(通常源自自然语言)与物理世界中具体表征(如视觉数据或感官输入)建立关联的能力。在计算机视觉领域,这意味着模型不仅能处理文本,还能解析"遛狗的人"这类短语,并在图像或视频流中精确定位相关实体。 该过程 弥合了符号推理与像素级感知之间的鸿沟,解决了认知科学中 基本的符号接地问题。通过将语言符号与视觉特征关联,接地技术成为现代 多模态人工智能的基石,使机器能够更直观地 与动态人类环境交互。
在技术层面,接地处理涉及将不同模态的数据对齐到共享的高维向量空间中。 高级架构通常基于 Transformer 框架构建, 为文本描述和视觉输入生成称为 嵌入的数值表示。 训练过程中,模型通过最小化文本提示(如"蓝色背包")的嵌入与对应视觉区域嵌入之间的距离来学习。
这种对齐机制实现了开放词汇检测。与传统监督学习中模型受限于固定类别集不同,语义绑定技术实现了零样本学习。具备语义绑定能力的模型能够识别训练过程中从未明确见过的物体,前提是它理解描述这些物体的语言。这种灵活性由深度学习框架(如PyTorch)所支持。 PyTorch等深度学习框架所支持,这些框架能够处理多模态对齐所需的复杂矩阵运算。
接地技术正通过使系统能够解读用户意图并有效导航非结构化环境,重塑各行各业。
Ultralytics 通过YOLO等专用架构支持接地操作。标准模型需要在特定数据集上进行训练,YOLO用户通过文本提示即时定义自定义检测类别。这能将自然语言输入有效"接地"到图像上,无需重新训练。
下面的示例演示了如何使用 ultralytics 基于自定义文本描述detect 包:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
要充分理解接地的实用性,将其与类似的计算机视觉任务区分开来会有所帮助:
尽管技术有所进步,接地处理仍需大量计算资源。将大型语言模型与视觉编码器进行对齐,需要消耗GPU 并实施高效内存管理——这类挑战通常由硬件创新者解决,例如 NVIDIA。此外,模型在处理语言歧义时可能陷入困境,需要较大的上下文窗口才能确定"bat"指代运动器材还是动物。
未来发展正朝着原生多模态的统一基础模型方向迈进。诸Ultralytics 工具正在不断演进,以帮助开发者管理这些任务所需的复杂数据集,并为数据标注和模型部署提供简化的工作流程。随着这些技术的成熟,我们有望实现将基础技术无缝集成到边缘设备中,从而打造更智能、响应更迅速的人工智能应用。