Grounding
探索 AI 中基础 (Grounding) 的概念。了解如何使用 Ultralytics YOLO26 和 YOLO-World 将自然语言与视觉数据连接,以实现开放词汇检测。
Grounding 指的是人工智能系统将抽象概念(通常来自自然语言)与物理世界中的具体表征(如视觉数据或感官输入)相连接的能力。在计算机视觉领域,这意味着模型不仅仅是处理文本;它能够解析“一个人在遛狗”这样的短语,并精确地定位图像或视频流中的这些实体。这一过程弥合了符号推理与像素级感知之间的鸿沟,解决了认知科学中基础的 symbol grounding problem。通过将语言标记与视觉特征相关联,Grounding 成为现代 multimodal AI 的基石,使机器能够更直观地与动态的人类环境进行交互。
Link to this sectionGrounding 的机制#
At a technical level, grounding involves aligning data from different modalities into a shared high-dimensional vector space. Advanced architectures, often built upon the Transformer framework used in natural language processing (NLP), generate numerical representations known as embeddings for both text descriptions and visual inputs. During training, the model learns to minimize the distance between the embedding of a text prompt (e.g., "blue backpack") and the embedding of the corresponding visual region.
这种对齐方式支持了 Open-Vocabulary Detection(开放词汇检测)。与传统监督学习中模型仅限于固定类别集不同,Grounding 实现了 zero-shot learning。只要模型理解描述对象的语言,它就能识别出在训练期间未明确见过的对象。这种灵活性得到了像 PyTorch 这样的深度学习框架的支持,这些框架为实现这些多模态对齐所需的复杂矩阵运算提供了便利。
Link to this section实际应用#
Grounding 技术通过允许系统有效解读用户意图并导航非结构化环境,正在重塑各个行业。
- AI in Robotics: 对于执行口头指令的自主智能体而言,Grounding 至关重要。如果仓库机器人接到指令“拿起顶层货架上的包裹”,它必须将“包裹”和“顶层货架”这些概念 Grounding 到其视野内的特定 3D 坐标中。这种能力是 robotics research at MIT CSAIL 的研究重点之一,使机器人能够与人类安全协作。
- Semantic Search 和媒体检索: Grounding 驱动了超越关键词匹配的先进搜索引擎。用户可以使用诸如“夕阳下向左转弯的骑行者”之类的复杂描述来查询视频存档,系统会利用 Grounding 检索特定的时间戳。这显著增强了安防和媒体管理中的 video understanding 能力。
- 辅助技术: 对于视障用户,Grounding 使应用程序能够实时描述周围环境或回答有关环境的问题,这些功能依赖于与语音生成相关联的强大 image recognition。
Link to this section使用 Ultralytics YOLO-World 进行 Grounding#
Ultralytics 生态系统通过像 YOLO-World 这样的专门架构支持 Grounding。虽然标准模型需要基于特定数据集进行训练,但 YOLO-World 允许用户使用文本提示即时定义自定义检测类别。这有效地将自然语言输入“Grounding”到了图像上,而无需重新训练。
以下示例演示了如何使用 ultralytics 包根据自定义文本描述检测对象:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()Link to this section区分 Grounding 与相关概念#
为了充分理解 Grounding 的实用性,将其与类似的计算机视觉任务区分开来是很有帮助的:
- 与 Object Detection 的区别: 传统的检测模型,如最先进的 YOLO26,从封闭的、预定义的类别集(例如 COCO 中的 80 个类别)中识别对象。而 Grounding 是开放式的,基于自由格式的文本来识别对象。
- 与 Image Captioning 的区别: 图像描述(Captioning)为整张图像生成描述性句子(图像 $ o$ 文本)。Grounding 通常在相反方向或双向进行,即根据文本输入定位特定的视觉元素(文本 $ o$ 图像区域)。
- 与 Visual Question Answering (VQA) 的区别: VQA 涉及回答有关图像的特定问题(例如“汽车是什么颜色的?”)。Grounding 则专门侧重于定位步骤——在提到的对象周围绘制一个 bounding box。
Link to this section挑战与未来展望#
尽管取得了进步,但 Grounding 在计算上仍然非常密集。将庞大的语言模型与视觉编码器对齐需要大量的 GPU resources 和高效的内存管理,这是一个经常由像 NVIDIA 这样的硬件创新者解决的挑战。此外,模型可能会在语言歧义方面遇到困难,需要较大的 context windows 来解析单词“bat”是指运动器材还是动物。
未来的发展正朝着天生具有多模态能力的统一基础模型方向前进。像 Ultralytics Platform 这样的工具正在不断演进,以帮助开发者管理这些任务所需的数据集,为 data annotation 和模型部署提供简化的工作流程。随着这些技术的成熟,我们可以期待 Grounding 无缝集成到边缘设备中,从而实现更智能、更具响应性的 AI 应用。






