遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Grounding

探索 AI 中基础 (Grounding) 的概念。了解如何使用 Ultralytics YOLO26 和 YOLO-World 将自然语言与视觉数据连接,以实现开放词汇检测。

Grounding 指的是人工智能系统将抽象概念(通常来自自然语言)与物理世界中的具体表征(如视觉数据或感官输入)相连接的能力。在计算机视觉领域,这意味着模型不仅仅是处理文本;它能够解析“一个人在遛狗”这样的短语,并精确地定位图像或视频流中的这些实体。这一过程弥合了符号推理与像素级感知之间的鸿沟,解决了认知科学中基础的 symbol grounding problem。通过将语言标记与视觉特征相关联,Grounding 成为现代 multimodal AI 的基石,使机器能够更直观地与动态的人类环境进行交互。

Link to this sectionGrounding 的机制#

At a technical level, grounding involves aligning data from different modalities into a shared high-dimensional vector space. Advanced architectures, often built upon the Transformer framework used in natural language processing (NLP), generate numerical representations known as embeddings for both text descriptions and visual inputs. During training, the model learns to minimize the distance between the embedding of a text prompt (e.g., "blue backpack") and the embedding of the corresponding visual region.

这种对齐方式支持了 Open-Vocabulary Detection(开放词汇检测)。与传统监督学习中模型仅限于固定类别集不同,Grounding 实现了 zero-shot learning。只要模型理解描述对象的语言,它就能识别出在训练期间未明确见过的对象。这种灵活性得到了像 PyTorch 这样的深度学习框架的支持,这些框架为实现这些多模态对齐所需的复杂矩阵运算提供了便利。

Link to this section实际应用#

Grounding 技术通过允许系统有效解读用户意图并导航非结构化环境,正在重塑各个行业。

  • AI in Robotics 对于执行口头指令的自主智能体而言,Grounding 至关重要。如果仓库机器人接到指令“拿起顶层货架上的包裹”,它必须将“包裹”和“顶层货架”这些概念 Grounding 到其视野内的特定 3D 坐标中。这种能力是 robotics research at MIT CSAIL 的研究重点之一,使机器人能够与人类安全协作。
  • Semantic Search 和媒体检索: Grounding 驱动了超越关键词匹配的先进搜索引擎。用户可以使用诸如“夕阳下向左转弯的骑行者”之类的复杂描述来查询视频存档,系统会利用 Grounding 检索特定的时间戳。这显著增强了安防和媒体管理中的 video understanding 能力。
  • 辅助技术: 对于视障用户,Grounding 使应用程序能够实时描述周围环境或回答有关环境的问题,这些功能依赖于与语音生成相关联的强大 image recognition

Link to this section使用 Ultralytics YOLO-World 进行 Grounding#

Ultralytics 生态系统通过像 YOLO-World 这样的专门架构支持 Grounding。虽然标准模型需要基于特定数据集进行训练,但 YOLO-World 允许用户使用文本提示即时定义自定义检测类别。这有效地将自然语言输入“Grounding”到了图像上,而无需重新训练。

以下示例演示了如何使用 ultralytics 包根据自定义文本描述检测对象:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Link to this section区分 Grounding 与相关概念#

为了充分理解 Grounding 的实用性,将其与类似的计算机视觉任务区分开来是很有帮助的:

  • Object Detection 的区别: 传统的检测模型,如最先进的 YOLO26,从封闭的、预定义的类别集(例如 COCO 中的 80 个类别)中识别对象。而 Grounding 是开放式的,基于自由格式的文本来识别对象。
  • Image Captioning 的区别: 图像描述(Captioning)为整张图像生成描述性句子(图像 $ o$ 文本)。Grounding 通常在相反方向或双向进行,即根据文本输入定位特定的视觉元素(文本 $ o$ 图像区域)。
  • Visual Question Answering (VQA) 的区别: VQA 涉及回答有关图像的特定问题(例如“汽车是什么颜色的?”)。Grounding 则专门侧重于定位步骤——在提到的对象周围绘制一个 bounding box

Link to this section挑战与未来展望#

尽管取得了进步,但 Grounding 在计算上仍然非常密集。将庞大的语言模型与视觉编码器对齐需要大量的 GPU resources 和高效的内存管理,这是一个经常由像 NVIDIA 这样的硬件创新者解决的挑战。此外,模型可能会在语言歧义方面遇到困难,需要较大的 context windows 来解析单词“bat”是指运动器材还是动物。

未来的发展正朝着天生具有多模态能力的统一基础模型方向前进。像 Ultralytics Platform 这样的工具正在不断演进,以帮助开发者管理这些任务所需的数据集,为 data annotation 和模型部署提供简化的工作流程。随着这些技术的成熟,我们可以期待 Grounding 无缝集成到边缘设备中,从而实现更智能、更具响应性的 AI 应用。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅