了解 AI 中的 grounding 如何将抽象概念与真实世界的数据联系起来,从而增强动态应用中的上下文、准确性和信任。
接地是 人工智能(AI)中将抽象概念 将抽象概念(通常是自然语言中的单词或短语)与物理世界中的具体表征(如图像中的像素或机器人的感官数据)连接起来的过程。 物理世界中的具体表现,如图像中的像素或机器人的感官数据。简单地说,如果计算机读到 如果计算机读到的文字是 "一只睡着的猫",那么 "接地 "就能通过观察照片识别出猫所在的具体区域。 猫所在的具体区域。这种能力弥补了语言符号和感知信息之间的语义鸿沟。 信息之间的语义鸿沟。 认知科学中著名的符号接地问题。虽然 传统系统可能会将文本和图像分开处理,而接地技术能让多模态人工智能 多模态人工智能能够理解两者之间的关系,从而促进更直观的人机交互。 这有助于实现更直观的人机交互。
在技术层面上,接地依赖于高维向量空间的对齐。现代模型利用 深度学习(DL)架构,特别是 Transformer将文本和图像转换为 称为嵌入的数字表示。在训练过程中 在训练过程中,该模型学会将文本短语(如 "红色汽车")的嵌入映射到与该对象相对应的视觉特征的嵌入上。 与该对象相对应的视觉特征。
这一过程可实现开放式词汇检测。与标准的 不同,标准的对象检测仅限于固定的 不同,接地模型可以识别文本提示中描述的任何对象。 提示所描述的任何对象。这利用了零镜头学习,即 在这种情况下,模型只需理解描述对象的语言,就能识别出在训练过程中从未见过的对象。 描述它们。OpenAI等组织对 CLIP 的研究奠定了 等组织在 CLIP 方面的研究奠定了将这些视觉和文本表征统一起来的基础。
接地改变了机器解读用户意图和与环境互动的方式。
"(《世界人权宣言》) ultralytics 软件包支持通过 YOLO 模型。这种模式
允许用户使用文本提示即时定义自定义类,有效地将文本 "接地 "到图像上,而无需重新训练。
无需重新训练。
下面的示例演示了如何加载预训练模型并定义自定义提示以detect 特定的 对象:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
要理解 "接地",最好将其与类似的计算机视觉任务区分开来:
尽管取得了进步,但接地仍然是计算密集型工作。将大规模语言模型与视觉 编码器对齐需要大量 GPU 资源。此外,模型 银行 "可能指河岸或金融机构、 这就要求人工智能依靠上下文窗口来 解决正确的视觉定位问题。
确保这些模型高效运行以进行 实时推理是一个持续发展的领域。 开发领域。研究人员还在解决 数据偏差,以确保基础模型能在不同文化和背景下公平地概括 在不同的文化和环境中公平地通用,这也是人工智能文献中经常讨论的话题。 人工智能文献中经常讨论的一个话题。