深圳Yolo 视觉
深圳
立即加入
词汇表

多模态模型

了解多模态AI模型如何整合文本、图像等多种数据,从而创建适用于实际应用的强大、通用的系统。

多模式模型是一种先进的 人工智能(AI)系统 能够同时处理、解释和整合来自多种不同数据类型或 "模式 "的信息。 "模式 "的信息。与专攻单一领域的传统单模态系统不同,如 自然语言处理(NLP) 自然语言处理NLP计算机视觉(CV 多模态模型可以同时分析文本、图像、音频、视频和传感器数据。这种融合使 多模式模型可以将文本、图像、音频、视频和传感器数据结合在一起进行分析。 视觉线索和语言描述之间的关联。这种能力是未来 人工智能(AGI) 的基础,目前正在推动从机器人到自动内容创建等领域的创新。

核心机制

多模式模型的有效性取决于它们将不同数据类型映射到共享语义空间的能力。 空间。这一过程通常从生成 嵌入--数据的数字表示,以 的数字表示。通过在配对示例的海量数据集(如带标题的图片)上进行训练,模型可以 模型学会将 "狗 "的图片嵌入与 "狗 "这个词的文字嵌入对齐。 "狗"。

关键的建筑创新使这种整合成为可能:

  • Transformer 结构最初 在论文"注意力就是你所需要的一切 "中提出、 变压器利用注意力机制 动态权衡不同输入部分的重要性。这样,模型在处理特定文本查询时,就能将注意力集中在相关的视觉区域上。 处理特定的文本查询。
  • 数据融合:必须有效整合来自不同来源的信息。策略包括 早期融合(结合原始数据)到后期融合(结合模型决策)。现代框架如 PyTorchTensorFlow提供了 实现这些复杂架构所需的灵活工具。

实际应用

多模态模型释放出了新的功能,而这些功能在以前的单模态系统中是不可能实现的。

  • 视觉问题解答(VQA) 这些系统可以分析图像并回答有关图像的自然语言问题。例如,视障 用户可能会问:"走人行横道是否安全? 问题(文本),从而提供音频回答。
  • 文本到图像的生成领先的 生成式人工智能工具,如 OpenAI's DALL-E 3 等领先的生成式人工智能工具接受描述性文本提示并生成高保真图像。 高保真图像。这需要深入理解文本概念如何转化为视觉属性 如纹理、光照和构图。
  • 开放词汇对象检测模型,如 Ultralytics YOLO等模型允许用户使用任意文本提示而不是固定的类目列表来detect 对象。 使用任意文本提示,而不是固定的类别列表。这就缩小了语言命令与视觉识别之间的差距。 和视觉识别之间的桥梁。

下面的示例演示了如何使用 ultralytics 库来执行开放词汇 在这种情况下,模型会根据自定义文本输入检测对象:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

与相关术语的区别

必须将 "多模式模型 "与人工智能术语表中的相关概念区分开来:

  • 多模式学习这 指用于训练这些系统的过程和机器学习技术。多模态模型是 多模态学习的成功结果
  • 大型语言模型(LLM) 虽然传统的 LLM 只处理文本,但许多 LLM 正在发展成为视觉语言模型(VLM)。 然而,标准的 LLM 是单模态的,而多模态模型则是为多种输入类型而明确设计的。
  • 基础模型这是一个 描述可适应多种下游任务的大型模型的更广泛类别。多模式模型通常是基础模型的一种 但并不是所有的基础模型都是多模式的。

多模式人工智能的未来

该领域正在迅速发展,其模型可以实时处理连续的音频、视频和文本流。 实时处理连续音频流、视频流和文本流的模型。Google DeepMind等机构的研究不断突破 这些系统所能感知的界限。在Ultralytics,我们的旗舰产品 YOLO11模型为物体检测的速度和准确性设定了标准 物体检测速度和准确度的标准,同时我们也在不断创新 YOLO26 等架构进行创新,这将进一步提高边缘和云应用的效率。 边缘和云应用的效率。展望未来,全面的 Ultralytics 平台将提供统一的数据管理环境、 训练和部署的统一环境。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入