深圳Yolo 视觉
深圳
立即加入
词汇表

多模态 AI

探索多模态AI以及它如何整合文本和视觉以实现上下文感知理解。立即学习如何使用Ultralytics YOLO26和开放词汇模型。

多模态AI指的是一类复杂的人工智能 (AI)系统,旨在同时处理、解释和综合来自多种不同类型数据(即“模态”)的信息。与传统专注于单一输入源(例如用于文本的自然语言处理 (NLP)或用于图像的计算机视觉 (CV))的单模态系统不同,多模态AI通过整合多样化的数据流来模拟人类感知。这种整合可以包括将视觉数据(图像、视频)与语言数据(文本、语音)以及传感器信息(激光雷达、雷达、热成像)相结合。通过利用这些组合输入,这些模型能够对复杂的现实世界场景形成更深入、更具上下文感知的理解,从而更接近通用人工智能 (AGI)的广泛能力。

多模态系统的工作原理

多模态 AI 的核心优势在于它能够将不同数据类型映射到共享的数学空间,在该空间中,它们可以进行比较和组合。这个过程通常涉及三个关键阶段:编码、对齐和融合。

  1. 特征提取专门的神经网络独立处理每种模态以识别关键模式。例如,卷积神经网络 (CNN)可能会从照片中提取视觉特征,而Transformer则处理随附的说明文字。
  2. 对齐与嵌入提取的特征被转换为高维数值向量。模型学习对齐这些向量,以便语义相似的概念(例如,猫的图像和文本词“猫”)在向量空间中彼此靠近。这通常通过 对比学习等技术实现,这种方法在 OpenAI的CLIP等模型中广为人知。
  3. 数据融合:系统使用先进的 融合技术合并对齐的数据。现代架构使用 注意力机制根据上下文动态权衡一种模态相对于另一种模态的重要性,允许模型在图像模糊时关注文本,反之亦然。

实际应用

多模态AI释放了单模态系统此前无法实现的能力,推动了各行各业的创新。

  • 视觉问答 (VQA): 在此应用中,用户可以向 AI 展示图像并提出关于它的自然语言问题。例如,视障用户可能会上传一张储藏室的照片并询问:“我还有意大利面吗?”模型处理视觉内容和文本查询以提供具体答案。
  • 自动驾驶汽车自动驾驶汽车严重依赖多模态输入,结合来自摄像头、LiDAR点云和雷达的数据以安全导航。这种冗余确保了如果一个传感器发生故障(例如,摄像头被太阳眩光致盲),其他传感器仍能保持由汽车工程师学会 (SAE)定义的安全标准。
  • 医疗诊断先进的医疗AI系统分析医学图像(如MRI或X射线)以及非结构化文本形式的患者病史和基因数据。这种全面的视图有助于医生做出更准确的诊断,这是Nature Digital Medicine中经常讨论的话题。
  • 生成式AI: 从文本提示创建图像的工具,例如Stable Diffusion,完全依赖于模型理解语言描述和视觉纹理之间关系的能力。

基于Ultralytics的开放词汇检测

尽管标准目标检测器依赖预定义的类别列表,但像YOLO-World这样的多模态方法允许用户使用开放词汇文本提示来检测物体。这弥合了Ultralytics生态系统内语言命令和视觉识别之间的差距。

下面的示例演示了如何使用 ultralytics 库来执行开放词汇 在这种情况下,模型会根据自定义文本输入检测对象:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

区分相关术语

为了更好地理解现代机器学习的格局,区分“多模态AI”与相关概念会很有帮助:

  • 多模态学习: 这指的是在混合数据类型上训练算法的学术领域和方法论。“多模态 AI”通常指实际的应用或由此产生的系统本身。
  • 大语言模型 (LLM): 传统LLM是单模态的,仅在文本数据上进行训练。然而,行业正在转向能够原生处理图像和文本的“大型多模态模型”(LMMs),这一趋势得到了PyTorchTensorFlow等框架的支持。
  • 专业视觉模型: 像最先进的 Ultralytics YOLO26 这样的模型是视觉任务方面高度专业的专家。虽然通用的多模态模型可能对场景进行广泛描述,但专业模型擅长高速、精确的 物体检测 和边缘硬件上的实时处理。

未来展望

多模态AI的发展轨迹指向拥有更强推理能力的系统。通过成功地将语言与视觉和物理现实相结合,这些模型正在超越统计相关性,迈向真正的理解。像Google DeepMind斯坦福基础模型研究中心这样的机构的研究继续推动机器感知复杂环境的界限。

在Ultralytics,我们正在将这些进步整合到Ultralytics Platform中,使用户能够管理数据、训练模型和部署解决方案,这些解决方案利用了所有可用的模态,将YOLO26的速度与多模态输入的通用性相结合。

让我们一起共建AI的未来!

开启您的机器学习未来之旅