词汇表

多模态 AI

探索多模态人工智能，该领域涉及系统处理和理解文本、图像和音频等多样化数据。了解其工作原理并探索关键应用。

多模态人工智能是人工智能（AI）的一个复杂分支。人工智能（AI）的一个复杂分支。多模态人工智能是指人工智能（AI）的一个复杂分支，它能同时使用多种类型的数据进行处理、解释和推理。与传统的单模态系统不同不同，传统的单模态系统依赖于单一的输入源，例如纯文本大型语言模型（LLM）或纯图像分类器不同，多模态系统集成了文本、图像、音频、视频和传感器读数等多种数据流。这种方法模仿了人类的感知，自然地将视觉、听觉和语言结合在一起，形成对环境的全面理解。对环境的理解。通过综合这些不同的模式，这些系统可实现更高的准确性和语境感知，从而更接近人工智能（AGI）的能力。人工通用智能（AGI）。

多模态系统的机理

多模态系统的结构一般包括三个不同的阶段：编码、融合和解码。首先，独立的神经网络，如卷积神经网络 (CNN) 从每种输入类型中提取特征、从每种输入类型中提取特征。这些特征被转换成数字向量，称为嵌入。

关键阶段是融合，即把这些嵌入合并到一个共享的表示空间中。先进的融合技术利用注意力机制来权衡不同模态的相对重要性。例如，在视频分析任务中，模型可以在视频分析任务中，当人物说话时，模型可能会优先处理音频数据，但在动作序列中，则会将注意力转移到视觉数据上。像 PyTorch和 TensorFlow等框架为构建这些复杂的架构。

实际应用

多模态人工智能正在通过解决需要全面数据视图的问题，推动各行各业的创新。

视觉问题解答（VQA）：该应用程序允许用户使用自然语言进行交互。用户可以上传一张冰箱的照片，然后询问 "有哪些食材可以用来烹饪？烹饪？该系统使用计算机视觉 (CV)来识别物体，并使用自然语言处理 (NLP) 自然语言处理技术（NLP）来理解询问并做出回应。这对于为视障人士开发无障碍工具至关重要。这对于为视障人士开发无障碍工具至关重要。
自主导航：自动驾驶汽车和机器人技术在很大程度上依赖于传感器融合。它们将来自摄像头、激光雷达和雷达的摄像头、激光雷达和雷达的输入，以detect 障碍物、读取交通标志并预测行人行为。这种融合这种融合可确保动态环境中的安全性和可靠性，这也是汽车行业人工智能的核心重点。人工智能在汽车行业的核心重点。
医疗诊断：现代诊断工具将医学图像分析（X 射线、核磁共振成像）与文本临床记录和基因组数据。通过综合分析这些模式，人工智能可以提供更准确的诊断和个性化治疗方案，彻底改变人工智能在医疗保健领域的应用。人工智能在医疗保健领域的应用。

在多模式管道中实现愿景

虽然完整的多模态模型非常复杂，但其组成部分往往是可以访问的专门模型。例如例如，多模态流水线的视觉组件通常使用高速物体检测器。下面是一个使用 Ultralytics YOLO11从图像中提取视觉概念（类别然后将其输入语言模型进行进一步推理。

from ultralytics import YOLO

# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
    result.show()  # Visualize the detections
    print(result.boxes.cls)  # Print class indices

区分相关概念

将多模态人工智能与类似术语区分开来，有助于更好地理解这一领域：

多模式学习：这这是一种训练算法从混合数据类型中学习的技术过程或学科。其重点在于模型训练过程中使用的损失函数和优化策略。模型训练。
多模式模型：这些是学习过程中产生的具体成果或独特架构（如 GPT-4o 或 Gemini）。
专业视觉模型：以下机型 Ultralytics YOLO11等模型都是专门的专家。虽然多模态模型可能会笼统地描述一个场景（"一条繁忙的街道"），而专业模型则擅长精确的物体检测和实例分割，提供精确的坐标和掩码。对于实时任务而言，专用模型通常更快、更高效，正如 YOLO11 与RT-DETR的比较。

未来发展方向

该领域正朝着可无缝生成和理解任何模式的系统方向快速发展。研究研究机构，Google DeepMind和 OpenAI等研究机构正在推动基础模型，以更好地调整文本和视觉潜空间。

在Ultralytics，我们正在不断推进这一生态系统的视觉组件。即将推出的 YOLO26的设计将提供更高的效率和准确性，成为未来多模态应用的强大视觉支柱。和准确性，成为未来多模态应用的强大视觉支柱。有兴趣利用这些功能的用户可以探索与 LangChain 等工具的集成等工具进行整合，以构建自己的复杂推理系统。

多模态 AI

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

多模态系统的机理

实际应用

在多模式管道中实现愿景

区分相关概念

未来发展方向

阅读更多此类别的内容

自监督学习在去噪中的应用：分步解析

未来物体检测趋势：需要关注的 7 个关键问题

利用Ultralytics YOLO 模型增强车辆再识别能力

加入Ultralytics 社区