深圳Yolo 视觉
深圳
立即加入
词汇表

多模态 AI

探索多模态人工智能,该领域涉及系统处理和理解文本、图像和音频等多样化数据。了解其工作原理并探索关键应用。

多模态人工智能是人工智能(AI)的一个复杂分支。 人工智能(AI)一个复杂分支。 多模态人工智能是指人工智能(AI)的一个复杂分支,它能同时使用多种类型的数据进行处理、解释和推理。与传统的单模态系统不同 不同,传统的单模态系统依赖于单一的输入源,例如纯文本 大型语言模型(LLM)或纯图像 分类器不同,多模态系统集成了文本、图像、音频、视频和传感器读数等多种数据流。 这种方法模仿了人类的感知,自然地将视觉、听觉和语言结合在一起,形成对环境的全面理解。 对环境的理解。通过综合这些不同的 模式,这些系统可实现更高的 准确性和语境感知,从而更接近人工智能(AGI)的能力。 人工通用智能(AGI)

多模态系统的机理

多模态系统的结构一般包括三个不同的阶段:编码、融合和解码。 首先,独立的神经网络,如 卷积神经网络 (CNN) 从每种输入类型中提取特征、 从每种输入类型中提取特征。这些特征被转换成数字向量,称为 嵌入

关键阶段是融合,即把这些嵌入合并到一个共享的表示空间中。 先进的 融合技术 利用注意力机制来权衡 不同模态的相对重要性。例如,在视频分析任务中,模型可以 在视频分析任务中,当人物说话时,模型可能会优先处理音频数据,但在动作序列中,则会将注意力转移到视觉数据上。 像 PyTorchTensorFlow等框架为构建这些复杂的 架构。

实际应用

多模态人工智能正在通过解决需要全面数据视图的问题,推动各行各业的创新。

  1. 视觉问题解答(VQA):该应用程序允许用户使用 自然语言进行交互。用户可以上传一张冰箱的照片,然后询问 "有哪些食材可以用来烹饪? 烹饪?该系统使用 计算机视觉 (CV)来识别物体,并使用 自然语言处理 (NLP) 自然语言处理技术(NLP)来理解询问并做出回应。这对于 为视障人士开发无障碍工具至关重要。 这对于为视障人士开发无障碍工具至关重要。
  2. 自主导航:自动驾驶汽车和 机器人技术在很大程度上依赖于传感器融合。它们将来自摄像头、激光雷达和雷达的 摄像头、激光雷达和雷达的输入,以detect 障碍物、读取交通标志并预测行人行为。这种融合 这种融合可确保动态环境中的安全性和可靠性,这也是汽车行业人工智能的核心重点。 人工智能在汽车行业的核心重点。
  3. 医疗诊断:现代诊断工具将 医学图像分析(X 射线、核磁共振成像)与 文本临床记录和基因组数据。通过综合分析这些模式,人工智能可以提供更准确的 诊断和个性化治疗方案,彻底改变人工智能在医疗保健领域的应用。 人工智能在医疗保健领域的应用

在多模式管道中实现愿景

虽然完整的多模态模型非常复杂,但其组成部分往往是可以访问的专门模型。例如 例如,多模态流水线的视觉组件通常使用高速物体检测器。下面是一个使用 Ultralytics YOLO11从图像中提取视觉概念(类别 然后将其输入语言模型进行进一步推理。

from ultralytics import YOLO

# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
    result.show()  # Visualize the detections
    print(result.boxes.cls)  # Print class indices

区分相关概念

将多模态人工智能与类似术语区分开来,有助于更好地理解这一领域:

  • 多模式学习这 这是一种训练算法从混合数据类型中学习的技术过程或学科。其重点在于 模型训练过程中使用的损失函数和优化策略。 模型训练
  • 多模式模型这些是 学习过程中产生的具体成果或独特架构(如 GPT-4o 或 Gemini)。
  • 专业视觉模型:以下机型 Ultralytics YOLO11等模型都是专门的专家。虽然 多模态模型可能会笼统地描述一个场景("一条繁忙的街道"),而专业模型则擅长精确的 物体检测实例分割,提供精确的 坐标和掩码。对于实时任务而言,专用模型通常更快、更高效,正如 YOLO11 与RT-DETR的比较

未来发展方向

该领域正朝着可无缝生成和理解任何模式的系统方向快速发展。研究 研究机构,Google DeepMindOpenAI等研究机构正在推动 基础模型,以更好地调整文本和视觉 潜空间。

在Ultralytics,我们正在不断推进这一生态系统的视觉组件。即将推出的 YOLO26的设计将提供更高的效率和准确性,成为未来多模态应用的强大视觉支柱。 和准确性,成为未来多模态应用的强大视觉支柱。有兴趣利用 这些功能的用户可以探索 与 LangChain 等工具的集成 等工具进行整合,以构建自己的复杂推理系统。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入