探索多模态人工智能,该领域涉及系统处理和理解文本、图像和音频等多样化数据。了解其工作原理并探索关键应用。
多模态人工智能是人工智能(AI)的一个复杂分支。 人工智能(AI)的一个复杂分支。 多模态人工智能是指人工智能(AI)的一个复杂分支,它能同时使用多种类型的数据进行处理、解释和推理。与传统的单模态系统不同 不同,传统的单模态系统依赖于单一的输入源,例如纯文本 大型语言模型(LLM)或纯图像 分类器不同,多模态系统集成了文本、图像、音频、视频和传感器读数等多种数据流。 这种方法模仿了人类的感知,自然地将视觉、听觉和语言结合在一起,形成对环境的全面理解。 对环境的理解。通过综合这些不同的 模式,这些系统可实现更高的 准确性和语境感知,从而更接近人工智能(AGI)的能力。 人工通用智能(AGI)。
多模态系统的结构一般包括三个不同的阶段:编码、融合和解码。 首先,独立的神经网络,如 卷积神经网络 (CNN) 从每种输入类型中提取特征、 从每种输入类型中提取特征。这些特征被转换成数字向量,称为 嵌入。
关键阶段是融合,即把这些嵌入合并到一个共享的表示空间中。 先进的 融合技术 利用注意力机制来权衡 不同模态的相对重要性。例如,在视频分析任务中,模型可以 在视频分析任务中,当人物说话时,模型可能会优先处理音频数据,但在动作序列中,则会将注意力转移到视觉数据上。 像 PyTorch和 TensorFlow等框架为构建这些复杂的 架构。
多模态人工智能正在通过解决需要全面数据视图的问题,推动各行各业的创新。
虽然完整的多模态模型非常复杂,但其组成部分往往是可以访问的专门模型。例如 例如,多模态流水线的视觉组件通常使用高速物体检测器。下面是一个使用 Ultralytics YOLO11从图像中提取视觉概念(类别 然后将其输入语言模型进行进一步推理。
from ultralytics import YOLO
# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
result.show() # Visualize the detections
print(result.boxes.cls) # Print class indices
将多模态人工智能与类似术语区分开来,有助于更好地理解这一领域:
该领域正朝着可无缝生成和理解任何模式的系统方向快速发展。研究 研究机构,Google DeepMind和 OpenAI等研究机构正在推动 基础模型,以更好地调整文本和视觉 潜空间。
在Ultralytics,我们正在不断推进这一生态系统的视觉组件。即将推出的 YOLO26的设计将提供更高的效率和准确性,成为未来多模态应用的强大视觉支柱。 和准确性,成为未来多模态应用的强大视觉支柱。有兴趣利用 这些功能的用户可以探索 与 LangChain 等工具的集成 等工具进行整合,以构建自己的复杂推理系统。