深圳Yolo 视觉
深圳
立即加入
词汇表

多模态 AI

探索多模态人工智能及其如何融合文本与视觉实现情境感知理解。立即学习使用Ultralytics 和开放词汇模型。

多模态人工智能指一类复杂的人工智能系统,旨在同时处理、解读和综合来自多种不同数据类型(即"模态")的信息。与专注于单一输入源的传统单模态系统(如针对文本的自然语言处理或针对图像的计算机视觉)不同,多模态人工智能通过整合多样化数据流——例如结合视觉数据(图像、视频)与计算机视觉(CV)——来模拟人类感知能力。这种整合可包含融合视觉数据(图像、视频)与计算机视觉(CV)——多模态人工智能通过整合多样化数据流——例如结合视觉数据(图像、视频)与计算机视觉(CV)——来模拟人类感知能力。这种整合可包含融合视觉数据(图像、视频)与计算机视觉(CV)——多模态人工智能通过整合多样化数据流——例如结合视觉数据(图像、视频)与计算机视觉(CV)——来模拟人类感知能力。这种整合可包含融合视觉数据(图像、视频)与计算机 自然语言处理(NLP)处理文本或计算机视觉(CV)处理图像——多模态AI通过整合多样化数据流来模拟人类感知。这种整合可包含视觉数据(图像、视频)与语言数据(文本、语音)及感知信息(激光雷达、雷达、热成像)的融合。 通过利用这些综合输入,该类模型能对复杂现实场景实现更深入、更具情境感知力的理解,逐步逼近通用人工智能(AGI)的广阔能力边界。

多模态系统如何运作

多模态人工智能的核心优势在于其能够将不同数据类型映射到共享的数学空间中, 从而实现数据的比较与融合。该过程通常包含三个关键阶段:编码、对齐和 融合。

  1. 特征提取 专用神经网络独立处理每种模态以识别关键模式。例如,卷积神经网络(CNN)可从照片中提取视觉特征,而 Transformer 处理配套的文字说明。
  2. 对齐与嵌入 提取的特征被转换为高维数值向量。 模型通过学习使这些向量对齐, 使得语义相似的概念(例如猫的图像与文本词"猫")在向量空间中彼此邻近。 这通常通过对比学习等技术实现, 该方法在OpenAI的CLIP等模型中被广泛采用。
  3. 数据融合:系统运用先进的融合技术将对齐后的数据进行整合。现代架构采用注意力机制,根据上下文动态权衡不同模态的重要性,使模型能在图像含糊不清时聚焦文本,反之亦然。

实际应用

多模态人工智能解锁了单模态系统无法实现的能力,推动了各行业的创新发展。

  • 视觉问答(VQA) 在此应用中,用户可向人工智能展示图像并提出自然语言问题。例如, 视障用户可能上传食品储藏室的照片并询问:"我还有意面吗?"模型 通过处理视觉内容与文本查询,提供具体答案。
  • 自动驾驶汽车 自动驾驶汽车高度依赖多模态输入,通过整合摄像头、激光雷达点云和雷达数据实现安全导航。这种冗余设计确保当某一传感器失效(例如摄像头因阳光眩光失效)时,其他传感器仍能维持由汽车工程师学会(SAE)定义的安全标准。
  • 医疗诊断 先进的医疗人工智能系统通过分析医学影像(如核磁共振或X光片)结合非结构化文本病史及基因数据,为医生提供全面视角,从而辅助做出更精准的诊断——这一议题常被《自然·数字医学》期刊探讨。
  • 生成式人工智能这类工具能根据文本提示生成图像,例如Stable Diffusion,其运作完全依赖于模型理解语言描述与视觉纹理之间关联的能力。

基于Ultralytics的开放词汇检测

标准物体检测器依赖预定义的类别列表,而多模态方法(YOLO)则允许用户通过开放词汇文本提示detect 。这Ultralytics 弥合了语言指令与视觉识别之间的鸿沟。

下面的示例演示了如何使用 ultralytics 库来执行开放词汇 在这种情况下,模型会根据自定义文本输入检测对象:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

区分相关术语

要理解现代机器学习的格局,区分"多模态人工智能"与相关概念很有帮助:

  • 多模态学习 指在混合数据类型上训练算法的学术领域及方法论。 "多模态人工智能"通常指其实际应用或由此产生的系统本身。
  • 大型语言模型(LLMs) 传统LLMs属于单模态模型,仅基于文本数据训练。然而行业正转向能够原生处理图像与文本的 "大型多模态模型"(LMMs),这一趋势得到了 PyTorchTensorFlow等框架所推动。
  • 专用视觉模型:诸如Ultralytics 模型,是视觉任务领域的高度专业化专家。通用多模态模型可能对场景进行概括性描述,而专用模型则擅长在边缘硬件上实现高速精准的物体检测与实时处理。

未来展望

多模态人工智能的发展轨迹正指向具备更强推理能力的系统。通过成功将语言植根于视觉与物理现实,这些模型正从统计相关性迈向真正的理解。Google 和斯坦福基础模型研究中心等机构的研究,持续拓展着机器感知复杂环境的边界。

Ultralytics我们将这些技术突破整合Ultralytics 使用户能够管理数据、训练模型并部署解决方案, 充分利用所有可用模态, 将YOLO26的速度优势与多模态输入的灵活性相结合。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入