术语表

多种模式学习

探索人工智能中多模式学习的力量!探索模型如何整合多种数据类型,以更丰富地解决现实世界中的问题。

多模态学习是机器学习(ML)的一个子领域,在这个领域中,人工智能模型经过训练,可以处理和理解来自多种类型数据(称为模态)的信息。就像人类通过结合视觉、听觉和语言来感知世界一样,多模态学习通过整合图像、文本、音频和传感器读数等来源的数据,使人工智能能够形成更全面、更符合上下文的理解。这种方法超越了单一关注点的系统,允许更丰富的解释和更复杂的应用,以反映类似人类的智能。最终目标是建立能看、能读、能听的模型,从而获得全面的洞察力。

多模式学习如何发挥作用

多模态学习系统旨在应对三个核心挑战:表示、对齐和融合。首先,模型必须为每种模态学习有意义的表征,通常是将像素和单词等不同数据类型转换为称为嵌入的数字向量。其次,它必须对齐这些表征,连接跨模态的相关概念--例如,将文本 "一只狗在接飞盘 "与图片中的相应视觉元素联系起来。最后,它将这些对齐的表征融合起来,以做出统一的预测或生成新的内容。这种融合可以发生在不同的阶段,而像变形器这样的架构及其注意力机制的开发,对于创造有效的融合策略至关重要。

实际应用

多模式学习是许多尖端人工智能功能背后的引擎。下面是几个突出的例子:

  1. 视觉问题解答(VQA):在视觉问题解答(VQA)中,人工智能模型会得到一张图片和一个有关图片的自然语言问题(例如,"穿红衣服的人在做什么?模型必须同时处理图像的视觉信息和文本的语义,才能提供准确的答案。这项技术可用于创建视障人士辅助工具和高级内容分析。您可以浏览一个流行的VQA 数据集,查看更多示例。
  2. 文本到图像的生成: OpenAI 的 DALL-E 3Stable Diffusion等生成模型是多模式学习的典范。它们通过文字描述(提示)生成相应的新图像。这需要对语言有深入的理解,并能将抽象概念转化为连贯的视觉细节,这是一项结合了NLP和生成视觉的任务。

主要区别

将多模式学习与相关术语区分开来很有帮助:

  • 多模式模型多模式学习(Multi-Modal Learning)是利用多种数据类型训练人工智能的过程研究领域。多模式模型是利用这些技术设计和训练的人工智能系统或架构。
  • 计算机视觉(CV)CV 专注于处理和理解视觉数据。像Ultralytics YOLO11这样的专业 CV 模型擅长物体检测等任务,而多模态学习则通过将视觉数据与其他模态进行整合而更进一步。
  • 自然语言处理(NLP)NLP 处理人类语言的理解和生成。多模态学习将语言数据与图像或传感器读数等其他模态进行整合,如视觉语言模型
  • 基础模型这些模型是在大量数据基础上预先训练的大规模模型。许多现代基础模型,如GPT-4,本质上都是多模态的,但概念是不同的。多模态学习是建立这些强大模型的常用方法斯坦福大学的 CRFM 等机构都在研究这些模型。

挑战与未来方向

多模态学习带来了独特的挑战,包括有效调整不同来源的数据、制定最佳融合策略以及处理缺失或噪声数据。应对多模态学习中的这些挑战仍然是一个活跃的研究领域。该领域正在迅速发展,推动着人工智能系统的发展,使其更像人类一样感知和推理世界,从而有可能促进人工通用智能(AGI)的发展。Ultralytics HUB等平台目前主要为计算机视觉任务的工作流程提供便利,而更广阔的人工智能前景则指向多模态能力的日益整合。请关注Ultralytics 博客,了解有关使用PyTorchTensorFlow 等框架开发的新模型功能的最新信息。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板