了解多模态AI模型如何整合文本、图像等多种数据,从而创建适用于实际应用的强大、通用的系统。
多模式模型是一种先进的 人工智能(AI)系统 能够同时处理、解释和整合来自多种不同数据类型或 "模式 "的信息。 "模式 "的信息。与专攻单一领域的传统单模态系统不同,如 自然语言处理(NLP) 自然语言处理(NLP)或计算机视觉(CV 多模态模型可以同时分析文本、图像、音频、视频和传感器数据。这种融合使 多模式模型可以将文本、图像、音频、视频和传感器数据结合在一起进行分析。 视觉线索和语言描述之间的关联。这种能力是未来 人工智能(AGI) 的基础,目前正在推动从机器人到自动内容创建等领域的创新。
多模式模型的有效性取决于它们将不同数据类型映射到共享语义空间的能力。 空间。这一过程通常从生成 嵌入--数据的数字表示,以 的数字表示。通过在配对示例的海量数据集(如带标题的图片)上进行训练,模型可以 模型学会将 "狗 "的图片嵌入与 "狗 "这个词的文字嵌入对齐。 "狗"。
关键的建筑创新使这种整合成为可能:
多模态模型释放出了新的功能,而这些功能在以前的单模态系统中是不可能实现的。
下面的示例演示了如何使用 ultralytics 库来执行开放词汇
在这种情况下,模型会根据自定义文本输入检测对象:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
必须将 "多模式模型 "与人工智能术语表中的相关概念区分开来:
该领域正在迅速发展,其模型可以实时处理连续的音频、视频和文本流。 实时处理连续音频流、视频流和文本流的模型。Google DeepMind等机构的研究不断突破 这些系统所能感知的界限。在Ultralytics,我们的旗舰产品 YOLO11模型为物体检测的速度和准确性设定了标准 物体检测速度和准确度的标准,同时我们也在不断创新 YOLO26 等架构进行创新,这将进一步提高边缘和云应用的效率。 边缘和云应用的效率。展望未来,全面的 Ultralytics 平台将提供统一的数据管理环境、 训练和部署的统一环境。