什么是 YOLOE?进一步提升计算机视觉模型
了解 YOLOE 如何让你通过简单的提示或照片寻找物体。它能实现更智能、更快速的计算机视觉,且无需重新训练或微调模型。

目标检测是一项关键的计算机视觉任务,其目标是识别并定位图像或视频中的对象。它是计算机视觉的重要组成部分,作为人工智能 (AI) 的一个分支,它使机器能够理解和解读视觉数据。例如,目标检测可以帮助识别图片中的汽车或在视频流中定位行人。
支持诸如目标检测等计算机视觉任务的著名模型系列之一就是 YOLO (You Only Look Once) 模型系列。YOLO 模型专为速度和准确性而设计,并一直在持续改进。例如,最新版本之一 Ultralytics YOLO11 在现实场景中表现出色,即使在复杂的环境中也能提供准确的结果。
为了进一步推动这一进步,一种名为 YOLOE 的新模型旨在扩展 YOLO 模型的功能。与需要重新训练才能识别新对象的传统模型不同,YOLOE 可以通过简单的文本或图像提示来检测它从未见过的对象,使其能够更好地适应不断变化的环境。
在本文中,我们将仔细了解 YOLOE 的独特之处,它与以往 YOLO 模型的对比,以及你如何从今天开始使用它。让我们开始吧!
Link to this sectionYOLOE 概述#
YOLOE 是一款将目标检测提升到新高度的计算机视觉模型。它由清华大学的研究人员于 2025 年 3 月推出。YOLOE 与传统模型区别开来的关键在于它使用了开放词汇检测 (open-vocabulary detection)。
虽然大多数模型经过训练只能识别固定的对象列表,但 YOLOE 允许你通过简短的描述或示例图像来指定要查找的内容。例如,如果你正在寻找“绿色背包”,你可以输入该描述或向模型展示一张照片,YOLOE 就会在场景中定位它。
此外,即使没有任何提示,YOLOE 也能自行检测许多日常对象。这种识别从未见过的对象的能力被称为零样本检测。它在任务或感兴趣对象可能发生意外变化的动态环境中特别有用。

图 1. YOLOE 的功能概览。
Link to this sectionYOLOE 的核心功能#
YOLOE 支持一系列旨在增强其在实际应用中性能的功能。凭借处理结构化和非结构化输入的能力,YOLOE 为目标检测和分割开辟了新的可能性。
以下是该模型带来的一些主要功能:
- 基于提示的检测:YOLOE 可以根据简短的文本提示或示例图像搜索对象。这意味着你不需要在每次任务改变时都重新训练模型;只需描述或向模型展示你正在寻找的内容即可。
- 实例分割:除了在对象周围绘制边界框外,YOLOE 还可以使用实例分割勾勒出它们的精确形状。当对象重叠或你需要了解对象的精确边界时,这特别有帮助。
- 无提示对象识别:YOLOE 即使在没有特定指令的情况下也能识别对象。它使用一组预先学习的描述来快速识别对象,使过程更加快速高效。
Link to this section将 YOLOE 与其他 YOLO 模型进行比较#
现在我们对 YOLOE 有了更好的了解,让我们来看看 YOLO 家族中一些相似的模型。
随着计算机视觉的进步,YOLO 模型也在不断进步。例如,Ultralytics YOLOv8 引入了对分割和分类等新任务的支持,而后续版本(如 Ultralytics YOLO11)则专注于提高更广泛任务的准确性和性能。
此外,YOLO-World 于 2024 年 1 月发布,引入了使用书面提示的能力,让用户可以描述他们想要查找的对象。虽然 YOLO-World 是零样本检测的一个很好的选择,但它缺乏实例分割和视觉提示支持等功能。
YOLOE 在 YOLO-World 的基础上增加了这些功能,提高了灵活性和性能,并为现实世界的计算机视觉应用提供了一个更有影响力的工具。

图 2. YOLO-World 和 YOLOE 都支持零样本检测。
Link to this section使用 Ultralytics Python 包运行 YOLOE#
无论你是想检测特定对象还是探索图像中的一切,开始使用 YOLOE 都很简单。此模型由 Ultralytics Python 包支持,使其可以轻松集成到你的项目中。接下来,让我们逐步了解如何使用它。
Link to this section安装 Ultralytics 包#
第一步是使用像“pip”这样的包管理器安装 Ultralytics Python 包。你可以通过在终端或命令提示符中运行命令 “pip install ultralytics” 来完成此操作。
安装完成后,你将拥有加载模型、进行预测和尝试不同检测模式所需的一切。如果你在安装过程中遇到任何问题,官方的 Ultralytics 文档提供了一个有用的故障排除部分。
有几种不同的方法可以使用 YOLOE 进行预测。运行预测意味着使用经过训练的模型来识别并定位图像或视频中的对象。这些不同的方法允许你根据自己的具体需求自定义与模型的交互方式。
让我们逐一讨论这些方法。
Link to this section使用文本或图像提示检测特定对象#
YOLOE 可以根据简短的文本描述检测对象。例如,如果你正在寻找运动中的马,你可以使用“horse walking”(马在走)这样的提示。
首先,加载预训练的 YOLOE 模型并设置你的提示(即你希望模型寻找内容的描述),如下面的代码片段所示。
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))模型和提示设置完成后,你可以在图像或视频上运行该模型。将代码中的文件路径替换为你的图像或视频文件的路径:
results = model.predict("path/to/your/image.jpg")
results[0].show()这将显示图像,并根据你的提示清楚地标记出检测到的对象。你可以更改提示以搜索不同的对象,例如“red suitcase”(红色手提箱)、“bicycle”(自行车)或“zebra”(斑马),具体取决于你的需求。

图 3. 使用 YOLOE 配合文本提示检测特定对象的一个示例。
同样,你可以使用图像配合 Ultralytics Python 包来提示 YOLOE。在视觉提示模式下,模型使用该图像在另一个场景中查找外观相似的项目。这对于难以描述或缺乏明确标签的对象特别有用。
要更详细地探索相关的代码,你可以查看 Ultralytics 文档。
Link to this section使用 YOLOE 进行通用目标检测#
在某些情况下,你可能不知道确切要搜索什么,或者你可能不需要寻找特定的对象。这时无提示模式(prompt-free mode)就派上用场了。
通过此选项,你无需输入描述或提供示例图像。YOLOE 会直接分析图像,并检测它能识别的一切,例如人、动物、家具或日常用品。
这是一种无需给模型任何具体指令即可探索场景的有用方法。无论你是扫描拥挤的房间还是查看有大量活动的镜头,无提示模式都能让你快速了解图像中存在的内容。
你可以使用以下代码在无提示模式下运行 YOLOE。首先加载模型,然后处理图像并自动检测其中的对象。最后,显示结果并突出显示检测到的对象。
请务必将文件路径替换为你图像的实际路径。
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()下方的图像是 YOLOE 在无提示模式下可以检测到的一个示例。

图 4. 在无提示模式下使用 YOLOE。
Link to this sectionYOLOE 的实时应用#
YOLOE 对文本和图像提示的响应能力使其成为实时应用的可靠工具。其灵活性在时间紧迫和准确性至关重要的快节奏环境中特别有用。
让我们探讨一些 YOLOE 可以使用的现实世界示例。
Link to this section改进行李处理:实时行李检测#
在繁忙的机场中,定位特定行李可能具有挑战性,尤其是在处理丢失行李时。YOLOE 可以通过扫描实时视频并根据“red bag”(红色包)等简单提示快速识别物品来简化此流程。
如果行李丢失或放错地方,工作人员可以轻松更改提示以搜索其他物品,例如“black suitcase”(黑色手提箱)。这种即时适应的能力可以帮助机场工作人员快速找到合适的行李,而无需查看数小时的录像或重新训练模型,从而使行李处理和解决行李丢失问题的效率大大提高。
Link to this section使用 YOLOE 监控公共空间#
繁忙市场和咖啡馆等公共空间的监控录像通常包含全天变化的人员、物体和活动。YOLOE 可以使用无提示模式实时分析此录像,自动检测包、桌子或自行车等物品,而无需任何具体指令。

图 5. YOLOE 可以在繁忙的公共空间检测各种物体。
这对于安保团队发现无人看管的物品或跟踪人群移动特别有用。YOLOE 同时检测多个物体的能力使得在活动或繁忙时段管理公共空间变得更容易,从而帮助团队保持知情和快速响应。
Link to this sectionYOLOE 的优缺点#
以下是将 YOLOE 用于计算机视觉应用的一些主要好处:
- 实时性能:YOLOE 针对快速高效的处理进行了优化,即使在实时视频流或繁忙公共空间等动态环境中也能实现实时检测。
- 可扩展性:YOLOE 具有可扩展性,非常适合各种应用,从安防监控到零售、医疗保健和自动驾驶汽车。
- 易于使用:由于 YOLOE 由 Ultralytics Python 包支持,因此可以轻松集成到你现有的计算机视觉项目中。
然而,在使用 YOLOE 时,需要注意一些局限性。以下是需要考虑的几个因素:
- 需要充足的训练数据:尽管 YOLOE 支持零样本检测,但其对未知对象的性能取决于它从训练数据中泛化的程度。在某些情况下,它可能需要额外的数据或微调才能在高度专业的任务中表现良好。
- 对输入质量敏感:模型的准确性会受到低质量图像或视频的影响。模糊或光线不足的输入会降低模型准确检测对象的能力,因此高质量的输入对于获得最佳性能至关重要。
Link to this section关键要点#
YOLOE 通过允许用户使用文本或图像提示引导检测,为计算机视觉带来了更大的灵活性。它在场景变化迅速且无法重新训练的现实场景中表现良好。
从行李处理到公共空间监控,YOLOE 可以轻松适应新任务。随着人工智能变得越来越普及,像 YOLOE 这样的模型正在帮助更多行业以实用且高效的方式利用视觉技术。
加入我们的社区并探索我们的 GitHub 存储库以了解有关 AI 创新的更多信息。在我们的解决方案页面上了解零售 AI 和医疗保健计算机视觉等领域的最新进展。查看我们的许可选项,立即开始你的计算机视觉之旅!






