深圳尤洛视觉
深圳
立即加入

什么是 YOLOE? 进一步推进计算机视觉模型

Abirami Vina

5 分钟阅读

2025年5月8日

了解 YOLOE 如何通过简单的提示或照片查找对象。它无需重新训练或微调模型,即可实现更智能、更快速的计算机视觉。

物体检测是一项关键的计算机视觉任务,其目标是识别和定位图像或视频中的物体。它是计算机视觉的关键组成部分,计算机视觉是人工智能 (AI) 的一个领域,使机器能够理解和解释视觉数据。例如,物体检测可以帮助识别图片中的汽车或发现视频源中的人。

YOLO(You Only Look Once)模型系列是最著名的支持计算机视觉任务(如目标检测)的模型系列之一。YOLO模型专为速度和准确性而设计,随着时间的推移不断改进。例如,最新的版本之一Ultralytics YOLO11在现实环境中表现良好,即使在更复杂的环境中也能提供准确的结果。

为了进一步推动这一进展,一种名为 YOLOE 的新型模型旨在扩展 YOLO 模型的功能。与需要重新训练才能识别新物体的传统模型不同,YOLOE 可以遵循简单的文本或图像提示来检测它以前没有见过的物体,从而使其更适应不断变化的环境。

在本文中,我们将仔细研究 YOLOE 的独特之处、它与之前的 YOLO 模型相比如何,以及您今天如何开始使用它。让我们开始吧!

YOLOE 概述

YOLOE 是一种计算机视觉模型,它使目标检测更进一步。它由清华大学的研究人员于 2025 年 3 月推出。YOLOE 与传统模型的区别在于它使用了开放词汇检测。 

虽然大多数模型都经过训练以识别固定的对象列表,但YOLOE允许您使用简短的描述或示例图像来指定要查找的内容。例如,如果您正在搜索“绿色背包”,您可以键入该描述或向模型展示照片,YOLOE将在场景中找到它。

此外,即使没有任何提示,YOLOE也可以自行检测许多日常物品。这种识别以前从未见过的物体的能力被称为零样本检测。它在任务或感兴趣的对象可能意外变化的的动态环境中特别有用。

图 1. YOLOE 功能概览。

YOLOE 的主要特性

YOLOE 支持多种旨在增强其在实际应用中性能的功能。凭借其处理结构化和非结构化输入的能力,YOLOE 为目标检测和分割开辟了新的可能性。 

以下是该模型带来的一些主要特性:

  • 基于提示的检测: YOLOE可以基于简短的文本提示或示例图像来搜索对象。这意味着您无需每次任务更改时都重新训练模型;只需描述或向模型展示您要查找的内容即可。
  • 实例分割 除了在对象周围绘制边界框之外,YOLOE 还可以使用实例分割来勾勒出对象的精确形状。当对象重叠或需要知道对象的精确边界时,这尤其有用。
  • 无提示对象识别: YOLOE即使没有具体说明也能识别对象。它使用一组预先学习的描述来快速识别对象,从而使过程更快、更高效。

YOLOE 与其他 YOLO 模型比较

既然我们对 YOLOE 有了更好的了解,那么让我们来看看 YOLO 系列中一些类似的模型。 

随着计算机视觉的发展,YOLO 模型也在不断发展。例如,Ultralytics YOLOv8 为分割和分类等新任务带来了支持,而 Ultralytics YOLO11 等更高版本则专注于提高更广泛任务的准确性和性能。

此外,YOLO-World于 2024 年 1 月发布,引入了使用书面提示的功能,允许用户描述他们想要查找的对象。虽然 YOLO-World 是零样本检测的一个很好的选择,但它缺乏实例分割和视觉提示支持等功能。 

YOLOE 在 YOLO-World 的基础上增加了这些功能,提高了灵活性和性能,并为实际计算机视觉应用提供了一个更有影响力的工具。

图 2. YOLO-World 和 YOLOE 都支持零样本检测。

通过 Ultralytics Python 包使用 YOLOE

无论您是想检测特定物体还是探索图像中的所有内容,YOLOE 的入门都很简单。该模型由 Ultralytics Python 包支持,可以轻松集成到您的项目中。接下来,让我们一起了解如何使用它。

安装 Ultralytics 软件包

第一步是使用诸如“pip”之类的包管理器安装 Ultralytics Python 包。您可以通过在终端或命令提示符中运行命令 “pip install ultralytics” 来执行此操作。

安装软件包后,您将拥有加载模型、进行预测以及试验不同检测模式所需的一切。如果在安装过程中遇到任何问题,官方 Ultralytics 文档提供了一个有用的 故障排除部分。 

有几种不同的方法可以使用YOLOE来运行预测。运行预测意味着使用训练好的模型来识别和定位图像或视频中的对象。这些不同的方法允许您根据您的特定需求自定义与模型交互的方式。

让我们一次讨论这些方法中的每一种。

使用文本或图像提示检测特定对象

YOLOE 可以根据简短的文本描述检测物体。例如,如果您正在寻找一匹运动中的马,您可以使用诸如“马在行走”之类的提示。

首先,加载预训练的 YOLOE 模型,并设置您的提示(您希望模型寻找的内容的描述),如下面的代码片段所示。

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

设置好模型和提示后,您可以在图像或视频上运行模型。将代码中的文件路径替换为您图像或视频文件的路径:

results = model.predict("path/to/your/image.jpg")
results[0].show()

这将显示图像,并根据您的提示清楚地标记检测到的物体。您可以更改提示以搜索不同的物体,例如“红色手提箱”、“自行车”或“斑马”,具体取决于您要查找的内容。

图 3. 使用 YOLOE 通过文本提示检测特定对象的示例。

同样,您可以使用图像通过 Ultralytics Python 包提示 YOLOE。在视觉提示模式下,模型使用图像在另一个场景中查找外观相似的项目。这对于难以描述或缺乏明确标签的对象特别有用。 

要更详细地了解此代码,您可以查看Ultralytics 文档

使用 YOLOE 进行通用目标检测

在某些情况下,您可能不确切知道要搜索什么,或者您可能不是在寻找特定的对象。这时,无提示模式就派上用场了。 

使用此选项,您无需键入描述或提供示例图像。YOLOE 只需自行分析图像,并检测它可以识别的所有内容,例如人、动物、家具或日常物品。

这是一种无需向模型提供任何特定指令即可探索场景的有用方法。无论您是扫描拥挤的房间还是查看活动频繁的镜头,无提示模式都可以让您快速了解图像中存在的内容。 

您可以使用以下代码在无提示模式下运行 YOLOE。首先,加载模型,然后处理图像并自动检测其中的对象。最后,显示结果,并突出显示检测到的对象。 

请务必将文件路径替换为您图像的实际路径。

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

下图显示了 YOLOE 在无提示模式下可以检测到的示例。

图 4. 在无提示模式下使用 YOLOE。

YOLOE 的实时应用

YOLOE 响应文本和图像提示的能力使其成为实时应用的可靠工具。它的灵活性在时间和准确性至关重要的快节奏环境中尤其有用。 

让我们探索一些 YOLOE 如何使用的真实示例。

改进行李处理:实时行李检测

在繁忙的机场中,找到特定的行李可能具有挑战性,尤其是在处理丢失的行李时。YOLOE 可以通过帮助扫描实时视频并根据“红色包”等简单提示快速识别物品来简化此过程。 

如果行李丢失或放错地方,工作人员可以轻松更改提示以搜索其他物品,例如“黑色手提箱”。 这种即时适应能力可以帮助机场工作人员快速找到正确的行李,而无需查看长时间的录像或重新训练模型,从而使行李处理和丢失行李问题的解决更加快速和高效。

使用 YOLOE 监测公共场所

公共场所(如拥挤的市场和咖啡馆)的监控录像通常包含人群、物体和活动,并且这些内容会全天变化。YOLOE 可以使用无提示模式实时分析此录像,自动检测包、桌子或自行车等物品,而无需特定指令。

图 5. YOLOE 可以在繁忙的公共场所检测各种物体。

这对于 安全团队 来说尤其有用,可以发现无人看管的物品或跟踪人群移动。YOLOE 同时检测多个物体的能力使得在活动或繁忙时段管理公共场所变得更加容易,帮助团队随时了解情况并做出响应。

YOLOE 的优缺点

以下是将 YOLOE 用于计算机视觉应用的一些主要优势:

  • 实时性能:YOLOE 经过优化,可实现快速高效的处理,即使在实时视频流或繁忙的公共场所等动态环境中也能实现实时检测。
  • 可扩展性:YOLOE 具有可扩展性,适用于各种应用,从安全和监控到零售、医疗保健和自动驾驶汽车。
  • 易于使用: 由于 Ultralytics Python 包支持 YOLOE,因此可以轻松集成到您现有的计算机视觉项目中。

然而,使用YOLOE时需要注意一些限制。以下是需要考虑的几个因素:

  • 需要足够的训练数据:虽然 YOLOE 支持零样本检测,但它在未见过的对象上的性能取决于它从训练数据中泛化的程度。在某些情况下,它可能需要额外的数据或微调才能在高度专业的任务中表现良好。
  • 对输入质量敏感:模型的准确性会受到低质量图像或视频的影响。模糊或光线不足的输入会降低模型准确检测对象的能力,因此高质量的输入对于获得最佳性能非常重要。

主要要点

YOLOE 通过允许用户使用文本或图像提示来指导检测,从而为计算机视觉带来了更大的灵活性。它在场景快速变化且无法重新训练的实际情况下效果良好。

从行李处理到公共空间监控,YOLOE 可以轻松适应新任务。随着人工智能变得越来越容易获取,像 YOLOE 这样的模型正在帮助更多的行业以实用、高效的方式使用视觉技术。

加入我们的社区,探索我们的GitHub 仓库,以了解更多关于人工智能创新的信息。在我们的解决方案页面上,探索零售业中的人工智能医疗保健领域中的计算机视觉等领域的最新进展。查看我们的许可选项,立即开始使用计算机视觉!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板