了解 YOLOE 如何让您通过简单的提示或照片找到物体。它能实现更智能、更快速的计算机视觉,无需重新训练或微调模型。
物体检测是计算机视觉的一项关键任务,其目标是识别和定位图像或视频中的物体。它是计算机视觉的重要组成部分,而计算机视觉是人工智能(AI)的一个领域,能让机器理解和解释视觉数据。例如,物体检测可以帮助识别图片中的汽车或发现视频中的人物。
YOLO (You Only Look Once)模型系列是支持物体检测等计算机视觉任务的最著名的模型系列之一。YOLO 模型专为提高速度和准确性而设计,并随着时间的推移不断改进。例如,最新版本之一 Ultralytics YOLO11在实际应用中表现出色,即使在更复杂的环境中也能提供准确的结果。
为进一步推动这一进展,一种名为 YOLOE 的新模型旨在扩展YOLO 模型的功能。与需要重新训练才能识别新物体的传统模型不同,YOLOE 可以根据简单的文字或图像提示来检测它以前从未见过的物体,这使它更能适应不断变化的环境。
在本文中,我们将详细介绍YOLOE 的独特之处、它与以前的YOLO 型号的比较,以及您如何从今天开始使用它。让我们开始吧!
YOLOE 是一种计算机视觉模型,它将物体检测向前推进了一步。它由清华大学的研究人员于 2025 年 3 月推出。YOLOE 与传统模型的不同之处在于它使用了开放词汇检测。
大多数模型都经过训练,可以识别固定的物体列表,而 YOLOE 允许您使用简短的描述或示例图片来指定要查找的物体。例如,如果您要搜索一个 "绿色背包",您可以输入该描述或向模型展示一张照片,YOLOE 就会在场景中找到它。
此外,即使没有任何提示,YOLOE 也能自行检测到许多日常物体。这种识别从未见过的物体的能力被称为零镜头检测。这在动态环境中尤其有用,因为在这种环境中,任务或感兴趣的物体可能会发生意想不到的变化。
YOLOE支持多种功能,旨在提高其在实际应用中的性能。YOLOE 既能处理结构化输入,也能处理非结构化输入,为物体检测和分割开辟了新的可能性。
以下是该机型的一些主要特点:
既然我们已经对 YOLOE 有了更深入的了解,那么让我们来看看YOLO 系列中的一些类似型号。
随着计算机视觉技术的发展,YOLO 模型也在不断进步。例如 Ultralytics YOLOv8为分割和分类等新任务提供了支持,而后来的版本,如Ultralytics YOLO11,则专注于提高更多任务的准确性和性能。
此外,YOLO于 2024 年 1 月发布,它引入了使用书面提示的功能,让用户描述他们想要找到的对象。虽然YOLO 是零镜头检测的最佳选择,但它缺乏实例分割和视觉提示支持等功能。
YOLOE 以YOLO 为基础,增加了这些功能,提高了灵活性和性能,为真实世界的计算机视觉应用提供了更有影响力的工具。
无论您是想检测特定对象还是探索图像中的所有内容,使用 YOLOE 都非常简单。该模型由Ultralytics Python 软件包提供支持,可以轻松集成到您的项目中。接下来,让我们来了解一下如何使用它。
第一步是使用 "pip "等软件包管理器安装Ultralytics Python 软件包。在终端或命令提示符下运行"pip installultralytics"命令即可。
软件包安装完成后,你就拥有了加载模型、进行预测和尝试不同检测模式所需的一切。如果在安装过程中遇到任何问题,Ultralytics 官方文档中的故障排除部分会对你有所帮助。
使用 YOLOE 进行预测有几种不同的方法。运行预测意味着使用训练有素的模型来识别和定位图像或视频中的对象。通过这些不同的方法,您可以根据自己的具体需求自定义与模型的交互方式。
让我们逐一讨论这些方法。
YOLOE 可以根据简短的文字描述来检测物体。例如,如果您正在寻找一匹运动中的马,您可以使用 "马在走 "这样的提示。
要开始使用,首先要加载预训练的 YOLOE 模型,并设置提示(对模型搜索内容的描述),如下面的代码片段所示。
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
设置好模型和提示后,就可以在图像或视频上运行模型了。用图像或视频文件的路径替换代码中的文件路径:
results = model.predict("path/to/your/image.jpg")
results[0].show()
这将显示图像,并根据您的提示清楚地标出检测到的物体。您可以更改提示来搜索不同的物体,例如 "红色手提箱"、"自行车 "或 "斑马",这取决于您要寻找的是什么。
同样,您也可以通过Ultralytics Python 软件包使用图像来提示 YOLOE。在视觉提示模式下,模型会使用图像在另一个场景中找到外观相似的物品。这对于难以描述或缺乏清晰标签的物体尤其有用。
要详细了解相关代码,可以查看Ultralytics 文档。
在某些情况下,您可能不知道到底要搜索什么,或者您可能不是在寻找某个特定对象。这时,无提示模式就派上用场了。
使用此选项,您无需输入描述或提供示例图像。YOLOE 只需自行分析图像,并检测它能识别的一切,如人物、动物、家具或日常物品。
这是一种探索场景的有用方法,无需向模型发出任何具体指令。无论您是在扫描拥挤的房间,还是在查看有大量活动的镜头,无提示模式都能让您快速查看图像中的内容。
您可以使用以下代码在无提示模式下运行 YOLOE。首先加载模型,然后处理图像并自动检测图像中的对象。最后显示结果,并突出显示检测到的对象。
确保将文件路径替换为图像的实际路径。
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
下图是 YOLOE 在无提示模式下可以检测到的图像示例。
YOLOE 能够同时响应文本和图像提示,是实时应用的可靠工具。在对时间和准确性要求极高的快节奏环境中,它的灵活性尤其有用。
让我们举几个真实的例子,看看如何使用 YOLOE。
在繁忙的机场,找到特定的行李是一项挑战,尤其是在处理丢失的行李时。YOLOE 可以帮助扫描实时视频,并根据 "红包 "等简单提示快速识别物品,从而简化这一过程。
如果行李丢失或放错了地方,工作人员可以轻松更改提示,搜索不同的物品,如 "黑色行李箱"。这种即时适应能力可以帮助机场工作人员快速找到正确的行李,而无需查看长时间的录像或重新培训模型,从而使行李处理和行李丢失问题的解决更加快速高效。
公共场所(如拥挤的市场和咖啡馆)的监控录像通常包括全天变化的人员、物品和活动。YOLOE 可以使用免提示模式实时分析这些镜头,自动检测包、桌子或自行车等物品,而不需要特定的指令。
这对于安保团队发现无人看管的物品或追踪人群流动尤其有用。YOLOE 能够同时检测多个物体,这使得在活动或繁忙时段管理公共空间变得更加容易,有助于团队随时了解情况并作出反应。
以下是将 YOLOE 用于计算机视觉应用的一些主要优势:
不过,在使用 YOLOE 时要注意一些限制因素。以下是几个需要考虑的因素:
YOLOE 允许用户通过文本或图像提示来引导检测,为计算机视觉带来了更大的灵活性。在现实世界中,场景瞬息万变,无法进行再训练,而 YOLOE 却能很好地解决这一问题。
从行李处理到公共空间监控,YOLOE 都能轻松适应新任务。随着人工智能越来越普及,像 YOLOE 这样的模型正在帮助更多行业以实用、高效的方式使用视觉技术。
加入我们的社区,探索我们的GitHub 存储库,了解有关人工智能创新的更多信息。在我们的解决方案页面上了解零售业人工智能 和医疗保健计算机视觉等领域的最新进展。查看我们的许可选项,立即开始使用计算机视觉!