加入我们,回顾对象检测的演变。 我们将重点关注 YOLO(You Only Look Once)模型在过去几年中的发展。

加入我们,回顾对象检测的演变。 我们将重点关注 YOLO(You Only Look Once)模型在过去几年中的发展。
计算机视觉是人工智能 (AI) 的一个子领域,专注于教机器像人类感知现实世界一样,看到和理解图像和视频。 虽然识别物体或识别动作对人类来说是第二天性,但对于机器来说,这些任务需要特定且专业的计算机视觉技术。 例如,计算机视觉中的一项关键任务是对象检测,它涉及识别和定位图像或视频中的对象。
自 20 世纪 60 年代以来,研究人员一直致力于改进计算机检测对象的方式。 早期的模板匹配等方法包括在图像上滑动预定义的模板以查找匹配项。 虽然具有创新性,但这些方法在对象大小、方向和光照的变化方面遇到了困难。 今天,我们拥有像 Ultralytics YOLO11 这样的高级模型,即使是很小和部分隐藏的物体(称为遮挡物体)也能以令人印象深刻的准确度进行检测。
随着计算机视觉的不断发展,回顾这些技术的发展历程非常重要。 在本文中,我们将探讨对象检测的演变,并重点介绍 YOLO(You Only Look Once)模型的转变。 让我们开始吧!
在深入研究对象检测之前,让我们先来看看计算机视觉是如何起步的。 计算机视觉的起源可以追溯到 20 世纪 50 年代末和 60 年代初,当时科学家们开始探索大脑如何处理视觉信息。 在对猫进行的实验中,研究人员 David Hubel 和 Torsten Wiesel 发现大脑会对简单的模式(如边缘和线条)做出反应。 这构成了特征提取背后的想法的基础——视觉系统在处理更复杂的模式之前,会检测和识别图像中的基本特征(如边缘)的概念。
大约在同一时间,出现了一种可以将物理图像转换为数字格式的新技术,这激发了人们对机器如何处理视觉信息的兴趣。 1966 年,麻省理工学院 (MIT) 的夏季视觉项目进一步推动了这一进程。 虽然该项目没有完全成功,但其目标是创建一个可以将图像中的前景与背景分离的系统。 对于 视觉 AI 社区中的许多人来说,该项目标志着计算机视觉作为一门科学领域的正式开始。
随着计算机视觉在 20 世纪 90 年代末和 21 世纪初的发展,对象检测方法从模板匹配等基本技术转变为更高级的方法。 一种流行的方法是 Haar Cascade,它被广泛用于人脸检测等任务。 它的工作原理是使用滑动窗口扫描图像,检查图像每个部分中的特定特征(如边缘或纹理),然后组合这些特征以检测人脸等对象。 Haar Cascade 比以前的方法快得多。
与此同时,还引入了诸如方向梯度直方图(HOG)和支持向量机(SVM)之类的方法。HOG 使用滑动窗口技术来分析图像小区域中光线和阴影的变化,从而帮助识别物体的形状。然后,SVM 对这些特征进行分类,以确定物体的身份。这些方法提高了准确性,但仍然在实际环境中表现不佳,并且与当今的技术相比速度较慢。
在 2010 年代,深度学习和卷积神经网络 (CNN)的兴起给目标检测带来了重大转变。CNN 使计算机能够自动从大量数据中学习重要特征,从而大大提高了检测的准确性。
像 R-CNN(基于区域的卷积神经网络)这样的早期模型在精度方面有了很大的改进,与旧方法相比,可以更准确地识别物体。
然而,这些模型速度很慢,因为它们分多个阶段处理图像,这使得它们不适用于自动驾驶汽车或视频监控等领域的实时应用。
为了加快速度,开发了更高效的模型。像 Fast R-CNN 和 Faster R-CNN 这样的模型通过改进感兴趣区域的选择方式并减少检测所需的步骤来提供帮助。虽然这使得目标检测速度更快,但对于许多需要即时结果的实际应用来说,速度仍然不够快。对实时检测日益增长的需求推动了更快、更高效的解决方案的开发,这些解决方案可以平衡速度和准确性。
YOLO 是一种目标检测模型,它通过实现图像和视频中多个目标的实时检测来重新定义计算机视觉,使其与以前的检测方法截然不同。YOLO 的架构不是单独分析每个检测到的目标,而是将目标检测视为一项单一任务,使用 CNN 一次性预测目标的位置和类别。
该模型的工作原理是将图像分成一个网格,每个部分负责检测其各自区域中的目标。它对每个部分进行多次预测,并过滤掉不太可信的结果,只保留准确的结果。
YOLO 在计算机视觉应用中的引入使得目标检测比早期模型更快、更高效。由于其速度和准确性,YOLO 迅速成为制造业、医疗保健和机器人等行业实时解决方案的热门选择。
另一个需要注意的重要一点是,由于 YOLO 是开源的,开发人员和研究人员能够不断改进它,从而产生了更高级的版本。
YOLO 模型随着时间的推移稳步改进,并在每个版本的进步基础上不断发展。除了更好的性能之外,这些改进还使模型更易于不同技术水平的人员使用。
例如,当引入 Ultralytics YOLOv5 时,使用 PyTorch 部署模型变得更加简单,从而允许更广泛的用户使用高级 AI。它结合了准确性和可用性,使更多人能够实施目标检测,而无需成为编码专家。
Ultralytics YOLOv8 通过增加对实例分割等任务的支持并使模型更灵活,从而延续了这一进展。在基本和更复杂的应用中使用 YOLO 变得更加容易,使其在一系列场景中都很有用。
使用最新模型 Ultralytics YOLO11,进行了进一步的优化。通过减少参数数量,同时提高准确性,它现在对于实时任务来说更加高效。无论您是经验丰富的开发人员还是 AI 新手,YOLO11 都提供了一种易于访问的先进目标检测方法。
YOLO11 在 Ultralytics 的年度混合活动 YOLO Vision 2024 (YV24) 上发布,它支持与 YOLOv8 相同的计算机视觉任务,如目标检测、实例分割、图像分类和姿势估计。因此,用户可以轻松切换到这个新模型,而无需调整他们的工作流程。此外,YOLO11 升级后的架构使预测更加精确。事实上,YOLO11m 在 COCO 数据集上实现了更高的平均精度均值 (mAP),参数比 YOLOv8m 少 22%。
YOLO11 还旨在在各种平台上高效运行,从智能手机和其他边缘设备到更强大的云系统。这种灵活性确保了在不同硬件设置中实时应用的流畅性能。最重要的是,YOLO11 更快、更高效,降低了计算成本并加快了推理时间。无论您是使用 Ultralytics Python 包还是无需代码的 Ultralytics HUB,都可以轻松地将 YOLO11 集成到您现有的工作流程中。
先进的目标检测对实时应用和边缘 AI 的影响已经在各行各业中显现出来。随着石油和天然气、医疗保健和零售等行业越来越依赖 AI,对快速、精确的目标检测的需求持续增长。YOLO11 旨在通过即使在计算能力有限的设备上也能实现高性能检测来满足这一需求。
随着边缘 AI 的发展,像 YOLO11 这样的目标检测模型很可能会在速度和准确性至关重要的环境中,对于实时决策变得更加重要。随着设计和适应性的不断改进,目标检测的未来有望为各种应用带来更多的创新。
目标检测技术已经取得了长足的进步,从简单的方法发展到我们今天所见的高级深度学习技术。YOLO 模型一直是这一进步的核心,在不同行业中提供更快、更准确的实时检测。YOLO11 在此基础上不断发展,提高了效率,降低了计算成本,并提高了准确性,使其成为各种实时应用中可靠的选择。随着人工智能和计算机视觉的不断进步,目标检测的未来一片光明,在速度、精度和适应性方面还有更大的改进空间。
对人工智能感到好奇吗?请与我们的 社区 保持联系,继续学习!查看我们的 GitHub 仓库,了解我们如何使用人工智能在 制造业 和 医疗保健 等行业创建创新解决方案。🚀