深圳Yolo 视觉
深圳
立即加入

未来物体检测趋势:需要关注的 7 个关键问题

Abirami Vina

5 分钟阅读

2025 年 11 月 28 日

了解推动计算机视觉进步的七种未来物体检测趋势,从而实现更快、更智能、更可靠的人工智能系统。

现在,Robotaxis 正在旧金山的街道上漫游,人们已经从在线搜索答案变成了与人工智能聊天,并将其作为日常生活的一部分。这些转变清楚地表明,人工智能(AI)正以前所未有的速度发展,并成为日常生活的一部分。 

例如,计算机视觉技术就是以令人难以置信的速度向前发展的领域之一。它也被称为视觉人工智能,是人工智能的一个子领域,重点是帮助机器解释和理解视觉数据。

从自动结账通道到勘测电线的无人机,计算机视觉技术已经无处不在。其中许多系统的核心是物体检测,这是计算机视觉的核心任务,能让机器识别并定位图像和视频中的特定物体。

随着人工智能应用的加速,对快速而精确的物体检测的需求也在增加。视觉人工智能模型,如 Ultralytics YOLO11和即将推出的Ultralytics YOLO26等视觉人工智能模型都是基于这一考虑而构建的,从而使实时物体检测比以往任何时候都更加可靠和易用。

图 1.使用YOLO11 进行物体检测的示例。

随着技术的飞速发展,这一领域也在迅速演变,一些新出现的趋势正在塑造下一代物体检测的面貌。在本文中,我们将探讨决定物体检测未来的七大趋势。

了解目标检测的工作原理

在深入探讨未来的物体检测趋势之前,让我们回过头来看看什么是物体检测、它在幕后是如何工作的,以及多年来是如何发展的。 

物体检测是计算机视觉的一个关键部分,它使人工智能系统能够识别图像中的物体,并准确确定每个物体出现的位置。为了学习这一点,模型需要在大型标注数据集上进行训练,这些数据集显示了许多不同条件下的物体,如各种角度、光线、大小和布局。 

随着时间的推移,模型会捕捉到将一个物体与另一个物体区分开来的模式和视觉线索。经过训练后,Ultralytics YOLO 等视觉人工智能模型可以一次性扫描整个图像,并立即绘制边框和分配标签。这种速度和准确性使物体检测在现实世界的应用中发挥了重要作用。 

图 2.使用YOLO11 模型探测 X 射线。(资料来源)

物体检测的实际应用案例

例如,在文档分析中,像 Prezent 这样的公司使用对象检测来自动完成重新设计演示幻灯片的艰巨任务。传统上,这一过程需要数小时的手动调整、识别标题、重新定位文本框、对齐图像和重建图表,同时还要努力保持整洁、一致的布局。

通过将每张幻灯片转换成图像,Ultralytics YOLO 模型可以detect 标题、文本框、图像和图表,同时保留原始结构。这样,系统就能准确了解每个元素的排列方式。有了这些信息,曾经缓慢而乏味的整个重新设计过程现在只需几秒钟就能自动完成。

计算机视觉中物体检测的演变

下面我们就来看看物体检测技术多年来的发展历程:

  • 早期(20 世纪 60 年代至 70 年代): 早期的物体检测方法来自传统的图像处理,通常依赖于模板匹配。在这种方法中,计算机将图像的各个部分(像素)与预定义的参考模式或模板进行比较,以寻找相似之处。由于这些模板是固定的,无法适应变化,因此这种方法只能在理想的条件下工作。即使是光线、比例、旋转或物体外观的微小变化也足以导致该方法失效。
  • 基于特征的检测(20 世纪 90 年代至 2000 年代): 研究人员随后转向手工制作特征和特征提取的理念,即人类手动定义计算机应查找的视觉线索,如边缘、角落、形状或亮度变化。Haar Cascades(一种扫描简单视觉模式的方法,常用于人脸检测)和 HOG(一种捕捉图像边缘和轮廓方向的技术)等技术通常与 SVM 分类器(一种将物体分门别类的机器学习模型)搭配使用,使物体识别更加准确和快速。
  • 深度学习模型革命(2010 年代): 深度学习和卷积神经网络(CNN)是通过每次扫描小区域图像来学习视觉模式的模型,它们重新定义了物体检测。R-CNN、Fast R-CNN 和 Faster R-CNN 等模型直接从大量数据中学习视觉模式。
  • 利用YOLO 进行实时检测(2010 年代中期): YOLO (You Only Look Once,只看一次)是物体检测领域的一项重大突破,它通过网络一次性预测所有边框和类标签。这种统一的方法大大提高了检测速度,为实时应用铺平了道路。与此同时,其他单次检测模型,如 SSD(单次检测器),也通过去除区域建议步骤提高了性能,使物体检测更快、更高效。
  • 最新进展(2020 年代): 得益于模型设计和优化方面的重大改进,2020 年代的先进物体检测系统和框架速度更快、精度更高。Ultralytics YOLO11 引入了架构升级,提高了处理速度、准确性和整体实时性。在此基础上,即将推出的 YOLO26 采用了更高效、更轻便的设计,非常适合广泛的实际应用。

7 个影响未来的物体检测趋势

接下来,让我们来探讨计算机视觉领域备受关注并引发热议的七种新兴物体检测趋势。

1.利用边缘计算执行更智能的物体检测任务

传统的人工检查会减慢生产线的速度,并留下遗漏缺陷的空间。为了解决这个问题,许多公司开始转向由物体检测驱动的人工智能质量控制系统。 

事实上,研究表明,与人工检测相比,基于人工智能的视觉检测可显著提高生产率,有时可提高 50%,缺陷检测率最高可提高 90%。有趣的是,在这一领域和其他视觉人工智能应用中掀起波澜的新趋势是,这种分析现在如何通过边缘计算直接在设备上进行。

有了边缘计算,智能更接近数据捕捉的地方。摄像头和传感器可以在现场运行物体检测模型,即时识别物体并确定其位置,而无需依赖云处理。这使它们能够实时分析帧。 

它还能减少网络延迟,降低带宽使用率,并确保系统在互联网连接不稳定或不可用的情况下也能继续工作。对于像制造业这样的快节奏环境,这种向设备上处理的转变能带来更快的响应、更顺畅的操作和更可靠的结果。

2.医疗保健领域的视觉驱动诊断技术

医生经常要花费大量时间查看医学影像,以确保没有任何疏漏。如今,许多医院开始探索尖端的物体检测技术,以帮助加快速度。这反映了医疗保健领域的一个大趋势,即视觉人工智能正越来越多地用于支持更早的检测、更快的诊断和更一致的图像分析。

物体检测可用于快速突出可能需要注意的区域,从而加强决策并改善病人的治疗效果。例如,YOLO11 等模型可以帮助医生在核磁共振扫描中发现脑肿瘤。 

图 3.借助YOLO11 在核磁共振成像扫描中检测和定位脑肿瘤(资料来源)

由于YOLO11 可以识别核磁共振成像扫描中的微妙模式,因此有助于更准确地识别小肿瘤或早期肿瘤。在医生做出最终诊断的同时,YOLO11 等工具可以帮助医生简化审查过程,更快地发现潜在的问题,确保不遗漏任何重要信息。

3.实现更安全交通的自动驾驶汽车和实时视觉

在繁忙的城市道路上,自动驾驶汽车依靠摄像头和传感器持续监控周围环境。这些系统能实时detect 行人、车辆、车道和路标。在计算机视觉和物体检测算法的帮助下,自动驾驶汽车可以解读周围发生的一切,并做出更安全的自动驾驶决策。

在交通模式多样、车辆混杂的地区,这些系统会遇到更多的复杂问题。 例如,最近的一项研究评估了 Ultralytics YOLOv8在这两个地区,汽车、公交车、摩托车、自行车和人力三轮车等各种车辆以动态且往往不可预测的方式共用道路。 

结果表明,YOLOv8 在这些具有挑战性的场景中表现出色,即使在密集和非结构化的交通条件下也能准确检测到各种物体。这凸显了自动驾驶汽车日益增长的趋势:视觉人工智能模型越来越有能力处理复杂的真实世界环境,而这些环境曾给自动驾驶系统带来巨大挑战。

4.利用计算机视觉的智能自动化和机器人技术

对于机器人来说,处理小型物体、对检测到的物体和材料进行分类或在杂乱的空间中穿梭一直是一项挑战。这些任务需要快速适应和精确移动,而传统的自动化系统在不可预测的环境中往往难以胜任。 

机器人技术的一个发展趋势是使用视觉人工智能,让机器人能够实时感知周围环境并做出反应。为了探索这一转变,一组研究人员最近开发了一种家用机器人,它能够在室内空间移动时识别和分类物体。 

利用YOLO11 等模型进行物体检测,再加上深度摄像头和灵活的抓手,机器人能够识别不同形状和大小的物品,并自行将它们放到正确的位置。该实验展示了计算机视觉与机器人系统的结合如何提高空间感知能力和响应速度。 

图 4.利用YOLO11 和深度感应进行智能决策的机器人。(资料来源)

它还展示了尖端的人工智能技术如何通过长期学习视觉模式来帮助机器人适应陌生环境。随着这些技术的进步,机器人的能力越来越强,也越来越多地融入到日常工作中,从家务助理到仓储物流和医疗保健支持。

5.积极主动的监控和安保系统

智能监控系统正在迅速采用人工智能来发现异常或不安全的活动。利用物体检测模型,摄像机可以实时识别潜在问题,并立即向安保团队发出警报,从而帮助提高预防和响应能力。

例如,在出于安全原因限制使用智能手机的生产设施中,人工智能系统可以在手机出现的瞬间detect 它们,并利用YOLO 和其他视觉模型track 它们的移动。这反映了更广泛的安全趋势,即视觉人工智能正被用于更主动地监控环境,并对潜在风险做出更快的反应。

除了检测,这些系统还越来越多地与其他技术相结合,以创建更完整的安全解决方案。边缘设备可以在本地处理录像,减少延迟并保持性能可靠,而门禁系统或面部识别等工具则可以增加额外的验证层。这些技术结合在一起,可以创建更智能、连接性更强的监控网络,能够快速有效地应对实际情况。

6.日常生活中的增强现实技术和物体检测

在繁忙的仓库和大型零售空间,工人往往需要同时管理多项任务。增强现实技术可将数字引导直接置入现实世界,从而提供帮助。当与物体检测系统搭配使用时,增强现实系统可以识别物品、track 它们的位置并实时显示有用信息。这让日常任务变得更简单、更快捷、更直观。

该领域一个日益增长的趋势是使用视觉人工智能将日常设备变成能够理解周围环境的智能助手。随着 AR 和物体检测的不断融合,工作场所开始采用支持免提引导和更高效工作流程的沉浸式工具。

亚马逊的人工智能驱动AR 眼镜就是一个很好的例子,这款眼镜目前正在开发和测试中。这些眼镜利用物体检测和图像分类来识别包裹,引导工人沿着正确的路线前进,并记录送货证明。这就创造了一种更安全的免提体验,帮助工人在一天的工作中保持专注和高效。

7.用于实时视觉系统的物联网驱动智能设备

智能设备已成为能够看到、理解并对周围环境做出反应的智能系统。物联网(IoT)将摄像头、传感器、机器和智能应用程序连接到网络中,收集数据并进行实时处理,从而推动了这一转变。 

当物联网与物体检测和边缘计算协同工作时,设备可以解读视觉信息、发现异常并立即做出反应,而无需人工参与。这样就能创建自适应的高效系统,为智能家居、工业和整个城市提供动力。

例如,最近的一项研究表明,基于物联网的野生动物保护系统如何利用YOLOv8 detect 接近农田的动物。一旦检测到,该系统就会利用人工智能决策来触发灯光或声音等温和的威慑手段,引导动物安全离开。这有助于防止农作物受损,同时支持与当地野生动物和平共处,展示了物联网和计算机视觉如何使农业更具可持续性。

其他有趣的视觉人工智能趋势

除了这七种物体检测趋势之外,以下是塑造视觉人工智能未来的几项值得关注的发展:

  • 自我监督学习研究:
  • transformer物体检测的兴起:变换器越来越常见,因为它们能捕捉图像中的远距离关系,让模型更好地理解上下文并提高检测精度。
  • 集成光探测与测距(LiDAR)技术,实现更丰富的三维感知:将激光雷达与基于摄像头的物体检测相结合,可提供精确的深度信息,增强导航、机器人和自动驾驶等应用的三维感知能力。

主要要点

物体检测已经远远超越了基本的图像识别,现在已被用于支持能够实时做出决策的智能系统。展望未来,未来的模型可能会实现更高的准确性和对上下文更深入的理解,从而使视觉人工智能在各行各业变得更加可靠和通用。随着这些技术的不断进步,它们将塑造新一代更智能、更自适应的计算机视觉系统。

想了解更多信息?加入我们的社区,访问GitHub 存储库,与人工智能领域的其他人士交流。访问我们的机器人人工智能农业计算机视觉解决方案页面,探索我们的许可选项,立即开始使用视觉人工智能。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始