深圳Yolo 视觉
深圳
立即加入

利用Ultralytics YOLO 模型改进碰撞预测

Abirami Vina

6 分钟阅读

2025 年 11 月 27 日

了解Ultralytics YOLO 模型如何帮助碰撞预测系统在动态环境中更安全、更快速地做出决策。

尽管在路上小心翼翼,但事故仍有可能发生。汽车变道、行人乱穿马路或骑车人在毫无征兆的情况下加速。这些日常瞬间就是碰撞预测系统发挥真正作用的例子,有助于确保每个人的安全。

在此之前,我们研究了球的轨迹预测,了解了预测快速移动球的轨迹如何帮助体育分析了解运动情况并预测接下来会发生什么。碰撞预测的工作原理与此类似。 

这些预测系统基本上可以预见未来。通过观察车辆和行人的移动方式,它们可以及早发现风险,并在事情出现危险转折之前(也称为运动规划或路径规划)调整自己的路径或行为。

碰撞预测系统背后的关键计算机科学技术是人工智能及其子领域,如计算机视觉和预测方法,它们有助于预测事物的运动方式。例如,计算机视觉模型 Ultralytics YOLO11和即将推出的Ultralytics YOLO26等计算机视觉模型可用于实时detect 和track 车辆和行人等物体,而预测模型则利用这些洞察力来估计它们的下一步行动。

图 1.YOLO11 用于detect 道路上物体的示例(资料来源)。

其结果是,人工智能系统能够了解周围发生的一切,并支持在动态环境中做出更明智的决策。在本文中,我们将探讨碰撞预测的工作原理、背后的方法以及计算机视觉和Ultralytics YOLO 模型在这一过程中可以发挥的作用。让我们开始吧!

什么是碰撞预测?

碰撞预测是指人工智能系统能够了解物体的运动方式,并预测它们何时可能非常接近或发生接触。不同的系统可以通过多种方式使用这些信息,包括支持安全功能、优化运动或协调共享空间中的行动。

无论是高速公路上的汽车、仓库过道中的叉车,还是横穿马路的行人,只要物体在共享空间中移动,碰撞预测就能帮助系统了解这些互动可能如何展开。在以安全为重点的应用中,这种预见可用于降低风险,而在其他环境中,它可以为路线规划、计时或协调移动等任务提供支持。

例如,在许多配备高级驾驶辅助系统(ADAS)的新型车辆中,摄像头和传感器会监控前方道路,并估算汽车接近附近物体的速度。如果系统检测到情况可能变得不安全,就会向驾驶员发出警报,在某些情况下,自动制动可能有助于减少撞击。

探索碰撞预测的四个阶段

碰撞预测涉及一个协调的过程,在这个过程中,不同的人工智能组件协同工作,以识别物体、跟踪物体运动并预测下一步可能发生的情况。这些系统通常经历四个相互关联的阶段:物体检测、物体跟踪、轨迹预测和碰撞预测,每个阶段都建立在前一个阶段的准确性基础之上。 

接下来,让我们来详细了解每个阶段的工作原理。

物体检测

物体检测是视觉人工智能模型识别和定位图像或视频帧中物体的一项核心计算机视觉任务。通过分析像素数据,物体检测模型可以产生三种主要输出结果:边框、物体类别和置信度分数。边界框显示物体的位置,物体类别表示物体是什么,如汽车、行人或骑自行车的人,而置信度分数则反映了模型对预测的确定程度。

YOLO11 和 YOLO26 等视觉人工智能模型以此为基础,支持多项相关任务,包括物体检测、物体跟踪和定向边框旋转框检测。物体检测可以告诉预测系统每一帧中有哪些物体,跟踪系统可以在这些物体移动时对其进行跟踪,而定向边界框可以为不同角度出现的物体提供更精确的形状。 

在这一阶段,碰撞预测系统只专注于理解视觉数据中的内容。它构成了所有后续步骤所依赖的基础信息层,但尚未考虑物体将如何移动或互动。

物体跟踪概述

一旦检测到物体,下一步就是跨帧track ,这样系统就能了解物体是如何随时间移动的。每一帧的检测都会提供新的边界框,而物体追踪则通过将这些检测连接起来,增加了连续性。

Ultralytics Python 软件包支持的跟踪算法(如 ByteTrack 或 BoT-SORT)可与YOLO11 等模型配合使用,利用每帧的检测数据来跟踪移动中的物体。这些算法会为每个物体分配一个唯一的 ID,即使物体快速移动或部分隐藏时,也会使用它来保持该身份。这样就能创建一个平滑的跟踪历史,捕捉物体的移动过程。 

图 2.使用YOLO 为不同探测器分配唯一 ID 的情况(资料来源)

下面简要介绍这两种跟踪方法的工作原理:

  • ByteTrack: 它利用高置信度和低置信度检测来保持一致的物体 ID,并通过卡尔曼滤波器进行运动预测,帮助跟踪器在物体快速移动或短暂难以detect时保持稳定。

  • BoT-SORT: 该算法将卡尔曼滤波器运动预测与外观线索相结合,从而扩展了 SORT 算法,使跟踪器在拥挤的场景中或部分遮挡时能更可靠地跟踪物体。

为了衡量这些跟踪方法的性能如何,研究人员在已建立的多目标跟踪(MOT)数据集和基准上对其进行评估。此外,常用的指标还包括反映整体跟踪质量的多目标跟踪准确度(MOTA)、衡量物体身份保持一致性的识别 F1 分数(IDF1),以及平衡检测性能和关联准确度的高阶跟踪准确度(HOTA)。

了解轨迹预测

在对一个物体进行多帧跟踪后,下一步就是预测它的下一个运动轨迹。这就是所谓的轨迹预测。检测是发现物体,跟踪是跟踪物体如何移动,而预测则是展望未来,估计物体的未来位置。 

从检测和跟踪中获得的信息,如物体的边界框、跨帧位置和指定 ID,可用于计算运动特征,如速度、方向和运动模式。这些推导出的洞察力为预测模型提供了所需的数据,使其能够估计出物体在未来几秒内可能出现的位置。

在跟踪数据包含间隙或突然跳变的情况下,插值技术有助于重建更平滑、更一致的轨迹。这可确保预测模型接收到高质量的运动输入,而不是嘈杂或不完整的位置数据。

图 3.预测汽车轨迹的可视化图(资料来源)

为了进行这些预测,许多系统都依赖于深度学习模型,这些模型旨在了解物体的运动是如何随时间发生变化的。通过分析过去的位置序列和从中得出的运动特征,这些模型可以学习常见的运动模式,并利用这些知识预测未来的运动轨迹。 

以下是一些常用的轨迹预测深度学习和机器学习方法:

  • 递归神经网络 (RNN):RNN 是一种深度学习模型,设计用于处理序列,如一系列视频帧。它们可以记忆之前的位置,并利用这些信息来理解物体的运动方式。这有助于系统识别简单的运动模式,如加速、减速或直线运动。
  • 长短期记忆网络 (LSTM):LSTM 是一种更先进的 RNN,可以记忆更长时间的信息。这使它们能够捕捉到更复杂的运动,例如准备转弯的车辆或改变方向的行人。由于它们能track 更长的趋势,因此在繁忙的环境中往往能做出更可靠的预测。
  • 变形金刚:变形金刚:变形金刚》处理完整的运动序列,并利用注意力集中在这些序列中最重要的细节上。这使得它们在多个物体相互作用的场景中特别有效,如汽车并线或行人过马路。

这些模型可以预测短期和长期路径。通常在两秒以内的短期预测往往最为准确,而两到六秒等较长时间窗口的预测则更具前瞻性,但不确定性也更大。

将一切融为一体:碰撞检测算法

在最后阶段,即碰撞预测阶段,系统会使用迄今为止所学到的所有知识:每个物体是什么(检测)、如何移动(跟踪)以及下一步可能去哪里(预测)。这一步会检查预测路径中是否有可能导致碰撞的交叉点。

图 4.碰撞预测系统的工作原理(资料来源)

对于自动驾驶汽车,碰撞检查系统会比较附近物体(如汽车、行人和骑自行车者)的未来轨迹。如果两条预测路径重叠或非常接近,系统就会将这种情况标记为潜在的车辆碰撞。为了了解碰撞风险的紧迫性,系统还会计算一个称为 "碰撞时间 "的值。

碰撞时间(TTC)是快速移动环境中的一项关键测量指标。它可以估算出两个物体以当前速度和方向继续行驶时,还有多少时间会发生碰撞。当 TTC 下降到某个阈值以下时,系统可以通过发出警告、踩刹车或调整计划路径来做出反应。

碰撞预测的实际应用

碰撞预测在许多行业都变得至关重要,包括交通管理、智能城市基础设施、工业自动化和移动机器人。随着最先进的计算机视觉和预测模型的不断进步,这些系统预测运动的能力也越来越强。

既然我们已经对碰撞预测和轨迹预测的工作原理有了更好的了解,下面就让我们来看看一些有趣的研究,看看这些方法是如何在各种实际环境中使用的。

为紧急自动驾驶车辆提供由YOLO碰撞预测功能

在拥挤、不可预测的环境中导航是自动驾驶系统面临的最严峻挑战之一,尤其是当行人的行动方式并不遵循清晰的模式时。紧急救援车辆更经常面临这个问题,因为它们需要在密集的公共场所高速行驶,而不依赖于结构化道路、车道标记或可预测的行人行为。 

在这类场景中,了解行人的位置以及他们在接下来的几秒钟内可能会如何移动,对于避免事故至关重要。例如,最近的一项研究通过为在行人众多的环境中运行的紧急自动驾驶汽车(EAV)建立一个完整的碰撞预测管道,对这一挑战进行了探索。 

YOLO碰撞预测管道如何工作

下面我们就来看看这种方法是如何运作的:

  • 使用YOLO 检测行人: YOLO 的检测器可识别每个相机帧中的行人,并为每个可见人物输出边界框。
  • 使用 ByteTrack 进行运动跟踪: ByteTrack 算法将这些检测结果在各帧之间建立联系,为每个行人提供一致的 ID,并创建运动历史记录,显示行人在一段时间内的移动情况。
  • 真实世界位置估计: 反透视映射 (IPM) 可将二维像素坐标转换为近似地平面位置,帮助系统了解行人在现实世界空间中相对于车辆的位置。
  • 使用 cGAN 生成鸟瞰图: 条件 GAN 是一种将一种图像格式转换为另一种图像格式的人工智能模型,可创建场景的鸟瞰图。这种自上而下的布局更容易解读行人位置及其周围环境。
  • 使用 LSTM 模型预测轨迹:
  • 使用碰撞锥进行高效碰撞检测: 使用碰撞锥方法对预测轨迹进行比较,确定车辆和行人的路径是否相交。
  • 通过信号避免碰撞: 如果系统预测到会发生碰撞,就会在最佳时机启动听觉信号(如喇叭或铃声)。选择这个时机是为了影响行人的行为,让他们有机会加快或减慢速度,到达安全地带。

利用边缘视觉和YOLO确保城市行人安全

同样,另一种预防碰撞的方法也不局限于车辆,而是关注基础设施本身。这种方法不依赖车内的传感器,而是利用安装在人行横道和十字路口的智能摄像头,实时监控行人和车辆的移动情况。这些地点往往是不可预测的;人们可能会突然踏上马路,骑自行车的人可能会在车流中穿梭,而司机也不一定会减速,因此及早发现风险至关重要。

一项有趣的研究通过一个名为 "NAVIBox"的系统探讨了这一想法,该系统是一个边缘视觉装置,旨在直接在交叉路口预测车辆与行人之间的风险。该系统使用 Ultralytics YOLOv8模型来detect 行人和车辆,并使用轻量级中心点跟踪器对其进行跨帧跟踪。这样就形成了简短、可靠的运动历史记录,然后利用透视变换对其进行完善,将倾斜的闭路电视视图转换为更清晰的道路鸟瞰布局。

有了这些细化的轨迹,NAVIBox 就能估算出道路使用者在接下来几秒钟内可能的移动方式,并检查他们的路径是否可能相交(也称为交叉路口测试)。当系统检测到有风险的交互时,它会立即通过显示器向驾驶员发出警告,并通过扬声器向行人发出警告,而无需依赖远程服务器或网络连接。在实际城市地点进行的测试表明,NAVIBox 的运行速度足以实现真正的实时响应,并能准确识别潜在的碰撞情况,使其成为繁忙城市十字路口的实用安全工具。

图 5.预测车辆与行人发生碰撞的风险。(资料来源)

碰撞检测和预测的利弊

以下是使用人工智能预测碰撞系统的一些优势:

  • 提高态势感知能力: 人工智能系统可持续绘制物体在环境中的移动方式,从而提供对大规模人群流动、交通行为或机器路径的更丰富理解。
  • 数据驱动的长期规划见解:通过记录检测、险情和移动模式,人工智能系统可提供分析结果,城市规划者、安全团队和车队运营商可利用这些结果重新设计交叉路口、改进标识或完善运营政策。
  • 具有成本效益的风险预防:这些系统可以在风险升级之前就发现风险,从而避免代价高昂的事故、保险索赔或设备维修。

尽管无碰撞系统有很多优点,但它也面临着一些限制。以下是一些需要考虑的挑战:

  • 传感器和摄像头位置限制: 位置不佳或角度不对的摄像头会扭曲物体大小或距离,从而降低深度估计和轨迹预测的可靠性。
  • 遮挡:物体可能部分或全部隐藏在其他物体后面。这使得物体追踪变得困难,因为模型失去了视觉连续性。
  • 环境条件:光线不足、阳光刺眼、下雨、起雾或相机质量差都会降低模型看清场景的能力,从而影响精确度。

主要要点

碰撞预测汇集了两种强大的能力:计算机视觉和轨迹预测。前者可以让系统了解环境中正在发生的事情,后者则可以帮助系统预测接下来可能发生的事情。 

结合这些优势,机器可以实时detect 移动物体,并预测这些物体在未来几秒内可能发生的相互作用。随着计算机视觉和预测技术的不断发展,碰撞预测很可能成为构建更安全、更可靠和可扩展的自主系统的关键。

查看我们的社区GitHub 存储库,了解有关人工智能的更多信息。在我们的解决方案页面探索人工智能在医疗保健制造业中的应用。了解我们的许可选项,立即开始构建!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始