利用 Ultralytics YOLO 模型改进碰撞预测
了解来自 Ultralytics YOLO 模型的洞察如何帮助碰撞预测系统在动态环境中做出更安全、更快速的决策。

即使你在路上小心驾驶,事故仍可能发生。汽车突然变道、行人违章横穿马路,或是骑行者毫无预警地加速,这些日常生活中的瞬间,正是碰撞预测系统大显身手并保障每个人安全的关键时刻。
此前,我们探讨了球体轨迹预测,并了解到预测高速运动球体的路径如何帮助体育分析了解运动趋势并预判接下来的动作。碰撞预测的工作原理与之类似。
这些预测系统本质上是在洞察未来。通过观察车辆和行人的移动方式,它们能够在危险发生前(这也被称为运动规划或路径规划)及时捕捉风险,并调整自身的路径或行为。
碰撞预测系统背后的核心计算机科学技术是人工智能及其细分领域,例如计算机视觉和帮助预测物体移动方式的预测方法。例如,像Ultralytics YOLO11和即将推出的Ultralytics YOLO26这样的计算机视觉模型,可以实时检测并跟踪车辆和行人等对象,而预测模型则利用这些见解来预估它们的下一步动向。

图 1. YOLO11 用于检测路面物体的示例 (来源)。
其结果是一个能够理解周边情况,并在动态环境中支持更智能决策的 AI 系统。在本文中,我们将探索碰撞预测的工作原理、其背后的方法,以及计算机视觉和 Ultralytics YOLO 模型在其中发挥的作用。让我们开始吧!
Link to this section什么是碰撞预测?#
碰撞预测是 AI 系统理解物体移动方式并预判它们何时可能靠得过近或发生接触的能力。不同的系统可以通过多种方式利用这些信息,包括支持安全功能、运动优化或协调共享空间中的行动。
无论是在高速公路上的汽车、仓库通道里的叉车,还是过马路的行人,只要物体在共享空间中移动,碰撞预测就能帮助系统理解这些交互可能如何演变。在安全优先的应用中,这种预见性可用于降低风险;而在其他场景中,它则能支持路线规划、时序安排或协同运动等任务。
例如,在许多配备高级驾驶辅助系统(即 ADAS)的新款车辆中,摄像头和传感器会监测前方道路并估算车辆接近附近物体的速度。如果系统检测到情况可能变得不安全,它会提醒驾驶员,在某些情况下,自动刹车功能可能有助于减少碰撞影响。
Link to this section探索碰撞预测的四个阶段#
碰撞预测涉及一个协调过程,其中不同的 AI 组件协同工作以识别物体、跟踪其移动并估算接下来可能发生的情况。这些系统通常通过四个相连的阶段运行:目标检测、目标跟踪、轨迹预测,最后是碰撞预测,每个阶段都建立在前一阶段的准确性之上。
接下来,让我们仔细看看每个阶段的工作原理。
Link to this section深入了解目标检测#
目标检测是一项核心的计算机视觉任务,视觉 AI 模型通过它来识别并定位图像或视频帧中的物体。通过分析像素数据,目标检测模型可以产生三个主要输出:边界框(BBox)、对象类别和置信度分数。边界框显示物体的位置,对象类别指明它是什么(如汽车、行人或骑行者),而置信度分数反映了模型对预测的确定程度。
像 YOLO11 和 YOLO26 这样的视觉 AI 模型建立在这一基础之上,并支持多项相关任务,包括目标检测、目标跟踪和定向边界框 (OBB) 检测。目标检测可以告诉预测系统每一帧中有什么,跟踪则在物体移动时持续追踪它们,而定向边界框为以不同角度出现的物体提供了更精确的形状描述。
在此阶段,碰撞预测系统纯粹专注于理解视觉数据中存在什么。它构成了后续所有步骤所依赖的基础信息层,但尚不考虑物体将如何移动或相互作用。
Link to this section目标跟踪概览#
一旦检测到目标,下一步就是在不同帧之间跟踪它们,以便系统理解它们随时间的移动方式。虽然检测提供了每一帧新的边界框,但目标跟踪通过随着时间推移关联这些检测结果,增加了连贯性。
由 Ultralytics Python 软件包支持的跟踪算法(如 ByteTrack 或 BoT-SORT)与 YOLO11 等模型配合使用,利用每一帧的检测数据来跟随移动中的物体。这些算法为每个对象分配一个唯一 ID,并利用它来保持身份识别,即使在物体快速移动或部分遮挡的情况下也是如此。这创建了一个捕捉物体移动方式的流畅跟踪历史记录。

图 2. 使用 YOLO 为不同检测结果分配唯一 ID 的示意图 (来源)
以下是这两种跟踪方法工作原理的简要介绍:
- ByteTrack: 它同时利用高置信度和低置信度的检测结果来保持一致的对象 ID,并辅以来自卡尔曼滤波的运动预测,帮助跟踪器在物体快速移动或短暂难以检测时保持稳定。
- BoT-SORT: 该算法通过结合卡尔曼滤波运动预测和外观线索对 SORT 进行了扩展,使跟踪器能够在拥挤场景或部分遮挡情况下更可靠地跟踪对象。
为了衡量这些跟踪方法的表现,研究人员会在既定的多目标跟踪 (MOT) 数据集和基准上对其进行评估。此外,常用的指标包括多目标跟踪准确度 (MOTA),它反映了整体跟踪质量;识别 F1 分数 (IDF1),衡量对象身份保持的一致性;以及高阶跟踪准确度 (HOTA),它提供了检测性能和关联准确度之间平衡的视角。
Link to this section理解轨迹预测#
在跨多帧跟踪对象后,下一步是预测它接下来的去向。这就是所谓的轨迹预测。如果说检测是为了找到物体,跟踪是为了跟随它们的移动,那么预测则是展望未来并估算它们的未来位置。
来自检测和跟踪的信息(如对象的边界框、跨帧位置和分配的 ID)可用于计算速度、方向和运动模式等运动特征。这些派生出的洞见为预测模型提供了所需的数据,以估算对象在未来几秒内可能所处的位置。
如果跟踪数据中存在空隙或突变,插值技术有助于重建更平滑、更连贯的轨迹。这确保了预测模型接收到的是高质量的运动输入,而不是嘈杂或不完整的位置数据。

图 3. 汽车轨迹预测的可视化。(来源)
为了做出这些预测,许多系统依赖于旨在理解对象运动随时间变化的深度学习模型。通过分析过往位置序列以及从中导出的运动特征,这些模型可以学习常见的移动模式,并利用该知识来预测未来路径。
以下是一些常用的轨迹预测深度学习和机器学习方法:
-
循环神经网络 (RNN): RNN 是专为处理序列(如一系列视频帧)而设计的深度学习模型。它们可以记忆先前的位置,并利用这些信息来理解对象的移动方式。这有助于系统识别简单的运动模式,如加速、减速或直线移动。
-
长短期记忆网络 (LSTM): LSTM 是一种更高级的 RNN,能够更长时间地记忆信息。这使它们能够捕捉更复杂的运动,例如车辆准备转弯或行人改变方向。因为它们能够跟踪更长期的趋势,所以在繁忙环境中往往能产生更可靠的预测。
-
Transformer: Transformer 处理完整的运动序列,并使用注意力机制专注于这些序列中最重要的细节。这使得它们在多个对象交互的场景中特别有效,例如车辆汇入或行人过马路。
这些模型可以预测短期和长期路径。短期预测(通常在两秒以内)往往最准确,而针对两到六秒等更长窗口的预测则提供了更多的前瞻性,但也伴随着更大的不确定性。
Link to this section综合分析:碰撞检测算法#
在最后阶段,即碰撞预测中,系统会利用迄今为止学到的一切:对象是什么(检测)、它如何移动(跟踪)以及它下一步可能去哪里(预测)。这一步会检查任何预测的路径是否会以可能导致碰撞的方式交叉。

图 4. 碰撞预测系统的工作原理 (来源)
在自动驾驶车辆的情况下,碰撞检查系统会比较汽车、行人和骑行者等附近对象的未来轨迹。如果两条预测路径重叠或靠得过近,系统就会将该情况标记为潜在的车辆碰撞。为了了解碰撞风险的紧迫程度,系统还会计算一个称为碰撞时间 (TTC) 的值。
碰撞时间 (TTC) 是高速环境中的关键测量指标。它估算的是如果两个对象继续以当前速度和方向移动,距离发生碰撞还剩多少时间。当 TTC 降至特定阈值以下时,系统可以通过发出警告、刹车或调整规划路径来做出响应。
Link to this section碰撞预测的实际应用#
碰撞预测在交通管理、智慧城市基础设施、工业自动化和移动机器人等许多行业中正变得至关重要。随着最先进的计算机视觉和预测模型的不断进步,这些系统预判运动的能力也越来越强。
既然我们已经对碰撞预测和轨迹预测的工作原理有了更好的理解,让我们来看看一些有趣的研究,它们展示了这些方法如何在各种现实环境中得到应用。
Link to this sectionYOLO 驱动的紧急自动驾驶车辆碰撞预测#
在拥挤、不可预测的环境中行驶是自动驾驶系统面临的最艰巨挑战之一,特别是当行人的移动方式没有明确规律时。紧急救援车辆面临的问题更为严重,因为它们需要穿过密集的人群并在高时速下快速移动,而无法依赖结构化的道路、车道标记或可预测的行人行为。
在这些场景中,了解人们的位置以及他们在未来几秒内可能如何移动,对于避免事故至关重要。例如,一项近期研究通过为在行人密集环境中运行的紧急自动驾驶车辆 (EAV) 构建完整的碰撞预测流水线探讨了这一挑战。
Link to this sectionYOLO 驱动的碰撞预测流水线如何工作#
以下是该方法的工作流程一览:
- 使用 YOLO 进行行人检测: 基于 YOLO 的检测器在每个摄像头画面中识别行人,并输出每个可见人物的边界框。
- 使用 ByteTrack 进行运动跟踪: ByteTrack 算法将不同帧之间的这些检测结果关联起来,为每位行人提供一致的 ID,并创建显示他们随时间移动方式的运动历史记录。
- 现实世界位置估计: 逆透视映射 (IPM) 将 2D 像素坐标转换为近似的地面平面坐标,帮助系统理解行人相对于车辆在现实空间中的位置。
- 使用 cGAN 生成鸟瞰图: 条件生成对抗网络 (cGAN) 是一种将一种图像格式转换为另一种格式的 AI 模型,它能生成场景的鸟瞰图表示。这种自上而下的布局使得解读行人位置及其周边环境变得更容易。
- 使用 LSTM 模型进行轨迹预测: 利用每位行人的过去位置和运动模式,LSTM 模型预测他们未来几秒内可能移动到哪里。
- 使用碰撞锥进行高效碰撞检测: 利用碰撞锥方法比较预测的轨迹,以确定车辆和任何行人是否处于即将碰撞的路径上。
- 通过信号提醒避免碰撞: 如果系统预测到碰撞,它会在最佳时机激活听觉信号(如喇叭或铃声)。选择这个时机是为了影响行人的行为,让他们有机会加速或减速并确保安全。
Link to this section利用边缘视觉和 YOLO 保障城市行人安全#
同样,另一种碰撞预防方法不仅关注车辆,还将目光投向基础设施本身。这种方法不依赖车内传感器,而是利用安装在斑马线和十字路口处的智能摄像头实时监测行人与车辆的移动。这些地点的状况通常不可预测:人们可能突然冲进马路,骑行者可能穿梭于车流中,而驾驶员未必总能减速,因此尽早检测风险至关重要。
一项有趣的研究通过一个名为 NAVIBox 的系统探索了这一构想,这是一款旨在直接在路口预测车人风险的边缘视觉设备。该系统使用 Ultralytics YOLOv8 模型来检测行人和车辆,并使用轻量级的质心跟踪器在帧间跟随它们。这创建了简短、可靠的运动历史记录,随后通过透视变换对这些记录进行修正,将倾斜的 CCTV 视角转换为更清晰的道路鸟瞰布局。
通过这些修正后的轨迹,NAVIBox 可以估算道路使用者在未来几秒内的移动趋势,并检查它们的路径是否可能交叉(也称为交叉测试)。当系统检测到风险交互时,它会立即通过显示器为驾驶员发送警告,或通过扬声器提醒行人,而无需依赖远程服务器或网络连接。在真实城市地点的测试表明,NAVIBox 的运行速度足以实现真正的实时响应,并能准确识别潜在的碰撞场景,使其成为繁忙城市路口的一种实用安全工具。

图 5. 预测车辆与行人之间的碰撞风险。(来源)
Link to this section碰撞检测与预测的优缺点#
以下是使用 AI 预测性碰撞系统的一些优势:
-
提高态势感知能力: AI 系统持续绘制环境中物体的移动方式,提供对大规模人群流动、交通行为或机器路径更深入的理解。
-
为长期规划提供数据驱动的洞见: 通过记录检测结果、险情和移动模式,AI 系统可以提供城市规划者、安全团队和车队运营商能够用于重新设计路口、改善标识或优化运营政策的分析数据。
-
高性价比的风险预防: 通过在风险升级前进行检测,这些系统使得避免昂贵的事故、保险索赔或设备维修成为可能。
尽管有诸多好处,但无碰撞系统也面临某些局限性。以下是一些需要考虑的挑战:
- 传感器和摄像头放置限制: 位置不当或角度不佳的摄像头可能会扭曲物体大小或距离,从而使深度估计和轨迹预测不够可靠。
- 遮挡: 物体可能会被其他物体部分或完全遮挡。这会使目标跟踪变得困难,因为模型会丢失视觉连贯性。
- 环境条件: 光线昏暗、强烈阳光、雨、雾或摄像头质量差可能会降低模型清晰观察场景的能力,进而影响准确性。
Link to this section关键要点#
碰撞预测汇集了两种强大的能力:计算机视觉(让系统了解当前环境中正在发生什么)和轨迹预测(帮助系统预判接下来可能发生什么)。
通过结合这些优势,机器能够实时检测移动物体,并预测这些物体在未来几秒内可能如何相互作用。随着计算机视觉和预测技术的不断演进,碰撞预测很可能成为构建更安全、更可靠且可扩展的自动驾驶系统的关键。
查看我们的 社区 和 GitHub 仓库 以了解更多关于 AI 的信息。探索我们解决方案页面上的 医疗健康 AI 和 制造业计算机视觉 等应用。了解我们的 许可选项 并立即开始构建吧!






