Ultralytics YOLO衝突予測の改善

道路では気をつけていても、事故は起こりうる。車が車線を変更したり、歩行者が信号無視をしたり、自転車が警告なしにスピードを上げたり。このような日常的な瞬間こそ、衝突予測システムが真の違いを生み出し、すべての人の安全を守る一助となる例なのです。

前回は、ボールの軌道予測について見てきたが、動きの速いボールの軌道を予測することで、スポーツ分析がいかに動きを理解し、次に何が起こるかを予測するのに役立つかを見てきた。衝突予測もこれと同じように機能する。

これらの予測システムは、基本的に未来を見通すものである。車両や歩行者の動きを観察することで、危険を早期に察知し、物事が危険な方向に進む前に（モーション・プランニングやパス・プランニングと呼ばれる）進路や行動を調整することができる。

衝突予測システムを支える重要なコンピューターサイエンス技術は、コンピュータービジョンや物体の動きを予測する予測手法などの人工知能とそのサブ分野である。例えば Ultralytics YOLO11や今後発表されるUltralytics YOLO26のようなコンピュータビジョンモデルは、車両や歩行者のような物体をリアルタイムでdetect ・track するために使用することができ、予測モデルはそれらの洞察を使用して次の動きを推定します。

‍

その結果、周囲で起きていることを理解し、ダイナミックな環境でのよりスマートな意思決定をサポートするAIシステムが誕生する。この記事では、衝突予測がどのように機能するのか、その背後にある方法、そしてコンピュータビジョンとUltralytics YOLO モデルがこのプロセスで果たす役割について探ります。さっそく始めましょう！

衝突予測とは？

衝突予測とは、AIシステムが物体の動きを理解し、物体が接近したり接触したりするタイミングを予測する能力のことである。さまざまなシステムが、安全機能のサポート、動きの最適化、共有スペースでの行動の調整など、さまざまな方法でこの情報を利用することができる。

高速道路を走る自動車、倉庫の通路を走るフォークリフト、道路を横断する歩行者など、物体が共有空間を移動するあらゆる場所で、衝突予測はシステムがこれらの相互作用がどのように展開するかを理解するのに役立ちます。安全性に重点を置いたアプリケーションでは、この先見性を利用してリスクを低減することができ、その他の環境では、ルート計画、タイミング、協調動作などのタスクをサポートすることができる。

例えば、先進運転支援システム（ADAS）を搭載した多くの新型車では、カメラとセンサーが前方の道路を監視し、車が近くの物体に接近する速度を推定する。システムが危険な状況を検知するとドライバーに警告を発し、場合によっては自動ブレーキが衝撃を緩和する。

衝突予測の4つの段階を探る

衝突予測には、さまざまなAIコンポーネントが連携して物体を識別し、その動きを追跡し、次に何が起こるかを予測するプロセスが含まれます。これらのシステムは通常、物体検出、物体追跡、軌道予測、そして衝突予測の4つの段階を経て動作し、各段階はその前の段階の精度の上に成り立っている。

次に、各ステージがどのように機能するかを詳しく見てみよう。

物体検出

物体検出は、Vision AIモデルが画像やビデオフレーム内の物体を識別して位置を特定する、コンピュータビジョンの中核タスクである。ピクセルデータを分析することで、物体検出モデルはバウンディングボックス、物体クラス、信頼度スコアの3つの主な出力を生成することができます。バウンディングボックスは物体がどこにあるかを示し、物体クラスはそれが何であるかを示します（車、歩行者、自転車など）。

YOLO11 YOLO26のようなビジョンAIモデルは、この基礎の上に構築され、オブジェクト検出、オブジェクト追跡、およびオリエンテッドバウンディングボックス（OBB）検出を含む、いくつかの関連するタスクをサポートしています。オブジェクト検出は、各フレームに何があるのかを予測システムに伝えることができ、トラッキングはオブジェクトが移動するのを追跡し、オリエンテッドバウンディングボックスは、異なる角度で現れるオブジェクトに対してより正確な形状を提供する。

この段階では、衝突予測システムは純粋に視覚データに何が存在するのかを理解することに重点を置いている。これは、後のすべてのステップが依存する情報のベースレイヤーを形成するが、オブジェクトがどのように移動し、相互作用するかはまだ考慮されていない。

物体追跡の概要

オブジェクトが検出されると、次のステップは、システムがオブジェクトの時間的な動きを理解できるように、フレーム間でオブジェクトをtrack することです。検出が毎フレーム新しいバウンディングボックスを提供するのに対して、オブジェクトのトラッキングは、それらの検出を時間的にリンクさせることで連続性を加えます。

ByteTrackやBoT-SORTなど、Ultralytics Python パッケージでサポートされているトラッキングアルゴリズムは、YOLO11 ようなモデルで動作し、各フレームの検出データを使用して、オブジェクトが移動するのを追跡します。これらのアルゴリズムは、各オブジェクトにユニークなIDを割り当て、オブジェクトが素早く動いたり、部分的に隠れたりしても、そのIDを維持するために使用します。これにより、物体がどのように動くかを捉えたスムーズなトラッキング履歴が作成される。

‍

この2つの追跡方法がどのように機能するのか、簡単に紹介しよう：

バイトトラック： 高信頼度検出と低信頼度検出の両方を使用して一貫したオブジェクトIDを維持し、カルマンフィルターによる動き予測によって、オブジェクトが素早く動いたり、短時間でdetectにくい場合でもトラッカーが安定した状態を保つことができます。
BoT-SORT： このアルゴリズムは、カルマンフィルターの動き予測と外観の手がかりを組み合わせることでSORTを拡張し、混雑したシーンや部分的なオクルージョンの際に、トラッカーがより確実に物体を追跡できるようにする。

これらのトラッキングメソッドの性能を測定するために、研究者は確立されたマルチオブジェクトトラッキング（MOT）データセットやベンチマークで評価します。また、一般的に使用されるメトリクスには、全体的なトラッキング品質を反映する複数オブジェクトトラッキング精度（MOTA）、オブジェクトの同一性がどれだけ一貫して維持されているかを測定する識別F1スコア（IDF1）、検出性能と関連付け精度の両方をバランスよく提供する高次トラッキング精度（HOTA）などがあります。

軌道予測を理解する

複数のフレームにわたって物体を追跡した後、次のステップは物体が次にどこへ行くかを予測することである。これは軌跡予測として知られている。検出が物体を見つけ、追跡がその動きを追うのに対し、予測は先を見て将来の位置を推定する。

オブジェクトのバウンディングボックス、フレーム間の位置、割り当てられたIDなどの検出とトラッキングからの情報は、速度、方向、動きのパターンなどの動きの特徴を計算するために使用することができます。これらの導き出された洞察は、予測モデルに、物体が次の数秒間にどこにいる可能性が高いかを推定するために必要なデータを与えます。

トラッキングデータにギャップや急激なジャンプが含まれる場合、補間技術はよりスムーズで一貫性のある軌道を再構築するのに役立ちます。これにより、予測モデルはノイズの多い不完全な位置データではなく、高品質のモーション入力を受け取ることができます。

‍

このような予測を行うために、多くのシステムは、物体の動きが時間とともにどのように変化するかを理解するように設計されたディープラーニングモデルに依存している。過去の位置のシーケンスと、そこから得られる動きの特徴を分析することで、これらのモデルは一般的な動きのパターンを学習し、その知識を使って将来の経路を予測する。

ここでは、軌道予測のためによく使われるディープラーニングと機械学習のアプローチをいくつか紹介する：

リカレント・ニューラル・ネットワーク（RNN）：RNNは、一連のビデオフレームなどのシーケンスを扱うように設計されたディープラーニングモデルである。RNNは以前の位置を記憶し、その情報を使って物体の動きを理解することができる。これにより、スピードアップ、スローダウン、直線移動といった単純な動きのパターンを認識することができる。

長期短期記憶ネットワーク (LSTM）：LSTMはより高度なRNNの一種で、より長い時間情報を記憶することができる。そのため、車両が曲がる準備をしたり、歩行者が方向を変えたりするなど、より複雑な動きを捉えることができる。より長いトレンドをtrack できるため、混雑した環境ではより信頼性の高い予測を行うことができる。

トランスフォーマー:トランスフォーマー』は、フルモーションシークエンスを処理し、これらのシークエンスの最も重要な細部に焦点を当てるためにアテンションを使用します。そのため、車の合流や歩行者の横断など、複数の物体が相互作用するシーンで特に効果を発揮する。

これらのモデルは、短期的な進路と長期的な進路の両方を予測することができる。通常2秒以内の短期予測は最も正確である傾向があり、2秒から6秒のような長いウィンドウでの予測は、より多くの先見性を提供するが、より大きな不確実性を伴う。

すべてをひとつに：衝突検知アルゴリズム

最終段階である衝突予測では、システムはこれまでに学習したすべてを使用する。各オブジェクトが何であるか（検出）、どのように移動したか（追跡）、次にどこに行きそうか（予測）。このステップでは、予測された経路のいずれかが、衝突につながりかねない形で交差していないかどうかをチェックする。

‍

自律走行車の場合、衝突チェックシステムは、自動車、歩行者、自転車などの近くの物体の将来の軌道を比較する。予測された2つの軌道が重なったり、危険なほど接近したりすると、車両衝突の可能性があると判断される。衝突の危険性がどの程度緊急性の高いものかを理解するため、システムは衝突までの時間（time-to-collision）として知られる値も計算する。

衝突までの時間（TTC）は、高速で移動する環境における重要な測定である。これは、2つの物体が現在の速度と方向で進んだ場合に衝突するまでの残り時間を推定するものである。TTCがある閾値を下回ると、システムは警告を発したり、ブレーキをかけたり、計画した進路を調整したりして対応することができる。

衝突予測の実世界での応用

衝突予測は、交通管理、スマートシティインフラ、産業オートメーション、モバイルロボットなど、多くの産業で極めて重要になってきている。最先端のコンピュータ・ビジョンと予測モデルが進歩し続けるにつれて、これらのシステムは動きを予測する能力を高めている。

さて、衝突予測や軌道予測がどのように機能するのかについて理解を深めたところで、これらの手法がさまざまな実世界環境でどのように利用できるかを紹介する興味深い研究を見てみよう。

YOLO緊急自律走行車の衝突予測

混雑した予測不可能な環境をナビゲートすることは、自律システムにとって最も難しい課題のひとつである。緊急車両は、構造化された道路や車線標示、予測可能な歩行者の行動に頼ることなく、密集した公共空間を高速で素早く移動する必要があるため、この問題に直面することがさらに多い。

このようなシナリオでは、人がどこにいて、数秒後にどのように動くかを理解することが、事故を回避するために不可欠となる。例えば、最近の研究では、歩行者の多い環境で動作する緊急自律走行車（EAV）のための完全な衝突予測パイプラインを構築することによって、この課題を探求した。

YOLO衝突予測パイプラインの仕組み

この方法論がどのように機能するのか、ここで見てみよう：

YOLO使用した歩行者検出： YOLO検出器は、各カメラ・フレームで歩行者を識別し、各視認可能な人物のバウンディング・ボックスを出力する。
‍ 以下のように、YOLO検出器は、各カメラ・フレームで歩行者を識別し、各視認可能な人物のバウンディング・ボックスを出力する。
ByteTrackによるモーショントラッキング： ByteTrackアルゴリズムは、フレーム間でこれらの検出をリンクし、各歩行者に一貫したIDを与え、時間の経過とともに歩行者がどのように移動しているかを示すモーションヒストリーを作成します。
‍
実世界の位置推定： 逆パースペクティブマッピング（IPM）は、2Dピクセル座標をおおよその地表面位置に変換し、車両と歩行者の相対的な位置関係をシステムが理解するのに役立ちます。
‍。
cGANによる鳥瞰図生成： ある画像フォーマットを別の画像フォーマットに変換するAIモデルである条件付きGANは、シーンの鳥瞰図表現を作成する。このトップダウンレイアウトにより、歩行者の位置とその周囲の状況を容易に解釈することができる。
‍
LSTMモデルによる軌道予測：各歩行者の過去の位置と動きのパターンを用いて、LSTMモデルが今後数秒間で歩行者がどこに移動しそうかを予測する。
‍
コリジョンコーンを用いた効率的な衝突検知： 予測された軌跡は、車両と歩行者の軌跡が交差するコース上にあるかどうかを判定するコリジョンコーン法を用いて比較される。
‍
信号による衝突回避： システムが衝突を予測した場合、最適なタイミングで聴覚信号（クラクションやベルなど）を作動させる。このタイミングは、歩行者の行動に影響を与え、スピードアップまたは減速して安全な場所に移動するチャンスを与えるために選択される。

エッジビジョンとYOLO活用した都市における歩行者の安全確保

同様に、衝突防止へのもうひとつのアプローチは、車両にとどまらず、インフラそのものに注目したものだ。車内のセンサーに頼るのではなく、横断歩道や交差点に設置されたスマートカメラを使って、歩行者と車の動きをリアルタイムで監視する方法だ。このような場所は予測不可能なことが多く、人が突然道路に飛び出したり、自転車が交通をすり抜けたり、ドライバーが常に減速しているとは限らない。

NAVIBoxと呼ばれるシステムは、交差点で車両と歩行者のリスクを直接予測するために設計されたエッジビジョン装置である。このシステムは Ultralytics YOLOv8モデルを使用して歩行者と車両をdetect し、軽量のセントロイド・トラッカーでフレームをまたいでそれらを追跡する。これにより、短くて信頼性の高い動きの履歴が作成され、その履歴は、角度のついたCCTVビューをより鮮明な道路の鳥瞰レイアウトに変換するパースペクティブ変換を使って改良される。

NAVIBoxは、これらの精緻な軌跡をもとに、道路利用者が今後数秒間にどのように移動するかを推定し、その進路が交差する可能性があるかどうかをチェックすることができる（交差点テストとも呼ばれる）。システムが危険な相互作用を検出すると、遠隔サーバーやネットワーク接続に頼ることなく、ドライバーにはディスプレイを通じて、歩行者にはスピーカーを通じて、即座に警告を送る。実際の都市部でのテストでは、NAVIBoxは真のリアルタイム対応に十分な速度で動作し、衝突の可能性のあるシナリオを正確に特定できることが示された。

‍

衝突検知と衝突予測の長所と短所

AIを活用した衝突予知システムを利用するメリットをいくつか紹介しよう：

状況認識の向上： AIシステムは、環境における物体の動きを継続的にマッピングし、大規模な群集の流れ、交通の挙動、または機械の経路について、より豊かな理解を提供する。
‍
長期計画のためのデータ主導の洞察：検知、ニアミス、移動パターンを記録することで、AIシステムは都市計画担当者、安全チーム、車両運行管理者が交差点の再設計、標識の改善、運行方針の改善に利用できる分析を提供する。

費用対効果の高いリスク防止：リスクが拡大する前に検知することで、高額な事故や保険請求、設備の修理を回避することができる。

その利点とは裏腹に、コリジョンフリー・システムには一定の限界もある。以下は、考慮すべきいくつかの課題である：

センサーとカメラの配置の制約： カメラの位置や角度が悪いと、物体のサイズや距離が歪められ、奥行き推定や軌跡予測の信頼性が低くなります。
‍ 以下のような制約があります。
オクルージョン：オブジェクトが部分的に、あるいは完全に他のオブジェクトの後ろに隠れることがあります。これはモデルの視覚的な連続性が失われるため、オブジェクトのトラッキングを困難にします。
‍
環境条件：低照度、強い日差し、雨、霧、またはカメラの画質が悪いと、モデルがシーンを鮮明に見る能力が低下し、精度に影響することがあります。

主なポイント

衝突予測は、2つの強力な機能を統合したものである。すなわち、システムが今環境で起きていることを理解できるようにするコンピューター・ビジョンと、次に起こりそうなことを予測するのに役立つ軌道予測である。

これらの長所を組み合わせることで、機械は動く物体をリアルタイムでdetect し、数秒後にそれらの物体がどのように相互作用するかを予測することができる。コンピュータ・ビジョンと予測技術が進化し続けるにつれ、衝突予測は、より安全で信頼性が高く、スケーラブルな自律システムを構築するための鍵となるだろう。

私たちのコミュニティや GitHubリポジトリをチェックして、AIについてもっと学びましょう。ヘルスケアにおける AIや製造業におけるコンピュータビジョンのようなアプリケーションについては、ソリューションページをご覧ください。当社のライセンスオプションを発見し、今日からビルドを始めましょう！

Ultralytics YOLO モデルによる衝突予測の向上

衝突予測とは？

衝突予測の4つの段階を探る