Ultralytics 真のエンドツーエンドかつNMS推論を実現する仕組みと、後処理を排除することでエクスポートとエッジデプロイメントが簡素化される理由をご覧ください。

Ultralytics 真のエンドツーエンドかつNMS推論を実現する仕組みと、後処理を排除することでエクスポートとエッジデプロイメントが簡素化される理由をご覧ください。

1月14日、当社は最新世代のコンピュータービジョンモデル「Ultralytics 」を発表しました。YOLO26では、精度や速度の向上だけでなく、実システムにおける物体検出モデルの構築と展開方法そのものを再考することを目指しました。
コンピュータビジョンが研究段階から実用段階へ移行するにつれ、モデルはCPU、エッジデバイス、カメラ、ロボット、組み込みハードウェア上で動作することがますます求められている。こうした環境では、信頼性、低遅延、導入の容易さが、性能と同様に重要となる。
YOLO26はこの現実を踏まえ、推論パイプラインから不要な複雑性を排除した合理化されたエンドツーエンドアーキテクチャを用いて設計された。YOLO26における最も重要な革新の一つは、一般にNMSとして知られる非最大抑制(Non-Maximum Suppression)の除去である。
長年にわたり、NMS 物体検出システムの標準的な構成要素として、重複検出を整理する後処理ステップとして用いNMS 。効果的ではあるものの、特にエッジハードウェアにおいて、追加の計算負荷やデプロイメント上の課題をもたらすこともあった。
YOLO26では異なるアプローチを採用しました。予測の生成と学習方法を再考することで、真NMSエンドかつNMS推論を実現しています。本モデルは外部クリーンアップ工程や手作業によるルールに依存せず、直接最終的な検出結果を出力します。これによりYOLO26は高速化され、エクスポートが容易になり、幅広いハードウェアプラットフォームでの信頼性の高い展開が可能となります。

本記事では、従来の物体検出がNMSに依存していた理由、それがデプロイのボトルネックとなった経緯、そしてYOLO26が回避策を不要にした仕組みを詳しく解説します。さっそく見ていきましょう!
NMS 、そしてなぜYOLO26でそれを削除したのかについて掘り下げる前に、一歩引いて従来の物体検出モデルが予測を生成する仕組みを見てみましょう。
従来の物体検出モデルは、同一の物体に対して複数の重複する境界ボックスを生成することが多い。これらのボックスはそれぞれ固有の信頼度スコアを持つが、それらはすべて画像内の同一の物体を指している。
これにはいくつかの理由があります。第一に、モデルは多くの空間位置と異なるスケールで同時に予測を行います。これによりモデルは異なるサイズのdetect 、同時に近接した位置がすべて独立して同じ物体を識別できることを意味します。
第二に、多くの物体検出システムはアンカーベースの手法を採用しており、各位置の周囲に多数の候補ボックスを生成する。これにより物体を正確に検出できる可能性は高まるが、同時に予測の重複数も増加する。
最後に、グリッドベースの検出そのものが自然に冗長性を生み出す。物体が複数のグリッドセルの境界付近に位置する場合、複数のセルがその物体の領域を予測し、結果として複数の重複した検出が生じる可能性がある。
このため、モデルの生の出力には単一のオブジェクトに対して複数のボックスが含まれることが多い。結果を実用化するには、これらの冗長な予測をフィルタリングし、最終的に1つの検出結果のみが残るようにする必要がある。
物体検出モデルが同一の物体に対して複数の重複する境界ボックスを生成した場合、それらの結果は使用前にクリーンアップする必要があります。ここでノンマキシマム抑制が適用されます。
非最大抑制は、モデルが予測を完了した後に実行される後処理ステップである。その目的は重複検出を減らし、各オブジェクトが単一の最終的な境界ボックスで表現されるようにすることである。

このプロセスは、バウンディングボックスをその信頼度スコアと重なり具合に基づいて比較することで機能します。信頼度が非常に低い予測は最初に除去されます。
残りのボックスは信頼度でソートされ、最高スコアのボックスが最良の検出として選択される。その選択されたボックスは他のボックスと比較される。
別のボックスがそれとかぶる部分が多すぎる場合、そのボックスは抑制され削除される。重なりは通常、交差面積比(Intersection over Union)を用いて測定される。これは二つのボックスが共有する面積と両方が覆う総面積の比率を計算する指標である。この処理は、最も信頼性の高い非重なり検出のみが残るまで繰り返される。
非最大抑制は重複検出のフィルタリングに役立つ一方で、モデルが研究段階から実運用段階に移行すると、より顕著になる課題も生じさせる。
最大の課題の一つはパフォーマンスである。NMS 推論後にNMS 、どのバウンディングボックスを保持するかを決定するために、それらを相互に比較する必要がある。
この処理は計算コストが高く、効率的な並列化が困難である。エッジデバイスやCPUシステムでは、この追加処理が顕著な遅延を引き起こし、リアルタイム要件を満たすことを困難にする。
NMS デプロイの複雑性を増大させる。モデル自体の一部ではないため、後処理コードとして別途実装する必要がある。
異なるランタイムやプラットフォームNMS 処理するため、各ターゲット環境向けに独自の実装を維持する必要が生じることが多い。ある環境で機能するものが別の環境ではわずかに異なる動作を示す可能性があり、これによりデプロイメントの脆弱性が増し、スケーリングが困難になる。
ハードウェア最適化もまた課題である。NMS 、ニューラルネットワーク演算を効率的に実行するよう設計された専用AIアクセラレータに明確NMS 。その結果、最適化されたハードウェア上でモデルが高速に動作する場合でも、NMS ボトルネックとなり、全体的なパフォーマンスを制限するNMS 。
これらの要因に加え、NMS 信頼度閾値やオーバーラップ閾値といった手動で選択されるパラメータにNMS 。これらの設定は結果に大きく影響し、異なるデータセット、アプリケーション、ハードウェアごとに調整が必要となることが多々あります。これにより、本番システムにおける動作の予測可能性が低下し、追加の構成オーバーヘッドが生じます。
非最大抑制の限界から、物体検出モデルが推論時にどう振る舞うべきかを再考することになった。多くの重なり合う予測を生成し後で整理する代わりに、より根本的な問いを投げかけた。
モデルが直接最終的な検出結果を生成できたらどうなるだろうか?この問いはエンドツーエンド物体検出推論の中核をなす。エンドツーエンドシステムでは、モデルは外部による後処理ステップに依存することなく、検出プロセス全体を最初から最後まで処理できるよう訓練される。
多くの候補ボックスを生成し推論後にフィルタリングする代わりに、モデルは自ら、重複せず信頼性の高い少数の予測を生成することを学習する。重複した検出は後処理で除去されるのではなく、ネットワーク内部で解決される。
新しいモデルアーキテクチャは、このアプローチが可能かつ実用的であることを示した。適切な学習戦略を用いれば、モデルは各オブジェクトを複数の競合する予測ではなく単一の予測に関連付けることを学習でき、冗長性をその発生源で削減できる。

これを実現するには、トレーニング方法も変える必要がある。多くの予測が同一の物体を巡って競合するのではなく、モデルは一つの明確な判断を下すことを学び、より少なく、より確信度の高い検出結果を生成するようになる。
全体として、よりシンプルな推論パイプラインが実現されます。重複は内部で既に解決されているため、推論時に非最大抑制を行う必要がありません。モデル出力は既に最終的な検出セットです。
このエンドツーエンド設計はデプロイメントも容易にします。後処理ステップやプラットフォーム固有NMS 不要なため、エクスポートされたモデルは完全に自己完結型であり、異なる推論フレームワークやハードウェアターゲット間でも一貫した動作を示します。
リード・パートナーシップ・エンジニアのフランチェスコ・マッティオーリが説明する通り、「真のエンドツーエンド学習とは、モデルがピクセルから予測まで全てを処理し、微分可能性を損ない展開を複雑化する手作業の後処理ステップを一切必要としないことを意味する」
YOLO26は、検出結果の学習と生成方法を変更することで非最大抑制を排除し、後処理による補正に依存しません。複数の予測が同一オブジェクトを競合させるのではなく、YOLO26はオブジェクトと出力の明確な一対一関係を学習するよう訓練されています。
これは学習可能なクエリベース検出によって部分的に実現されており、これによりモデルは複数の重複候補ではなく、各オブジェクトに対して単一の確度の高い予測を生成することに集中できるようになる。各オブジェクトは1つの予測に関連付けられるため、重複検出が自然に減少する。
この挙動は、トレーニング中の一貫したマッチング戦略によって強化され、モデルがオブジェクトごとに重複する予測を生成するのではなく、確信を持って1つの決定を下すよう促す。最終的に、モデルが生成する予測の数は減少するが、それぞれが最終的な検出結果を表す。
YOLO26でNMS論NMS可能にするもう一つの重要な革新は、分布焦点損失(DFL)の除去である。以前YOLO では、DFLは単一の値ではなく、可能なボックス位置の分布を予測することでバウンディングボックス回帰を改善するために使用されていた。
この手法は位置特定精度を向上させた一方で、検出パイプラインの複雑さも増大させた。その複雑さは、真のエンドツーエンド推論への移行において制約要因となった。
DFLは追加の計算と固定された回帰範囲を導入したため、モデルが明確な一対一の物体割り当てを学習することが難しくなり、非最大抑制などの後処理ステップへの依存度が高まった。YOLO26ではDFLを廃止し、バウンディングボックス回帰をより単純かつ直接的なものに再設計した。
分布ベースの出力を依存する代わりに、このモデルはより少ない検出数で確度の高い検出を実現する形で正確なボックス座標を予測することを学習する。この変更により、予測の重複を根源から抑制し、バウンディングボックス回帰をYOLO26のエンドツーエンドかつNMS設計と整合させる。
NMS設計により、YOLO26は真のエンドツーエンドモデルとなっています。これはモデルのエクスポートに重要な影響を与えます。
エクスポートとは、学習済みONNX、TensorRT、CoreML、OpenVINO、トレーニング環境外で実行可能な形式に変換することを意味します。従来のパイプラインでは、このプロセスが頻繁に失敗します。なぜなら、非最大抑制(NMS)はモデル自体の一部ではないからです。
NMS、YOLO26はこの問題を完全に回避します。エクスポートされたモデルには、最終的な検出結果を生成するために必要な要素がすべて含まれています。
これにより、エクスポートされたモデルは完全に自己完結型となり、推論フレームワークやハードウェアターゲット間での移植性が向上します。同一モデルは、サーバー、CPUシステム、組み込みデバイス、エッジアクセラレータのいずれにデプロイされても一貫した動作を示します。エクスポートしたものが実行するものと完全に一致するため、デプロイがより簡素化されます。
この簡潔さは、特にエッジアプリケーションにおいて重要です。例えばYOLO26は、限られた演算能力と電力予算により複雑な後処理パイプラインが非現実的な、作物監視・現場検査・植物健康分析などのユースケースにおいて、ドローンなどのデバイスに容易に展開できます。モデルが最終的な検出結果を直接出力するため、追加処理ステップなしで軽量ハードウェア上で確実に動作します。

要するに、NMS推論はエクスポートとデプロイの障壁を取り除き、よりクリーンで信頼性の高いビジョンシステムを実現します。NMS 一時的なNMS 。YOLO26にはもはやそのような回避策は必要ありません。
YOLO26は重複検出という根本的な問題を解決することで、事後処理による非最大抑制(NMS)を不要にしました。エンドツーエンド設計により、モデルが直接最終検出結果を生成するため、異なるハードウェア間でのエクスポートとデプロイがより簡素化され、一貫性が向上します。NMS 従来のシステムでは有用なNMS 、YOLO26ではもはや必要ありません。
コミュニティに参加し、GitHubリポジトリでAIについて詳しく学びましょう。農業向けAIや 小売向けコンピュータビジョンのソリューションページをご覧ください。ライセンスオプションを確認し、今すぐVision AIを始めましょう!

