ProgLoss、STAL、MuSGDを使用してUltralytics YOLO26がどのように賢く学習するか
Progressive Loss Balancing、Small-Target-Aware Label Assignment、およびMuSGDオプティマイザーを使用して、Ultralytics YOLO26がどのように信頼性の高い学習を行うかをご覧ください。

先週、私たちはエッジファーストかつリアルタイムなコンピュータービジョンモデルの新しい標準となるUltralytics YOLO26をリリースしました。これまでのUltralytics YOLOモデル(Ultralytics YOLO11など)と同様に、YOLO26は物体検出、インスタンスセグメンテーション、姿勢推定など、ユーザーが慣れ親しんだ主要なコンピュータービジョンタスクをサポートしています。

図1. 画像内の物体をセグメンテーションするYOLO26の利用例。
しかし、YOLO26は単なる段階的なアップデートではありません。サポートされているタスクは馴染み深いものかもしれませんが、この新しいモデルはコンピュータービジョンモデルの学習方法における革新的な前進を意味します。YOLO26では、推論効率だけでなく、学習の安定性を高めることにも重点を置いています。
YOLO26は、学習のライフサイクル全体を考慮して設計されました。これは、収束の高速化、より信頼性の高い学習実行、そして一貫したモデルの振る舞いを意味します。これらの改善は、学習の信頼性がモデルの反復やデプロイの速度に直結する実際のワークフローにおいて特に重要です。
これを実現するために、YOLO26はProgressive Loss Balancing (ProgLoss)、Small-Target-Aware Label Assignment (STAL)、MuSGDオプティマイザーといったいくつかのターゲットを絞った学習技術を導入しています。これらの変更により、学習ロスのバランス調整、ラベルの割り当て、そして時間の経過に伴う最適化の挙動が全体として改善されます。
本記事では、これらの各メカニズムがどのように機能し、なぜUltralytics YOLO26の学習を容易にし、スケールにおける信頼性を高めるのかを解説します。それでは始めましょう!
Link to this sectionUltralytics YOLO26: 単なる高速化ではなく、賢い学習のために構築#
Ultralytics YOLO26は、NMS(Non-Maximum Suppression)のような後処理ステップへの依存を排除し、推論パイプライン全体をネイティブに効率化します。多数の重複する予測を生成して後からフィルタリングするのではなく、YOLO26はネットワークから直接最終的な検出結果を出力します。
これにより、予測、重複の解決、最終出力のすべてがネットワーク自体の中で学習されるYOLO26はエンドツーエンドモデルとなりました。これはデプロイを簡素化し推論効率を向上させると同時に、学習中のモデルの学習方法も形作っています。

図2. YOLO26は最先端のエンドツーエンドかつNMSフリーの推論を提供します(ソース)
このようなエンドツーエンドのシステムでは、学習と推論が密接に結びついています。後で予測を修正するための外部の後処理ステージが存在しないため、モデルは学習中に明確で確信のある決定を下すように学習しなければなりません。
このため、学習目標と推論時の振る舞いの整合性が特に重要になります。モデルの学習方法と推論時の使用方法の間に不一致があると、学習が不安定になったり、収束が遅くなったりする可能性があります。
YOLO26は、学習プロセスを最初から実際の使用を念頭に置いて設計することでこれに対処しています。推論速度だけに集中するのではなく、学習システムは、長期にわたる安定した学習、NanoからExtra Largeまでのモデルサイズ間での一貫した収束、多様なデータセットでの堅牢なパフォーマンスをサポートするように構築されています。
Link to this section2つの学習ヘッドがどのようにUltralytics YOLO26の学習を改善するか#
Ultralytics YOLO26の主要な学習技術の1つは、以前のYOLOモデルで使用されていた2ヘッド学習アプローチに基づいています。物体検出モデルにおいて「ヘッド」とは、予測を行う役割を担うネットワークの部分を指します。
言い換えれば、検出ヘッドは画像内のどこに物体があるか、そしてその物体が何であるかを予測するように学習します。これらはバウンディングボックスの座標を回帰させることによって行われ、つまり入力画像内の各物体の位置とサイズを推定することを学習します。
学習中、モデルはロスを最小化することで学習します。これは、予測が正解またはグランドトゥルースからどれだけ離れているかを示す数値的な尺度です。ロスが低いほどモデルの予測がグランドトゥルースに近いことを意味し、ロスが高いほど誤差が大きいことを示します。ロス計算は、学習中にモデルがパラメータをどのように更新するかをガイドします。
YOLO26は学習中に2つの検出ヘッドを使用しますが、これらは基盤となるモデルを共有しつつ、異なる目的を果たします。one-to-oneヘッドは推論時に使用されるヘッドです。これは、各物体を単一の確信度の高い予測に関連付けることを学習し、これはYOLO26のエンドツーエンドかつNMSフリーの設計に不可欠です。
一方、one-to-manyヘッドは学習中にのみ使用されます。これにより複数の予測を同じ物体に関連付けることが可能になり、より密な監視(スーパービジョン)を提供します。このリッチな学習信号は、特に初期段階において学習を安定させ、精度を向上させるのに役立ちます。
YOLO26では、両方のヘッドがボックス回帰と分類に対して同じロス計算を使用します。以前の実装では、学習全体を通じてこれら2つのロス信号間に固定されたバランスが適用されていました。
しかし実際には、各ヘッドの重要性は時間とともに変化します。密な監視は初期段階で最も有用であり、一方で推論の振る舞いとの整合性は学習の後期になるほど重要になります。YOLO26はこの知見に基づいて設計されており、それが学習の進行に合わせて学習信号のバランスを再調整する方法に直結しています。
Link to this sectionUltralytics YOLO26はProgressive Loss Balancingを採用#
では、Ultralytics YOLO26は学習中のこれらの変化する学習ニーズにどのように対処するのでしょうか?Progressive Loss Balancingを使用して、時間の経過とともに学習信号の重みを調整します。
ProgLossは、学習の進行に合わせて各ヘッドがトータルロスにどれだけ寄与するかを動的にシフトさせることで機能します。初期段階では、学習を安定させリコールを向上させるためにone-to-manyヘッドにより多くの重みが置かれます。学習が進むにつれて、バランスは徐々にone-to-oneヘッドへと移行し、学習を推論時の振る舞いにより近づけていきます。
この段階的な移行により、YOLO26は適切な順序で学習を行うことができます。競合する目標を一度にすべて最適化するよう強制するのではなく、Progressive Loss Balancingは学習の各段階で最も有益な学習信号を優先します。その結果、より滑らかな収束、不安定な学習実行の減少、そしてより一貫した最終パフォーマンスが実現します。
Link to this sectionSTALがどのようにUltralytics YOLO26の小さな物体の学習を助けるか#
Ultralytics YOLO26のもう一つの興味深い学習の改善は、モデルが学習ターゲットを予測に割り当てる方法、つまりラベル割り当てとして知られるプロセスに由来します。これは、グランドトゥルースの物体を、しばしばアンカーと呼ばれる候補予測に一致させる責任があります。
これらのマッチングにより、どの予測が監視を受け、ロスに寄与するかが決定されます。YOLO26は、学習中の分類とローカライゼーションをより良く整合させるために設計された、Task Alignment Learning (TAL) と呼ばれる既存のラベル割り当て手法に基づいています。
TALはほとんどの物体に対してうまく機能しますが、学習を通じて重要な制限が明らかになりました。マッチングプロセス中に、非常に小さな物体が完全に除外されてしまう可能性があるのです。実際には、640ピクセルの入力画像で約8ピクセル未満の物体は、アンカーの割り当てを受けられないことがよくあります。これが発生すると、モデルはその物体に対する監視がほとんど、あるいは全く得られず、確実に検出することを学習するのが困難になります。
この問題に対処するため、YOLO26はSmall-Target-Aware Label Assignment (STAL) を導入しました。STALは割り当てプロセスを変更し、学習中に小さな物体が無視されないようにします。具体的には、8ピクセル未満の物体に対して最低4つのアンカー割り当てを強制します。これにより、非常に小さな物体でも確実に学習ロスに寄与することが保証されます。
小さなターゲットに対する監視を強化することで、STALは小さな物体や遠くの物体が一般的なシナリオにおいて、学習の安定性と検出性能を向上させます。この改善は、航空画像、ロボティクス、モノのインターネット(IoT)システムなど、物体が小さかったり、遠くにあったり、部分的にしか見えなかったりする場合が多く、信頼性の高い検出が不可欠なエッジファーストのYOLO26アプリケーションにとって特に重要です。
Link to this sectionUltralytics YOLO26がMuSGDオプティマイザーを導入#
より安定した予測可能な学習をサポートするため、Ultralytics YOLO26はMuSGDと呼ばれる新しいオプティマイザーを導入しました。このオプティマイザーは、特にモデルサイズや学習の複雑さが増す中で、エンドツーエンドの検出モデルにおける収束と学習の信頼性を向上させるように設計されています。
ニューラルネットワークが学習し、結果として重みをそれに応じて変更するためには、学習中に誤差(「ロス」とも呼ばれます)を計算する必要があります。したがって、モデルはロス値を使用して予測がどれだけ間違っているかを測定し、パラメータがどのように変化すべきかを示す勾配を計算し、その後にパラメータを更新して誤差を減らします。確率的勾配降下法 (SGD)は、これらの更新を行う広く使用されているオプティマイザーであり、学習を効率的かつスケーラブルにします。

図3. 確率的勾配降下法対勾配降下法(ソース)
MuSGDは、大規模言語モデルの学習で使用される手法であるMuonから着想を得た最適化のアイデアを組み込むことで、この馴染み深い基盤を構築しています。これらのアイデアは、より構造化されたパラメータ更新を通じて学習の挙動を改善したMoonshot AIのKimi K2といった最近の進歩の影響を受けています。
YOLO26はハイブリッド更新戦略を使用します。一部のパラメータはMuonに着想を得た更新とSGDを組み合わせて更新され、他のパラメータはSGDのみが使用されます。これにより、YOLO26は最適化プロセスに追加の構造を導入すると同時に、SGDを効果的なものにしてきた堅牢性と汎化特性を維持することが可能になります。
その結果、最適化はより滑らかになり、収束は高速化され、モデルサイズ全体にわたって学習の振る舞いはより予測可能になります。これが、YOLO26が学習しやすく、大規模環境においてもより信頼性が高い理由の主要な部分となっています。
Link to this sectionUltralytics YOLO26の学習技術革新の重要性#
Ultralytics YOLO26の学習における革新は、エンドツーエンド、NMSフリー、そしてエッジファーストといった主要な機能と組み合わさることで、モデルを学習しやすくし、大規模環境においても信頼性を高めます。これらが実際にコンピュータービジョンアプリケーションにとって何を意味するのか、疑問に思われるかもしれません。

図4. YOLO26の主要機能の紹介(ソース)
実際に活用すると、コンピュータービジョンを実際に実行される場所に導入するのがずっと簡単になります。モデルの学習はより予測しやすく、サイズ間でのスケーリングも一貫しており、新しいデータセットへの適応も単純です。これにより、特に信頼性と効率が生のパフォーマンスと同じくらい重要な環境において、実験からデプロイまでの摩擦を軽減します。
例えば、ロボティクスや産業用ビジョンアプリケーションでは、環境、センサー、タスクの変化に伴い、モデルを頻繁に再学習する必要があることがよくあります。YOLO26を使えば、学習の不安定さやモデルサイズ間での一貫性のない挙動を心配することなく、チームはより速くイテレーションを回すことができます。
Link to this section重要なポイント#
信頼性の高いコンピュータービジョンシステムは、推論時のパフォーマンスと同様に、モデルがどのように学習されるかに依存しています。学習信号のバランスの取り方、小さな物体的への対処法、最適化の進行方法を改善することで、YOLO26は学習をより安定させ、スケーリングを容易にします。この信頼性の高い学習への注力は、特にエッジファーストのアプリケーションにおいて、チームが実験から実際のデプロイへとより円滑に移行するのを支援します。
AIについて学びたいですか?GitHubリポジトリにアクセスして詳細をご覧ください。活発なコミュニティに参加し、物流におけるAIや自動車産業におけるビジョンAIのような分野での革新について知ってください。今すぐコンピュータービジョンを始めるには、ライセンスオプションをご確認ください。






