用語集

ベンチマーク・データセット

公正なモデル評価、再現性、機械学習の進歩を可能にすることで、ベンチマークデータセットがどのようにAIイノベーションを促進するかをご覧ください。

ベンチマークデータセットとは、機械学習(ML)において、異なるアルゴリズムやモデルの性能を公正かつ再現可能な方法で評価・比較するために使用される、標準化された高品質なデータセットである。これらのデータセットは、注意深く管理され、研究コミュニティに広く受け入れられており、物体検出や 画像分類のような特定のタスクの進捗を測定するための共通の基盤として機能する。同じデータと評価基準に対してモデルをテストすることで、研究者や開発者は、どのアプローチがより効果的で、より速く、より効率的であるかを客観的に判断することができます。ベンチマークの使用は、人工知能(AI)の最先端技術を進歩させるための基本です。

ベンチマーキングの重要性

急速に発展するコンピュータビジョン(CV)分野では、ベンチマークデータセットは不可欠である。ベンチマークデータセットは、モデルの改善や技術革新を評価するための安定したベースラインを提供します。ベンチマークデータセットがなければ、新しいモデルアーキテクチャやトレーニング手法が本当に進歩したものなのか、それとも単に異なる、より簡単な可能性のあるデータセットでテストされたことによる性能なのかを知ることは困難です。ImageNet Large Scale Visual Recognition Challenge (ILSVRC)のようなチャレンジによく関連する公開リーダーボードは、健全な競争を促進し、進捗状況を透過的に追跡するために、このようなデータセットを使用しています。このプロセスは、よりロバストで一般化可能なモデルの開発を促し、実世界へのモデル展開に不可欠です。

実例

  1. 物体検出モデルの比較UltralyticsがYOLO11のような新しいモデルを開発する際、その性能はCOCOのような標準的なベンチマークデータセットで厳密にテストされます。平均平均精度(mAP)などの指標で測定された結果は、以前のバージョン(YOLOv8YOLOv10)や他の最新モデルと比較されます。このようなモデルの比較は、ユーザーがニーズに合わせて最適なモデルを選択するのに役立ちます。Ultralytics HUBのようなプラットフォームでは、ユーザーはモデルをトレーニングし、カスタムデータでベンチマークを行うことができます。
  2. 自律走行の推進自律走行車の技術を開発している企業は、Argoverseや nuScenesのようなベンチマークに大きく依存している。これらのデータセットには、自動車、歩行者、自転車の詳細な注釈が付いた複雑な都市走行シナリオが含まれている。これらのベンチマークで知覚モデルを評価することで、企業は検出精度、追跡信頼性、システム全体のロバスト性の向上を測定することができます。

ベンチマークと他のデータセット

ベンチマークデータセットと、MLのライフサイクルで使われる他のデータ分割を区別することは重要だ:

  • トレーニングデータ:入力例とそれに対応するラベルに基づいてモデルのパラメータを調整することにより、モデルを学習するために使用される。これは通常、データの最も大きな部分である。データ補強のようなテクニックはしばしばここに適用される。
  • バリデーションデータ:学習中にモデルのハイパーパラメータ学習率やアーキテクチャの選択など)を調整し、モデルのスキルの不偏推定値を提供するために使用します。学習データへのオーバーフィットを防ぐのに役立ちます。
  • テストデータ:モデルが完全に学習された後に使用され、未知のデータに対する性能の最終的な公平な評価を提供する。

ベンチマークデータセットは、標準化されたテストセットとして機能することが多いが、その主な目的は、研究コミュニティ全体で比較するための共通の基準を提供することである。多くのベンチマークデータセットは、様々なMLタスクのリーダーボードをホストしているPapers with Codeのようなプラットフォームに掲載され、追跡されている。その他の注目すべきデータセットには、GoogleのOpen Images V7や Pascal VOCchallengeがある。このような高品質のコンピュータビジョンデータセットへのアクセスは、信頼性の高いAIシステムを構築する上で不可欠である。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク