Yolo 深圳
深セン
今すぐ参加
用語集

ベンチマークデータセット

ベンチマークデータセットが、公平なモデル評価、再現性、および機械学習の進歩を可能にすることにより、AIイノベーションをどのように推進するかをご紹介します。

ベンチマーク・データセットとは、以下のような機械学習(ML)モデルの性能を評価するために使用される、標準化された高品質のデータ集である。 機械学習(ML)モデルの性能を公正かつ再現可能な方法で 公平で再現可能な方法で評価するために使用される標準化された高品質なデータ集です。社内のテストに使われるプライベートなデータとは異なり、ベンチマーク・データセットは、研究コミュニティ全体のためのパブリックな「物差し」として機能する。 研究コミュニティ全体の「物差し」となる。まったく同じ をテストし、同一の 評価指標を使用することで、開発者は どのモデルが精度、スピード、効率に優れているかを客観的に判断することができます。これらのデータセットは このようなデータセットは コンピュータ・ビジョン(CV)や自然言語処理 処理のような分野の進歩を追跡するための基本的なものです。

標準化の重要性

急速に進化する 人工知能 新しいモデルが「より速い」とか「より正確である」と主張することは、共有された参照点がなければ意味がない。 参照点がなければ意味がない。ベンチマーク・データセットは、この共通基盤を提供します。ベンチマーク・データセットは通常、特定の課題を表すために作成される、 例えば、小さな物体の検出や、照明条件が悪い場合の処理などです。例えば ImageNet Large Scale Visual Recognition Challenge (ILSVRC)、 健全な競争を促進するために、これらのデータセットに依存しています。この標準化により モデル・アーキテクチャの改良が、より簡単な ではなく、より簡単で非標準的なデータでのテストの結果であることを保証します。

他のデータセットとベンチマークを区別する

ベンチマークのデータセットを、標準的な開発ライフサイクルで使用されるデータ分割と区別することは極めて重要である:

  • トレーニングデータ:モデルを学習させるためのデータ。アルゴリズムはこのデータに基づいて内部パラメータを調整する。
  • バリデーションデータ:ハイパーパラメータを調整し、オーバーフィッティングを防ぐために学習中に使用されるサブセット。 オーバーフィッティングを防ぐ。これは予備的なチェックとして機能するが 最終的なスコアにはならない。
  • テストデータ:リリース前にパフォーマンスをチェックするための内部データセット。
  • ベンチマーク・データセット:普遍的に受け入れられている外部テストセット。ベンチマークはテストデータとして機能する、 ベンチマークはテストデータとして機能するが、主な違いは モデル比較

実際のアプリケーション

ベンチマーク・データセットは、厳格な安全性・信頼性基準を確立することにより、様々な産業における成功を定義する。 安全性と信頼性の基準を確立します。

汎用ビジョンにおける物体検出

物体検出の最も顕著な例は COCO Objects in Context)データセットである。Ultralytics 新しい のような YOLO11のような新しいアーキテクチャをリリースする際、その性能はCOCO の改善を検証するために、COCO 厳密なベンチマークが行われます。 平均平均精度(mAP)の改善を検証します。これにより これにより研究者は、YOLO11 人間や自転車、動物などの日常的な物体を検出する際に、以前の反復モデルや他の最先端モデルと比較してどのような違いがあるかを正確に確認することができます。 人、自転車、動物のような日常的な物体の検出において、YOLO11が以前のモデルや他の最先端のモデルと比較してどのような違いがあるのかを研究者は正確に知ることができます。

自律走行の安全性

自動車産業では安全が最優先。自律走行車の開発者は 自律走行車の開発者は ような専用ベンチマークを利用している。 Waymo Open Datasetのような専用のベンチマークを利用している。これらのデータセットには、歩行者、自転車、歩行者を含む都市走行環境 これらのデータセットには、歩行者、自転車、交通標識など、都市の運転環境の複雑な注釈付き記録が含まれています。知覚システムの評価 これらのベンチマークに対して知覚システムを評価することで、エンジニアはシステムの堅牢性を定量化することができる。 実際の交通シナリオにおけるシステムの堅牢性を定量化することができます、 AIが動的な危険に対して正しく反応することを保証します。

Ultralyticsベンチマーキング

Ultralytics 、以下のような異なるエクスポート形式間でモデルを簡単にベンチマークするための組み込みツールを提供します。 ONNXまたは TensorRT.これは、ユーザが推論のレイテンシと精度の間の 推論レイテンシと精度のトレードオフを特定するのに役立つ。 を特定するのに役立ちます。

以下の例は、Python APIを使用してYOLO11 モデルをベンチマークする方法を示している。このプロセスでは モデルの速度と精度を評価します。

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)

ベンチマーキングにおける課題

ベンチマークは不可欠ではあるが、完璧なものではない。ベンチマークが現実世界の多様性を正確に反映していない場合、「データセット・バイアス」と呼ばれる現象が起こりうる。 ベンチマークが現実世界の多様性を正確に反映していない場合、「データセット・バイアス」と呼ばれる現象が起こりうる。例えば 顔認識ベンチマークは 例えば、多様な人口統計学的表現が欠けている顔認識ベンチマークは、特定のグループに対してパフォーマンスの低いモデルを生み出す可能性がある。さらに、研究者は これは、ベンチマークで高得点を取るためにモデルを最適化することで、新しい未知のデータへの汎化を犠牲にすることである。 新しい未知のデータへの汎化が犠牲になる。 Objects365プロジェクトで見られるような、データセットの継続的な更新は、このような問題を軽減するのに役立つ。 Objects365プロジェクトで見られるようなデータセットの継続的な更新は、多様性と規模を拡大することによって、このような問題を軽減するのに役立つ。 を軽減するのに役立つ。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加