用語集

ベンチマークデータセット

ベンチマークデータセットが、公平なモデル評価、再現性、および機械学習の進歩を可能にすることにより、AIイノベーションをどのように推進するかをご紹介します。

ベンチマーク・データセットとは、以下のような機械学習（ML）モデルの性能を評価するために使用される、標準化された高品質のデータ集である。機械学習（ML）モデルの性能を公正かつ再現可能な方法で公平で再現可能な方法で評価するために使用される標準化された高品質なデータ集です。社内のテストに使われるプライベートなデータとは異なり、ベンチマーク・データセットは、研究コミュニティ全体のためのパブリックな「物差し」として機能する。研究コミュニティ全体の「物差し」となる。まったく同じをテストし、同一の評価指標を使用することで、開発者はどのモデルが精度、スピード、効率に優れているかを客観的に判断することができます。これらのデータセットはこのようなデータセットはコンピュータ・ビジョン（CV）や自然言語処理処理のような分野の進歩を追跡するための基本的なものです。

標準化の重要性

急速に進化する人工知能新しいモデルが「より速い」とか「より正確である」と主張することは、共有された参照点がなければ意味がない。参照点がなければ意味がない。ベンチマーク・データセットは、この共通基盤を提供します。ベンチマーク・データセットは通常、特定の課題を表すために作成される、例えば、小さな物体の検出や、照明条件が悪い場合の処理などです。例えば ImageNet Large Scale Visual Recognition Challenge (ILSVRC)、健全な競争を促進するために、これらのデータセットに依存しています。この標準化によりモデル・アーキテクチャの改良が、より簡単なではなく、より簡単で非標準的なデータでのテストの結果であることを保証します。

他のデータセットとベンチマークを区別する

ベンチマークのデータセットを、標準的な開発ライフサイクルで使用されるデータ分割と区別することは極めて重要である：

トレーニングデータ:モデルを学習させるためのデータ。アルゴリズムはこのデータに基づいて内部パラメータを調整する。
バリデーションデータ:ハイパーパラメータを調整し、オーバーフィッティングを防ぐために学習中に使用されるサブセット。オーバーフィッティングを防ぐ。これは予備的なチェックとして機能するが最終的なスコアにはならない。
テストデータ:リリース前にパフォーマンスをチェックするための内部データセット。
ベンチマーク・データセット：普遍的に受け入れられている外部テストセット。ベンチマークはテストデータとして機能する、ベンチマークはテストデータとして機能するが、主な違いはモデル比較。

実際のアプリケーション

ベンチマーク・データセットは、厳格な安全性・信頼性基準を確立することにより、様々な産業における成功を定義する。安全性と信頼性の基準を確立します。

汎用ビジョンにおける物体検出

物体検出の最も顕著な例は COCO Objects in Context）データセットである。Ultralytics 新しいのような YOLO11のような新しいアーキテクチャをリリースする際、その性能はCOCO の改善を検証するために、COCO 厳密なベンチマークが行われます。平均平均精度（mAP）の改善を検証します。これによりこれにより研究者は、YOLO11 人間や自転車、動物などの日常的な物体を検出する際に、以前の反復モデルや他の最先端モデルと比較してどのような違いがあるかを正確に確認することができます。人、自転車、動物のような日常的な物体の検出において、YOLO11が以前のモデルや他の最先端のモデルと比較してどのような違いがあるのかを研究者は正確に知ることができます。

自律走行の安全性

自動車産業では安全が最優先。自律走行車の開発者は自律走行車の開発者はのような専用ベンチマークを利用している。 Waymo Open Datasetのような専用のベンチマークを利用している。これらのデータセットには、歩行者、自転車、歩行者を含む都市走行環境これらのデータセットには、歩行者、自転車、交通標識など、都市の運転環境の複雑な注釈付き記録が含まれています。知覚システムの評価これらのベンチマークに対して知覚システムを評価することで、エンジニアはシステムの堅牢性を定量化することができる。実際の交通シナリオにおけるシステムの堅牢性を定量化することができます、 AIが動的な危険に対して正しく反応することを保証します。

Ultralyticsベンチマーキング

Ultralytics 、以下のような異なるエクスポート形式間でモデルを簡単にベンチマークするための組み込みツールを提供します。 ONNXまたは TensorRT.これは、ユーザが推論のレイテンシと精度の間の推論レイテンシと精度のトレードオフを特定するのに役立つ。を特定するのに役立ちます。

以下の例は、Python APIを使用してYOLO11 モデルをベンチマークする方法を示している。このプロセスではモデルの速度と精度を評価します。

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)

ベンチマーキングにおける課題

ベンチマークは不可欠ではあるが、完璧なものではない。ベンチマークが現実世界の多様性を正確に反映していない場合、「データセット・バイアス」と呼ばれる現象が起こりうる。ベンチマークが現実世界の多様性を正確に反映していない場合、「データセット・バイアス」と呼ばれる現象が起こりうる。例えば顔認識ベンチマークは例えば、多様な人口統計学的表現が欠けている顔認識ベンチマークは、特定のグループに対してパフォーマンスの低いモデルを生み出す可能性がある。さらに、研究者はこれは、ベンチマークで高得点を取るためにモデルを最適化することで、新しい未知のデータへの汎化を犠牲にすることである。新しい未知のデータへの汎化が犠牲になる。 Objects365プロジェクトで見られるような、データセットの継続的な更新は、このような問題を軽減するのに役立つ。 Objects365プロジェクトで見られるようなデータセットの継続的な更新は、多様性と規模を拡大することによって、このような問題を軽減するのに役立つ。を軽減するのに役立つ。

ベンチマークデータセット

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

標準化の重要性

他のデータセットとベンチマークを区別する

実際のアプリケーション

汎用ビジョンにおける物体検出

自律走行の安全性

Ultralyticsベンチマーキング

ベンチマーキングにおける課題

このカテゴリの関連記事

未来の物体検出トレンド：注目すべき7つのポイント

Ultralytics YOLO モデルによる車両再識別の強化

Ultralytics YOLO モデルによる衝突予測の向上

Ultralytics コミュニティに参加する