YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

学習データ

AIにおけるトレーニングデータの重要性について解説します。高品質なデータセットが、現実世界のタスクのための正確で堅牢な機械学習モデルをどのように強化するかを学びます。

学習データは、機械学習(ML)モデルに正確な予測や意思決定の方法を教えるために使用される、基盤となるデータセットです。教師あり学習では、このデータは、対応する正解の出力(ラベルまたはアノテーションと呼ばれることが多い)とペアになった入力サンプルで構成されます。モデルはこれらの例から繰り返し学習し、予測と実際のラベルの間の差を最小限に抑えるように内部のモデルの重みを調整します。学習データの品質、量、多様性は、モデルのパフォーマンスと、新しい未知のデータに一般化する能力に影響を与える最も重要な要素です。

高品質な学習データの重要性

「garbage in, garbage out(ゴミを入れると、ゴミが出てくる)」という原則は、MLモデルのトレーニングにおいて特に当てはまります。堅牢で信頼性の高いシステムを構築するには、高品質のデータが不可欠です。重要な特性は次のとおりです。

  • 関連性: データは、モデルが解決しようとしている問題を正確に反映している必要があります。
  • 多様性: 過学習を避けるために、モデルが現実世界で遭遇する可能性のある幅広いシナリオ、エッジケース、およびバリエーションを網羅する必要があります。
  • 正確なラベリング: アノテーションは、正しく一貫性がある必要があります。データラベリングのプロセスは、コンピュータビジョンプロジェクトで最も時間がかかる部分であることがよくあります。
  • 十分な量: モデルが意味のあるパターンを学習するには、通常、大量のデータが必要です。データ拡張などの手法は、データセットを人工的に拡張するのに役立ちます。
  • 低バイアス: データセットバイアスを防ぐために、データはバランスが取れていて代表的である必要があります。データセットバイアスは、不公平または不正確なモデルの動作につながる可能性があります。アルゴリズムバイアスを理解することは、責任あるAI開発の重要な側面です。

Ultralytics HUBのようなプラットフォームは、モデル開発ライフサイクル全体を通してデータセットを管理するためのツールを提供し、CVATのようなオープンソースツールはアノテーションタスクで人気があります。

実世界の例

  1. 自動運転車: 自動運転車用の物体検出モデルをトレーニングするために、開発者はカメラやセンサーからの大量のトレーニングデータを使用します。このデータは、すべてのフレームが細心の注意を払ってラベル付けされた画像とビデオで構成されています。歩行者、自転車、他の車、交通標識はバウンディングボックスで囲まれています。ArgoverseまたはnuScenesのようなデータセットでトレーニングすることにより、車両のAIは環境を安全に認識してナビゲートすることを学習します。
  2. 医療画像解析: 医療では、医療画像解析のトレーニングデータは、数千のMRIまたはCTスキャンで構成される場合があります。放射線科医はこれらの画像に注釈を付けて、腫瘍、骨折、またはその他の病状を強調表示します。Ultralytics YOLOで構築されたものなど、MLモデルは、脳腫瘍データセットでトレーニングして、これらの異常を識別することを学習し、医師がより迅速かつ正確な診断を下すのに役立つ強力なツールとして機能します。The Cancer Imaging Archive(TCIA)のようなリソースは、研究のためにそのようなデータへのパブリックアクセスを提供します。

学習データ vs. 検証データとテストデータ

一般的な機械学習プロジェクトでは、データは3つの異なるセットに分割されます。

  • トレーニングデータ: パラメータを調整してモデルを直接トレーニングするために使用される最大の部分。効果的なトレーニングには、モデルトレーニングのヒントを慎重に検討することが不可欠です。
  • 検証データ: モデルが明示的に学習していないデータに対するモデルのパフォーマンスを評価するために、トレーニング中に定期的に使用される別のサブセット。これは、ハイパーパラメータ(例:学習率バッチサイズ)をハイパーパラメータ最適化(Wikipedia)のようなプロセスを介して調整するのに役立ち、過学習に対する早期警告を提供します。検証モードはこの評価に使用されます。
  • テストデータ: トレーニングおよび検証中に見られない独立したデータセットであり、モデルが完全にトレーニングされたにのみ使用されます。モデルの汎化能力と、現実世界で予想されるパフォーマンスに関する、最終的で偏りのない評価を提供します。展開する前に、厳密なモデルテストが不可欠です。

信頼性の高いモデルを開発するには、これらのデータセット間の厳格な分離を維持することが不可欠です。最先端のモデルは、大規模なベンチマークデータセットCOCOImageNetなど)で事前学習されることが多く、これらは広範なトレーニングデータとして機能します。Google Dataset SearchKaggle Datasetsなどのプラットフォームで、より多くのデータセットを見つけることができます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました