用語集

トレーニングデータ

AIにおける学習データの重要性をご覧ください。質の高いデータセットが、実世界のタスクに対して、いかに正確でロバストな機械学習モデルを生み出すかを学びます。

学習データとは、機械学習(ML)モデルに正確な予測や決定を行う方法を教えるために使用される基礎データセットである。教師あり学習では、このデータは、対応する正しい出力と対になった入力サンプルで構成され、しばしばラベルまたは注釈と呼ばれる。モデルはこれらの例から繰り返し学習し、予測値と実際のラベルの差を最小化するようにモデル内部の重みを調整する。学習データの質、量、多様性は、モデルのパフォーマンスと新しい未知のデータへの汎化能力に影響を与える最も重要な要因である。

質の高いトレーニングデータの重要性

ガベージ・イン、ガベージ・アウト」の原則は、MLモデルのトレーニングに特に当てはまる。ロバストで信頼性の高いシステムを構築するためには、高品質なデータが不可欠である。主な特徴は以下の通り:

  • 関連性:データは、モデルが解決しようとする問題を正確に反映していなければならない。
  • 多様性: オーバーフィッティングを避けるため、モデルが実世界で遭遇する幅広いシナリオ、エッジケース、バリエーションをカバーする必要がある。
  • 正確なラベリング:注釈は正確で一貫性がなければならない。データラベリングのプロセスは、コンピュータビジョンプロジェクトで最も時間のかかる部分です。
  • 十分な量:モデルが意味のあるパターンを学習するためには、一般的に大量のデータが必要である。データ増強のようなテクニックは、データセットを人為的に拡張するのに役立つ。
  • バイアスが少ない: データセットのバイアスを防ぐため、データはバランスの取れた代表的なものであるべきです。アルゴリズムのバイアスを理解することは、責任あるAI開発の重要な側面です。

Ultralytics HUBのようなプラットフォームは、モデル開発のライフサイクルを通じてデータセットを管理するツールを提供し、CVATのようなオープンソースのツールはアノテーション作業に人気がある。

実例

  1. 自律走行車 自律走行車用の物体検出モデルをトレーニングするために、開発者はカメラやセンサーからの膨大なトレーニングデータを使用する。このデータは、すべてのフレームが綿密にラベル付けされた画像やビデオで構成されている。歩行者、自転車、他の車、交通標識はバウンディングボックスで囲まれている。Argoverseや nuScenesのようなデータセットでトレーニングすることで、車両のAIは環境を認識し、安全にナビゲートすることを学習する。
  2. 医療画像解析:ヘルスケアでは、医療画像解析のためのトレーニングデータは、何千ものMRIやCTスキャンで構成されることがあります。放射線科医は、腫瘍、骨折、その他の病理を強調するためにこれらの画像に注釈を付ける。Ultralytics YOLOで構築されたようなMLモデルは、脳腫瘍のデータセットで学習させることができ、これらの異常を識別することを学習し、医師がより迅速で正確な診断を行うのを支援する強力なツールとして機能する。The Cancer Imaging Archive (TCIA)のようなリソースは、研究のためにこのようなデータへのパブリックアクセスを提供しています。

トレーニングデータと検証およびテストデータの比較

典型的なMLプロジェクトでは、データは3つの異なるセットに分けられる:

信頼性の高いモデルを開発するためには、これらのデータセットを厳密に分離することが不可欠である。最先端のモデルは、COCOや ImageNetのような大規模なベンチマーク・データセットで事前にトレーニングされていることが多く、これらは広範なトレーニング・データとして機能する。Google Dataset Searchや Kaggle Datasetsなどのプラットフォームで、より多くのデータセットを見つけることができます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク