YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

学習データ

学習データがAIモデルを動かす仕組みを学びましょう。ソーシング、アノテーション、そしてコンピュータービジョンタスクで優れた精度を得るためにUltralytics YOLO26を学習する方法を探ってください。

学習データとは、機械学習モデルにパターン認識、予測、または特定のタスクの実行方法を教えるために使用される初期データセットです。これは人工知能システムの基礎となる教科書として機能し、アルゴリズムが内部パラメータを調整するために分析するグラウンドトゥルースを提供します。教師あり学習の文脈では、学習データは入力サンプルとそれに対応する出力ラベルのペアで構成され、モデルが両者の関係を学習することを可能にします。このデータの品質、量、多様性は、モデルの最終的な精度と、新しい未知の情報に一般化する能力に直接影響します。

AIにおける学習データの役割

トレーニングデータの主な機能は、モデルの予測と実際の結果との間の誤差を最小限に抑えることです。モデルトレーニングプロセス中、アルゴリズムはデータを反復的に処理し、画像のエッジや文中のキーワードなど、特定のラベルと相関する特徴を識別します。このプロセスは、トレーニング中にハイパーパラメータを調整するために使用される検証データや、モデルのパフォーマンスの最終評価のために予約されているテストデータとは異なります。

高品質なトレーニングデータは、モデルが遭遇する現実世界のシナリオを代表するものでなければなりません。データセットにバイアスが含まれていたり、多様性が不足していたりすると、モデルは過学習に陥る可能性があります。これは、トレーニング例を記憶するものの、新しい入力に対してはうまく機能しない状態です。逆に、未学習は、データが単純すぎたり、モデルが根本的なパターンを捉えるのに不十分な場合に発生します。

実際のアプリケーション

学習データは、システムが過去の事例から学習することを可能にすることで、事実上あらゆる産業におけるイノベーションを推進します。

  • 医療分野におけるAI: 医療診断において、学習データは数千枚のX線画像で構成され、それらが「健康」または肺炎などの特定の病理を含むものとしてラベル付けされている場合があります。これらのラベル付きの例を処理することで、Ultralytics YOLO26のようなモデルは、潜在的な異常を高精度で強調表示することで放射線科医を支援し、診断時間を大幅に短縮することができます。
  • Autonomous Vehicles: 自動運転車は、数百万マイルに及ぶ走行映像を含む膨大なデータセットに依存しています。このトレーニングデータには、歩行者、交通標識、他の車両、および車線マーカーを示すアノテーション付きフレームが含まれます。 Waymo Open DatasetnuScenesのような包括的なライブラリから取得されたこの情報は、 車両の知覚システムに複雑な環境を安全にナビゲートする方法を教えます。

データの調達と管理

堅牢な訓練データを取得することは、機械学習プロジェクトにおいて最も困難な部分であることがよくあります。データは、Google Dataset Searchのような公開リポジトリや、object detectionのためのCOCOのような専門コレクションから取得できます。しかし、生データは精度を確保するために、しばしば慎重なデータクリーニングアノテーションを必要とします。

Ultralytics Platformのようなツールは、データセットのアップロード、ラベリング、管理のための統合環境を提供することで、このワークフローを効率化しました。効果的な管理には、既存の画像にフリップ、回転、色調整などの変換を適用してトレーニングセットのサイズを人為的に増やす手法であるデータ拡張も含まれます。これにより、モデルは入力データのバリエーションに対してより堅牢になります。

YOLO26を用いた実践的な例

以下のpythonの例は、トレーニングを開始する方法を示しています。 ultralytics ライブラリ。ここでは、事前学習済みの YOLO26 モデルは~でファインチューニングされています COCO8は、学習パイプラインの検証用に設計された小規模なデータセットです。

from ultralytics import YOLO

# Load a pre-trained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# The 'data' argument specifies the dataset configuration file
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

データ品質の重要性

「ゴミを入れればゴミが出る」という格言は、機械学習の基本です。Transformerや深層畳み込みニューラルネットワーク (CNN)のような最も洗練されたアーキテクチャでさえ、不適切な学習データを補うことはできません。正解ラベルが誤っているラベルノイズのような問題は、パフォーマンスを著しく低下させる可能性があります。したがって、データセットの整合性を維持するためには、ヒューマン・イン・ザ・ループ検証を伴う厳格な品質保証プロセスが不可欠です。

さらに、AI倫理の原則を遵守するには、トレーニングデータが人口統計学的または社会経済学的なバイアスについて精査される必要があります。AIにおける公平性を確保することは、バランスの取れた代表的なトレーニングデータセットから始まり、これによりデプロイされたアプリケーションにおける差別的な結果を防ぐのに役立ちます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。