Yolo 深圳
深セン
今すぐ参加
用語集

データラベリング

機械学習におけるデータラベリングの重要な役割、そのプロセス、課題、そしてAI開発における現実世界の応用について解説します。

データラベリングとは、生データに意味のある文脈をタグ付けしたり注釈を付けたりして、データセットを作成する基本的なプロセスである。 機械学習(ML)モデルの学習に適した 機械学習(ML)モデルの学習に適したデータセットを作成する。教師あり学習では 教師あり学習では、アルゴリズムは 入力データ(画像など)と期待される出力(ラベル)の両方を含む例。このラベル付き として機能する。 モデルの予測を測定し、改善するための決定的な基準として機能する。高品質なラベリングがなければ のような最も洗練されたアーキテクチャーでさえも、このようなラベリングが必要である。 Ultralytics YOLO11のような最も洗練されたアーキテクチャでさえ、パターンを正確に認識したり パターンを正確に認識したり、物体を識別したりすることはできない。

正確なラベリングの重要性

AIシステムの性能は、その学習データの質と表裏一体である。 とは切っても切れない関係にある。もしラベルに一貫性がなかったり、不正確であったりすると、モデルは欠陥のある関連付けを学習することになる、 不正確であったり、間違っていたりすると、モデルは欠陥のある関連付けを学習することになる。 「ガベージ・イン、ガベージ・アウト正確なラベリングは、モデルが新しい未知のデータに対してうまく汎化することを可能にします。 ロバストな コンピュータ・ビジョン(CV)アプリケーションを展開する上で極めて重要です。主要な ベンチマークデータセット COCO データセットImageNetなどの主要なベンチマーク・データセットが業界標準となったのは その広範かつ慎重なラベリングによってである。

コンピュータ・ビジョンにおける一般的なラベリングの種類

データラベリングの具体的な方法は、目的とするコンピュータビジョンのタスクに大きく依存する:

  • 画像の分類 画像全体に1つのカテゴリーまたはクラスタグを割り当てること(例えば、写真を「晴れ」または「雨」とラベル付けする 雨 "など)。
  • オブジェクトの検出2D描画 バウンディング・ボックスを描画し 各ボックスにクラスを割り当てる。これにより、オブジェクトが何であり、どこに位置しているかをモデルに教える。
  • 画像分割ピクセルパーフェクトなマスクの作成 ピクセルパーフェクトなマスクの作成 セマンティック・セグメンテーションは インスタンス・セグメンテーションでは、画像内のすべてのピクセルを区別する。 インスタンスセグメンテーションは インスタンス・セグメンテーションは、同じクラスの個々のオブジェクト(「車1」、「車2」など)を区別する。
  • ポーズ推定アノテーション 人体の関節など、被写体の特定のキーポイントに注釈を付けること(骨格トラッキング)。 人体の関節などの特定のキーポイントに注釈を付け(骨格トラッキング)、動きや姿勢を理解すること。

実際のアプリケーション

データラベリングによって、AIは複雑な実世界環境で機能することができる。2つの顕著な例がある:

  1. 自律走行車自動運転車が安全にナビゲートするためには 自動運転車が安全にナビゲートするためには、人間が車線を綿密にラベル付けしたトレーニングデータに依存する、 交通標識、歩行者、他の車両。これにより、車の知覚システムは道路形状や潜在的な危険を瞬時に解釈することができる。 ジオメトリーと潜在的な危険を瞬時に解釈することができる。詳しくは 車載AIソリューションをご覧ください。
  2. 医療画像解析 医療では、放射線技師が医療スキャンにラベルを付けて異常を特定する。例えば 脳腫瘍のデータセットでは 病変の正確な境界を示す。このラベル付けされたデータは、医師の早期診断を支援するモデルをトレーニングし、患者の予後を改善します。 患者の予後を改善します。詳しくは ヘルスケアにおけるAIについて詳しくはこちらをご覧ください。

データラベリングと関連概念の比較

ラベリングは、データ準備パイプラインで使用される類似の用語と区別するのに役立つ:

  • Vs.データ注釈これらの用語 はしばしば同じ意味で使われる。しかし、「ラベリング」は分類(タグ付け)のような単純なタスクにのみ使われることがある。 一方、「アノテーション」は、多角形の描画やキーポイントのプロットなど、よりリッチなメタデータを意味する。 キーポイント。
  • データの増強 ラベリングは最初のデータセットを作成する。その後、ソフトウェアがラベル付けされた画像に数学的な変更を加える(回転、反転、ノイズの追加)。 人手による作業を必要とせず、人工的にデータセットの多様性を高める。 人間の労力を必要としない。
  • データクリーニングこれには次のような作業が含まれる。 破損したファイルの削除や誤ったラベルの修正など、データセット内のエラーを修正すること。クリーニングにより アノテーターによって提供されたラベルの完全性を保証する。

ツールとコード例

手作業によるラベリングは時間がかかるが、最新のワークフローでは、以下のような専用ソフトウェアを利用することが多い。 CVAT(コンピュータ・ビジョン・アノテーション・ツール)のような専用ソフトを利用したり、能動学習を活用して アクティブ・ラーニングを活用することで、プロセスのスピードアップを図っている。今度の Ultralytics Platformは、このライフサイクル全体を効率化するように設計されています。 データソーシングから自動アノテーションまで、このライフサイクル全体を合理化するように設計されている。

次のPython スニペットは、ラベル付け済みのデータセットを使ってYOLO11 モデルを学習する方法を示している。 (coco8.yaml).学習プロセスは、データセット設定ファイルで定義された正確なラベルの存在に全面的に依存している。 データセット設定ファイル

from ultralytics import YOLO

# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
# The dataset YAML file contains paths to images and their corresponding labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# The model updates its weights based on the labeled data provided

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加