機械学習におけるデータラベリングの重要な役割、そのプロセス、課題、そしてAI開発における現実世界の応用について解説します。
データラベリングとは、生データに意味のある文脈をタグ付けしたり注釈を付けたりして、データセットを作成する基本的なプロセスである。 機械学習(ML)モデルの学習に適した 機械学習(ML)モデルの学習に適したデータセットを作成する。教師あり学習では 教師あり学習では、アルゴリズムは 入力データ(画像など)と期待される出力(ラベル)の両方を含む例。このラベル付き として機能する。 モデルの予測を測定し、改善するための決定的な基準として機能する。高品質なラベリングがなければ のような最も洗練されたアーキテクチャーでさえも、このようなラベリングが必要である。 Ultralytics YOLO11のような最も洗練されたアーキテクチャでさえ、パターンを正確に認識したり パターンを正確に認識したり、物体を識別したりすることはできない。
AIシステムの性能は、その学習データの質と表裏一体である。 とは切っても切れない関係にある。もしラベルに一貫性がなかったり、不正確であったりすると、モデルは欠陥のある関連付けを学習することになる、 不正確であったり、間違っていたりすると、モデルは欠陥のある関連付けを学習することになる。 「ガベージ・イン、ガベージ・アウト正確なラベリングは、モデルが新しい未知のデータに対してうまく汎化することを可能にします。 ロバストな コンピュータ・ビジョン(CV)アプリケーションを展開する上で極めて重要です。主要な ベンチマークデータセット COCO データセットや ImageNetなどの主要なベンチマーク・データセットが業界標準となったのは その広範かつ慎重なラベリングによってである。
データラベリングの具体的な方法は、目的とするコンピュータビジョンのタスクに大きく依存する:
データラベリングによって、AIは複雑な実世界環境で機能することができる。2つの顕著な例がある:
ラベリングは、データ準備パイプラインで使用される類似の用語と区別するのに役立つ:
手作業によるラベリングは時間がかかるが、最新のワークフローでは、以下のような専用ソフトウェアを利用することが多い。 CVAT(コンピュータ・ビジョン・アノテーション・ツール)のような専用ソフトを利用したり、能動学習を活用して アクティブ・ラーニングを活用することで、プロセスのスピードアップを図っている。今度の Ultralytics Platformは、このライフサイクル全体を効率化するように設計されています。 データソーシングから自動アノテーションまで、このライフサイクル全体を合理化するように設計されている。
次のPython スニペットは、ラベル付け済みのデータセットを使ってYOLO11 モデルを学習する方法を示している。
(coco8.yaml).学習プロセスは、データセット設定ファイルで定義された正確なラベルの存在に全面的に依存している。
データセット設定ファイル
from ultralytics import YOLO
# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
# The dataset YAML file contains paths to images and their corresponding labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# The model updates its weights based on the labeled data provided


