機械学習のためのデータラベリングの基礎を学びます。object detectionのような主要なタイプと、Ultralytics YOLO26を使用してワークフローを加速する方法を発見してください。
データラベリングは、画像、動画フレーム、テキスト、音声などの生データを識別し、コンテキストを提供するための情報タグやメタデータを追加する基本的なプロセスです。機械学習 (ML)の分野では、アルゴリズムは本質的に物理世界を理解できません。それらを導く「教師」が必要です。このガイダンスは、教師あり学習中に使用されるラベル付きデータセットの形で提供されます。ラベルは、モデルが予測しようとする正解を表すグラウンドトゥルースとして機能します。単純な分類器をトレーニングする場合でも、Ultralytics YOLO26のような複雑なアーキテクチャをトレーニングする場合でも、これらのラベルの精度、一貫性、および品質がモデルの成功の主要な決定要因となります。
これらの用語は日常会話ではしばしば互換的に使用されますが、注目すべき微妙な区別があります。「データラベリング」は一般的に、データにカテゴリやタグを割り当てるという広範な行為(例:メールを「スパム」とタグ付けする)を指します。対照的に、データアノテーションは、バウンディングボックス、ポリゴン、またはキーポイントを使用して物体の正確な境界線を示すことを伴い、しばしばコンピュータビジョン (CV)に特化しています。しかし、ほとんどのMLオペレーション (MLOps)ワークフロー内では、両方の用語は高品質なトレーニングデータの作成を説明します。
ラベリング方法は、モデルが実行する必要があるタスクに基づいて変化します。一般的なタイプは次のとおりです。
データラベリングの有用性は、AIを採用するほぼすべての産業に及びます。
ラベル付きデータセットの作成は、AIプロジェクトにおいて最も時間のかかる部分であることがよくあります。このプロセスには通常、「Human-in-the-Loop」(HITL)アプローチが伴い、人間のアノテーターがラベルを検証して高い精度を確保します。現代のワークフローでは、データセット管理を簡素化し、チームがアノテーションで共同作業できるようにするUltralytics Platformのようなツールが活用されています。また、アクティブラーニングのような高度な手法も採用でき、モデルがデータを事前ラベリングし、人間は信頼度の低い予測のみを修正することで、プロセスを大幅に高速化します。
以下の例は、事前学習済みYOLO26モデルを使用して新しい画像に自動的にラベルを生成(オートラベリング)し、その後人間が修正する方法を示しています。
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")

未来の機械学習で、新たな一歩を踏み出しましょう。