データアノテーションとは? 正確なAIおよびコンピュータビジョンモデルをトレーニングするために、バウンディングボックスまたはポリゴンでデータをラベリングする方法を学びましょう。
データアノテーションは、機械学習(ML)モデルが学習するために必要な文脈を提供するため、生データにラベル付け、タグ付け、または文字起こしを行う重要なプロセスです。このステップは、アルゴリズムが入力-出力ペアで訓練され、パターンを認識して予測を行う手法である教師あり学習の基盤となります。 ラベリングされた情報は 真の基準値として機能し、モデルが 再現を目指す理想的な結果を表します。正確かつ一貫性のあるアノテーションがなければ、 Ultralytics 高度なアーキテクチャでさえ 効果的に機能しません。システムの精度は そのトレーニングデータの品質に直接依存するからです。
コンピュータビジョン(CV)の分野において、データアノテーションとは画像や動画フレーム内の特定の特徴をマークすることを指す。使用される手法は、構築されるモデルが実行する特定のタスクに大きく依存する。
データアノテーションは、様々な産業において、生のセンサーデータと知的な意思決定の間のギャップを埋める役割を果たす。
データセット準備ワークフローで頻繁に使用される他の用語とデータアノテーションを区別することは有益である。
高品質なアノテーションの作成には通常、JSONやXMLなどの標準フォーマットでデータをエクスポートする専用ソフトウェアが必要です。現代のワークフローは、データソースの取得、自動アノテーション、モデルトレーニングを単一インターフェースでUltralytics 統合環境へと急速に移行しています。
データにアノテーションが付与されると、トレーニング用の設定ファイル(多くの場合YAML)で参照されます。以下の例は、既存のアノテーションが付属するCOCO8 を使用してYOLO26モデルをトレーニングする方法を示しています。
from ultralytics import YOLO
# Load the latest YOLO26 model (nano version)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# The YAML file points to the annotated images and labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
.webp)
