Ultralytics YOLO

コンピュータビジョンプロジェクトのデータラベリングを探求する

コンピュータビジョンプロジェクトにおけるデータラベリングに関する包括的な詳細解説を読み、ビジュアルデータのラベリング方法とその重要性について学びましょう。

ABAbirami Vina

4 min readSeptember 2, 2024

人工知能（AI）は、機械に人間のような能力を与えることに注力しており、これを実現する最も一般的な方法の1つが教師あり学習です。言い換えれば、ラベル付けされた例をAIモデルに示すことで学習させ、パターンから学び、タスクを改善するのを助けることができます。これは、人間が経験から学ぶ方法と非常によく似ています。では、これらのラベル付けされた例はどのように作成されるのでしょうか？

データアノテーションとは、機械学習アルゴリズムがデータを理解できるようにラベル付けやタグ付けを行うことです。コンピュータビジョンにおいては、これは画像や動画にマークを付け、物体、行動、またはシーンを正確に認識および分類することを意味します。AIモデルの成功は、そのトレーニングに使用されるラベル付きデータの品質に大きく依存するため、データラベリングは非常に重要です。

Studies show that over 80% of AI project time is spent managing data, from collecting and aggregating it to cleaning and labeling it. This shows just how important data annotation is in AI model development. Using high-quality annotated data makes it possible for AI models to perform tasks like facial recognition and object detection with greater accuracy and dependability in real-world situations.

Link to this sectionなぜデータアノテーションが必要なのか#

データアノテーションは、コンピュータビジョンモデルがどの程度うまく機能するかの基盤となります。ラベル付きデータは、モデルが学習し予測を行うために使用する正解データ（グラウンドトゥルース）です。正解データが重要である理由は、それがモデルが理解しようとしている現実世界を表しているからです。この信頼できる基準がなければ、AIモデルは羅針盤を持たずに航海する船のようなものになってしまいます。

グラウンドトゥルースと予測

図1. グラウンドトゥルースと予測。

正確なラベリングは、これらのモデルが見ているものを理解し、より良い意思決定を行うのに役立ちます。データが不適切にラベル付けされていたり一貫性がなかったりすると、不正確な教科書で学ぶ学生のように、モデルは正しい予測や決定を下すのに苦労することになります。アノテーション済みデータのおかげで、モデルは画像や動画内のオブジェクトの画像分類、インスタンスセグメンテーション、姿勢推定といったタスクを学習できます。

Link to this sectionデータセットのための最良のリソース#

全く新しいデータセットを作成し、入念に画像や動画にラベルを付ける前に、プロジェクトで既存のデータセットを使用できるかどうかを確認することをお勧めします。高品質なデータセットに無料でアクセスできる素晴らしいオープンソースのリポジトリがいくつかあります。最も人気のあるものには次のようなものがあります。

ImageNet: 画像分類モデルのトレーニングによく使用されます。
COCO: このデータセットは、物体検出、セグメンテーション、画像キャプション作成用に設計されています。
PASCAL VOC: 物体検出およびセグメンテーションタスクをサポートしています。

COCOデータセットのデータ例

図2. COCOデータセットのデータ例。

When choosing a dataset, it’s important to consider factors like how well it fits your project, the size of the dataset, its diversity, and the quality of the labels. Also, be sure to review the dataset’s licensing terms to avoid any legal repercussions, and check if the data is formatted in a way that suits your workflow and tools.

既存のデータセットがニーズに合わない場合は、カスタムデータセットを作成するのが良い選択肢です。プロジェクトの要件に応じて、ウェブカメラ、ドローン、スマートフォンなどのツールを使用して画像を集めることができます。理想的には、カスタムデータセットは多様でバランスが取れており、解決しようとしている問題を真に代表するものであるべきです。これには、さまざまな照明条件、さまざまな角度、および複数の環境で画像をキャプチャすることが含まれます。

If you are only able to collect a smaller number of images or videos, data augmentation is a helpful technique. It involves expanding your dataset by applying transformations like rotation, flipping, or color adjustments to existing images. It increases the size of your dataset and makes your model more robust and better able to handle variations in the data. By using a mix of open-source datasets, custom datasets, and augmented data, you can significantly boost the performance of your computer vision models.

Link to this section画像アノテーション技術の種類#

画像のアノテーションを開始する前に、さまざまなタイプのアノテーションに慣れておくことが重要です。これにより、プロジェクトに適したものを選ぶのに役立ちます。次に、主要なアノテーションの種類についていくつか見ていきます。

Link to this sectionBBox#

Bounding boxes are the most common type of annotation in computer vision. They are rectangular boxes used to mark the location of an object in an image. These boxes are defined by the coordinates of their corners, and help AI models identify and locate objects. Bounding boxes are mainly used for object detection.

バウンディングボックスの例

図3. バウンディングボックスの例。

Link to this sectionセグメンテーションマスク#

場合によっては、単に周囲を囲むバウンディングボックスよりも正確にオブジェクトを検出する必要があります。画像内のオブジェクトの境界に関心があるかもしれません。その場合、セグメンテーションマスクを使用すると複雑なオブジェクトの輪郭を描くことができます。セグメンテーションマスクは、より詳細なピクセルレベルの表現です。

These masks can be used for semantic segmentation and instance segmentation. Semantic segmentation involves labeling every pixel in an image according to the object or area it represents, like a pedestrian, car, road, or sidewalk. Instance segmentation, however, goes a step further by identifying and separating each object individually, like distinguishing between each car in an image, even if they are all the same type.

セマンティックセグメンテーション（左）とインスタンスセグメンテーション（右）の例

図4. セマンティックセグメンテーション（左）とインスタンスセグメンテーションマスク（右）の例。

Link to this section3D立方体#

3D立方体はバウンディングボックスに似ていますが、ユニークな点は、3D立方体が奥行き情報を追加し、オブジェクトの3D表現を提供することです。この追加情報により、システムは3D空間内でのオブジェクトの形状、体積、および位置を理解できるようになります。3D立方体は、自動運転車で車両からのオブジェクトの距離を測定するためによく使用されます。

3D立方体の例

図5. 3D立方体の例。

Link to this sectionキーポイントとランドマーク#

もう1つの興味深いアノテーションのタイプはキーポイントです。これは、目、鼻、関節などの特定の点がオブジェクト上にマークされます。ランドマークは、これらの点を接続して、顔や体のポーズなどのより複雑な形状の構造や動きを捉えることで、これを一歩進めています。これらのタイプのアノテーションは、顔認識、モーションキャプチャ、拡張現実などのアプリケーションに使用されます。また、ジェスチャー認識やスポーツパフォーマンスの分析といったタスクにおいて、AIモデルの精度を向上させます。

キーポイントの例

図6。キーポイントの例。

Link to this sectionLabelImgを使用してデータをアノテーションする方法#

さまざまなタイプのアノテーションについて説明しましたので、次は人気のあるツールであるLabelImgを使用して画像をアノテーションする方法を理解しましょう。LabelImgは画像アノテーションを簡素化し、YOLO（You Only Look Once）形式でデータセットを作成するために使用できるオープンソースツールです。小規模なUltralytics YOLOv8プロジェクトに取り組む初心者にとって最適な選択肢です。

LabelImgのセットアップは簡単です。まず、コンピュータにPython 3がインストールされていることを確認してください。次に、以下のコマンドですばやくLabelImgをインストールできます。

pip3 install labelImg

インストールが完了したら、以下のコマンドを使用してツールを起動できます。

labelImg

LabelImgは、Windows、macOS、Linuxなど、複数のプラットフォームで動作します。インストール中に問題が発生した場合は、公式のLabelImgリポジトリで詳細な手順を確認できます。

画像アノテーションにLabelImgを使用

図7. 画像アノテーションにLabelImgを使用。

ツールを起動したら、以下の簡単な手順に従って画像のラベリングを開始してください。

クラスのセットアップ: まず、「predefined_classes.txt」という名前のファイルに、アノテーションを行うクラス（カテゴリ）のリストを定義します。このファイルは、画像内でどのオブジェクトにラベルを付けるかをソフトウェアに伝えます。
YOLO形式への切り替え: デフォルトでは、LabelImgはPASCAL VOC形式を使用しますが、YOLOを使用している場合は形式を切り替える必要があります。ツールバーの「PascalVOC」ボタンをクリックしてYOLOに切り替えてください。
アノテーションの開始: 「Open」または「OpenDIR」オプションを使用して画像を読み込みます。次に、アノテーションを行うオブジェクトの周囲にバウンディングボックスを描画し、適切なクラスラベルを割り当てます。各画像にラベルを付けた後、作業を保存します。LabelImgは画像と同じ名前のテキストファイルを作成し、そこにYOLOアノテーションを格納します。
保存と確認: アノテーションはYOLO形式の.txtファイルに保存されます。また、ソフトウェアはすべてのクラス名をリストした「classes.txt」ファイルも保存します。

Link to this section効率的なデータラベリング戦略#

データラベリングのプロセスをより円滑にするために、覚えておくべき重要な戦略がいくつかあります。例えば、明確なアノテーションガイドラインが不可欠です。それらがなければ、アノテーターごとにタスクの解釈が異なる可能性があります。

例えば、画像内の鳥をバウンディングボックスでアノテーションするタスクがあるとします。あるアノテーターは鳥全体にラベルを付けるかもしれませんが、別の人は頭や翼だけに付けるかもしれません。このような不一致は、トレーニング中にモデルを混乱させる可能性があります。「翼や尾を含む鳥全体にラベルを付ける」といった明確な定義と、例や複雑なケースに対する指示を提供することで、データが一貫して正確にタグ付けされるようにすることができます。

定期的な品質チェックも、高い基準を維持するために重要です。ベンチマークを設定し、特定のメトリクスを使用して作業をレビューすることで、データの正確性を保ち、継続的なフィードバックを通じてプロセスを改善することができます。

Link to this sectionデータラベリングの要点#

データアノテーションは単純な概念ですが、コンピュータビジョンモデルに大きな影響を与える可能性があります。LabelImgのようなツールを使用して画像をアノテーションする場合でも、オープンソースデータセットでモデルをトレーニングする場合でも、データラベリングを理解することが鍵となります。データラベリング戦略は、プロセス全体を合理化し、より効率的にするのに役立ちます。時間をかけてアノテーションのアプローチを洗練させることで、より優れた信頼性の高いAI結果につながる可能性があります。

Keep exploring and expanding your skills! Stay connected with our community to keep learning about AI! Check out our GitHub repository to discover how we are using AI to create innovative solutions in industries like manufacturing and healthcare. 🚀

Explore solutions

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

コンピュータビジョンプロジェクトのデータラベリングを探求する

Link to this sectionなぜデータアノテーションが必要なのか#

Link to this sectionデータセットのための最良のリソース#

Link to this section画像アノテーション技術の種類#

Link to this sectionBBox#

Link to this sectionセグメンテーションマスク#

Link to this section3D立方体#

Link to this sectionキーポイントとランドマーク#

Link to this sectionLabelImgを使用してデータをアノテーションする方法#

Link to this section効率的なデータラベリング戦略#

Link to this sectionデータラベリングの要点#

Explore solutions

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

AIの未来を共に築き上げましょう！