インスタンスセグメンテーションとは?クイックガイド
インスタンスセグメンテーションとは何か、どのように機能するのか、さまざまなコンピュータビジョンアプリケーションでの使用方法、そしてそれがもたらす影響について詳しく見ていきましょう。

コンピュータビジョンのアプリケーションは、道路状況を監視する交通カメラから店舗のセルフレジシステムまで、私たちの日常生活においてますます一般的になっています。マシンが人間と同じように視覚データを理解できるようにすることで、ビジョンAIはさまざまな業界に影響を与えています。
これらのアプリケーションの多くは、画像内の主要なオブジェクトの周囲に境界ボックスを配置するコンピュータビジョンのタスクである物体検出に依存しています。このアプローチは多くの場合うまく機能しますが、一部の画像解析ソリューションではさらに高い精度が求められます。
例えば、医療用画像処理では腫瘍を検出するだけでは不十分であり、その正確な形状を輪郭として抽出することが不可欠です。同様にロボティクス分野でも、機械がオブジェクトを正しく把持するためには、その正確な輪郭を認識する必要があります。これらの課題に対処するために、インスタンスセグメンテーションはより精密なソリューションを提供します。
インスタンスセグメンテーションは、物体検出だけでは不十分なユースケースをサポートするために設計されたコンピュータビジョンのタスクであり、ピクセルレベルの精度を提供します。Ultralytics YOLO11のようなコンピュータビジョンモデルを使用すると、画像や動画に対して容易にインスタンスセグメンテーションを適用できます。

図1. インスタンスセグメンテーションにYOLO11を使用した例。
本ガイドでは、インスタンスセグメンテーションの仕組みとその応用例、そしてUltralytics YOLO11を特定のセグメンテーションタスク向けにカスタムトレーニングする方法について解説します。
Link to this sectionインスタンスセグメンテーションとは何か?#
人々が密集して立っている集合写真があるとします。物体検出は各人物の周囲にボックスを描くのに役立ちますが、それだけでは正確な形状まではわかりません。
一方でインスタンスセグメンテーションは、各人物の周囲を慎重になぞるような処理であるため、たとえ重なり合っていても、それぞれの完全な輪郭を確認できます。単にボックスで物の場所を示すのではなく、オブジェクトごとの正確な形状をピクセルレベルで特定するため、複雑な画像を理解しやすくなります。
その結果、オブジェクトの形状を塗りつぶし、どのピクセルがそのオブジェクトに属しているかを正確に突き止める詳細なマスクが得られます。このレベルの精度は、オブジェクトの正確な形状や境界を理解することが重要となる多くの実世界のアプリケーションで役立ちます。

図2. インスタンスセグメンテーションに対するYOLO11のサポートを紹介。
Link to this sectionインスタンスセグメンテーションとセマンティックセグメンテーションの違い#
インスタンスセグメンテーションについて探求する中で、セマンティックセグメンテーションという概念に出会うかもしれません。
どちらの技術もコンピュータがピクセルレベルで画像を理解するのを助けますが、それぞれ異なる目的があります。セマンティックセグメンテーションは、すべてのピクセルをカテゴリに基づいてラベル付けし、同じタイプのオブジェクトをすべてグループ化します。例えば、複数の車が写っている画像の場合、セマンティックセグメンテーションでは個々の車両を区別せずに、すべてを「車」としてマークします。
一方でインスタンスセグメンテーションは、各オブジェクトを個別に識別することで、さらに一歩進んだ処理を行います。個々のインスタンスに固有のラベルを割り当て、その形状の周囲に正確なマスクを作成します。同じ画像であれば、インスタンスセグメンテーションは単にすべてを「車」とラベル付けするのではなく、各車を個別に認識して輪郭を描き出します。
この2つの主な違いは、セマンティックセグメンテーションはカテゴリごとにオブジェクトをグループ化するのに対し、インスタンスセグメンテーションは各オブジェクトを明確な境界を持つ固有のエンティティとして区別する点にあります。どちらのタスクを使用するかは、その画像内に何があるかを把握するだけで十分なのか、あるいは個々のオブジェクトを区別することが重要なのかといった特定のアプリケーションに基づいて選択されます。

図3. インスタンスセグメンテーション対セマンティックセグメンテーション(それぞれ右側と左側)。
Link to this section一般的なインスタンスセグメンテーションモデル#
現在、ビジョンAIコミュニティではさまざまなインスタンスセグメンテーションモデルが利用可能です。高速なもの、高精度なもの、使いやすいものなどがあります。
これらの選択肢は便利ですが、特定のタスクにどれを使うべきかという疑問が生じるかもしれません。その中でもUltralytics YOLOモデルは、スピードと精度を重視しているため非常に人気があります。
また、これらのモデルは長年にわたって大幅に進化してきました。例えば、Ultralytics YOLOv5はPyTorchなどのフレームワークを使用したデプロイを簡素化し、深い技術的専門知識を必要とせずに、より多くのユーザーが高度なビジョンAIを利用できるようにしました。
その成功を基に、Ultralytics YOLOv8では、インスタンスセグメンテーション、姿勢推定、画像分類といったコンピュータビジョンのタスクに対するサポートが強化されました。
現在、YOLO11はパフォーマンスを新たなレベルへと引き上げています。YOLOv8mと比較して22%少ないパラメータ数でCOCOデータセットにおいてより高い平均適合率(mAP)を達成しており、より少ないリソースでより正確にオブジェクトを認識できることを意味します。

図4. YOLO11のベンチマーク。
端的に言えば、YOLO11は効率性を損なうことなく最高水準の精度を実現しており、この分野において革新的な存在となっています。
Link to this sectionインスタンスセグメンテーションの仕組みを理解する#
次に、インスタンスセグメンテーションが通常どのように機能するかを探ります。古いコンピュータビジョンモデルは、2段階のアプローチを使用します。
まず、オブジェクトの周囲に境界ボックスを描くことでオブジェクトを検出します。次に、各オブジェクトの正確な形状を輪郭抽出するためのピクセルレベルのマスクを生成します。よく知られた例として、物体検出モデルにマスク予測ステップを追加したMask R-CNNがあります。この方法は効果的ですが、画像を複数の段階で処理するため低速になる可能性があり、リアルタイムのアプリケーションには課題となります。
一方、YOLO11のようなモデルは、画像を一度に処理し、物体境界ボックスとインスタンスセグメンテーションマスクを同時に予測します。この合理化されたアプローチにより、高い精度を維持しつつ、はるかに高速な処理が可能になります。その結果、スピードと精度の両方が不可欠な自動運転、動画解析、ロボティクスなどのリアルタイムアプリケーションに特に役立ちます。
Link to this sectionインスタンスセグメンテーションに向けたYOLO11のカスタムトレーニング#
YOLO11は標準で学習済みモデルとして提供されています。インスタンスセグメンテーションのために日常的なオブジェクトを網羅したCOCO-Segデータセットでトレーニングされています。しかし、Ultralytics Pythonパッケージはカスタムトレーニングをサポートしており、独自のオブジェクトをセグメント化する必要がある専門的なアプリケーションには不可欠です。
なぜカスタムトレーニングやモデルのファインチューニングが重要なのでしょうか?カスタムトレーニングは、学習済みモデルにすでに組み込まれている知識を活用する転移学習を利用します。ゼロから始めるのではなく、より少ないデータセットと計算リソースを使用して、既存のモデルを新しいタスクに適応させ、高い精度を維持することができます。
Link to this sectionYOLO11をカスタムトレーニングする方法#
インスタンスセグメンテーションに向けてYOLO11をファインチューニングするステップの詳細です。
- データの準備: 特定のアプリケーションに基づいて画像を収集し、アノテーションを付けます。Ultralyticsは複数の画像データセットをサポートしていますが、必要なYOLO形式で画像とアノテーションを準備することで、独自のデータセットを使用してトレーニングすることも可能です。
- 学習済みモデルの使用: ゼロから始めるのではなく、学習済みのUltralytics YOLO11モデルを使用します。
- モデルトレーニング: バッチサイズ(イテレーションごとに処理される画像数)、画像サイズ(ターゲット入力解像度)、エポック数(総トレーニングサイクル数)などの重要なトレーニング設定を調整し、モデルをトレーニングします。
- パフォーマンス評価: モデルトレーニングが完了したら、mAPなどのパフォーマンスメトリクスを使用してモデルの精度をテストできます。Ultralytics Pythonパッケージには、モデル評価のための組み込み関数も用意されています。
Link to this sectionYOLO11によって実現されるインスタンスセグメンテーションのアプリケーション#
インスタンスセグメンテーションは、機械がより正確にオブジェクトを見て理解することを助けることで、実世界の課題解決に活用できます。自動化の改善から環境保護まで、多くの分野で重要な役割を果たしています。それがどのように影響を与えているかの例をいくつか見ていきましょう。
Link to this sectionYOLO11を使用した建設現場の安全性と監視#
インスタンスセグメンテーションは、建設現場の安全性と効率性を確保するための重要な要素となり得ます。例えば、重機の監視に使用できます。
YOLO11は、クレーン、油圧ショベル、ブルドーザーなどのさまざまな種類の機器を正確にセグメント化・識別し、その位置をリアルタイムで追跡するようにファインチューニングできます。これにより現場管理者は、機械が指定されたエリア内でのみ確実に稼働し、作業者が存在する場所や危険が存在するゾーンに侵入していないことを確認できます。
また、このようなソリューションをリアルタイムのアラートシステムと統合することで、迅速な是正措置を講じることが可能になります。さらに、収集した洞察は現場のレイアウトやワークフローを最適化し、リスクのさらなる低減と生産性の向上に寄与します。

図5. YOLO11を使用した重機の監視。
Link to this sectionセグメンテーションとYOLO11による動物監視#
動物の行動監視は、研究者、農家、自然保護活動家がさまざまな環境で動物をより適切にケアするのに役立ちます。インスタンスセグメンテーションは、農場、動物園、自然の生息地において個々の動物を識別・セグメント化することで、これらのシステムで有用な役割を果たします。境界ボックスを使用する従来の物体検出とは異なり、インスタンスセグメンテーションは各動物のピクセルレベルでの描写を提供するため、特に動物が接近している場合に非常に役立ちます。
詳細なセグメンテーションは、動きや行動のより正確な追跡を促進します。重複していたり密集していたりする動物でも個別に認識できるため、相互作用、健康評価、活動パターンのより精密な分析を提供できます。全体として、動物の行動に関するより深い洞察は、動物のケアと管理の実践を強化します。

図6. インスタンスセグメンテーションを使用した家畜の監視。
Link to this sectionスポーツ解析と選手追跡におけるYOLO11#
正確な選手およびイベントの追跡は、スポーツ分析の重要な部分を占めています。従来の追跡手法は手動のタグ付けに依存しており、詳細な相互作用を捉えきれない場合があります。コンピュータビジョンを使用することで、各選手、ボール、主要イベントなどの詳細をピクセルレベルでセグメント化し、詳細な洞察を得ることができます。
例えば、インスタンスセグメンテーションは、各選手やオブジェクトを明確に分離することで、ファウルやボールから離れた場所でのインシデントといったイベントを検出するのに役立ちます。YOLO11のようなモデルによって可能になるこのきめ細やかな監視は、アナリストに対して動きのパターン、空間的な配置、相互作用を高い精度で研究するための明確な情報を提供します。これらの洞察の大きな利点は、チームが戦略を改善し、全体的なパフォーマンスを向上させる助けとなることです。
Link to this sectionインスタンスセグメンテーションの長所と短所#
インスタンスセグメンテーションがさまざまな業界にもたらす主な利点をいくつか挙げます。
- 自動化の改善: 品質管理や安全監視といったタスクを自動化することで、インスタンスセグメンテーションは手作業の必要性を減らし、人的ミスを最小限に抑えます。
- シーン理解の向上: 各オブジェクトを正確に輪郭抽出することで、インスタンスセグメンテーションは複雑なシーンのより深い理解に寄与し、より根拠のある意思決定をサポートします。
- 効率的な後処理: ピクセルレベルの出力は、背景の除去、オブジェクトのカウント、空間解析といったタスクを簡素化し、追加の処理ステップの必要性を削減します。
これらの利点はインスタンスセグメンテーションがさまざまなユースケースに与える影響を強調していますが、導入に伴う課題を検討することも不可欠です。
以下は、インスタンスセグメンテーションの主な制限事項です。
- 透明性に関する課題: ガラスや水のような透明または反射性のオブジェクトをセグメント化することは難しく、境界が不正確になる原因となります。
- メンテナンスコスト: モデルを正確かつ関連性の高い状態に保つためには、環境条件やデータセットの変化に応じて継続的な更新とファインチューニングが必要です。
- 高いアノテーション負荷: インスタンスセグメンテーションモデルのトレーニングには詳細なピクセルレベルのアノテーションが必要であり、データの準備にかかる時間とコストが大幅に増加します。
Link to this section重要なポイント#
インスタンスセグメンテーションは、オブジェクトが重なり合っている場合でも、高い精度で個々のオブジェクトを区別することを可能にします。ピクセルレベルでオブジェクトの境界を捉えることで、物体検出のような従来のコンピュータビジョンのタスクと比較して、視覚データに対するより深い理解を提供します。
最近のコンピュータビジョンの進歩により、インスタンスセグメンテーションはより高速で使いやすくなりました。特にUltralytics YOLO11のようなコンピュータビジョンモデルは、プロセスを簡素化し、最小限のセットアップでリアルタイムのセグメンテーションを実現することで、さまざまな業界やアプリケーションにとってより利用しやすいものとなっています。
AIに興味がありますか?GitHubリポジトリにアクセスし、コミュニティとつながって探索を続けましょう。自動運転車におけるAIや農業におけるビジョンAIといった革新的な技術については、ソリューションページで学べます。ライセンスオプションを確認して、コンピュータビジョンのプロジェクトを開始しましょう!






