インスタンスセグメンテーションとは何か、その仕組み、さまざまなコンピュータビジョンアプリケーションでの使用法、そしてそれがもたらす影響について詳しく見ていきます。

インスタンスセグメンテーションとは何か、その仕組み、さまざまなコンピュータビジョンアプリケーションでの使用法、そしてそれがもたらす影響について詳しく見ていきます。

コンピュータビジョンアプリケーションは、道路状況を監視する交通カメラから店舗のセルフレジシステムまで、私たちの日常生活でより一般的になっています。マシンが人間と同じように視覚データを理解できるようにすることで、Vision AIはさまざまな業界に影響を与えています。
これらのアプリケーションの多くは、画像内の主要なオブジェクトの周りにバウンディングボックスを配置するコンピュータビジョンタスクである物体検出に依存しています。このアプローチは多くの場合うまく機能しますが、一部の画像分析ソリューションでは、さらに高い精度が必要です。
例えば、医用画像処理では、腫瘍を検出するだけでなく、その正確な形状を概説することが重要です。同様に、ロボット工学では、機械は物体を正しく把握するために、物体の正確な輪郭を認識する必要があります。これらの課題に対処するために、インスタンスセグメンテーションはより正確なソリューションを提供します。
インスタンスセグメンテーションは、オブジェクトの検出だけでは不十分なユースケースをサポートするように設計されたコンピュータビジョンのタスクであり、ピクセルレベルの精度を提供します。Ultralytics YOLO11のようなコンピュータビジョンモデルを使用して、インスタンスセグメンテーションを画像やビデオに簡単に適用できます。

このガイドでは、インスタンスセグメンテーションの仕組み、その応用例、そしてUltralytics YOLO11を特定のセグメンテーションタスク用にカスタムトレーニングする方法について解説します。
例えば、人々が密集して立っているグループ写真があるとします。物体検出は、各人物の周りにボックスを描くのに役立ちますが、正確な形状まではわかりません。
インスタンスセグメンテーションは、重なり合っていても、それぞれの人の輪郭全体が見えるように、各人物を注意深くトレースするのに似ています。何かがどこにあるかをボックスでマークするだけでなく、ピクセルレベルで各オブジェクトの正確な形状を識別するため、複雑な画像を理解しやすくなります。
その結果、オブジェクトの形状を埋める詳細なマスクが作成され、どのピクセルがオブジェクトに属するかを正確に特定します。このレベルの精度は、オブジェクトの正確な形状と境界を理解することが重要な多くの現実世界のアプリケーションで役立ちます。

インスタンスセグメンテーションを検討する際に、セマンティックセグメンテーションの概念に出会うかもしれません。
どちらの手法も、コンピュータがピクセルレベルで画像を理解するのに役立ちますが、目的が異なります。セマンティックセグメンテーションは、カテゴリに基づいてすべてのピクセルにラベルを付け、同じタイプのオブジェクトをすべてグループ化します。たとえば、複数の車が写っている画像では、セマンティックセグメンテーションは個々の車両を区別せずに、それらすべてを「車」としてマークします。
一方、インスタンスセグメンテーションは、各オブジェクトを個別に識別することで、さらに一歩進んでいます。個々のインスタンスに固有のラベルを割り当て、その形状の周りに正確なマスクを作成します。したがって、同じ画像内で、インスタンスセグメンテーションはすべてを「車」としてラベル付けするだけでなく、個々の車を認識してアウトライン表示します。
セマンティックセグメンテーションはオブジェクトをカテゴリー別にグループ化するのに対し、インスタンスセグメンテーションは各オブジェクトを明確な境界を持つ固有のエンティティとして区別するという点が主な違いです。どちらのタスクを使用するかは、特定のアプリケーションによって異なります。画像に何が含まれているかを知るだけで十分なのか、個々のオブジェクトを区別することが重要なのかによって判断します。

最近では、Vision AIコミュニティで利用できるさまざまなインスタンスセグメンテーションモデルがあります。より高速なものもあれば、より正確なものもあれば、より使いやすいものもあります。
これらのオプションは便利ですが、特定のタスクにどれを使用するのが適切かという疑問が生じる可能性があります。多くの選択肢の中でも、Ultralytics YOLOモデルは、その速度と精度に重点を置いているため、非常に人気があります。
また、これらのモデルは長年にわたって大幅に進化してきました。たとえば、Ultralytics YOLOv5は、PyTorchなどのフレームワークを使用してデプロイメントを簡素化し、高度な技術的な専門知識がなくても、より幅広いユーザーが高度なVision AIにアクセスできるようにしました。
その成功に基づいて、Ultralytics YOLOv8は、インスタンスセグメンテーション、ポーズ推定、画像分類などのコンピュータビジョンタスクに対するサポートを強化しました。
現在、YOLO11はパフォーマンスを新たなレベルに引き上げます。YOLOv8mよりも22%少ないパラメータでCOCOデータセットでより高い平均適合率(mAP)を達成しています。つまり、より少ないリソースを使用しながら、オブジェクトをより正確に認識できます。

簡単に言うと、YOLO11は効率性を損なうことなく、最先端の精度を実現し、この分野に革新をもたらします。
次に、インスタンスセグメンテーションが通常どのように機能するかを見ていきましょう。従来のコンピュータビジョンモデルでは、2段階のアプローチが使用されています。
まず、オブジェクトの周囲にバウンディングボックスを描画してオブジェクトを検出します。次に、ピクセルレベルのマスクを生成して、各オブジェクトの正確な形状を概説します。よく知られている例はMask R-CNNで、オブジェクト検出モデルを基に、マスク予測ステップを追加しています。この方法は効果的ですが、画像を複数の段階で処理するため、処理が遅くなる可能性があり、リアルタイムアプリケーションがより困難になります。
一方、YOLO11のようなモデルは、画像を一度に処理し、オブジェクトのバウンディングボックスとインスタンスセグメンテーションマスクを同時に予測します。この合理化されたアプローチにより、高い精度を維持しながら、はるかに高速になります。その結果、速度と精度の両方が重要な自律走行、ビデオ分析、ロボット工学などのリアルタイムアプリケーションに特に役立ちます。
YOLO11は、すぐに使用できる事前トレーニング済みのモデルとして提供されます。これは、インスタンスセグメンテーション用の日常的なオブジェクトをカバーするCOCO-Segデータセットでトレーニングされています。ただし、Ultralytics Pythonパッケージはカスタムトレーニングをサポートしており、これは、固有のオブジェクトをセグメント化する必要がある特殊なアプリケーションに不可欠です。
カスタムトレーニングまたはモデルのファインチューニングが重要なのはなぜですか?カスタムトレーニングは、事前学習済みモデルにすでに組み込まれている知識を基盤とすることで、転移学習を活用します。ゼロから始めるのではなく、既存のモデルを、より少ないデータセットとコンピューティングリソースを使用して新しいタスクに適応させ、高い精度を維持します。
インスタンスセグメンテーションのためにYOLO11を微調整する手順について詳しく見ていきましょう。
インスタンスセグメンテーションは、機械がオブジェクトをより正確に見て理解できるようにすることで、現実世界の課題を解決するために使用できます。自動化の改善から環境保護まで、多くの分野で重要な役割を果たしています。それがどのような影響を与えているかの例をいくつか見ていきましょう。
インスタンスセグメンテーションは、建設現場での安全性と効率性を確保するための重要な要素となり得ます。たとえば、重機の監視に使用できます。
YOLO11 は、クレーン、掘削機、ブルドーザーなどのさまざまな種類の機器を正確にセグメント化および識別し、それらの位置をリアルタイムで追跡するように微調整できます。これにより、現場管理者は、機械が指定されたエリア内で厳密に動作し、作業員が存在する場所や危険が存在する場所を侵害しないようにすることができます。
また、このようなソリューションをリアルタイムアラートシステムと統合することで、迅速な是正措置を講じることができます。さらに、収集されたインサイトは、サイトのレイアウトとワークフローを最適化し、リスクを軽減し、生産性を向上させるのに役立ちます。

動物の行動モニタリングは、研究者、農家、保護活動家がさまざまな環境で動物をより適切に世話をするのに役立ちます。インスタンスセグメンテーションは、農場、動物園、自然の生息地で個々の動物を識別およびセグメント化することにより、これらのシステムで役立ちます。バウンディングボックスを使用する従来の物体検出とは異なり、インスタンスセグメンテーションは各動物のピクセルレベルの境界線を提供します。これは、動物が近接している場合に特に役立ちます。
詳細なセグメンテーションは、動きや行動のより正確な追跡を促進します。重複または密集して群がっている動物を明確に認識し、相互作用、健康評価、および活動パターンのより正確な分析を提供できます。全体として、動物の行動に関するより深い洞察は、動物のケアと管理の実践を強化します。

正確なプレーヤーとイベントの追跡は、スポーツ分析の非常に重要な部分です。従来の追跡方法は手動によるタグ付けに依存しており、詳細なインタラクションを捉えられない可能性があります。コンピュータビジョンを使用すると、各プレーヤー、ボール、主要なイベントなどの詳細をピクセルレベルでセグメント化し、詳細な洞察を得ることができます。
例えば、インスタンスセグメンテーションは、各プレーヤーとオブジェクトを明確に分離することにより、ファウルやオフボールのインシデントなどのイベントを検出するのに役立ちます。YOLO11のようなモデルによって実現されるこの詳細な監視は、アナリストが動きのパターン、空間的な位置、および相互作用を高精度で研究するためのより明確な情報を提供します。これらの洞察の重要な利点は、チームが戦略を洗練し、全体的なパフォーマンスを向上させるのに役立つことです。
インスタンスセグメンテーションがさまざまな産業にもたらす主な利点をいくつかご紹介します。
これらの利点は、インスタンスセグメンテーションがさまざまなユースケースにどのように影響するかを示していますが、その実装に伴う課題を考慮することも不可欠です。
インスタンスセグメンテーションの主な制限事項をいくつかご紹介します。
インスタンスセグメンテーションを使用すると、オブジェクトが重複している場合でも、個々のオブジェクトを正確に区別できます。ピクセルレベルでオブジェクトの境界をキャプチャすることにより、オブジェクト検出などの従来のコンピュータビジョンのタスクと比較して、視覚データをより深く理解できます。
コンピュータビジョンの最近の進歩により、インスタンスセグメンテーションがより高速かつ簡単に使用できるようになりました。特に、Ultralytics YOLO11 のようなコンピュータビジョンモデルはプロセスを簡素化し、最小限のセットアップでリアルタイムセグメンテーションを可能にし、さまざまな業界やアプリケーションでよりアクセスしやすくしています。
AIにご興味がありますか?当社のGitHubリポジトリにアクセスし、コミュニティと繋がって、さらに詳しく調べてみましょう。ソリューションページで、自動運転車におけるAIや農業におけるVision AIなどのイノベーションについて学びましょう。ライセンスオプションを確認して、コンピュータビジョンプロジェクトを始めましょう!