YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

インスタンスセグメンテーション

インスタンスセグメンテーションがピクセルレベルの物体detectをどのように実現するかを学びましょう。Ultralytics YOLO26を使用して、高速かつリアルタイムのマスク生成などを実現する方法を発見してください。

インスタンスセグメンテーションは、コンピュータービジョン (CV)における高度な技術であり、画像内の関心のある個々のオブジェクトをピクセルレベルで識別し、その境界を明確にします。標準的な物体検出が矩形のバウンディングボックスを使用してアイテムを特定するのに対し、インスタンスセグメンテーションは、検出されたすべてのエンティティに対して正確なマスクを生成することで、分析をより深く掘り下げます。この機能により、人工知能 (AI)モデルは、同じクラスの個々のオブジェクト(例えば、重なり合う2人の人物を分離するなど)を区別でき、より単純な分類手法と比較して、視覚シーンのより豊かで詳細な理解を提供します。

セグメンテーションの種類の区別

インスタンスsegmentの有用性を完全に理解するには、他の関連する画像処理タスクと区別することが役立ちます。各手法は、アプリケーションの要件に応じて異なるレベルの粒度を提供します。

  • セマンティックセグメンテーション: このアプローチは、画像内のすべてのピクセルをカテゴリ (例: 「道路」、「空」、「車」) に分類します。しかし、同じカテゴリの別々のオブジェクトを区別しません。3台の車が隣接して駐車されている場合、セマンティックセグメンテーションはそれらを単一の「車」領域と見なします。
  • インスタンスセグメンテーション: この手法は、各オブジェクトを固有のエンティティとして扱います。個々のインスタンスをdetectし、それぞれのピクセルに固有のラベルを割り当てます。駐車中の車の例では、インスタンスセグメンテーションは「車A」、「車B」、「車C」を個別に識別する3つの異なるマスクを作成します。
  • パノプティックセグメンテーション: セマンティックセグメンテーションの背景ラベリングと、インスタンスセグメンテーションの数えられるオブジェクト識別を組み合わせたハイブリッドアプローチです。

ピクセルレベル解析の仕組み

現代のインスタンスセグメンテーションモデルは、通常、高度な深層学習(DL)アーキテクチャ、特に畳み込みニューラルネットワーク(CNN)に依存しています。これらのネットワークは画像から特徴を抽出し、オブジェクトのクラスとその空間的な輪郭の両方を予測します。歴史的に、Mask R-CNNのような2段階アーキテクチャが標準であり、まず関心領域を提案し、その後それらをマスクに洗練していました。

しかし、最近の進歩により、YOLO26のようなシングルステージ検出器が登場しました。これらは同時にdetectとsegmentを実行します。この「エンドツーエンド」アプローチは、リアルタイム推論速度を大幅に向上させ、消費者向けハードウェアでライブビデオストリームに高精度なsegmentを適用することを可能にします。

実際のアプリケーション

instance segmentationによって提供される正確な境界は、意思決定のためにオブジェクトの正確な形状と位置を理解することが不可欠な産業にとって極めて重要です。

  • 医療分野におけるAI: 医療診断において、腫瘍や病変の正確なサイズと形状を特定することは極めて重要です。インスタンスセグメンテーションにより、モデルはMRIスキャンにおける異常を高精度でoutlineすることができ、放射線科医の治療計画や疾患の進行状況のモニタリングを支援します。
  • 自律走行車: 自律走行車は、複雑な環境を走行するためにsegmentationに依存しています。Cityscapesのようなデータセットを活用することで、車両は走行可能な路面を識別し、車線標識を認識し、混雑した横断歩道で個々の歩行者を分離して安全を確保することができます。
  • 農業におけるAI: 精密農業は、segmentationを使用して作物の健康状態を監視します。ビジョンシステムを搭載したロボットは、自動収穫のために個々の果物を識別したり、特定の雑草をdetectしてターゲットを絞った除草剤散布を行ったりすることができ、化学物質の使用を削減し、収量を最適化します。

python を用いた segment の実装

開発者は、インスタンスのセグメンテーションを簡単に実装できます。 ultralytics ライブラリ。以下の例は、事前学習済みのモデルをロードする方法を示しています。 YOLO26 モデルを使用して、画像のsegmentationマスクを生成します。

from ultralytics import YOLO

# Load a pre-trained YOLO26 instance segmentation model
# The 'n' suffix denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
# This predicts classes, bounding boxes, and masks
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
# Displays the image with overlaid segmentation masks
results[0].show()

課題とモデルトレーニング

インスタンスセグメンテーションは強力ですが、単純なバウンディングボックス検出と比較して計算負荷が高いです。ピクセル単位で正確なマスクを生成するには、かなりのGPUリソースと正確なデータアノテーションが必要です。これらのタスクのデータアノテーションには、すべてのオブジェクトの周囲に厳密なポリゴンを描画することが含まれるため、時間がかかる場合があります。

このプロセスを効率化するため、チームはデータセット管理、自動アノテーション、クラウドベースのトレーニングの機能を提供するUltralytics Platformのようなツールをしばしば使用します。これにより、開発者は特定の工業部品や生物学的標本などのカスタムデータでモデルをファインチューニングし、ONNXTensorRTのような最適化された形式を使用して、エッジAIデバイスに効率的にデプロイできます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。