インスタンスセグメンテーションがピクセル単位の物体検出を可能にする仕組みを学びましょう。Ultralytics を活用した高速リアルタイムマスク生成などの手法を発見してください。
インスタンスセグメンテーションは、コンピュータビジョン(CV)における高度な技術であり、画像内の個々の対象物をピクセルレベルで識別・境界設定する。標準的な物体検出が 矩形の境界ボックスを用いて位置特定するのに対し、インスタンスセグメンテーションは検出された各エンティティに対して精密なマスクを生成することで分析を深化させる。 この機能により、人工知能(AI)モデルは同一クラス内の個々のオブジェクト(例:重なり合った2人の人物を分離)を区別できるようになり、単純な分類手法と比較して視覚シーンに対するより豊かで詳細な理解を提供します。
インスタンスセグメンテーションの有用性を完全に理解するには、他の関連する画像処理タスクとの違いを明確にすることが有用である。各手法は、アプリケーションの要件に応じて異なる粒度レベルを提供する。
現代のインスタンスセグメンテーションモデルは、通常、高度な深層学習(DL)アーキテクチャ、特に畳み込みニューラルネットワーク(CNN)に依存している。これらのネットワークは画像から特徴を抽出し、物体のクラスとその空間的輪郭の両方を予測する。 従来、Mask R-CNNのような二段階アーキテクチャが標準であり、まず関心領域を提案し、その後それらをマスクへと精緻化していた。
しかし、近年の進歩により、YOLO26のような単一段階検出器が実現され、検出とセグメンテーションを同時に行うことが可能となった。この「エンドツーエンド」アプローチはリアルタイム推論速度を大幅に向上させ、民生用ハードウェア上でライブ動画ストリームに高精度セグメンテーションを適用することを可能にした。
インスタンスセグメンテーションが提供する正確な境界線は、意思決定において物体の正確な形状と位置の理解が必要な産業にとって極めて重要である。
開発者は、インスタンスのセグメンテーションを簡単に実装できます。 ultralytics ライブラリ。以下の
例は、事前学習済みモデルを読み込む方法を示しています。 YOLO26 モデル
および画像のセグメンテーションマスクを生成する。
from ultralytics import YOLO
# Load a pre-trained YOLO26 instance segmentation model
# The 'n' suffix denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
# This predicts classes, bounding boxes, and masks
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results
# Displays the image with overlaid segmentation masks
results[0].show()
インスタンスセグメンテーションは強力である一方、単純なバウンディングボックス検出と比較して計算負荷が高い。 ピクセル単位で正確なマスクを生成するには、 GPU 精密な データアノテーションが必要となる。これらのタスクのためのデータアノテーションでは、 各オブジェクトの周囲に厳密なポリゴンを描画する必要があり、時間がかかる場合がある。
このプロセスを効率化するため、チームはしばUltralytics ツールを活用しますUltralytics データセット管理、自動アノテーション、クラウドベースのトレーニング機能を提供します。これにより開発者は、特定の産業部品や生物学的検体といったカスタムデータでモデルを微調整し、最適化されたフォーマット(例:ONNX)を用いてエッジAIデバイスへ効率的にデプロイすることが可能になります。 ONNX や TensorRTなどの最適化された形式でエッジAIデバイスに効率的にデプロイできます。