コンピュータビジョンにおける画像セグメンテーションを探求しましょう。Ultralytics 、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションに対して、ピクセルレベルの精密なマスクを提供する方法を学びます。
画像セグメンテーションは、コンピュータビジョン(CV)における高度な技術であり、デジタル画像を複数のピクセルのサブグループ(画像セグメントまたは領域と呼ばれることが多い)に分割する。標準的な画像分類が画像全体に単一のラベルを割り当てるのとは異なり、セグメンテーションは個々のピクセルごとに特定のクラスラベルを割り当てることで、視覚データをはるかに細分化されたレベルで分析します。このプロセスにより精密なピクセルレベルのマップが生成され、人工知能(AI)モデルは単に存在する物体を認識するだけでなく、それらの正確な位置や具体的な境界を把握することが可能になります。
この高精度の理解を実現するため、セグメンテーションモデルは通常、深層学習(DL)アーキテクチャ、特に畳み込みニューラルネットワーク(CNN)を活用する。これらのネットワークは強力な特徴抽出器として機能し、エッジ、テクスチャ、複雑な形状などのパターンを識別する。古典的なU-Netのような従来のセグメンテーションアーキテクチャは、エンコーダ-デコーダ構造を採用することが多い。エンコーダは入力画像を圧縮して意味的文脈を捉え、デコーダは空間的詳細を再構築して最終的なセグメンテーションマスクを出力する。 U-Netなどの従来のセグメンテーションアーキテクチャは、エンコーダ-デコーダ構造を採用することが多い。エンコーダは入力画像を圧縮して意味的文脈を捕捉し、デコーダは空間的詳細を再構築して最終的なセグメンテーションマスクを出力する。
近年の進歩により、2026年1月に発表されたYOLO26のようなリアルタイムアーキテクチャが実現した。これらのモデルはセグメンテーション機能をエンドツーエンドのパイプラインに直接統合し、クラウドGPUからエッジデバイスまで様々なハードウェア上で高速処理を可能にしている。
プロジェクトの具体的な目標に応じて、開発者は一般的に3つの主要なセグメンテーション手法から選択します:
セグメンテーションと物体検出を区別することは極めて重要です。検出アルゴリズムは矩形バウンディングボックスを用いて物体を特定しますが、そのボックス内には背景ピクセルが必然的に含まれます。 セグメンテーションは、物体の正確な輪郭や多角形をトレースすることで、より厳密で正確な表現を提供する。この違いは、ロボットアームが衝突せずに操作するために物体の正確な形状を把握しなければならないロボット把持などの応用において極めて重要である。
画像セグメンテーションが提供する精度は、多様な産業分野におけるイノベーションを推進します:
開発者は、インスタンスセグメンテーションを効率的に実装できます。 ultralytics Python 。
以下の例では、最先端の YOLO26モデル速度と精度の両方に最適化されています。
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
カスタムタスクで高いパフォーマンスを達成するには、チームが高品質なトレーニングデータを厳選する必要がある場合が多い。Ultralytics 、画像にポリゴンマスクを付与するアノテーションツール、データセット管理ツール、クラウド上でのモデルトレーニングツールを提供することでこのプロセスを簡素化し、機械学習運用(MLOps)ライフサイクル全体を効率化する。ライブラリとしては OpenCV などのライブラリも、画像の前処理や生成されたマスクの後処理のために、これらのモデルと併用されることが多い。