コンピュータビジョンにおける画像segmentationを探ります。Ultralytics YOLO26が、インスタンスsegmentation、セマンティックsegmentation、パノプティックsegmentationのために、いかに正確なピクセルレベルのマスクを提供するのかを学びましょう。
画像セグメンテーションは、コンピュータービジョン (CV)における高度な技術であり、デジタル画像を複数のピクセルサブグループ(画像セグメントまたは領域と呼ばれることが多い)に分割するものです。画像全体に単一のラベルを割り当てる標準的な画像分類とは異なり、セグメンテーションは個々のすべてのピクセルに特定のクラスラベルを割り当てることで、はるかにきめ細かいレベルで視覚データを分析します。このプロセスにより、正確なピクセルレベルのマップが作成され、人工知能 (AI)モデルが、どのようなオブジェクトが存在するかだけでなく、それらが正確にどこに位置し、具体的な境界が何であるかを理解できるようになります。
この高精度な理解を達成するために、segmentationモデルは通常、深層学習 (DL)アーキテクチャ、特に畳み込みニューラルネットワーク (CNN)を活用します。これらのネットワークは強力な特徴抽出器として機能し、エッジ、テクスチャ、複雑な形状などのパターンを識別します。古典的なU-Netのような従来のsegmentationアーキテクチャは、しばしばエンコーダ・デコーダ構造を採用しています。エンコーダは入力画像を圧縮してセマンティックコンテキストを捉え、デコーダは空間的な詳細を再構築して最終的なsegmentation maskを出力します。
現代の進歩により、2026年1月にリリースされたYOLO26のようなリアルタイムアーキテクチャが誕生しました。これらのモデルは、segmentation機能をエンドツーエンドのパイプラインに直接統合し、クラウドGPUからエッジデバイスまで、さまざまなハードウェアで高速処理を可能にします。
プロジェクトの具体的な目標に応じて、開発者は通常、主に3つのセグメンテーション技術の中から選択します。
segmentationをobject detectionと区別することが重要です。detectionアルゴリズムは長方形のbounding boxを使用してアイテムを特定しますが、そのボックス内に背景ピクセルを必然的に含んでしまいます。segmentationは、オブジェクトの正確な輪郭またはポリゴンをトレースすることによって、より厳密で正確な表現を提供します。この違いは、ロボットアームが衝突せずにアイテムを操作するために、その正確な形状を知る必要があるロボットによる把持のようなアプリケーションにとって極めて重要です。
画像セグメンテーションが提供する精度は、多様な産業でイノベーションを推進します。
開発者は、インスタンスセグメンテーションを効率的に実装できます。 ultralytics Python 。
以下の例では、最先端の YOLO26モデルは、速度と精度の両方で最適化されています。
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
カスタムタスクで高いパフォーマンスを達成するために、チームはしばしば高品質の学習データをキュレートする必要があります。Ultralytics Platformは、ポリゴンマスクで画像をアノテーションし、データセットを管理し、クラウドでモデルを学習するためのツールを提供することで、機械学習オペレーション (MLOps)のライフサイクル全体を効率化します。OpenCVのようなライブラリも、画像の事前処理や結果のマスクの事後処理のために、これらのモデルと併用されることがよくあります。

未来の機械学習で、新たな一歩を踏み出しましょう。