ピクセルレベルの画像理解のためのセマンティックセグメンテーションを探求しましょう。Ultralytics を使用して、高精度なセグメンテーションモデルのトレーニングとデプロイ方法を今すぐ学びましょう。
セマンティックセグメンテーションは、個々のピクセルに特定のクラスラベルを割り当てることで画像を異なる領域に分割するコンピュータビジョンタスクである。画像全体に単一のラベルを割り当てる画像分類や、物体の周囲に境界ボックスを描く物体検出といった単純なタスクとは異なり、セマンティックセグメンテーションはシーンをピクセルレベルで理解する。 この粒度の細かい分析は、物体の正確な形状や境界がその正体と同様に重要なアプリケーションにおいて極めて重要です。これにより機械は人間のように世界を「見る」ことが可能となり、道路や歩行者、医療画像内の腫瘍を構成する正確なピクセルを識別できるようになります。
本質的に、セマンティックセグメンテーションは画像を分類すべきピクセルのグリッドとして扱う。深層学習モデル、特に畳み込みニューラルネットワーク(CNN)がこのタスクの標準的なアーキテクチャである。 広く用いられるU-Netなどの典型的なアーキテクチャは、エンコーダ-デコーダ構造を採用している。エンコーダは入力画像を圧縮して高次元特徴(テクスチャや形状など)を抽出し、デコーダはこれらの特徴を元の画像解像度までアップサンプリングして精密なセグメンテーションマスクを生成する。
これを実現するため、モデルは大規模な 注釈付きデータセットで訓練される。このデータセットでは 人間の注釈者が各ピクセルをそのクラスに応じて 慎重に色分けしている。Ultralytics ツールは 自動注釈機能を提供することでこのプロセスを促進し、 高品質なグラウンドトゥルースデータの作成を加速する。訓練後、モデルは 各ピクセル値がクラスIDに対応するマスクを出力し、 効果的に画像に意味を「塗り込む」のである。
セマンティックセグメンテーションは他のピクセルレベルタスクと混同されがちです。 プロジェクトに適した手法を選択するには、その違いを理解することが重要です:
ピクセル単位の精度で視覚データを解析する能力は、多くのハイリスク産業におけるイノベーションを推進する:
現代のセグメンテーションモデルは、特に以下の点において精度と速度のバランスを取る必要がある。
リアルタイム推論 エッジデバイス上で。
Ultralytics YOLO26 モデルファミリーには、
特殊化されたセグメンテーションモデル( -seg サフィックス)はネイティブにエンドツーエンドであり、
従来のアーキテクチャ(例: YOLO11.
以下の例は、画像に対してセグメンテーションを実行する方法を示しています。 ultralytics Python
パッケージ。これにより、オブジェクト境界を定義するバイナリマスクが生成されます。
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()
大きな進歩が見られるにもかかわらず、セマンティックセグメンテーションは依然として計算負荷が高い。 各ピクセルごとに分類を生成するには、GPU とメモリが必要となる。 研究者らは効率化に向けたモデル最適化を積極的に進めており、 モデル量子化などの手法を模索することで、 重いネットワークをスマートフォンや組み込みデバイス上で実行可能にしようとしている。
さらに、膨大なラベル付きデータセットの必要性がボトルネックとなっている。この課題に対処するため、業界では合成データ生成 と自己教師あり学習への移行が進んでおり、これによりモデルは数百万もの手動ピクセルラベルを必要とせず、生の画像から学習できるようになる。これらの技術が成熟するにつれ、セグメンテーション技術はスマートカメラ、ロボティクス、拡張現実アプリケーションにおいてさらに普及することが期待される。