YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

セマンティックセグメンテーション

ピクセルレベルの画像理解のためのsemantic segmentationを探ります。Ultralytics YOLO26を使用して、今すぐ正確なsegmentationモデルをtrainおよびデプロイする方法を学びましょう。

セマンティックセグメンテーションは、個々のピクセルすべてに特定のクラスラベルを割り当てることで、画像を異なる領域に分割するコンピュータビジョンタスクです。画像全体に単一のラベルを割り当てる画像分類や、オブジェクトの周囲にバウンディングボックスを描画する物体 detectのような単純なタスクとは異なり、セマンティックセグメンテーションはシーンのピクセルレベルの理解を提供します。この詳細な分析は、オブジェクトの正確な形状と境界がその識別と同じくらい重要であるアプリケーションにとって不可欠です。これにより、機械は人間が世界を見るようにより近く「見る」ことができ、道路、歩行者、または医療スキャン内の腫瘍を構成する正確なピクセルを区別できます。

セマンティック segment ーションはどのように機能するか

セマンティックセグメンテーションの核となるのは、画像を分類する必要があるピクセルグリッドとして扱うことです。ディープラーニングモデル、特に畳み込みニューラルネットワーク (CNN)は、このタスクの標準的なアーキテクチャです。広く使用されているU-Netのような典型的なアーキテクチャは、エンコーダ・デコーダ構造を採用しています。エンコーダは入力画像を圧縮して高レベル特徴(テクスチャや形状など)を抽出し、デコーダはこれらの特徴を元の画像解像度に戻してアップサンプリングし、正確なセグメンテーションマスクを生成します。

これを実現するために、モデルは大規模なアノテーション付きデータセットで訓練されます。これらのデータセットでは、人間のアノテーターが各ピクセルをそのクラスに応じて慎重に色付けしています。Ultralytics Platformのようなツールは、高品質なグラウンドトゥルースデータの作成を加速する自動アノテーション機能を提供することで、このプロセスを容易にします。訓練後、モデルは各ピクセル値がクラスIDに対応するマスクを出力し、画像に意味を効果的に「描きます」。

関連概念の区別

セマンティックセグメンテーションを他のピクセルレベルタスクと混同することはよくあります。違いを理解することは、プロジェクトに適切なアプローチを選択するための鍵となります。

  • インスタンスセグメンテーション: セマンティックセグメンテーションが同じクラスのすべてのオブジェクトを単一のエンティティとして扱う(例:「すべての車」を青色で表示する)のに対し、インスタンスセグメンテーションは個々のオブジェクトを区別します(例:「車A」は青、「車B」は赤)。
  • パノプティックセグメンテーション: これは両方の概念を組み合わせたものです。すべてのピクセルにクラスを割り当て(セマンティック)、同時に数えられるオブジェクトの個々のインスタンスを分離することで(インスタンス)、最も包括的なシーン理解を提供します。

実際のアプリケーション

ピクセルパーフェクトな精度で視覚データを解析する能力は、多くの重要な産業でイノベーションを推進しています。

  • 自動車におけるAI: 自動運転車は、安全にナビゲートするためにsegmentationに大きく依存しています。走行可能エリアと歩道を識別し、歩行者、車、障害物を正確に輪郭抽出することで、自動運転システムはリアルタイムで重要な意思決定を行うことができます。
  • 医療分野におけるAI: 医用画像処理において、モデルはCTスキャンやMRIから臓器、病変、または腫瘍をsegmentします。これにより、放射線科医は治療計画のために腫瘍体積を計算したり、極めて高い精度でロボット手術ツールを誘導したりすることができます。
  • 農業におけるAI: 農家は、航空ドローン画像とsegmentationを使用して作物の健康状態を監視します。ピクセルを「健康な作物」、「雑草」、「土壌」としてclassifyすることで、自動システムは除草剤散布をターゲットにし、化学物質の使用を削減し、収量を最適化できます。

UltralUltralyticsによるセグメンテーションの実装

現代のsegmentationモデルは、特に〜の場合、精度と速度のバランスを取る必要があります。 リアルタイム推論 エッジデバイス上で。その Ultralytics YOLO26 モデルファミリーには、特殊なsegmentationモデル(〜で示される -seg ネイティブにエンドツーエンドで、従来のアーキテクチャよりも優れたパフォーマンスを提供する) サフィックス。 YOLO11.

以下の例は、画像に対してセグメンテーションを実行する方法を示しています。 ultralytics pythonパッケージ。これはオブジェクトの境界を明確にするバイナリマスクを生成します。

from ultralytics import YOLO

# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()

課題と今後の方向性

著しい進歩にもかかわらず、セマンティックセグメンテーションは依然として計算負荷が高いです。すべてのピクセルに対して分類を生成するには、かなりのGPUリソースとメモリが必要です。研究者たちは、これらのモデルの効率を最適化するために積極的に取り組んでおり、モバイルフォンや組み込みデバイスで重いネットワークを実行するためのモデル量子化のような技術を模索しています。

さらに、大量のラベル付きデータセットの必要性がボトルネックとなっています。これに対処するため、業界は合成データ生成と自己教師あり学習へと移行しており、これによりモデルは数百万の手動ピクセルラベルを必要とせずに生画像から学習できるようになります。これらの技術が成熟するにつれて、スマートカメラ、ロボティクス、拡張現実アプリケーションにおいて、segmentがさらに普及することが期待されます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。