セマンティック・セグメンテーションのための強力なCNNアーキテクチャ、U-Netをご覧ください。医療、衛星、自律型画像処理への応用をご覧ください。
U-Netは、高速かつ高精度な画像セグメンテーションのために設計された畳み込みニューラルネットワーク(CNN)アーキテクチャである。元々は生物医学的な画像セグメンテーションのために開発されたが、その革新的なU字型構造により、コンピュータ・ビジョン(CV)分野の基礎モデルとなった。このアーキテクチャが特に優れているのは、比較的少数の画像に対してエンドツーエンドで学習しても、精度の高いセグメンテーションマスクが得られるため、データが乏しい領域に最適な点です。U-Netのコア・コンセプトについては、U-Netアーキテクチャとその応用に関するガイドをご覧ください。
U-Netアーキテクチャの名前は、その特徴的なU字型に由来する。U-Netは2つの主要な経路から構成されている。コンテキストをキャプチャする縮小経路(エンコーダー)と、正確な位置特定を可能にする対称的な拡大経路(デコーダー)である。この設計により、ハイレベルな文脈情報ときめ細かな空間情報を効果的に組み合わせることができる。
収縮パス(エンコーダー):これは典型的な畳み込みニューラルネットワークである。畳み込み演算とプーリング演算の繰り返しブロックから構成される。エンコーダーは画像を徐々にダウンサンプリングし、空間次元を縮小する一方で、特徴チャンネルの数を増やしていく。このプロセスにより、ネットワークは階層的な特徴を学習し、画像のより広い文脈を捉えることができる。
拡張パス(デコーダー):デコーダーの仕事は、エンコーダーから圧縮された特徴表現を受け取り、高解像度のセグメンテーションマップを再構築することである。デコーダーの仕事は、エンコーダーから圧縮された特徴表現を受け取り、高解像度のセグメンテーションマップを再構築することです。デコーダーは、特徴チャンネルを減らしながら空間次元を増やす一連の「アップコンボリューション」(またはトランスポーズされたコンボリューション)を通じてこれを行います。
スキップ接続:U-Netの最も重要な革新は、スキップ接続の使用である。この接続は、エンコーダーからの特徴マップをデコーダーの対応するレイヤーに直接リンクする。これにより、デコーダは初期のエンコーダ層から高解像度の特徴を再利用することができ、ダウンサンプリングプロセスで失われがちな微細なディテールを回復することができる。この浅い特徴と深い特徴の融合が、U-Netの正確なローカライズ能力の鍵である。U-Netのオリジナルの論文には、技術的な詳細が記載されている。
U-Netは、限られたデータで正確なセグメンテーションを行うことができるため、当初の医療分野にとどまらず、多くの分野で採用されている。
医療画像解析:U-Netは、脳スキャンにおける腫瘍のセグメンテーション、顕微鏡画像における細胞の識別、手術計画のための臓器の輪郭抽出などのタスクに広く使用されている。例えば、ヘルスケアにおけるAIでは、MRIスキャンのデータセットに対してU-Netモデルを学習させることで、脳腫瘍の輪郭を自動的に描くことができ、放射線科医がより迅速で正確な診断を下せるようになります。公開されている医療画像データセットを検索して、使用されているデータの種類を確認することができます。
衛星画像の解析:地理情報システム(GIS)では、衛星画像の解析にU-Netモデルが使用される。このモデルは、異なるタイプの土地被覆(森林、水域、都市部)を識別して区分したり、航空写真から道路網をマッピングしたりするために学習される。これは、都市計画、環境モニタリング、スマート農業への応用にとって極めて重要である。NASAのEarthdataイニシアチブのようなプロジェクトは、このような技術に依存している。
強力ではあるが、U-Netを他のコンピューター・ビジョン・モデルと区別することは重要だ。
セグメンテーションにおけるU-NetとYOLOの比較: Ultralytics YOLOのようなモデルは、画像のセグメンテーションも行う。しかし、YOLO11などのアーキテクチャは、主にオブジェクト検出や インスタンスセグメンテーションなどのタスクで、リアルタイム性能を発揮するように設計されている。U-Netは、すべてのピクセルを分類するセマンティック・セグメンテーションの精度が高いことで知られる古典的なアーキテクチャですが、最新の高度に最適化されたモデルのスピードには及ばないかもしれません。これらのトレードオフを理解するために、様々なモデルのパフォーマンスを比較することができます。
セマンティック・セグメンテーションとインスタンス・セグメンテーション:U-Netは基本的にセマンティック・セグメンテーション・モデルである。各ピクセルにクラスラベルを割り当てる(例:「車」、「道路」、「建物」)。対照的に、インスタンス・セグメンテーションは、同じクラスの異なるインスタンス(例えば、"car 1"、"car 2")を区別する。基本的な U-Net アーキテクチャはセマンティック・セグメンテーションのためのものであるが、その原理は、インスタンス・セグメンテーションを実行するために、マスク R-CNN のような、より複雑なモデルに適応されている。
U-Netはディープラーニングにおける重要なマイルストーンであり続けている。その成功は、洗練されたアーキテクチャが、膨大なデータセットがなくても優れた結果を達成できることを実証した。スキップ接続のコンセプトは大きな影響力を持ち、現在ではTransformersをベースとしたものを含め、多くの高度なネットワーク・アーキテクチャに共通する特徴となっている。
U-Netは今でも強力なベースラインであるが、多くの最新のセグメンテーション・ソリューションは、そのアイデアを基に構築されている。独自のビジョンアプリケーションを構築しようとしている開発者のために、PyTorchや TensorFlowのようなプラットフォームは、U-Netや同様のモデルを実装するためのツールを提供する。統合されたコード不要の体験のためには、Ultralytics HUBを使用して、独自のデータでカスタム・セグメンテーション・モデルをトレーニングすることができる。