Meta AIのSegment Anything Model 2 (SAM 2) のアプリケーション
Meta AIのSegment Anything Model 2 (SAM 2) を深く掘り下げ、さまざまな業界でどのようなリアルタイムアプリケーションに使用できるかを理解しましょう。

2024年7月29日、Meta AIはSegment Anything Modelの第2世代であるSAM 2をリリースしました。この新しいモデルは、画像や動画内のターゲットオブジェクトに属するピクセルを特定できます!特筆すべき点は、モデルがリアルタイムで動画の全フレームにわたってオブジェクトを追跡し続けられることです。SAM 2は、動画編集、複合現実(MR)体験、そしてコンピュータビジョンシステムを学習させるための視覚データの高速なアノテーションといった分野で、刺激的な可能性を切り拓きます。
海洋科学、衛星画像、医療などの分野で使用されてきたオリジナルのSAMの成功を基盤として、SAM 2は高速で移動するオブジェクトや外観の変化といった課題に取り組みます。向上した精度と効率性により、幅広い用途に対応できる汎用的なツールとなっています。本記事では、SAM 2が適用可能な分野と、それがAIコミュニティにとって重要である理由に焦点を当てます。
Link to this sectionSAM 2とは?#
Segment Anything Model 2は、画像と動画の両方でプロンプト指定による視覚セグメンテーション(PVS)をサポートする高度な基盤モデルです。PVSとは、ユーザーから提供された特定のプロンプトや入力に基づいて、モデルが画像や動画の異なる部分をセグメント化(領域分割)または識別する技術です。これらのプロンプトは、クリック、ボックス、マスクなどの形式で関心領域をハイライトするために使用できます。その後、モデルが指定された領域の外郭を示すセグメンテーションマスクを生成します。
SAM 2のアーキテクチャは、オリジナルのSAMを基盤としており、画像セグメンテーションから動画セグメンテーションへと拡張されています。画像データとプロンプトを使用してセグメンテーションマスクを作成する軽量なマスクデコーダーを備えています。動画に関しては、SAM 2は前フレームからの情報を記憶するメモリーシステムを導入しており、時間の経過とともに正確な追跡を可能にしています。このメモリーシステムには、セグメント化されるオブジェクトに関する詳細を保存し、呼び出すコンポーネントが含まれています。また、SAM 2はオクルージョン(遮蔽)への対応や、複数フレームにわたるオブジェクトの追跡、さらに複数のマスク候補を生成することによる曖昧なプロンプトの管理も可能です。SAM 2の高度なアーキテクチャにより、静的および動的な視覚環境の両方で高い能力を発揮します。
具体的には、動画セグメンテーションにおいて、SAM 2は従来の手法と比較して3分の1のユーザー操作でより高い精度を達成しています。画像セグメンテーションでは、SAM 2はオリジナルのSegment Anything Model (SAM)を上回り、6倍の高速化と高精度化を実現しました。この性能向上は、SAMのテストにも使用された23のデータセットを含む、計37の異なるデータセットを用いたSAM 2の研究論文で実証されました。

図1 SAMとSAM 2の比較。
興味深いことに、Meta AIのSAM 2は、これまでで最大規模の動画セグメンテーションデータセットであるSA-Vデータセットを作成することで開発されました。この大規模なデータセットには50,000本以上の動画と3,550万件のセグメンテーションマスクが含まれており、ユーザーによるインタラクティブな寄稿を通じて収集されました。アノテーターは、モデルが多様なシナリオやオブジェクトタイプから学習できるよう、プロンプトを提供し修正を行いました。
Link to this sectionSegment Anything Model 2の用途#
画像および動画セグメンテーションにおける高度な能力により、SAM 2はさまざまな業界で活用できます。いくつかの用途を見ていきましょう。
Link to this sectionSAM 2が実現する拡張現実(AR)と仮想現実(VR)#
Meta AIの新しいセグメンテーションモデルは、拡張現実(AR)および仮想現実(VR)アプリケーションに使用できます。例えば、SAM 2は現実世界のオブジェクトを正確に識別してセグメント化し、仮想オブジェクトとのインタラクションをよりリアルに感じさせることが可能です。ゲーム、教育、トレーニングなど、仮想要素と現実要素のリアルなインタラクションが不可欠な多様な分野で役立ちます。
ARグラスなどのデバイスの高度化に伴い、SAM 2の機能がそれらに統合される日も近いでしょう。グラスをかけてリビングルームを見渡す場面を想像してみてください。グラスがペットの犬の水飲みボウルをセグメント化して認識すれば、下の画像のように、補充のタイミングをリマインドしてくれるかもしれません。また、新しいレシピで料理をしている場合、グラスがキッチンカウンターの材料を識別し、ステップバイステップの指示やヒントを提供することで、料理体験を向上させ、必要なものが手元にあることを確認できます。

図2 SAM 2は間もなくARグラスで使用される可能性があります。
Link to this sectionSegment Anything Model 2を用いたソナー画像解析#
SAMモデルを用いた研究により、ソナー画像などの専門的な領域にも応用できることが示されています。ソナー画像には、低解像度、高ノイズレベル、画像内オブジェクトの複雑な形状という特有の課題があります。研究者たちは、SAMをソナー画像用に微調整(ファインチューニング)することで、海洋ゴミ、地形、その他の関心対象など、多様な水中オブジェクトを正確にセグメント化する能力を実証しました。正確で信頼性の高い水中画像技術は、海洋調査、水中考古学、漁業管理、監視といった分野で、生息地マッピング、遺物発見、脅威検知などの作業に利用できます。

図3 微調整されたSAMを用いたソナー画像のセグメンテーションの例。
SAM 2はSAMが直面する多くの課題を基盤として改善しているため、ソナー画像解析をさらに向上させる可能性があります。その正確なセグメンテーション機能は、科学研究や漁業を含むさまざまな海洋用途を支援できます。例えば、SAM 2は水中構造物の外郭を効果的に抽出し、海洋ゴミを検出し、前方監視ソナー画像内のオブジェクトを識別できるため、水中探査や監視の精度と効率の向上に寄与します。
SAM 2を使用してソナー画像を解析することの潜在的なメリットは以下の通りです。
- 効率性: 手作業によるセグメンテーションに必要な時間と労力を削減し、専門家が解析や意思決定により集中できるようにします。
- 一貫性: 大規模な海洋調査や監視に不可欠な、一貫性があり再現可能なセグメンテーション結果を提供します。
- 汎用性: 幅広い種類のソナー画像に対応可能であり、海洋科学や産業の多様なアプリケーションに役立ちます。
SAM 2をソナー画像プロセスに統合することで、海洋業界は水中探査や解析の効率性、精度、信頼性を高め、最終的には海洋研究におけるより良い成果につなげることができます。
Link to this section自動運転車におけるSAM 2の利用#
SAM 2のもう一つの用途は、自動運転車です。SAM 2は歩行者、他の車両、道路標識、障害物などのオブジェクトをリアルタイムで正確に識別できます。SAM 2が提供できる詳細レベルは、安全な走行および衝突回避の判断を下すために不可欠です。視覚データを正確に処理することで、SAM 2は環境の詳細で信頼できる地図を作成し、より優れた意思決定を支援します。

図4. セグメンテーションを用いた交通状況の把握。
さまざまな照明条件、気象変化、動的な環境で優れた性能を発揮するSAM 2の能力は、自動運転車にとって信頼できるものとなります。交通量の多い都市の道路であっても霧の深い高速道路であっても、SAM 2は一貫して正確にオブジェクトを識別およびセグメント化し、車両が状況に応じて正しく対応できるようにします。
ただし、いくつかの制限事項には注意が必要です。複雑で高速移動するオブジェクトに対しては、SAM 2は微細な詳細を見逃すことがあり、フレーム間での予測が不安定になる場合があります。また、混雑したシーンでは同様の外観を持つ複数のオブジェクトを混同することがあります。これらの課題があるため、自動運転アプリケーションにおいては、他のセンサーや技術との統合が重要です。
Link to this sectionSAM 2による環境モニタリング#
コンピュータビジョンを使用した環境モニタリングは、特にアノテーション済みデータが不足している場合には困難ですが、それがSAM 2にとって興味深い応用先にもなっています。SAM 2は、衛星画像やドローン画像から森林、水域、都市部、農業地などのさまざまな環境的特徴を正確にセグメント化および識別することで、自然景観の変化を追跡・分析するために使用できます。具体的には、正確なセグメンテーションは、森林破壊、都市化、土地利用の変化を長期間にわたって監視し、環境保全や計画立案のための貴重なデータを提供します。

SAM 2のようなモデルを使用して環境変化を長期間にわたって解析するメリットをいくつか挙げます。
- 早期検知: 環境悪化の初期兆候を特定し、さらなる被害を防ぐためのタイムリーな介入を可能にします。
- リソース管理: さまざまな環境的特徴の状態に関する詳細な洞察を提供することで、天然資源の効率的な管理を支援します。
- 生物多様性の保全: 野生生物の追跡や生物多様性のモニタリングを支援し、保全活動や絶滅危惧種の保護に貢献します。
- 災害対応: 洪水、山火事、ハリケーンなどの自然災害の影響評価を助け、迅速かつ効果的な災害対応と復旧計画の策定を可能にします。
Link to this sectionSAM 2による動画編集:実際に試してみよう#
Segment Anything 2 Demoは、動画でモデルを試す優れた方法です。SAM 2のPVS機能を活用し、古いUltralytics YouTube動画を使って動画内の3つのオブジェクトまたは人物をセグメント化し、ピクセル化することに成功しました。従来、このような方法で動画から3人の人物を編集して消去する場合、時間と手間がかかり、手動でフレームごとにマスクを作成する必要がありました。しかし、SAM 2はこのプロセスを簡素化します。デモで数回クリックするだけで、数秒のうちに関心のある3つのオブジェクトのアイデンティティを保護できます。

図6. SAM 2デモを試す。
このデモでは、追跡対象のオブジェクトにスポットライトを当てる、あるいは追跡中のオブジェクトを消去するといった、いくつかの異なる視覚効果も試すことができます。デモを気に入ってSAM 2でイノベーションを始める準備ができた方は、Ultralytics SAM 2モデルドキュメントページで、モデルを実際に操作するための詳細な手順を確認してください。機能、インストール手順、例を確認して、プロジェクトでSAM 2の可能性を最大限に引き出しましょう!
Link to this sectionまとめ#
Meta AIのSegment Anything Model 2 (SAM 2) は、動画および画像セグメンテーションを変革しています。オブジェクト追跡のようなタスクが改善されるにつれ、私たちは動画編集、複合現実、科学研究、医療画像処理における新たな機会を発見しています。複雑なタスクを容易にし、アノテーションを高速化することで、SAM 2はAIコミュニティにとって重要なツールになる準備が整っています。SAM 2のようなモデルを用いた探求とイノベーションを続ける中で、私たちはさまざまな分野でさらに多くの画期的なアプリケーションや進歩が生まれることを期待できます!
GitHubリポジトリの探索やコミュニティへの参加を通じて、AIについてさらに詳しく知りましょう。製造や医療におけるAIの詳細な洞察については、ソリューションページをご覧ください。🚀






