SAM 3を探る:Meta AIの新しいセグメンテーションモデル
Meta AIの新しいセグメンテーションモデルであるSAM 3が、実世界の画像や動画全体でどのようにオブジェクトを簡単に検出、セグメンテーション、追跡できるかをご確認ください。

2025年11月19日、Meta AIはSegment Anything Model 3(別名SAM 3)をリリースしました。この最新バージョンのSegment Anything Modelは、テキストプロンプト、視覚的プロンプト、画像例を使用して、実世界の画像や動画内のオブジェクトを検出、セグメンテーション、追跡する新しい手法を導入しています。
SAM 3モデルはSAMおよびSAM 2をベースにしており、コンセプトセグメンテーション、オープンボキャブラリー検出、リアルタイムの動画追跡といった新しい進歩と機能をもたらします。短い名詞句を理解し、フレーム間でオブジェクトを追跡し、従来のモデルでは一貫して扱うことが難しかった詳細な概念や希少な概念を識別可能です。
SAM 3のリリースの一環として、MetaはSAM 3Dも発表しました。この次世代モデル群は、単一の画像からオブジェクト、シーン、全身を再構築し、Segment Anythingのエコシステムを3D理解へと拡張します。これらの追加機能は、computer vision、ロボティクス、メディア編集、クリエイティブワークフロー全体で新しいアプリケーションを切り開きます。
本記事では、SAM 3とは何か、SAM 2との違い、モデルの仕組み、そしてその実世界での応用例について解説します。それでは始めましょう!
Link to this sectionSAM 3とは何か?MetaのSegment Anything Model 3の概要#
SAM 3は、簡単な指示に基づいて画像や動画内のオブジェクトを識別、分離、追跡できる最先端のcomputer vision modelです。固定されたラベルリストに依存するのではなく、SAM 3は自然言語と視覚的手がかりを理解するため、モデルに見つけたいものを簡単に伝えることができます。
例えば、SAM 3では、「黄色いスクールバス」や「縞模様の猫」といった短いフレーズを入力したり、オブジェクトをクリックしたり、画像内の例をハイライトしたりできます。モデルは一致するすべてのオブジェクトを検出し、きれいなセグメンテーションマスク(どのピクセルがオブジェクトに属するかを正確に示す視覚的アウトライン)を生成します。SAM 3は、動画フレーム全体でそれらのオブジェクトを追跡し、移動中も一貫性を保つことができます。
Link to this sectionSAM 3Dが可能にする単一画像からの3D再構築#
Meta AIの発表におけるもう一つの刺激的な要素は、Segment Anythingプロジェクトを3D understandingへと拡張するSAM 3Dです。SAM 3Dは単一の2D画像から、オブジェクトや人体の形状、姿勢、構造を3次元で再構築できます。言い換えれば、このモデルは1つの視点しか利用できない場合でも、物体がどのように空間を占めているかを推定できます。
SAM 3Dは2つの異なるモデルとしてリリースされました。日常のアイテムをジオメトリとテクスチャで再構築する「SAM 3D Objects」と、単一の画像から人体の形状と姿勢を推定する「SAM 3D Body」です。両モデルともSAM 3からのセグメンテーション出力を利用し、元の写真内のオブジェクトの外観と位置に合致する3D表現を生成します。

図1. SAM 3Dの使用例。(出典:Meta AIのsegment anything playgroundを使用して作成)
Link to this sectionSAM 3:検出、セグメンテーション、追跡を統合する新機能#
検出、セグメンテーション、追跡を1つの統一されたモデルに統合するためにSAM 3が導入した主要なアップデートをいくつか紹介します:
- コンセプトセグメンテーションタスク: SAMおよびSAM 2では、オブジェクトのセグメンテーションはクリックやボックスなどの視覚的プロンプトに依存していました。SAM 3は、短いテキストフレーズや画像からの例の切り抜きに基づいてオブジェクトをセグメント化する機能を追加しました。これにより、各インスタンスをクリックすることなく、一致するすべてのインスタンスを識別できます。
- オープンボキャブラリーのテキストプロンプト: 以前のバージョンとは異なり、SAM 3は短い自然言語のフレーズを解釈できます。これにより固定のラベルリストが不要となり、モデルがより具体的、または一般的ではない概念を扱うことが可能になります。
- 検出、セグメンテーション、追跡のための単一モデル: SAM 3は検出、セグメンテーション、追跡を1つのモデルに統合し、オブジェクトを見つけ、セグメンテーションマスクを生成し、ビデオフレーム間で追跡するための個別のシステムを不要にします。これにより、画像と動画の両方に対してより一貫した効率的なワークフローが実現します。SAM 2もいくつかの追跡機能を提供していましたが、SAM 3はより強力で信頼性の高いパフォーマンスを実現しています。
- 複雑なシーンにおけるより安定した結果: SAM 3はテキスト、画像例、視覚的プロンプトを組み合わせることができるため、視覚的なクリックのみに依存していた以前のバージョンよりも、混雑したシーンや反復的なシーンをより確実に扱うことができます。

図2. SAM 3が導入したテキストや画像例によるコンセプトセグメンテーション。(出典)
Link to this sectionSAM 3 vs SAM 2 vs SAM 1の比較#
さまざまな動物が映るサファリの動画を見ており、その中から象だけを検出してセグメント化したいとします。このタスクはSAMの各バージョンでどのように行われるでしょうか?
SAMでは、セグメンテーションマスクを生成するために、各フレーム内の象を一つずつ手動でクリックする必要があります。追跡機能がないため、新しいフレームごとに再度クリックが必要です。
SAM 2では、象を一度クリックしてマスクを取得すれば、モデルが動画全体を通してその象を追跡してくれます。ただし、SAM 2は「象」といったカテゴリを独自に理解できないため、複数の象(特定のオブジェクト)をセグメント化したい場合は、依然として個別のクリック操作が必要です。
SAM 3では、ワークフローが非常にシンプルになります。「象」と入力するか、一つの象を囲むバウンディングボックスを描いて例を提供すれば、モデルは動画内のすべての象を自動的に見つけ出し、セグメント化し、フレーム間で一貫して追跡します。以前のバージョンで使用されていたクリックやボックスのプロンプトにも対応していますが、SAMやSAM 2にはできなかったテキストプロンプトや例示画像にも反応できるようになりました。
Link to this sectionSAM 3モデルの仕組み#
次に、SAM 3モデルの仕組みと学習方法を詳しく見ていきましょう。
Link to this sectionSAM 3モデルアーキテクチャの概要#
SAM 3は、コンセプトプロンプトと視覚的プロンプトを単一システムでサポートするために、複数のコンポーネントを統合しています。モデルの中心には、Metaの統一オープンソース画像テキストエンコーダーであるMeta Perception Encoderが使用されています。
このエンコーダーは画像と短い名詞句の両方を処理できます。簡単に言えば、これによりSAM 3はSegment Anything Modelの以前のバージョンよりも効果的に言語と視覚的特徴をリンクさせることが可能です。
このエンコーダーの上に、SAM 3はDETRファミリーのTransformerモデルに基づく検出器を組み込んでいます。この検出器が画像内のオブジェクトを識別し、どのオブジェクトがユーザーのプロンプトに対応するかをシステムが判断するのを助けます。
特に動画セグメンテーションにおいて、SAM 3はSAM 2のメモリーバンクとメモリーエンコーダーに基づく追跡コンポーネントを使用しています。これにより、モデルはフレーム間でオブジェクトに関する情報を保持し、時間を追って再識別および追跡を行うことができます。

図3. コンセプトを用いて何でもセグメント化する仕組み(出典:scontent)
Link to this sectionSegment Anything Model 3を支えるスケーラブルなデータエンジン#
SAM 3の学習には、インターネット上に現在存在するよりもはるかに多くの注釈付きデータが必要でした。高品質なセグメンテーションマスクとテキストラベルを大規模に作成することは困難であり、画像や動画内の概念のすべてのインスタンスを完全に輪郭抽出する作業は時間とコストがかかります。
これを解決するために、MetaはSAM 3自身、追加のAIモデル、そして人間のアノテーターを組み合わせた新しいデータエンジンを構築しました。ワークフローは、SAM 3やLlamaベースのキャプションモデルを含むAIシステムパイプラインから始まります。
これらのシステムが大規模な画像や動画のコレクションをスキャンし、キャプションを生成し、それらのキャプションをテキストラベルに変換して、初期のセグメンテーションマスク候補を作成します。その後、人間およびAIのアノテーターがこれらの候補をレビューします。
マスク品質のチェックやコンセプトカバレッジの検証といったタスクにおいて、人間の精度と同等またはそれを上回るように学習されたAIアノテーターが、単純なケースを除外します。人間は、モデルがまだ苦戦するような、より困難な例に対してのみ対応します。

図4. SAM 3データエンジン(出典)
このアプローチにより、Metaはアノテーション速度を大幅に向上させました。AIアノテーターが簡単なケースを処理することで、パイプラインはネガティブプロンプトで約5倍、きめ細かいドメインのポジティブプロンプトで36%高速化しました。
この効率性により、400万以上のユニークなコンセプトにまでデータセットを拡張することが可能になりました。AIの提案、人間の修正、モデルの予測更新の絶え間ないループにより、時間の経過とともにラベル品質が向上し、SAM 3はより幅広い視覚的およびテキストベースのコンセプトを学習できるようになりました。
Link to this sectionSAM 3のパフォーマンス向上#
パフォーマンスに関して、SAM 3は以前のモデルよりも明らかな改善を実現しています。オープンボキャブラリーのコンセプト検出とセグメンテーションを評価するMetaの新しいSA-Coベンチマークにおいて、SAM 3は画像と動画の両方で前世代のシステムの約2倍のパフォーマンスを達成しました。
また、ポイント・トゥ・マスクやマスク・トゥ・マスクレットといった対話型の視覚タスクにおいても、SAM 2に匹敵するか、それを上回る性能を発揮します。Metaは、ゼロショットのLVIS(モデルが学習例なしで希少なカテゴリを認識する必要がある)やオブジェクトのカウント(すべてのオブジェクトインスタンスが検出されたかを測定)のような、より困難な評価においてもさらなる向上を報告しており、ドメイン間でのより強力な汎化性能を際立たせています。
これらの精度の向上に加えて、SAM 3は効率的でもあります。H200 GPU上で、100以上のオブジェクトが検出された画像を約30ミリ秒で処理し、複数のオブジェクトを動画内で追跡する際にもほぼリアルタイムの速度を維持します。
Link to this sectionSegment Anything Model 3のアプリケーション#
SAM 3への理解が深まったところで、高度なテキスト誘導推論から科学研究、Meta自身の製品に至るまで、実アプリケーションでどのように活用されているかを見ていきましょう。
Link to this sectionSAM 3エージェントを使用した複雑なテキストクエリの処理#
SAM 3は、Metaが「SAM 3エージェント」と呼ぶ、より大きなマルチモーダル言語モデル内のツールとしても使用できます。SAM 3に「象」のような短いフレーズを与える代わりに、エージェントはより複雑な質問をSAM 3が理解できる小さなプロンプトに分解します。
例えば、ユーザーが「写真の中で馬を制御し誘導するために使用されるオブジェクトは何ですか?」と尋ねると、エージェントはさまざまな名詞句を試してSAM 3に送信し、どのマスクが理にかなっているかを確認します。正しいオブジェクトが見つかるまで洗練を繰り返します。
特別な推論データセットで学習していなくても、SAM 3エージェントはReasonSegやOmniLabelのような複雑なテキストクエリ向けに設計されたベンチマークで優れたパフォーマンスを発揮します。これは、SAM 3が言語理解と詳細な視覚的セグメンテーションの両方を必要とするシステムをサポートできることを示しています。
Link to this sectionSAM 3の科学的および保全への応用#
興味深いことに、SAM 3は詳細な視覚的ラベルが重要となる研究の現場ですでに利用されています。MetaはConservation X LabsおよびOsa Conservationと協力し、10,000本以上のカメラトラップ動画を含む公共の野生生物モニタリングデータセット「SA-FARI」を構築しました。
すべてのフレーム内のすべての動物がボックスとセグメンテーションマスクでラベル付けされていますが、これは手作業では非常に時間がかかる作業です。同様に、海洋研究においてSAM 3はFathomNetやMBARIと連携して、underwater imageryのインスタンスセグメンテーションマスクを作成し、新しい評価ベンチマークをサポートするために使用されています。
このようなデータセットは、科学者がビデオ映像をより効率的に分析し、通常は大規模な追跡が困難な動物や生息環境を研究するのに役立ちます。研究者はこれらのリソースを使用して、種識別、行動分析、および自動化された生態学的モニタリングのための独自のモデルを構築することも可能です。
Link to this sectionMeta製品におけるSAM 3の展開#
研究用途に加えて、SAM 3はMetaのコンシューマー製品全体で新しい機能とユースケースを推進しています。すでに統合が進んでいるいくつかの方法を簡単に紹介します:
- Instagramの編集機能: クリエイターは、フレームごとの手作業を行わずに、ビデオ内の特定の人物やオブジェクトにエフェクトを適用できます。
- Meta AIアプリおよびWeb版meta.ai: SAM 3は、画像や動画を修正、強化、リミックスするための新しいツールをサポートしています。
- Facebook Marketplaceの「部屋で表示」機能: SAM 3はSAM 3Dと連携し、ユーザーが1枚の写真を使用して自宅で家具やインテリアをプレビューできるようにします。
- Aria Gen 2 研究用メガネ: Segment Anything Model 3は、一人称視点から手やオブジェクトをセグメント化・追跡するのを助け、AR(拡張現実)、ロボティクス、コンテキストAIの研究をサポートします。
Link to this section重要なポイント#
SAM 3は、セグメンテーションにおけるエキサイティングな一歩です。コンセプトセグメンテーション、オープンボキャブラリーのテキストプロンプト、そして改善された追跡機能が導入されました。画像と動画の両方で顕著に向上したパフォーマンスとSAM 3Dの追加により、このモデルスイートはビジョンAI、クリエイティブツール、科学研究、そして実世界の製品に新しい可能性を切り開きます。
コミュニティに参加し、GitHubリポジトリを探索してAIについての詳細を学びましょう。独自のビジョンAIプロジェクトの構築をお考えの場合は、当社のライセンスオプションをご確認ください。医療におけるAIや小売におけるビジョンAIのような応用例については、ソリューションページで詳細をご覧ください。






