探索 SAM 3:Meta AI 的全新分割模型
了解 Meta AI 的全新分割模型 SAM 3 如何轻松实现对真实世界图像和视频中的对象进行检测、分割和追踪。

2025 年 11 月 19 日,Meta AI 发布了 Segment Anything Model 3,即 SAM 3。作为 Segment Anything Model 的最新版本,它引入了使用文本提示、视觉提示和图像示例,在现实场景的图像和视频中检测、分割和追踪对象的新方法。
SAM 3 模型基于 SAM 和 SAM 2 构建,带来了概念分割、开放词汇检测和实时视频追踪等新进展与特性。它能够理解简短的名词短语,追踪跨帧对象,并识别以往模型难以稳定处理的细粒度或罕见概念。
作为 SAM 3 发布的一部分,Meta 还推出了 SAM 3D。这套下一代模型能够从单张图像中重构对象、场景和完整的人体,并将 Segment Anything 生态系统扩展到了 3D 理解领域。这些新增功能在 computer vision、机器人、媒体编辑和创意工作流中开辟了新的应用场景。
在本文中,我们将探索什么是 SAM 3,它与 SAM 2 的区别,模型的工作原理及其现实应用。让我们开始吧!
Link to this section什么是 SAM 3?透视 Meta 的 Segment Anything Model 3#
SAM 3 是一款先进的 computer vision model,能够根据简单的指令识别、分离并追踪图像和视频中的对象。SAM 3 无需依赖固定的标签列表,而是能够理解自然语言和视觉提示,让你轻松告诉模型你想要查找的内容。
例如,使用 SAM 3,你可以输入像“黄色校车”或“条纹猫”这样的短语,点击某个对象,或在图像中标记一个示例。随后,模型将检测到所有匹配的对象并生成清晰的分割掩码(一种确切显示哪些像素属于该对象的视觉轮廓)。SAM 3 还能在视频帧中跟随这些对象,并在它们移动时保持追踪的一致性。
Link to this sectionSAM 3D 实现单图 3D 重构#
Meta AI 公告中另一个令人兴奋的部分是 SAM 3D,它将 Segment Anything 项目扩展到了 3D understanding 领域。SAM 3D 可以获取单张 2D 图像,并以三维形式重构对象或人体的形状、姿态或结构。换句话说,即使只有一个视角,该模型也能估计物体如何占据空间。
SAM 3D 发布了两种不同的模型:SAM 3D Objects,用于重构具有几何结构和纹理的日常用品;以及 SAM 3D Body,用于从单张图像估计人体形状和姿态。两种模型都使用 SAM 3 的分割输出,然后生成与原图中对象外观和位置相符的 3D 表示。

图 1. 使用 SAM 3D 的示例。(来源:使用 Meta AI 的 Segment Anything Playground 创建)
Link to this sectionSAM 3:整合检测、分割和追踪的新特性#
以下是 SAM 3 引入的一些关键更新,旨在将检测、分割和追踪统一到一个模型中:
- 概念分割任务: 在 SAM 和 SAM 2 中,对象分割依赖于点击或框选等视觉提示。SAM 3 增加了根据简短文本短语或图像示例裁剪来分割对象的能力。这意味着模型无需为每个对象点击即可识别所有匹配的实例。
- 开放词汇文本提示: 与以往版本不同,SAM 3 可以解释简短的自然语言短语。这消除了对固定标签列表的需求,并使模型能够处理更具体或较少见的概念。
- 检测、分割和追踪的统一模型: SAM 3 将检测、分割和追踪统一为一个模型,不再需要单独的系统来查找对象、生成分割掩码并在视频帧中进行追踪。这为图像和视频工作流创建了更一致、更精简的流程;虽然 SAM 2 也提供了一些追踪能力,但 SAM 3 提供了更显著、更可靠的性能。
- 复杂场景下更稳定的结果: 由于 SAM 3 可以结合文本、示例图像和视觉提示,因此与仅依赖视觉点击的早期版本相比,它能更可靠地处理杂乱或重复的场景。

图 2. SAM 3 引入了基于文本或图像示例的概念分割。(来源)
Link to this section对比 SAM 3、SAM 2 和 SAM 1#
假设你正在观看一段包含许多不同动物的野生动物视频,并且只想检测和分割大象。这个任务在不同版本的 SAM 中会有什么不同?
使用 SAM,你需要手动点击每一帧中的每头大象来生成分割掩码。由于没有追踪功能,每一帧新画面都需要重新点击。
使用 SAM 2,你可以点击一次大象,获取它的掩码,模型会在视频中追踪那头大象。然而,如果你想分割多头大象(特定对象),你仍然需要提供额外的点击,因为 SAM 2 本身不理解“大象”这类概念。
使用 SAM 3,工作流变得简单多了。你可以输入“大象”或者在单头大象周围画一个 bbox 来提供示例,模型会自动在视频中找到所有大象,分割它们并跨帧一致地追踪它们。它仍然支持早期版本中的点击和框选提示,但现在它还能响应文本提示和示例图像,这是 SAM 和 SAM 2 无法做到的。
Link to this sectionSAM 3 模型的工作原理#
接下来,让我们深入了解 SAM 3 模型的工作原理及其训练方式。
Link to this sectionSAM 3 模型架构概述#
SAM 3 将多个组件整合在一起,以在单一系统中支持概念提示和视觉提示。其核心是 Meta Perception Encoder,这是 Meta 的统一开源图文编码器。
该编码器可以处理图像和简短名词短语。简单来说,这使得 SAM 3 比之前的 Segment Anything Model 版本能更有效地关联语言和视觉特征。
在此编码器之上,SAM 3 包含一个基于 Transformer 模型 DETR 系列的检测器。该检测器识别图像中的对象,并帮助系统确定哪些对象与用户的提示相对应。
具体而言,对于视频分割,SAM 3 使用了一个基于 SAM 2 内存库和内存编码器的追踪组件。这让模型能够保留跨帧的对象信息,从而随时间重新识别并追踪它们。

图 3. 基于概念分割的工作原理(来源:scontent)
Link to this sectionSegment Anything Model 3 背后的可扩展数据引擎#
为了训练 SAM 3,Meta 需要比互联网上现有的更多标注数据。高质量的分割掩码和文本标签难以大规模创建,并且手动勾勒图像和视频中每个概念实例既缓慢又昂贵。
为了解决这个问题,Meta 构建了一个新的数据引擎,将 SAM 3 本身、其他 AI 模型和人工标注员结合在一起。工作流始于一个 AI 系统流水线,其中包括 SAM 3 和一个基于 Llama 的字幕生成模型。
这些系统扫描大量的图像和视频集合,生成字幕,将字幕转换为文本标签,并生成早期的分割掩码候选结果。随后,人类和 AI 标注员会对这些候选结果进行审核。
AI 标注员经过训练,在检查掩码质量和验证概念覆盖率等任务上达到甚至超过人类水平,它们会过滤掉简单的情况。人类仅在模型仍可能感到困难的挑战性案例中进行介入。

图 4. SAM 3 数据引擎 (来源)
这种方法使 Meta 在标注速度上获得了巨大提升。通过让 AI 标注员处理简单案例,该流水线在负面提示上的处理速度提高了约五倍,在细粒度领域的正面提示上速度提高了 36%。
这种效率使得将数据集扩展到超过四百万个独特概念成为可能。AI 提案、人工纠正和模型预测更新的持续循环也提高了标签质量,并帮助 SAM 3 学习到更广泛的视觉和基于文本的概念。
Link to this sectionSAM 3 的性能提升#
在性能方面,SAM 3 比之前的模型有了明显的改进。在 Meta 新的 SA-Co 基准测试(评估开放词汇概念检测和分割)上,SAM 3 在图像和视频中的性能约为之前系统的两倍。
它在点到掩码(point-to-mask)和掩码到掩码组(mask-to-masklet)等交互式视觉任务上与 SAM 2 持平或超越。Meta 报告在零样本 LVIS(模型必须在没有训练示例的情况下识别罕见类别)和对象计数(衡量是否检测到对象的所有实例)等更难的评估中取得了额外进展,突显了在不同领域更强的泛化能力。
除了这些精度改进外,SAM 3 还非常高效,在 H200 GPU 上约 30 毫秒即可处理超过 100 个检测对象的图像,并能在追踪视频中多个对象时保持近乎实时的速度。
Link to this sectionSegment Anything Model 3 的应用#
现在我们对 SAM 3 有了更好的了解,让我们探讨一下它在现实应用中的使用情况,从高级文本引导推理到科学研究以及 Meta 自己的产品。
Link to this section使用 SAM 3 Agent 处理复杂文本查询#
SAM 3 也可以作为更大的多模态语言模型中的一个工具使用,Meta 将其称为 SAM 3 Agent。Agent 不会给 SAM 3 一个像“大象”这样的短语,而是将更复杂的问题分解成 SAM 3 能理解的更小的提示。
例如,如果用户问:“图片中哪个物体是用来控制和引导马的?”Agent 会尝试不同的名词短语,将它们发送给 SAM 3,并检查哪些掩码是有意义的。它会不断优化,直到找到正确的物体。
即使未经专门的推理数据集训练,SAM 3 Agent 在为复杂文本查询设计的基准测试(如 ReasonSeg 和 OmniLabel)中也表现良好。这表明 SAM 3 可以支持同时需要语言理解和细粒度视觉分割的系统。
Link to this sectionSAM 3 的科学和保护应用#
有趣的是,SAM 3 已经被应用于研究环境,在这些环境中详细的视觉标签非常重要。Meta 与 Conservation X Labs 和 Osa Conservation 合作构建了 SA-FARI,这是一个包含超过 10,000 个红外相机视频的公共野生动物监测数据集。
每一帧中的每只动物都用框和分割掩码进行了标注,这在手动操作时极其耗时。同样,在海洋研究中,SAM 3 正被用于与 FathomNet 和 MBARI 一起为 underwater imagery 创建实例分割掩码,并支持新的评估基准。
此类数据集有助于科学家更高效地分析视频片段,研究通常难以大规模追踪的动物和栖息地。研究人员还可以利用这些资源构建自己的模型,用于物种识别、行为分析和自动生态监测。
Link to this sectionMeta 如何在其产品中部署 SAM 3#
除了研究用途外,SAM 3 还在 Meta 的消费产品中驱动着新的特性和用例。以下是它已经被整合的一些方式:
- Instagram 编辑: 创作者可以对视频中的特定人物或对象应用效果,而无需手动进行逐帧工作。
- Meta AI 应用及网页版 meta.ai: SAM 3 支持用于修改、增强和重构图像与视频的新工具。
- Facebook Marketplace 的“在房间查看 (View in Room)”: SAM 3 与 SAM 3D 配合使用,让人们通过单张照片预览家中家具或装饰。
- Aria Gen 2 研究眼镜: Segment Anything Model 3 帮助从第一人称视角分割和追踪手部及物体,支持 AR(增强现实)、机器人和上下文 AI 研究。
Link to this section关键要点#
SAM 3 是分割领域令人兴奋的进步。它引入了概念分割、开放词汇文本提示和改进的追踪功能。凭借在图像和视频中显著增强的性能,以及 SAM 3D 的加入,该模型套件为视觉 AI、创意工具、科学研究和现实产品开辟了新的可能性。
加入 我们的社区 并探索我们的 GitHub 仓库 以了解更多关于 AI 的信息。如果你想构建自己的视觉 AI 项目,请查看我们的 许可选项。通过访问我们的解决方案页面,探索更多关于 医疗保健中的 AI 和 零售业中的视觉 AI 等应用。






