敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

Meta AI Segment Anything Model 2 (SAM 2) 的应用

Abirami Vina

5 分钟阅读

2024年7月31日

加入我们,深入了解 Meta AI 的 Segment Anything Model 2 (SAM 2),并了解它在各个行业中可以用于哪些实时应用。

2024 年 7 月 29 日,Meta AI 发布了他们的 Segment Anything Model 的第二个版本,SAM 2。新模型可以精确定位图像和视频中属于目标对象的像素!最棒的是,该模型能够始终如一地在视频的所有帧中跟踪对象,并且是实时的。SAM 2 为 视频编辑混合现实体验 以及更快地注释视觉数据以训练 计算机视觉 系统开辟了令人兴奋的可能性。

最初的 SAM 已被用于海洋科学、卫星图像和医学等领域,而 SAM 2 在此基础上解决了快速移动的物体和外观变化等难题。其改进的准确性和效率使其成为各种应用的多功能工具。在本文中,我们将重点介绍 SAM 2 的应用领域以及它对 AI 社区的重要性。

什么是 SAM 2?

Segment Anything Model 2 是一种先进的基础模型,支持图像和视频中的 可提示视觉分割 (PVS)。PVS 是一种技术,模型可以根据用户给出的特定提示或输入分割或识别图像或视频的不同部分。这些提示可以是点击、框或突出显示感兴趣区域的掩码的形式。然后,模型会生成一个分割掩码,概述指定的区域。

SAM 2 架构在原始 SAM 的基础上,从图像分割扩展到视频分割。它采用轻量级掩码解码器,利用图像数据和提示来创建分割掩码。对于视频,SAM 2 引入了一种记忆系统,可以帮助它记住来自前一帧的信息,从而确保随时间的准确跟踪。该记忆系统包括存储和回忆有关被分割对象细节的组件。SAM 2 还可以处理遮挡,跨多个帧跟踪对象,并通过生成多个可能的掩码来管理模糊的提示。SAM 2 的先进架构使其在静态和动态视觉环境中都具有强大的能力。

具体来说,在视频分割方面,与以前的方法相比,SAM 2 以三倍少的用户交互实现了更高的准确率。对于图像分割,SAM 2 的性能优于原始的 Segment Anything Model (SAM),速度快六倍,准确率更高。SAM 2 研究论文在 37 个不同的数据集(包括 SAM 之前测试过的 23 个数据集)中展示了这一改进。 

图 1. SAM 和 SAM 2 的比较。

有趣的是,Meta AI 的 SAM 2 是通过创建迄今为止最大的视频分割数据集 SA-V 数据集而开发的。这个庞大的数据集包含超过 50,000 个视频和 3550 万个分割掩码,是通过交互式用户贡献收集的。注释者提供提示和更正,以帮助模型从各种场景和对象类型中学习。

Segment Anything Model 2 的应用

由于 SAM 2 在图像和视频分割方面具有先进的功能,因此可以应用于各个行业。让我们来探索其中的一些应用。

SAM 2 支持增强现实 (AR) 和虚拟现实 (VR)

Meta AI 的新型分割模型可用于增强现实 (AR) 和虚拟现实 (VR) 应用。例如,SAM 2 可以准确识别和分割真实世界的物体,使与虚拟物体的交互感觉更加逼真。它在游戏教育和培训等各个领域都非常有用,在这些领域中,虚拟元素和真实元素之间逼真的交互至关重要。

随着像AR眼镜这样的设备变得越来越先进,SAM 2的功能可能很快就会集成到其中。想象一下,戴上眼镜,环顾你的客厅。当你的眼镜分割并注意到你家的狗的水碗时,它可能会提醒你重新装满它,如下图所示。或者,如果你正在烹饪一道新菜,眼镜可以识别你操作台上的食材,并提供逐步的说明和技巧,改善你的烹饪体验,并确保你手头拥有所有必要的物品。

图 2. SAM 2 可能很快就会在 AR 眼镜中使用。

使用 Segment Anything Model 2 进行声纳成像

使用模型 SAM 的研究表明,它可以应用于专门领域,例如声纳成像。由于其低分辨率、高噪声水平以及图像内物体的复杂形状,声纳成像带来了独特的挑战。通过针对声纳图像微调 SAM,研究人员已经证明了它能够准确分割各种水下物体,如海洋碎片、地质构造和其他感兴趣的项目。精确可靠的水下成像可用于海洋研究、水下考古、渔业管理和监视等任务,例如栖息地绘图、文物发现和威胁检测。

图 3. 使用微调的 SAM 进行声纳图像分割的示例。

由于 SAM 2 在 SAM 面临的许多挑战的基础上进行了构建和改进,因此它有可能进一步改进声纳成像分析。其精确的分割能力可以帮助各种海洋应用,包括科学研究和渔业。例如,SAM 2 可以有效地勾勒出水下结构,检测海洋碎片,并识别前视声纳图像中的物体,从而有助于更准确、更高效的水下勘探和监测。

以下是使用 SAM 2 分析声纳成像的潜在优势:

  • 效率: 减少了手动分割所需的时间和精力,使专业人员能够更多地关注分析和决策。
  • 一致性: 提供一致且可重复的分割结果,这对于大规模海洋研究和监测至关重要。
  • 多功能性: 能够处理各种声纳图像,使其可用于海洋科学和工业中的各种应用。

通过将 SAM 2 集成到声纳成像流程中,海洋产业可以在水下勘探和分析中实现更高的效率、准确性和可靠性,最终在海洋研究中取得更好的成果。

在自动驾驶车辆中使用 SAM 2

SAM 2 的另一个应用是在自动驾驶汽车中。 SAM 2 可以准确地识别行人、其他车辆、道路标志和障碍物等物体。 SAM 2 可以提供的细节级别对于做出安全导航和避免碰撞的决策至关重要。 通过精确地处理视觉数据,SAM 2 有助于创建详细而可靠的环境地图,并有助于做出更好的决策。

图 4. 使用分割来理解交通状况。 

SAM 2 在不同光照条件、天气变化和动态环境中良好运行的能力使其成为自动驾驶汽车的可靠选择。无论是繁忙的城市街道还是雾蒙蒙的高速公路,SAM 2 都可以持续准确地识别和分割物体,以便车辆能够正确响应各种情况。 

然而,有一些局限性需要牢记。对于复杂、快速移动的物体,SAM 2有时会错过精细的细节,并且其预测在帧之间可能会变得不稳定。此外,SAM 2有时会混淆拥挤场景中多个外观相似的物体。这些挑战是为什么在自动驾驶应用中集成额外的传感器和技术至关重要。

借助 SAM 2 进行环境监测

使用计算机视觉进行环境监测可能很棘手,尤其是在缺乏标注数据的情况下,但也正因为如此,它才成为 SAM 2 的一个有趣的应用。SAM 2 可用于通过准确分割和识别各种环境特征(如森林、水体、城市地区和农业用地)来跟踪和分析自然景观的变化,这些数据来自卫星或无人机图像。具体来说,精确的分割有助于监测森林砍伐、城市化和土地利用随时间的变化,从而为环境保护和规划提供有价值的数据。

以下是使用像 SAM 2 这样的模型来分析随时间变化的环境变化的一些好处:

  • 早期檢測: 識別環境惡化的早期跡象,以便及時採取干預措施,防止進一步的損害。
  • 资源管理:通过提供关于各种环境特征状态的详细见解,协助高效管理自然资源。
  • 生物多样性保护:有助于追踪野生动物和监测生物多样性,从而为保护工作和保护濒危物种做出贡献。
  • 灾难响应: 帮助评估洪水、野火和飓风等自然灾害的影响,从而实现快速有效的灾难响应和恢复规划。

使用 SAM 2 进行视频编辑:亲自尝试

Segment Anything 2 Demo是在视频上试用该模型的好方法。使用SAM 2的PVS功能,我们采用了一个旧的Ultralytics YouTube视频,并能够分割视频中的三个对象或人并将它们像素化。传统上,从这样的视频中编辑掉三个人物将是耗时且乏味的,并且需要手动逐帧遮罩。但是,SAM 2简化了这个过程。只需在演示中点击几下,您就可以在几秒钟内保护三个感兴趣对象的身份。

图 6. 试用 SAM 2 演示。 

该演示还允许您尝试一些不同的视觉效果,例如将聚光灯放在您选择进行跟踪的对象上,以及擦除正在跟踪的对象。如果您喜欢该演示并准备好开始使用 SAM 2 进行创新,请查看 Ultralytics SAM 2 模型文档页面,以获取有关如何亲身体验该模型的详细说明。探索各项功能、安装步骤和示例,以充分利用 SAM 2 在您项目中的潜力!

总结

Meta AI 的 Segment Anything Model 2 (SAM 2) 正在变革视频和图像分割技术。随着物体追踪等任务的改进,我们在视频编辑、混合现实、科学研究和医学成像领域发现了新的机遇。通过简化复杂任务并加快标注速度,SAM 2 已准备好成为 AI 社区的重要工具。随着我们不断探索和创新像 SAM 2 这样的模型,我们可以期待在各个领域出现更多突破性的应用和进展!

通过浏览我们的 GitHub 仓库 并加入 我们的社区,了解更多关于 AI 的信息。查看我们的解决方案页面,了解关于 AI 在 制造业医疗保健 领域的详细见解。🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板