遇见 YOLO26: 下一代视觉 AI。
Ultralytics
视觉 AI

Meta AI 的 Segment Anything Model 2 (SAM 2) 的应用

加入我们,深入了解 Meta AI 的 Segment Anything Model 2 (SAM 2),并了解它可以在各行各业的哪些实时应用中使用。

ABAbirami Vina
5 min read
Meta AI 的 Segment Anything Model 2 (SAM 2) 的应用

2024 年 7 月 29 日,Meta AI 发布了其 Segment Anything Model 的第二个版本 SAM 2。这个新模型可以精准识别图像和视频中哪些像素属于目标对象!最棒的是,该模型能够实时地始终在视频的所有帧中跟踪对象。SAM 2 为视频编辑混合现实体验以及更快速地标注用于训练计算机视觉系统的视觉数据开辟了令人兴奋的可能性。

基于最初 SAM 的成功(已应用于海洋科学、卫星图像和医学等领域),SAM 2 解决了快速移动对象和外观变化等挑战。其更高的准确性和效率使其成为适用于广泛应用的通用工具。在本文中,我们将重点探讨 SAM 2 的应用领域及其对 AI 社区的重要性。

Link to this section什么是 SAM 2?#

Segment Anything Model 2 是一个先进的基础模型,支持图像和视频中的可提示视觉分割(PVS)。PVS 是一种技术,模型可以根据用户给出的特定提示或输入来分割或识别图像或视频的不同部分。这些提示可以是点击、方框或遮罩的形式,用以高亮显示感兴趣的区域。然后,模型会生成一个分割遮罩来勾勒出指定的区域。

SAM 2 的架构在原始 SAM 的基础上进行了扩展,从图像分割扩展到了视频分割。它具有一个轻量级的遮罩解码器,利用图像数据和提示来创建分割遮罩。对于视频,SAM 2 引入了一个内存系统,帮助其记住之前帧的信息,从而确保随时间的准确跟踪。该内存系统包含存储和检索有关正在分割对象细节的组件。SAM 2 还可以处理遮挡问题,通过多帧跟踪对象,并通过生成多个可能的遮罩来处理模棱两可的提示。SAM 2 先进的架构使其在静态和动态视觉环境中都具有极高的能力。

具体来说,在视频分割方面,与以前的方法相比,SAM 2 以少三倍的用户交互实现了更高的准确性。在图像分割方面,SAM 2 的表现优于原始的 Segment Anything Model (SAM),速度快六倍且更准确。这一改进在 SAM 2 研究论文中通过 37 个不同的数据集得到了展示,其中包括 SAM 之前测试过的 23 个数据集。

比较 SAM 和 SAM 2

图 1. 比较 SAM 和 SAM 2。

有趣的是,Meta AI 的 SAM 2 是通过创建迄今为止最大的视频分割数据集——SA-V 数据集而开发的。该庞大的数据集包含超过 50,000 个视频和 3,550 万个分割遮罩,是通过交互式用户贡献收集的。标注者提供了提示和修正,帮助模型从各种场景和对象类型中进行学习。

Link to this sectionSegment Anything Model 2 的应用#

得益于其在图像和视频分割方面的先进功能,SAM 2 可应用于各个行业。让我们探索其中一些应用。

Link to this sectionSAM 2 实现增强现实 (AR) 和虚拟现实 (VR)#

Meta AI 的新分割模型可用于增强现实 (AR) 和虚拟现实 (VR) 应用。例如,SAM 2 可以准确识别和分割现实世界的对象,并使与虚拟对象的交互感觉更真实。它在游戏教育和培训等各个领域都很有用,在这些领域中,虚拟元素与现实元素之间的真实交互至关重要。

随着 AR 眼镜等设备变得越来越先进,SAM 2 的功能很快就能被整合到其中。想象一下,戴上眼镜环顾你的客厅。当眼镜分割并注意到你狗的水碗时,它可能会提醒你加水,如下图所示。或者,如果你正在烹饪一份新食谱,眼镜可以识别台面上的食材,并提供逐步说明和提示,从而改善你的烹饪体验并确保你手头有所有必要的物品。

SAM 2 可能很快会应用于 AR 眼镜

图 2. SAM 2 可能很快就会在 AR 眼镜中使用。

Link to this sectionSegment Anything Model 2 的声纳成像#

使用模型 SAM 的研究表明,它可以应用于诸如声纳成像等专业领域。由于分辨率低、噪声水平高以及图像中对象的复杂形状,声纳成像面临着独特的挑战。通过对 SAM 进行微调以适应声纳图像,研究人员证明了其准确分割各种水下物体(如海洋垃圾、地质构造和其他感兴趣的对象)的能力。精确可靠的水下成像可用于海洋研究、水下考古、渔业管理和监视,以执行栖息地测绘、人工制品发现和威胁检测等任务。

使用微调后的 SAM 进行声纳图像分割

图 3。使用微调后的 SAM 对声纳图像进行分割的示例。

由于 SAM 2 基于并改进了 SAM 面临的许多挑战,它有潜力进一步改善声纳成像的分析。其精确的分割能力可以帮助各种海洋应用,包括科学研究和渔业。例如,SAM 2 可以有效地勾勒出水下结构、检测海洋垃圾并识别前视声纳图像中的对象,从而有助于更准确、更高效的水下勘探和监测。

以下是使用 SAM 2 分析声纳成像的潜在好处:

  • 效率:减少了手动分割所需的时间和精力,使专业人员能够更专注于分析和决策。
  • 一致性: 提供一致且可重复的分割结果,这对于大规模海洋研究和监测至关重要。
  • 多功能性: 能够处理各种声纳图像,使其对海洋科学和工业中的不同应用非常有用。

通过将 SAM 2 集成到声纳成像流程中,海洋工业可以在水下勘探和分析方面实现更高的效率、准确性和可靠性,最终在海洋研究中取得更好的成果。

Link to this section在自动驾驶汽车中使用 SAM 2#

SAM 2 的另一个应用是在自动驾驶汽车领域。SAM 2 可以实时准确地识别行人、其他车辆、道路标志和障碍物等对象。SAM 2 所能提供的细节水平对于做出安全导航和避碰决策至关重要。通过精确处理视觉数据,SAM 2 有助于创建环境的详细且可靠的地图,并带来更好的决策。

利用分割技术理解交通状况

图 4. 使用分割来理解交通。

SAM 2 在不同光照条件、天气变化和动态环境下都能很好地工作,这使其对自动驾驶汽车来说非常可靠。无论是繁忙的城市街道还是多雾的高速公路,SAM 2 都能始终准确地识别和分割对象,以便车辆能够对各种情况做出正确的反应。

然而,有一些局限性需要记住。对于复杂、快速移动的对象,SAM 2 有时会错过细微的细节,其预测可能会在各帧之间变得不稳定。此外,SAM 2 有时会在拥挤的场景中混淆多个看起来相似的对象。这些挑战正是为什么在自动驾驶应用中整合额外的传感器和技术至关重要。

Link to this section在 SAM 2 的帮助下进行环境监测#

使用计算机视觉进行环境监测可能很棘手,尤其是在缺乏标注数据的情况下,但这也是使其成为 SAM 2 有趣应用的原因。SAM 2 可用于通过从卫星或无人机图像中准确分割和识别各种环境特征(如森林、水体、城市区域和农业用地)来跟踪和分析自然景观的变化。具体而言,精确的分割有助于监测森林砍伐、城市化和土地利用随时间的变化,从而为环境保护和规划提供有价值的数据。

使用 SAM 2 进行环境监测

以下是使用像 SAM 2 这样的模型随时间分析环境变化的一些好处:

  • 早期检测: 识别环境退化的早期迹象,允许及时干预以防止进一步的损害。
  • 资源管理: 通过提供有关各种环境特征状态的详细见解,协助有效管理自然资源。
  • 生物多样性保护: 有助于跟踪野生动物和监测生物多样性,为保护工作和濒危物种的保护做出贡献。
  • 灾难响应: 协助评估洪水、野火和飓风等自然灾害的影响,从而实现快速有效的灾难响应和恢复规划。

Link to this section使用 SAM 2 进行视频编辑:自己动手试试#

Segment Anything 2 演示是在视频上尝试该模型的好方法。利用 SAM 2 的 PVS 功能,我们拿了一个旧的 Ultralytics YouTube 视频,并能够分割视频中的三个对象或人,并将它们像素化。传统上,从这样的视频中编辑掉三个人将是耗时且繁琐的,并且需要手动进行逐帧遮罩。然而,SAM 2 简化了这个过程。通过在演示上进行几次点击,你可以在几秒钟内保护三个感兴趣对象的身份。

试用 SAM 2 演示

图 6. 尝试 SAM 2 演示。

该演示还让你尝试一些不同的视觉效果,例如为你选择跟踪的对象打上聚光灯,以及擦除正在跟踪的对象。如果你喜欢这个演示并准备好开始使用 SAM 2 进行创新,请查看 Ultralytics SAM 2 模型文档页面,了解关于动手使用该模型的详细说明。探索功能、安装步骤和示例,以充分利用 SAM 2 在你的项目中的潜力!

Link to this section总结#

Meta AI 的 Segment Anything Model 2 (SAM 2) 正在改变视频和图像分割。随着对象跟踪等任务的改进,我们正在发现视频编辑、混合现实、科学研究和医学成像方面的新机会。通过简化复杂任务并加快标注速度,SAM 2 已准备好成为 AI 社区的重要工具。随着我们继续使用像 SAM 2 这样的模型进行探索和创新,我们可以期待在各个领域出现更多突破性的应用和进步!

通过探索我们的 GitHub 存储库并加入我们的社区来了解更多关于 AI 的信息。查看我们的解决方案页面,深入了解 AI 在制造业医疗保健中的应用。🚀

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅