来自 Meta FAIR 的 AI 研究更新:SAM 2.1 和 CoTracker3
探索 Meta FAIR 最新的 AI 模型 SAM 2.1 和 CoTracker3,它们为多样化的现实世界应用提供了先进的分割和跟踪功能。

人工智能 (AI) 是一个研究领域,最近充满了兴奋和活力,创新技术和突破性成果出现的速度比以往任何时候都快。在过去几周里,Meta 的基础人工智能研究 (FAIR) 团队发布了一系列工具和模型,旨在应对 AI 不同领域的挑战。这些发布包括可能影响医疗保健、机器人技术和增强现实等多元领域的更新。
例如,更新后的 SAM 2.1 模型改进了对象分割,使其更容易准确地识别和分离图像和视频中的对象。与此同时,CoTracker3 专注于点跟踪,即使在物体移动或被部分遮挡的情况下,也能帮助保持对视频帧中点的跟踪。
Meta 还推出了更轻、更快的Llama 语言模型版本,用于高效的端侧使用,以及用于机器人技术的全新触觉感知技术。在本文中,我们将剖析 Meta FAIR 的这些最新版本,看看每种工具能提供什么。让我们开始吧!
Link to this sectionMeta 的增强版 Segment Anything Model:SAM 2.1#
对象分割是一项关键的计算机视觉任务,它使识别和分离图像或视频中的不同对象成为可能,从而更容易分析特定的关注区域。自发布以来,Meta 的Segment Anything Model 2 (SAM 2) 已被用于医学影像和气象学等不同领域的对象分割。基于社区的反馈,Meta 现已推出 SAM 2.1,这是一款改进版本,旨在解决原始模型遇到的一些挑战并提供更强大的整体性能。

图 1. SAM 2.1 模型性能基准测试。
SAM 2.1 包含了一些更新,得益于新的数据增强技术,它能更好地处理视觉相似和较小的对象。它还通过在更长的视频序列上进行训练,改进了模型处理遮挡(当对象的部分被遮挡时)的方式,使其能够随时间“记住”并识别对象,即使它们暂时被遮挡。例如,如果有人正在拍摄视频,拍摄一个人从树后走过,SAM 2.1 可以跟踪此人重新出现在另一侧的过程,并利用其对对象位置和移动的记忆,在视图短暂中断时填补空白。
Alongside these updates, Meta has released the SAM 2 Developer Suite, providing open-source training code and full demo infrastructure so developers can fine-tune SAM 2.1 with their own data and integrate it into a range of applications.
Link to this sectionCoTracker3:Meta 的跟踪模型及其功能和更新#
另一个有趣的计算机视觉任务是点跟踪。它涉及在视频的多个帧中跟随特定的点或特征。考虑一段骑自行车的人沿着轨道骑行的视频——点跟踪允许模型持续跟踪骑行者身上的点,例如头盔或轮子,即使它们被障碍物暂时遮挡。
点跟踪对于3D 重建、机器人技术和视频编辑等应用程序至关重要。传统模型通常依赖复杂的设置和大型合成数据集,这限制了它们在现实场景中应用时的有效性。
Meta 的 CoTracker3 跟踪模型通过简化模型架构解决了这些限制。它还引入了一种伪标注技术,允许模型从真实的、未标注的视频中学习,使 CoTracker3 在实际使用中更加高效和可扩展。

图 2. 比较 CoTracker3 与其他跟踪模型。
CoTracker3 的突出特点之一是它能够很好地处理遮挡问题。通过使用交叉跟踪注意力(一种允许模型在多个跟踪点之间共享信息的技术),CoTracker3 可以通过参考可见点来推断被遮挡点的位置。通过这样做,CoTracker3 被设计为在动态环境中非常有效,例如在拥挤的场景中跟随一个人。
CoTracker3 还提供在线和离线模式。在线模式提供实时跟踪,而离线模式可用于跨整个视频序列进行更全面的跟踪,非常适合视频编辑或动画等任务。
Link to this section来自 Meta FAIR 的其他更新和研究#
虽然 SAM 2.1 和 CoTracker3 展示了 Meta 在计算机视觉方面的最新进展,但在人工智能的其他领域(例如自然语言处理 (NLP) 和机器人技术)也有令人兴奋的更新。让我们来看看 Meta FAIR 最近的其他一些发展。
Link to this sectionMeta 的 Spirit LM:语言和多模态模型中的 AI 创新#
Meta 的 Spirit LM 是一种新的多模态语言模型,它结合了文本和语音能力,使与 AI 的交互感觉更加自然。与仅处理文本或仅处理语音的传统模型不同,Spirit LM 可以无缝切换两者。
Spirit LM 能够以更像人类的方式理解和生成语言。例如,它可以增强能够听取并以口语或书面语言进行响应的虚拟助手,或者支持在语音和文本之间进行转换的辅助功能工具。

图 3. 使用 Meta Spirit LM 进行文本转语音的示例。
此外,Meta 开发了使大型语言模型更高效的技术。其中一种名为 Layer Skip,通过仅激活特定任务所需的层,帮助减少计算需求和能源成本。这对于内存和电力有限的设备上的应用程序特别有用。
Taking the need to deploy AI applications on such devices a step further, Meta has also rolled out quantized versions of its Llama models. These models are compressed to run faster on mobile devices without sacrificing accuracy.
Link to this section展望使用 Meta Lingua 进行优化的未来#
随着AI 模型的规模和复杂性不断增加,优化其训练过程变得至关重要。关于优化,Meta 推出了 Meta Lingua,这是一个灵活高效的代码库,使大型语言模型的训练变得更加容易。Meta Lingua 的模块化设计让研究人员能够快速定制和扩展他们的实验。
研究人员可以减少在技术设置上花费的时间,从而腾出更多时间进行实际研究。该代码库轻量且易于集成,使其既适用于小型实验,也适用于大型项目。通过消除这些技术障碍,Meta Lingua 帮助研究人员更快地取得进展,并更轻松地测试新想法。

图 4. Meta Lingua 概览。
Link to this sectionMeta 在 AI 安全方面的增强#
随着量子计算技术的发展,它给数据安全带来了新的挑战。与今天的计算机不同,量子计算机很可能能够快得多地解决复杂的计算问题。这意味着它们可能会破解目前用于保护敏感信息的加密方法。这就是为什么该领域的研究变得越来越重要——当我们为量子计算的未来做准备时,开发新的数据保护方式至关重要。
为了解决这个问题,Meta 开发了 Salsa,这是一款旨在加强后量子密码安全性的工具。Salsa 帮助研究人员测试 AI 驱动的攻击并识别潜在弱点,使他们能够更好地理解和解决密码系统中的漏洞。通过模拟高级攻击场景,Salsa 提供了宝贵的见解,可以指导为量子时代开发更强大、更具弹性的安全措施。
Link to this sectionMeta 的 AI:机器人技术的最新创新#
Meta 在机器人技术方面的最新工作侧重于通过增强触觉感知、灵活性以及与人类的协作,帮助 AI 更自然地与物理世界进行交互。特别是 Meta Digit 360,这是一款先进的触觉传感器,赋予机器人精致的触觉。该传感器帮助机器人检测纹理、压力甚至物体形状等细节。根据这些见解,机器人可以更精准地处理物体;这在医疗保健和制造业等领域至关重要。
以下是 Meta Digit 360 包含的一些关键功能:
- 它配备了 18 种不同的传感功能,能够捕捉广泛的触觉细节。
- 该传感器可以检测小至 1 毫牛顿的压力变化,使机器人能够响应精细的纹理和细微的动作。
- 它在指尖表面包含超过 800 万个 taxel(微小传感点),提供了触觉信息的高分辨率地图。
Meta Digit 360 的一个扩展是 Meta Digit Plexus,这是一个将各种触觉传感器集成到单一机械手上的平台。这种设置允许机器人同时处理来自多个点的触觉信息,类似于人类手部收集感官数据的方式。

图 5. Meta Digit Plexus。
Link to this section为 AI 的下一篇章奠定基础#
Meta 最新的 AI 更新,从 SAM 2.1 和 CoTracker3 在计算机视觉方面的进步,到语言模型和机器人技术的新发展,展示了 AI 如何稳步地从理论走向实际、有影响力的解决方案。
这些工具旨在使 AI 在不同领域更具适应性和实用性,帮助处理从分割复杂图像到理解人类语言,甚至在物理空间中与我们并肩工作的所有事务。
通过优先考虑可访问性和现实世界应用,Meta FAIR 正让我们更接近这样一个未来:AI 能够应对现实世界的挑战,并以有意义的方式改善我们的日常生活。
你对 AI 好奇吗?加入我们的社区以获取最新更新和见解,并查看我们的GitHub 存储库。你还可以探索计算机视觉如何应用于自动驾驶汽车和农业等行业!






