深圳Yolo 视觉
深圳
立即加入

来自 Meta FAIR 的人工智能研究更新:SAM 2.1 和 CoTracker3

Abirami Vina

5 分钟阅读

2024年11月4日

探索 Meta FAIR 的最新人工智能模型SAM 2.1 和 CoTracker3,为各种实际应用提供先进的细分和跟踪功能。

人工智能(AI)是一个研究领域,最近因新的创新和突破以前所未有的速度涌现而备受关注。在过去几周,Meta 的基础人工智能研究(FAIR)团队推出了一套工具和模型,旨在应对不同人工智能领域的挑战。这些发布包括可能影响医疗保健机器人技术增强现实等不同领域的更新。

例如,更新后的SAM 2.1 模型改进了物体分割功能,使其更容易在图像和视频中准确识别和分离物体。同时,CoTracker3 专注于点跟踪,即使物体移动或被部分遮挡,也能帮助track 视频帧中的点。 

Meta 还推出了更轻、更快的 Llama 语言模型版本,以实现高效的设备端使用,以及用于机器人技术的新型触觉传感技术。在本文中,我们将详细介绍 Meta FAIR 的这些最新版本,了解每种工具的功能。让我们开始吧!

Meta 的增强型 Segment Anything Model:SAM 2.1

物体分割计算机视觉的一项关键任务,它可以识别和分离图像或视频中的不同物体,从而更容易分析特定的感兴趣区域。自发布以来,Meta 的Segment Anything Model 2(SAM 2)已被用于医疗成像气象学等不同领域的物体分割。在社区反馈的基础上,Meta 现在推出了SAM 2.1,这是一个改进版本,旨在解决原始模型遇到的一些难题,并提供更强的整体性能

__wf_reserved_inherit
图 1. SAM 2.1 模型性能基准。

由于采用了新的数据增强技术,SAM 2.1 包括了更好地处理视觉相似和较小物体的更新。它还通过在较长的视频序列中进行训练,改进了模型处理遮挡(当物体的一部分被遮挡时)的方法,使其能够长期 "记忆 "和识别物体,即使物体暂时被遮挡也不例外。例如,如果有人正在拍摄一个人走在树后视频,SAM 2.1 可以 track当人再次出现在树的另一侧时,SAM 2.1 就能利用它对物体位置运动的记忆,在视线短暂中断时填补空白。

在进行这些更新的同时,Meta 还发布了SAM 2 开发者套件,提供开源 培训代码和完整的演示基础架构,使开发者可以利用自己的数据 SAM 2.1 进行微调,并将其集成到一系列应用程序中。

CoTracker3:Meta 的跟踪模型及其特性和更新

另一项有趣的计算机视觉任务是点跟踪。它涉及在视频的多个帧中跟踪特定的点或特征。考虑一段骑自行车的人沿着track 骑行的视频--点跟踪可以让模型track 骑自行车的人身上的,如头盔或车轮,即使这些点被障碍物暂时遮挡住了。

点追踪对于诸如 3D 重建机器人技术和视频编辑等应用至关重要。传统的模型通常依赖于复杂的设置和大型合成数据集,这限制了它们在应用于现实场景时的有效性。 

Meta 的 CoTracker3 追踪模型通过简化模型架构解决了这些限制。它还引入了一种伪标记技术,使模型能够从真实的、未标注的视频中学习,从而使 CoTracker3 在实际使用中更高效且更具可扩展性。

__wf_reserved_inherit
图 2. 将 CoTracker3 与其他跟踪模型进行比较。

CoTracker3 的突出特点之一是能很好地处理遮挡。CoTracker3 利用track 轨迹关注(一种允许模型在多个跟踪点之间共享信息的技术),可以通过参考可见点来推断隐藏点的位置。通过这种方法,CoTracker3 可以在动态环境中非常有效地工作,例如在拥挤的场景中跟踪一个人。 

CoTracker3 还提供在线和离线两种模式。在线模式提供实时跟踪。而离线模式可用于对整个视频序列进行更全面的跟踪,非常适合视频编辑或动画等任务。 

来自 Meta FAIR 的其他更新和研究

虽然SAM 2.1 和 CoTracker3 展示了 Meta 在计算机视觉领域的最新进展,但在人工智能的其他领域,如自然语言处理(NLP) 和机器人技术,也有令人振奋的更新。让我们来看看 Meta FAIR 的其他一些最新进展。

Meta 的 Spirit LM:语言和多模态模型中的 AI 创新

Meta 的 Spirit LM 是一种新型多模态语言模型,它结合了文本和语音功能,使与AI 的交互感觉更加自然。与仅处理文本或仅处理语音的传统模型不同,Spirit LM 可以在两者之间无缝切换。 

Spirit LM 可以理解和生成语言,方式更接近人类。 例如,它可以增强虚拟助手,使其能够以口语或书面语言进行聆听和回复,或支持在语音和文本之间转换的辅助工具。 

__wf_reserved_inherit
图 3. 使用 Meta Spirit LM 的文本转语音示例。

此外,Meta 已经开发出使大型语言模型更有效的技术。其中一种称为 Layer Skip,通过仅激活给定任务所需的层,有助于减少计算需求能源成本。这对于内存和功率有限的设备上的应用程序尤其有用。 

Meta 更进一步,为了满足在这些设备上部署 AI 应用的需求,还推出了 量化 版本的 Llama 模型。这些模型经过压缩,可以在不牺牲准确性的情况下,在移动设备上更快地运行。 

Meta Lingua 优化未来展望

随着AI 模型在规模和复杂性上不断增长,优化其训练过程变得至关重要。关于优化,Meta 推出 Meta Lingua,这是一个灵活高效的代码库,可以更轻松地训练大型语言模型。Meta Lingua 的模块化设计使研究人员能够快速定制和扩展他们的实验。 

研究人员可以将更少的时间花在技术设置上,而将更多的时间花在实际研究上。该代码库也很轻巧且易于集成,使其适用于小型实验和大型项目。通过消除这些技术障碍,Meta Lingua 帮助研究人员更快地取得进展,并更轻松地测试新想法

__wf_reserved_inherit
图 4. Meta Lingua 概览。

Meta 在 AI 安全方面的增强

随着量子计算技术的进步,它给数据安全带来了新的挑战。与当今的计算机不同,量子计算机很可能能够更快地解决复杂的计算问题。这意味着它们可能会破解加密当前用于保护敏感信息的方法。这就是为什么该领域的研究变得越来越重要的原因——开发新的数据保护方法对于我们为量子计算的未来做好准备至关重要。

为了解决这个问题,Meta 开发了 Salsa,这是一种旨在加强后量子密码安全性的工具。Salsa 帮助研究人员测试 AI 驱动的攻击并识别潜在的弱点,使他们能够更好地理解和解决密码系统中的漏洞。通过模拟高级攻击场景,Salsa 提供了宝贵的见解,可以指导开发更强大、更具弹性的量子时代安全措施

Meta 的人工智能:机器人技术的最新创新

Meta 公司在机器人技术领域的最新工作重点是通过增强触觉感知、灵巧性以及与人类的协作,帮助人工智能与物理世界进行更自然的互动。其中,Meta Digit 360 是一种先进的触觉传感器,能让机器人拥有精细的触觉。传感器帮助机器人detect 纹理、压力甚至物体形状等细节。通过这些洞察力,机器人可以更精确地处理物体;这在医疗保健制造业等领域至关重要。

以下是 Meta Digit 360 包含的一些主要功能:

  • 它配备了 18 种不同的传感功能,能够捕捉各种触觉细节。
  • 该传感器可detect 小至 1 毫牛顿的压力变化,使机器人能够对精细纹理和细微动作做出反应。
  • 它在指尖表面包含超过 800 万个纹理元素(微小的传感点),提供触摸信息的高分辨率图。

Meta Digit Plexus 是 Meta Digit 360 的扩展,它是一个将各种触摸传感器集成到单个机器人手中的平台。这种设置使机器人能够一次处理来自多个点的触摸信息,类似于人手收集感觉数据的方式。

__wf_reserved_inherit
Fig 5. Meta Digit Plexus。

为人工智能的下一个篇章奠定基础

Meta 最新的人工智能更新,从SAM 2.1 和 CoTracker3 在计算机视觉方面的进步,到语言模型和机器人技术的新发展,都显示了人工智能如何稳步地从理论走向实用、有影响力的解决方案。 

这些工具旨在使 AI 在不同领域更具适应性和实用性,帮助处理从分割复杂图像到理解人类语言,甚至在物理空间中与我们一起工作的所有事情。 

Meta FAIR 优先考虑可访问性和实际应用,使我们更接近AI能够应对现实世界挑战并以有意义的方式改善我们日常生活的未来。 

您对人工智能感到好奇吗?加入我们的社区,获取最新的更新和见解,并查看我们的GitHub 存储库。您还可以探索计算机视觉如何在自动驾驶汽车农业等行业中得到应用!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始