探索 Meta FAIR 最新的 AI 模型 SAM 2.1 和 CoTracker3,它们为各种实际应用提供先进的分割和跟踪功能。

探索 Meta FAIR 最新的 AI 模型 SAM 2.1 和 CoTracker3,它们为各种实际应用提供先进的分割和跟踪功能。

人工智能(AI)是一个研究领域,最近因新的创新和突破以前所未有的速度涌现而备受关注。在过去几周,Meta 的基础人工智能研究(FAIR)团队推出了一套工具和模型,旨在应对不同人工智能领域的挑战。这些发布包括可能影响医疗保健、机器人技术和增强现实等不同领域的更新。
例如,更新后的SAM 2.1模型改进了对象分割,从而更容易准确地识别和分离图像和视频中的对象。同时,CoTracker3侧重于点跟踪,即使对象移动或被部分遮挡,也有助于跟踪视频帧中的点。
Meta 还推出了更轻、更快的 Llama 语言模型版本,以实现高效的设备端使用,以及用于机器人技术的新型触觉传感技术。在本文中,我们将详细介绍 Meta FAIR 的这些最新版本,了解每种工具的功能。让我们开始吧!
物体分割 是一项关键的 计算机视觉任务,它可以识别和分离图像或视频中不同的物体,从而更容易分析特定的感兴趣区域。 自发布以来,Meta 的 Segment Anything Model 2 (SAM 2) 已被用于 医学成像 和 气象学 等不同领域的物体分割。 在社区反馈的基础上,Meta 现在推出了 SAM 2.1,这是一个改进版本,旨在解决原始模型遇到的一些挑战,并提供更强大的整体性能。

SAM 2.1 包含更新,通过新的数据增强技术,可以更好地处理视觉上相似和较小的物体。它还通过在更长的视频序列上训练模型来改进模型处理遮挡(当物体的部分被隐藏时)的方式,使其能够“记住”并识别一段时间内的物体,即使它们暂时被阻挡。例如,如果有人正在拍摄一个人在树后行走的视频,SAM 2.1 可以跟踪这个人,当他们重新出现在另一侧时,利用其对物体位置和运动的记忆来填补视图短暂中断时的空白。
除了这些更新,Meta 还发布了 SAM 2 开发者套件,提供开源训练代码和完整的演示基础设施,以便开发者可以使用自己的数据微调 SAM 2.1,并将其集成到各种应用中。
另一个有趣的计算机视觉任务是点跟踪。它涉及在视频中的多个帧中跟踪特定的点或特征。想象一下骑自行车者沿着赛道骑行的视频 - 点跟踪使模型能够跟踪骑自行车者身上的点,例如头盔或车轮,即使它们暂时被障碍物隐藏。
点追踪对于诸如 3D 重建、机器人技术和视频编辑等应用至关重要。传统的模型通常依赖于复杂的设置和大型合成数据集,这限制了它们在应用于现实场景时的有效性。
Meta 的 CoTracker3 追踪模型通过简化模型架构解决了这些限制。它还引入了一种伪标记技术,使模型能够从真实的、未标注的视频中学习,从而使 CoTracker3 在实际使用中更高效且更具可扩展性。

CoTracker3 的一个突出特点是它可以很好地处理遮挡。通过使用跨轨迹注意力(一种允许模型在多个跟踪点之间共享信息的技术),CoTracker3 可以通过参考可见点来推断隐藏点的位置。通过这样做,CoTracker3 旨在在动态环境中非常有效,例如在拥挤的场景中 跟踪一个人。
CoTracker3 还提供在线和离线两种模式。在线模式提供实时跟踪。而离线模式可用于对整个视频序列进行更全面的跟踪,非常适合视频编辑或动画等任务。
虽然SAM 2.1和CoTracker3展示了Meta在计算机视觉方面的最新进展,但在AI的其他领域,如自然语言处理 (NLP) 和机器人技术方面也有令人兴奋的更新。让我们来看看Meta FAIR最近的其他一些发展。
Meta 的 Spirit LM 是一种新型多模态语言模型,它结合了文本和语音功能,使与AI 的交互感觉更加自然。与仅处理文本或仅处理语音的传统模型不同,Spirit LM 可以在两者之间无缝切换。
Spirit LM 可以理解和生成语言,方式更接近人类。 例如,它可以增强虚拟助手,使其能够以口语或书面语言进行聆听和回复,或支持在语音和文本之间转换的辅助工具。

此外,Meta 已经开发出使大型语言模型更有效的技术。其中一种称为 Layer Skip,通过仅激活给定任务所需的层,有助于减少计算需求和能源成本。这对于内存和功率有限的设备上的应用程序尤其有用。
Meta 更进一步,为了满足在这些设备上部署 AI 应用的需求,还推出了 量化 版本的 Llama 模型。这些模型经过压缩,可以在不牺牲准确性的情况下,在移动设备上更快地运行。
随着AI 模型在规模和复杂性上不断增长,优化其训练过程变得至关重要。关于优化,Meta 推出 Meta Lingua,这是一个灵活高效的代码库,可以更轻松地训练大型语言模型。Meta Lingua 的模块化设计使研究人员能够快速定制和扩展他们的实验。
研究人员可以将更少的时间花在技术设置上,而将更多的时间花在实际研究上。该代码库也很轻巧且易于集成,使其适用于小型实验和大型项目。通过消除这些技术障碍,Meta Lingua 帮助研究人员更快地取得进展,并更轻松地测试新想法。

随着量子计算技术的进步,它给数据安全带来了新的挑战。与当今的计算机不同,量子计算机很可能能够更快地解决复杂的计算问题。这意味着它们可能会破解加密当前用于保护敏感信息的方法。这就是为什么该领域的研究变得越来越重要的原因——开发新的数据保护方法对于我们为量子计算的未来做好准备至关重要。
为了解决这个问题,Meta 开发了 Salsa,这是一种旨在加强后量子密码安全性的工具。Salsa 帮助研究人员测试 AI 驱动的攻击并识别潜在的弱点,使他们能够更好地理解和解决密码系统中的漏洞。通过模拟高级攻击场景,Salsa 提供了宝贵的见解,可以指导开发更强大、更具弹性的量子时代安全措施。
Meta 在机器人技术方面的最新工作侧重于通过增强触觉感知、灵巧性和与人类的协作来帮助 AI 更自然地与物理世界交互。特别是,Meta Digit 360 是一种先进的触觉传感器,可为机器人提供精细的触觉。这些传感器帮助机器人检测纹理、压力甚至物体形状等细节。通过这些洞察,机器人可以更精确地处理物体;这在医疗保健和制造业等领域至关重要。
以下是 Meta Digit 360 包含的一些主要功能:
Meta Digit Plexus 是 Meta Digit 360 的扩展,它是一个将各种触摸传感器集成到单个机器人手中的平台。这种设置使机器人能够一次处理来自多个点的触摸信息,类似于人手收集感觉数据的方式。

Meta 最新的 AI 更新,从 SAM 2.1 和 CoTracker3 在计算机视觉方面的进步,到语言模型和机器人技术的新发展,展示了 AI 如何稳步地从理论走向实用、有影响力的解决方案。
这些工具旨在使 AI 在不同领域更具适应性和实用性,帮助处理从分割复杂图像到理解人类语言,甚至在物理空间中与我们一起工作的所有事情。
Meta FAIR 优先考虑可访问性和实际应用,使我们更接近AI能够应对现实世界挑战并以有意义的方式改善我们日常生活的未来。
您对人工智能感到好奇吗?加入我们的社区,获取最新的更新和见解,并查看我们的GitHub 存储库。您还可以探索计算机视觉如何在自动驾驶汽车和农业等行业中得到应用!