メタAIの研究：SAM 2.1 & CoTracker3

人工知能（AI）は、最近、興奮とエネルギーに満ち溢れている研究分野であり、新しいイノベーションとブレークスルーがこれまで以上に速いペースで登場しています。過去数週間で、MetaのFundamental AI Research（FAIR）チームは、さまざまなAI分野の課題に取り組むことを目的とした一連のツールとモデルを発表しました。これらのリリースには、ヘルスケア、ロボット工学、拡張現実など、多様な分野に影響を与える可能性のあるアップデートが含まれています。

例えば、更新されたSAM 2.1モデルでは、オブジェクトのセグメンテーションが改善され、画像やビデオ内のオブジェクトを正確に識別し、分離することが容易になりました。一方、CoTracker3はポイントトラッキングに重点を置いており、オブジェクトが移動したり、部分的にブロックされたりした場合でも、ビデオフレーム内のポイントをtrack するのに役立ちます。

Metaはまた、効率的なオンデバイスでの利用のために、より軽量で高速なLlama言語モデルのバージョンや、ロボティクス向けの新しい触覚センシング技術も導入しました。この記事では、Meta FAIRによるこれらの最新リリースを分析し、各ツールが提供するものを見ていきましょう。それでは始めましょう。

メタの強化されたセグメント何でもモデル：SAM 2.1

オブジェクトのセグメンテーションは、コンピュータビジョンの重要なタスクの1つであり、画像やビデオ内の別個のオブジェクトを識別し分離することで、特定の関心領域の分析を容易にします。リリース以来、MetaのSegment Anything Model 2 (SAM 2)は、医療画像や気象学など様々な分野でオブジェクトのセグメンテーションに使用されてきました。コミュニティからのフィードバックに基づき、MetaはSAM 2.1を発表しました。SAM 2.1は、オリジナルモデルで発生したいくつかの課題に取り組み、全体としてより強力なパフォーマンスを提供するように設計された改良版です。

__wf_reserved_inherit — 図1. SAM 2.1モデルの性能ベンチマーク。

‍

SAM 2.1には、新しいデータ増強技術により、視覚的に類似した、より小さなオブジェクトをより良く扱うためのアップデートが含まれています。また、より長いビデオシーケンスでモデルをトレーニングすることで、オクルージョン（物体の一部が視界から隠れること）への対処方法を改善し、物体が一時的に遮られたとしても、時間をかけて「記憶」して認識できるようになりました。例えば、誰かが木の陰を歩いているビデオを撮影している場合、SAM 2.1は次のことができる。 track 物体の位置と動きの記憶を使って、視界が一時的に遮られたときのギャップを埋めることができる。

これらのアップデートと同時に、Meta社はSAM 2 Developer Suiteをリリースし、オープンソースのトレーニングコードと完全なデモインフラを提供することで、開発者はSAM 2.1を独自のデータで微調整し、様々なアプリケーションに統合することができる。

CoTracker3：Metaのトラッキングモデルとその機能とアップデート

もう一つの興味深いコンピュータビジョンのタスクは、ポイントトラッキングである。これは、ビデオ内の複数のフレームにわたって特定のポイントや特徴を追跡するものです。例えば、サイクリストが track いるビデオを考えてみましょう。ポイントトラッキングは、ヘルメットや車輪のようなサイクリストのポイントを、たとえそれらが障害物で一瞬隠れたとしても、モデルがtrack し続けることを可能にします。

点のトラッキングは、3D再構成、ロボティクス、ビデオ編集などのアプリケーションに不可欠です。従来のモデルは、複雑なセットアップと大規模な合成データセットに依存することが多く、実際のシナリオに適用した場合の効果が制限されます。

MetaのCoTracker3 トラッキングモデルは、モデルのアーキテクチャを簡素化することにより、これらの制限に対処します。また、モデルが注釈のない実際のビデオから学習できる疑似ラベリング技術を導入し、CoTracker3をより効率的で、実用的な使用のためにスケーラブルにしています。

‍

CoTracker3 の特長の一つは、オクルージョンをうまく処理できることです。CoTracker3は、モデルが複数の追跡ポイント間で情報を共有することを可能にする技術であるtrack 使用することで、目に見えるポイントを参照することで、隠れたポイントの位置を推測することができます。そうすることで、CoTracker3は、混雑したシーンで人物を追跡するようなダイナミックな環境でも高い効果を発揮するように設計されています。

CoTracker3は、オンラインモードとオフラインモードの両方も提供します。オンラインモードは、リアルタイムトラッキングを提供します。オフラインモードは、ビデオ編集やアニメーションなどのタスクに最適な、ビデオシーケンス全体のより包括的なトラッキングに使用できます。

Meta FAIRからのその他のアップデートと研究

SAM 2.1とCoTracker3は、コンピュータビジョンにおけるメタの最新の進歩を紹介するものですが、自然言語処理（NLP）やロボット工学など、AIの他の分野でもエキサイティングなアップデートがあります。Meta FAIRのその他の最新開発について見てみよう。

MetaのSpirit LM：言語およびマルチモーダルモデルにおけるAIイノベーション

MetaのSpirit LMは、テキストと音声の機能を組み合わせた新しいマルチモーダル言語モデルであり、AIとのインタラクションをより自然に感じさせます。テキストまたは音声のみを処理する従来のモデルとは異なり、Spirit LMは2つをシームレスに切り替えることができます。

Spirit LMは、より人間らしい方法で言語を理解し、生成できます。たとえば、音声または書かれた言語で聞いて応答できる仮想アシスタントを強化したり、音声とテキストの間で変換するアクセシビリティツールをサポートしたりできます。

‍

さらに、Metaは、大規模言語モデルをより効率的にするための技術を開発しました。これらの1つであるLayer Skipは、特定のタスクに必要なレイヤーのみをアクティブ化することにより、計算ニーズとエネルギーコストを削減するのに役立ちます。これは、メモリと電力に制限のあるデバイス上のアプリケーションに特に役立ちます。

Metaは、そのようなデバイスにAIアプリケーションをデプロイする必要性をさらに一歩進めて、量子化されたバージョンのLlamaモデルも展開しました。これらのモデルは、精度を犠牲にすることなく、モバイルデバイスでより高速に実行できるように圧縮されています。

Meta Linguaによる最適化の未来を見る

AIモデルのサイズと複雑さが増すにつれて、トレーニングプロセスを最適化することが重要になっています。最適化に関して、Metaは、大規模言語モデルのトレーニングを容易にする、柔軟で効率的なコードベースであるMeta Linguaを導入しました。Meta Linguaのモジュール設計により、研究者は実験を迅速にカスタマイズおよび拡張できます。

研究者は、技術的なセットアップにかかる時間を減らし、実際の研究により多くの時間を費やすことができます。コードベースは軽量で統合しやすく、小規模な実験と大規模なプロジェクトの両方に適しています。これらの技術的なハードルを取り除くことで、Meta Linguaは、研究者がより迅速に進捗を遂げ、より簡単に新しいアイデアをテストするのに役立ちます。

‍

MetaによるAIセキュリティの強化

量子コンピューティング技術の進歩は、データセキュリティに新たな課題をもたらします。現在のコンピュータとは異なり、量子コンピュータは複雑な計算をはるかに高速に実行できる可能性があります。これは、量子コンピュータが現在、機密情報を保護するために使用されている暗号化方式を破る可能性があることを意味します。そのため、この分野の研究はますます重要になっており、量子コンピューティングの将来に備える上で、データを保護する新しい方法を開発することが不可欠です。

この課題に対処するため、Metaはポスト量子暗号のセキュリティを強化することを目的としたツールであるSalsaを開発しました。Salsaは、研究者がAI主導の攻撃をテストし、潜在的な脆弱性を特定するのに役立ち、暗号システムの脆弱性をより良く理解し、対処できるようにします。高度な攻撃シナリオをシミュレートすることで、Salsaは量子時代のより強力で回復力のあるセキュリティ対策の開発を導くことができる貴重な洞察を提供します。

MetaにおけるAI：ロボティクスの最新イノベーション

メタ社のロボット工学における最新の研究は、触覚、器用さ、人間との共同作業を強化することで、AIが物理的世界とより自然に相互作用できるようにすることに焦点を当てている。特にMeta Digit 360は、ロボットに洗練された触覚を与える先進的な触覚センサーである。このセンサーは、ロボットが質感や圧力、さらには物体の形状などの詳細をdetect するのに役立ちます。これらの洞察により、ロボットはより正確に物体を扱うことができるようになり、ヘルスケアや製造などの分野で極めて重要なものとなる。

Meta Digit 360の主な機能の一部を以下に示します。

幅広い触覚の詳細を捉えるために、18種類の異なるセンシング機能を搭載しています。
‍
このセンサーは1ミリニュートンの圧力変化もdetect できるため、ロボットは繊細な質感や微妙な動きに反応することができる。
‍。
指先の表面全体に800万を超えるタクセル（微小な感知点）が含まれており、触覚情報の高解像度マップを提供します。

Meta Digit 360の拡張機能はMeta Digit Plexusで、さまざまなタッチセンサーを1つのロボットハンドに統合するプラットフォームです。このセットアップにより、ロボットは人間の手が感覚データを収集する方法と同様に、複数のポイントからのタッチ情報を一度に処理できます。

‍

AIの次の章の舞台を設定する

SAM 2.1やCoTracker3によるコンピュータビジョンの進化から、言語モデルやロボット工学の新展開まで、メタ社の最新のAIアップデートは、AIが理論から実用的でインパクトのあるソリューションへと着実に移行していることを示している。

これらのツールは、AIをより適応性があり、さまざまな分野で役立つように設計されており、複雑な画像のセグメンテーションから、人間の言語の理解、さらには物理的な空間での私たちとの共同作業まで、あらゆることを支援します。

アクセシビリティと現実世界での応用を優先することにより、Meta FAIRは、AIが現実世界の問題に取り組み、私たちの日常生活を有意義な方法で強化できる未来に私たちを近づけています。

AIにご興味をお持ちですか？最新のアップデートや洞察についてはコミュニティにご参加ください。また、GitHubリポジトリもご確認ください。さらに、自動運転車や農業などの業界でコンピュータビジョンがどのように活用されているかについてもご覧いただけます。

Meta FAIRによるAI研究の最新情報：SAM 2.1とCoTracker3

メタの強化されたセグメント何でもモデル：SAM 2.1

CoTracker3：Metaのトラッキングモデルとその機能とアップデート

Meta FAIRからのその他のアップデートと研究