ヨロビジョン深圳
深セン
今すぐ参加

Meta FAIRからのAI研究アップデート:SAM 2.1とCoTracker3

Abirami Vina

5分で読めます

2024年11月4日

Meta FAIRの最新AIモデルであるSAM 2.1とCoTracker3をご覧ください。多様な現実世界のアプリケーション向けに、高度なセグメンテーションおよびトラッキング機能を提供します。

人工知能(AI)は、最近、興奮とエネルギーに満ち溢れている研究分野であり、新しいイノベーションとブレークスルーがこれまで以上に速いペースで登場しています。過去数週間で、MetaのFundamental AI Research(FAIR)チームは、さまざまなAI分野の課題に取り組むことを目的とした一連のツールとモデルを発表しました。これらのリリースには、ヘルスケアロボット工学拡張現実など、多様な分野に影響を与える可能性のあるアップデートが含まれています。

たとえば、更新されたSAM 2.1モデルはオブジェクトセグメンテーションを改善し、画像やビデオ内のオブジェクトを正確に識別して分離することを容易にします。一方、CoTracker3はポイントトラッキングに焦点を当てており、オブジェクトが移動したり、部分的にブロックされたりした場合でも、ビデオフレーム内のポイントを追跡し続けるのに役立ちます。 

Metaはまた、効率的なオンデバイスでの利用のために、より軽量で高速なLlama言語モデルのバージョンや、ロボティクス向けの新しい触覚センシング技術も導入しました。この記事では、Meta FAIRによるこれらの最新リリースを分析し、各ツールが提供するものを見ていきましょう。それでは始めましょう。

Metaの強化されたSegment Anything Model:SAM 2.1

オブジェクトセグメンテーションは、主要なコンピュータビジョンタスクであり、画像やビデオ内の個々のオブジェクトを識別して分離し、特定の関心領域の分析を容易にします。MetaのSegment Anything Model 2(SAM 2)はリリース以来、医療画像処理気象学など、さまざまな分野でオブジェクトセグメンテーションに使用されてきました。コミュニティからのフィードバックに基づき、Metaは今回、SAM 2.1を発表しました。これは、オリジナルのモデルで遭遇した課題に対処し、全体的なパフォーマンスを向上させるように設計された改良版です。

__wf_reserved_inherit
図1. SAM 2.1モデルのパフォーマンスベンチマーク。

SAM 2.1には、新しいデータ拡張技術により、視覚的に類似した、より小さなオブジェクトをより適切に処理するためのアップデートが含まれています。また、より長いビデオシーケンスでトレーニングすることにより、モデルが遮蔽(オブジェクトの一部が視界から隠れている場合)への対処方法も改善されています。これにより、一時的に遮られた場合でも、オブジェクトを「記憶」して認識できます。たとえば、誰かがの後ろを歩いている人を撮影しているビデオの場合、SAM 2.1は、オブジェクトの位置動きの記憶を使用して、ビューが一時的に中断されたときのギャップを埋め、反対側に再び現れる人を追跡できます。

これらのアップデートに加えて、MetaはSAM 2 Developer Suiteをリリースし、オープンソースのトレーニングコードと完全なデモインフラストラクチャを提供することで、開発者が独自のデータでSAM 2.1を微調整し、さまざまなアプリケーションに統合できるようにします。

CoTracker3:Metaのトラッキングモデルとその機能とアップデート

もう1つの興味深いコンピュータビジョンタスクは、点のトラッキングです。これは、ビデオ内の複数のフレームにわたって特定の点または特徴を追跡することを含みます。トラックを走るサイクリストのビデオを考えてみましょう。点のトラッキングにより、モデルは、ヘルメットや車輪など、サイクリストのポイントを追跡し続けることができます。たとえそれらが一時的に障害物に隠れていてもです。

点のトラッキングは、3D再構成ロボティクス、ビデオ編集などのアプリケーションに不可欠です。従来のモデルは、複雑なセットアップと大規模な合成データセットに依存することが多く、実際のシナリオに適用した場合の効果が制限されます。 

MetaのCoTracker3 トラッキングモデルは、モデルのアーキテクチャを簡素化することにより、これらの制限に対処します。また、モデルが注釈のない実際のビデオから学習できる疑似ラベリング技術を導入し、CoTracker3をより効率的で、実用的な使用のためにスケーラブルにしています。

__wf_reserved_inherit
図2. CoTracker3と他のトラッキングモデルの比較。

CoTracker3の際立った機能の1つは、遮蔽をうまく処理できることです。モデルが複数の追跡ポイント間で情報を共有できる技術であるクロストラックアテンションを使用することで、CoTracker3は、見えるポイントを参照することにより、隠れたポイントの位置を推測できます。そうすることで、CoTracker3は、混雑したシーンで人を追跡するなど、動的な環境で非常に効果的になるように設計されています。 

CoTracker3は、オンラインモードとオフラインモードの両方も提供します。オンラインモードは、リアルタイムトラッキングを提供します。オフラインモードは、ビデオ編集やアニメーションなどのタスクに最適な、ビデオシーケンス全体のより包括的なトラッキングに使用できます。 

Meta FAIRからのその他のアップデートと研究

SAM 2.1とCoTracker3は、コンピュータビジョンにおけるMetaの最新の進歩を示していますが、自然言語処理(NLP)やロボティクスなど、AIの他の分野でもエキサイティングなアップデートがあります。Meta FAIRからのその他の最近の開発を見てみましょう。

MetaのSpirit LM:言語およびマルチモーダルモデルにおけるAIイノベーション

MetaのSpirit LMは、テキストと音声の機能を組み合わせた新しいマルチモーダル言語モデルであり、AIとのインタラクションをより自然に感じさせます。テキストまたは音声のみを処理する従来のモデルとは異なり、Spirit LMは2つをシームレスに切り替えることができます。 

Spirit LMは、より人間らしい方法で言語を理解し、生成できます。たとえば、音声または書かれた言語で聞いて応答できる仮想アシスタントを強化したり、音声とテキストの間で変換するアクセシビリティツールをサポートしたりできます。 

__wf_reserved_inherit
図3. Meta Spirit LMを使用したテキスト読み上げの例。

さらに、Metaは、大規模言語モデルをより効率的にするための技術を開発しました。これらの1つであるLayer Skipは、特定のタスクに必要なレイヤーのみをアクティブ化することにより、計算ニーズエネルギーコストを削減するのに役立ちます。これは、メモリと電力に制限のあるデバイス上のアプリケーションに特に役立ちます。 

Metaは、そのようなデバイスにAIアプリケーションをデプロイする必要性をさらに一歩進めて、量子化されたバージョンのLlamaモデルも展開しました。これらのモデルは、精度を犠牲にすることなく、モバイルデバイスでより高速に実行できるように圧縮されています。 

Meta Linguaによる最適化の未来を見る

AIモデルのサイズと複雑さが増すにつれて、トレーニングプロセスを最適化することが重要になっています。最適化に関して、Metaは、大規模言語モデルのトレーニングを容易にする、柔軟で効率的なコードベースであるMeta Linguaを導入しました。Meta Linguaのモジュール設計により、研究者は実験を迅速にカスタマイズおよび拡張できます。 

研究者は、技術的なセットアップにかかる時間を減らし、実際の研究により多くの時間を費やすことができます。コードベースは軽量で統合しやすく、小規模な実験と大規模なプロジェクトの両方に適しています。これらの技術的なハードルを取り除くことで、Meta Linguaは、研究者がより迅速に進捗を遂げ、より簡単に新しいアイデアをテストするのに役立ちます。

__wf_reserved_inherit
図4. Meta Linguaの概要。

MetaによるAIセキュリティの強化

量子コンピューティング技術の進歩は、データセキュリティに新たな課題をもたらします。現在のコンピュータとは異なり、量子コンピュータは複雑な計算をはるかに高速に実行できる可能性があります。これは、量子コンピュータが現在、機密情報を保護するために使用されている暗号化方式を破る可能性があることを意味します。そのため、この分野の研究はますます重要になっており、量子コンピューティングの将来に備える上で、データを保護する新しい方法を開発することが不可欠です。

この課題に対処するため、Metaはポスト量子暗号のセキュリティを強化することを目的としたツールであるSalsaを開発しました。Salsaは、研究者がAI主導の攻撃をテストし、潜在的な脆弱性を特定するのに役立ち、暗号システムの脆弱性をより良く理解し、対処できるようにします。高度な攻撃シナリオをシミュレートすることで、Salsaは量子時代のより強力で回復力のあるセキュリティ対策の開発を導くことができる貴重な洞察を提供します。

MetaにおけるAI:ロボティクスの最新イノベーション

Metaのロボティクスにおける最新の取り組みは、触覚、器用さ、および人間との協調性を高めることによって、AIが物理世界とより自然に相互作用できるようにすることに焦点を当てています。特に、Meta Digit 360は、ロボットに洗練された触覚を与える高度な触覚センサーです。このセンサーは、ロボットがテクスチャ、圧力、さらには物体の形状などの詳細を検出するのに役立ちます。これらの洞察から、ロボットはより正確に物体を扱うことができ、これはヘルスケア製造業などの分野で非常に重要です。

Meta Digit 360の主な機能の一部を以下に示します。

  • 幅広い触覚の詳細を捉えるために、18種類の異なるセンシング機能を搭載しています。
  • このセンサーは、わずか1ミリニュートンというわずかな圧力変化を検出できるため、ロボットは微細なテクスチャや微妙な動きに対応できます。
  • 指先の表面全体に800万を超えるタクセル(微小な感知点)が含まれており、触覚情報の高解像度マップを提供します。

Meta Digit 360の拡張機能はMeta Digit Plexusで、さまざまなタッチセンサーを1つのロボットハンドに統合するプラットフォームです。このセットアップにより、ロボットは人間の手が感覚データを収集する方法と同様に、複数のポイントからのタッチ情報を一度に処理できます。

__wf_reserved_inherit
図5. Meta Digit Plexus。

AIの次の章の舞台を設定する

SAM 2.1およびCoTracker3によるコンピュータビジョンの進歩から、言語モデルおよびロボティクスにおける新しい開発まで、Metaの最新のAIアップデートは、AIが理論から実用的で影響力のあるソリューションへと着実に移行していることを示しています。 

これらのツールは、AIをより適応性があり、さまざまな分野で役立つように設計されており、複雑な画像のセグメンテーションから、人間の言語の理解、さらには物理的な空間での私たちとの共同作業まで、あらゆることを支援します。 

アクセシビリティと現実世界での応用を優先することにより、Meta FAIRは、AIが現実世界の問題に取り組み、私たちの日常生活を有意義な方法で強化できる未来に私たちを近づけています。 

AIにご興味をお持ちですか?最新のアップデートや洞察についてはコミュニティにご参加ください。また、GitHubリポジトリもご確認ください。さらに、自動運転車農業などの業界でコンピュータビジョンがどのように活用されているかについてもご覧いただけます。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました