YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
ビジョンAI

Meta FAIRからのAI研究アップデート:SAM 2.1およびCoTracker3

Meta FAIRの最新AIモデル、SAM 2.1およびCoTracker3を探索し、多様な実世界のアプリケーションに向けた高度なセグメンテーションおよびトラッキング機能を提供します。

ABAbirami Vina
5 min read
Meta FAIR AI研究:SAM 2.1およびCoTracker3

人工知能(AI)は、新たなイノベーションや画期的な進歩がかつてないスピードで登場し、最近非常に活気づいている研究分野です。ここ数週間で、MetaのFundamental AI Research (FAIR) チームは、AIのさまざまな分野における課題解決を目指した一連のツールとモデルを発表しました。これらのリリースには、ヘルスケアロボット工学拡張現実(AR)といった多様な分野に影響を与える可能性のあるアップデートが含まれています。

例えば、アップデートされたSAM 2.1モデルはオブジェクトセグメンテーションを改善し、画像や動画内のオブジェクトをより正確に識別・分離しやすくしました。一方、CoTracker3はポイントトラッキングに焦点を当てており、オブジェクトが移動したり部分的に遮られたりしても、動画フレーム内でポイントを追跡し続けるのを支援します。

Meta has also introduced lighter, faster versions of its Llama language model for efficient on-device use, along with new tactile sensing technology for robotics. In this article, we’ll break down these latest releases from Meta FAIR, looking at what each tool offers. Let’s get started!

Link to this sectionMetaの強化されたSegment Anything Model:SAM 2.1#

オブジェクトセグメンテーションは、主要なコンピュータビジョンタスクであり、画像や動画内の個別のオブジェクトを識別・分離できるため、特定の関心領域をより簡単に分析できるようになります。リリース以来、MetaのSegment Anything Model 2 (SAM 2)は、医療画像気象学など、さまざまな分野でオブジェクトセグメンテーションに使用されてきました。コミュニティからのフィードバックを基に、MetaはSAM 2.1を導入しました。これは、元のモデルで遭遇したいくつかの課題に取り組み、全体的なパフォーマンスを向上させるように設計された改良版です。

SAM 2.1モデルの性能ベンチマーク

図1. SAM 2.1モデルのパフォーマンスベンチマーク。

SAM 2.1には、新しいデータ拡張技術のおかげで、見た目が似ているオブジェクトや小さなオブジェクトをより適切に処理するためのアップデートが含まれています。また、モデルをより長いビデオシーケンスでトレーニングすることで、オクルージョン(オブジェクトの一部が隠れて見えない状態)への対応も改善され、一時的に隠れても時間の経過とともにオブジェクトを「記憶」して認識できるようになりました。例えば、誰かが動画を撮影中に人物がの後ろを歩いている場合、SAM 2.1はその人物が反対側から再び現れたときにトラッキングできます。これは、ビューが一時的に遮られたときに、オブジェクトの位置移動の記憶を使用して隙間を埋めることで実現します。

Alongside these updates, Meta has released the SAM 2 Developer Suite, providing open-source training code and full demo infrastructure so developers can fine-tune SAM 2.1 with their own data and integrate it into a range of applications.

Link to this sectionCoTracker3:Metaのトラッキングモデルとその特徴およびアップデート#

もう一つの興味深いコンピュータビジョンのタスクが、ポイントトラッキングです。これには、動画内の複数のフレームにわたって特定の点や特徴を追跡することが含まれます。例えば、自転車に乗る人の動画を考えてみてください。ポイントトラッキングを使用すると、モデルは障害物によって一瞬隠れてしまったとしても、ヘルメットや車輪といった自転車に乗っている人のポイントを追跡し続けることができます。

ポイントトラッキングは、3D再構築ロボット工学、動画編集などのアプリケーションにとって不可欠です。従来のモデルは多くの場合、複雑な設定や大規模な合成データセットに依存しており、実際のシナリオに適用する際の有効性が制限されていました。

MetaのCoTracker3 トラッキングモデルは、モデルのアーキテクチャを簡素化することでこれらの制限に対処します。また、実際の未アノテーション動画からモデルが学習できるようにする疑似ラベリング技術を導入しており、CoTracker3の実用性における効率とスケーラビリティを向上させています。

CoTracker3と他のトラッキングモデルの比較

図2. CoTracker3と他のトラッキングモデルの比較。

CoTracker3が際立っている特徴の一つは、オクルージョンをうまく処理できることです。クロストラックアテンション(モデルが複数の追跡ポイント間で情報を共有できるようにする技術)を使用することで、CoTracker3は可視ポイントを参照して隠れたポイントの位置を推測できます。これにより、CoTracker3は、混雑したシーンで人物を追跡するといった動的な環境において非常に効果的に設計されています。

CoTracker3は、オンラインモードとオフラインモードの両方を提供しています。オンラインモードはリアルタイムトラッキングを提供し、オフラインモードはビデオシーケンス全体にわたるより包括的なトラッキングに使用でき、ビデオ編集やアニメーションのようなタスクに最適です。

Link to this sectionMeta FAIRによるその他のアップデートと研究#

SAM 2.1とCoTracker3はMetaのコンピュータビジョンにおける最新の進歩を示すものですが、AI自然言語処理(NLP)、ロボティクスといった他の分野でもエキサイティングなアップデートが行われています。Meta FAIRによるこれらの最近の開発成果のいくつかを見ていきましょう。

Link to this sectionMetaのSpirit LM:言語およびマルチモーダルモデルにおけるAIのイノベーション#

Meta’s Spirit LM is a new multimodal language model that combines text and speech capabilities, making interactions with AI feel more natural. Unlike traditional models that handle only text or only speech, Spirit LM can seamlessly switch between the two.

Spirit LMは、より人間らしい方法で言語を理解し生成できます。例えば、音声または書き言葉で聞いたり答えたりできる仮想アシスタントを強化したり、音声とテキストを変換するアクセシビリティツールをサポートしたりすることが可能です。

Meta Spirit LMを使用したテキスト読み上げの例

図3. Meta Spirit LMを使用したテキスト読み上げの例。

さらに、Metaは大規模言語モデルをより効率的にするための技術を開発しました。「Layer Skip」と呼ばれるこの技術は、特定のタスクに必要なレイヤーのみをアクティブにすることで、計算の必要性エネルギーコストを削減するのに役立ちます。これは、メモリや電力が限られているデバイス上でのアプリケーションにとって特に有用です。

Taking the need to deploy AI applications on such devices a step further, Meta has also rolled out quantized versions of its Llama models. These models are compressed to run faster on mobile devices without sacrificing accuracy.

Link to this sectionMeta Linguaによる最適化の未来を展望する#

AIモデルのサイズと複雑さが増大するにつれ、そのトレーニングプロセスの最適化が不可欠になっています。最適化に関して、MetaはMeta Linguaを導入しました。これは、大規模言語モデルのトレーニングを容易にする柔軟かつ効率的なコードベースです。Meta Linguaのモジュール式設計により、研究者は実験を迅速にカスタマイズおよびスケーリングできます。

研究者は技術的なセットアップに費やす時間を減らし、実際の研究に多くの時間を割くことができます。このコードベースは軽量で統合もしやすいため、小規模な実験から大規模なプロジェクトまで適しています。これらの技術的な障壁を取り除くことで、Meta Linguaは研究者がより迅速に進歩し、新しいアイデアをより簡単にテストできるように支援します。

Meta Linguaの概要

図4. Meta Linguaの概要。

Link to this sectionAIセキュリティにおけるMetaの強化#

As quantum computing technology advances, it brings new challenges to data security. Unlike today’s computers, it’s likely that quantum computers will be able to solve complex calculations much faster. This means they could potentially break the encryption methods currently used to protect sensitive information. That’s why research in this field is becoming increasingly important - developing new ways to protect data is essential as we prepare for the future of quantum computing.

これに対処するため、Metaはポスト量子暗号セキュリティの強化を目指したツール、Salsaを開発しました。Salsaは、研究者がAI主導の攻撃をテストし、潜在的な弱点を特定するのを支援することで、暗号システムにおける脆弱性をより深く理解し対処できるようにします。高度な攻撃シナリオをシミュレートすることにより、Salsaは量子時代に向けたより強力で回復力のあるセキュリティ対策の開発を導く貴重な知見を提供します。

Link to this sectionMetaのAI:ロボット工学における最新のイノベーション#

ロボット工学におけるMetaの最新の取り組みは、触覚、器用さ、人間との協調を強化することで、AIが物理世界とより自然に対話できるようにすることに焦点を当てています。特に、Meta Digit 360は、ロボットに洗練された触覚を与える高度な触覚センサーです。このセンサーは、ロボットがテクスチャ、圧力、さらにはオブジェクトの形状といった詳細を検出するのに役立ちます。これらの洞察から、ロボットはより精密にオブジェクトを扱うことができるようになります。これは、ヘルスケア製造のような分野で不可欠なものです。

Meta Digit 360の主な機能の一部を以下に示します:

  • 18種類の独自のセンシング機能を備えており、幅広い触覚詳細をキャプチャできます。
  • センサーは1ミリニュートンというわずかな圧力変化を検出でき、ロボットが細かいテクスチャや微妙な動きに応答できるようにします。
  • 指先表面に800万個以上のタクセル(微細なセンシングポイント)が含まれており、触覚情報の高解像度マップを提供します。

Meta Digit 360の拡張版として、さまざまな触覚センサーを単一のロボットハンドに統合するプラットフォーム、Meta Digit Plexusがあります。この設定により、人間の手が感覚データを収集する方法と同様に、ロボットは複数のポイントからの触覚情報を一度に処理できるようになります。

Meta Digit Plexus触覚センシングプラットフォーム

図5. Meta Digit Plexus。

Link to this sectionAIの次の章に向けた舞台設定#

SAM 2.1やCoTracker3によるコンピュータビジョンの進歩から、言語モデルやロボット工学における新たな開発まで、Metaの最新のAIアップデートは、AIが理論から実用的でインパクトのあるソリューションへと着実に移行していることを示しています。

これらのツールは、AIをさまざまな分野でより適応性が高く有用なものにするように設計されており、複雑な画像のセグメンテーションから人間の言語の理解、さらには物理空間での人間との協働まで、あらゆることを支援します。

Meta FAIRはアクセシビリティと実用性を優先することで、AIが現実世界の課題に取り組み、私たちの日常生活を意味のある方法で強化できる未来へと近づけています。

AIに興味がありますか?最新のアップデートやインサイトについては私たちのコミュニティに参加し、GitHubリポジトリをチェックしてください。自動運転車農業といった業界でコンピュータビジョンをどのように使用できるかもぜひ探索してみてください!

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう