YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

空間知能

空間知能がAIに3D世界を認識しナビゲートさせる方法を探ります。Ultralytics YOLO26とUltralytics Platformを使用して空間認識システムを構築する方法を学びましょう。

空間知能とは、人工知能システムが物理世界を三次元で認識し、理解し、ナビゲートする能力を指します。静的なスナップショットとして2D画像を分析することが多い従来のコンピュータービジョンとは異なり、空間知能は、動的な環境における奥行き、形状、動き、およびオブジェクト間の関係について推論することを含みます。これにより、機械はピクセルを「見る」だけでなく、シーンの物理的な文脈を理解し、現実世界とより効果的に相互作用できるようになります。この能力は、デジタル視覚データと物理的な行動の間の架け橋であり、高度なAIエージェントやロボットシステムの基礎として機能します。

空間知能の主要な構成要素

人間のような空間理解を達成するために、AIシステムはいくつかの相互接続された技術と概念に依存しています。

  • 深度知覚と3D再構築: システムはカメラからの2D入力を3D表現に変換する必要があります。単眼深度推定のような技術により、モデルは単一の画像から距離を予測でき、一方、3D object detectionは、その空間内のアイテムの体積と向きを特定するのに役立ちます。
  • SLAM(自己位置推定と環境地図作成の同時実行): これにより、ロボットやドローンなどのデバイスは、未知の環境をマッピングしながら、その環境内での自身の位置を追跡できます。現代のアプローチでは、変化する照明条件下での堅牢性を向上させるために、ビジュアルSLAMと深層学習を統合することがよくあります。
  • 幾何学的推論: 検出を超えて、システムは物理的制約を理解する必要があります。例えば、カップがテーブルのに置かれていることや、通過するためにはドアを開けなければならないことなどです。これはしばしば、物体や人間の関節の向きをリアルタイムでtrackするための姿勢推定を伴います。
  • 身体化AI: この概念は知覚と行動を結びつけます。身体化されたエージェントは単に観察するだけでなく、空間データを使用して動きを計画し、障害物を回避し、オブジェクトを操作します。これは、ロボットAIが製造現場で機能するのと同様です。

実際のアプリケーション

空間知能は、機械が複雑な環境で自律的に動作することを可能にすることで、産業を変革しています。

  • 自律ロボティクスとロジスティクス: 倉庫では、ロボットが空間知能を使用して混雑した通路をナビゲートし、オブジェクト検出を使用して特定のパッケージを識別し、コンベヤーに正確に配置します。アイテムを潰すことなく確実に保持するために、グリッパーと箱の間の空間関係を計算する必要があります。
  • 拡張現実(AR)と複合現実: スマートグラスのようなデバイスは、空間コンピューティングを使用してデジタルコンテンツを物理世界に固定します。例えば、ARメンテナンスアプリは、特定のエンジン部品に修理指示を直接オーバーレイするかもしれません。これは、ユーザーが頭を動かしてもグラフィックが位置ずれしないように、正確なobject trackingを必要とします。

空間知能 vs. コンピュータービジョン

密接に関連していますが、空間知能とコンピュータービジョンを区別することは有用です。コンピュータービジョンは、デジタル画像、ビデオ、その他の視覚入力から意味のある情報を導き出すことに焦点を当てたより広範な分野です。分類や基本的な2D detectなどのタスクが含まれます。空間知能は、コンピュータービジョンの専門的なサブセットまたは進化形であり、具体的に空間物理の次元を追加します。「この物体は何ですか?」(ビジョン)から「この物体はどこにあり、どのように向き、どのように操作できますか?」(空間知能)へと移行します。

Ultralytics を用いた空間認識の実装

開発者は、Ultralytics Platformを使用して空間インテリジェンスシステムの基盤を構築できます。Ultralytics YOLO26のようなモデルをOriented Bounding Box (obb) 検出や姿勢推定などのタスクでトレーニングすることで、エンジニアは下流のロボティクスやARアプリケーションに必要な幾何学的データを提供できます。

3D空間内での人間の動きを理解する上で重要なステップである、姿勢推定モデルを使用した空間キーポイント抽出の簡単な例を以下に示します。

from ultralytics import YOLO

# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")

# Access the keypoints (x, y coordinates and confidence)
for result in results:
    # keypoints.xy returns a tensor of shape (N, 17, 2)
    keypoints = result.keypoints.xy
    print(f"Detected keypoints for {len(keypoints)} persons.")

Vision Transformer (ViT)基盤モデルにおける最近の進歩は、この分野をさらに加速させており、システムは広範な再学習なしに、異なる環境間で空間理解を一般化できるようになります。スタンフォード大学のHAIGoogle DeepMindのようなグループからの研究が続くにつれて、空間知能は次世代のスマートデバイスにおける標準機能になると期待できます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。