空間知能がAIに3D世界を認識しナビゲートさせる方法を探ります。Ultralytics YOLO26とUltralytics Platformを使用して空間認識システムを構築する方法を学びましょう。
空間知能とは、人工知能システムが物理世界を三次元で認識し、理解し、ナビゲートする能力を指します。静的なスナップショットとして2D画像を分析することが多い従来のコンピュータービジョンとは異なり、空間知能は、動的な環境における奥行き、形状、動き、およびオブジェクト間の関係について推論することを含みます。これにより、機械はピクセルを「見る」だけでなく、シーンの物理的な文脈を理解し、現実世界とより効果的に相互作用できるようになります。この能力は、デジタル視覚データと物理的な行動の間の架け橋であり、高度なAIエージェントやロボットシステムの基礎として機能します。
人間のような空間理解を達成するために、AIシステムはいくつかの相互接続された技術と概念に依存しています。
空間知能は、機械が複雑な環境で自律的に動作することを可能にすることで、産業を変革しています。
密接に関連していますが、空間知能とコンピュータービジョンを区別することは有用です。コンピュータービジョンは、デジタル画像、ビデオ、その他の視覚入力から意味のある情報を導き出すことに焦点を当てたより広範な分野です。分類や基本的な2D detectなどのタスクが含まれます。空間知能は、コンピュータービジョンの専門的なサブセットまたは進化形であり、具体的に空間と物理の次元を追加します。「この物体は何ですか?」(ビジョン)から「この物体はどこにあり、どのように向き、どのように操作できますか?」(空間知能)へと移行します。
開発者は、Ultralytics Platformを使用して空間インテリジェンスシステムの基盤を構築できます。Ultralytics YOLO26のようなモデルをOriented Bounding Box (obb) 検出や姿勢推定などのタスクでトレーニングすることで、エンジニアは下流のロボティクスやARアプリケーションに必要な幾何学的データを提供できます。
3D空間内での人間の動きを理解する上で重要なステップである、姿勢推定モデルを使用した空間キーポイント抽出の簡単な例を以下に示します。
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
Vision Transformer (ViT)と基盤モデルにおける最近の進歩は、この分野をさらに加速させており、システムは広範な再学習なしに、異なる環境間で空間理解を一般化できるようになります。スタンフォード大学のHAIやGoogle DeepMindのようなグループからの研究が続くにつれて、空間知能は次世代のスマートデバイスにおける標準機能になると期待できます。

未来の機械学習で、新たな一歩を踏み出しましょう。