空間知能がAIに3D世界の認識とナビゲーションを可能にする仕組みを探求しましょう。Ultralytics Ultralytics を用いて、空間認識システムを構築する方法を学びます。
空間知能とは、人工知能システムが物理世界を三次元で知覚し、理解し、移動する能力を指す。従来のコンピュータビジョンが静的なスナップショットとして2D画像を分析するのとは異なり、空間知能は動的環境における深度、幾何学、動き、物体間の関係性についての推論を伴う。 機械にピクセルを「見る」だけでなく、シーンの物理的文脈を理解させることで、 現実世界とのより効果的な相互作用を可能にする。この能力はデジタル視覚データと物理的行動の架け橋となり、 高度なAIエージェントやロボットシステムの基盤となる。
人間のような空間理解を実現するために、AIシステムは相互に関連する複数の技術と概念に依存している。
空間知能は、機械が複雑な環境で自律的に動作することを可能にすることで、産業を変革している。
密接に関連しているものの、空間知能とコンピュータビジョンを区別することは有益である。 コンピュータビジョンは、デジタル画像、動画、その他の視覚的入力から意味のある情報を導き出すことに焦点を当てたより広範な分野である。分類や基本的な2D検出などのタスクを含む。 空間知能は、空間と 物理の次元を特に付加した、 コンピュータビジョンの専門的なサブセットまたは進化形である。 「この物体は何か?」(ビジョン)から、 「この物体はどこにあり、どのように向き、どうインタラクトできるか?」(空間知能)へと移行する。
Ultralytics を活用し、空間知能システムの基盤を構築できます。 Ultralytics モデルを 方向付き境界ボックス(OBB)検出や姿勢推定といったタスクで訓練することで、 下流のロボティクスやARアプリケーションに必要な幾何学的データを提供できます。
以下は、3D空間内での人間の動きを理解する上で重要なステップである姿勢推定モデルを用いた空間キーポイント抽出の簡単な例です:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
ビジョン・トランスフォーマー(ViT)と 基盤モデルの最近の進歩は、この分野をさらに加速させており、 システムが広範な再学習なしに異なる環境間で空間理解を一般化することを可能にしている。 スタンフォード Google グループによる研究が続く中、 空間知能が次世代スマートデバイスの標準機能となることが期待される。