Yolo 深圳
深セン
今すぐ参加
用語集

空間知能

空間知能がAIに3D世界の認識とナビゲーションを可能にする仕組みを探求しましょう。Ultralytics Ultralytics を用いて、空間認識システムを構築する方法を学びます。

空間知能とは、人工知能システムが物理世界を三次元で知覚し、理解し、移動する能力を指す。従来のコンピュータビジョンが静的なスナップショットとして2D画像を分析するのとは異なり、空間知能は動的環境における深度、幾何学、動き、物体間の関係性についての推論を伴う。 機械にピクセルを「見る」だけでなく、シーンの物理的文脈を理解させることで、 現実世界とのより効果的な相互作用を可能にする。この能力はデジタル視覚データと物理的行動の架け橋となり、 高度なAIエージェントやロボットシステムの基盤となる。

空間知能の中核的構成要素

人間のような空間理解を実現するために、AIシステムは相互に関連する複数の技術と概念に依存している。

  • 深度知覚と3D再構成:システムはカメラからの2D入力を3D表現に変換する必要がある。 単眼深度推定のような技術は、単一画像から距離を予測することを可能にし、 3D物体検出は空間内の物体の体積と向きを特定するのに役立つ。
  • SLAM(同時位置推定とマッピング):ロボットやドローンなどのデバイスが、未知の環境をマッピングしながら自身のtrack 可能にする技術。現代のアプローチでは、変化する照明条件下での頑健性を高めるため、視覚SLAMと深層学習を統合することが多い。
  • 幾何学的推論:検知を超えて、システムは物理的制約を理解しなければならない——カップがテーブルの上に置かれていることや、通り抜けるにはドアを開けなければならないことを認識すること。これには往々にして、物体や人間の関節track リアルタイムでtrack するための姿勢推定が track 。
  • 具現化されたAI:この概念は知覚と行動を結びつける。具現化されたエージェントは単に観察するだけでなく、空間データを用いて動作を計画し、障害物を回避し、物体を操作する。これはロボット工学におけるAIが製造現場で機能する仕組みに類似している。

実際のアプリケーション

空間知能は、機械が複雑な環境で自律的に動作することを可能にすることで、産業を変革している。

  • 自律型ロボットと物流:倉庫内では、ロボットが空間知能を用いて混雑した通路を移動し、 物体検出技術で特定のパッケージを識別し、 それらをコンベアに正確に配置する。 ロボットは、物品を破損させずに確実に保持するため、 グリッパーと箱の空間的関係を計算しなければならない。
  • 拡張現実(AR)と複合現実:スマートグラスなどのデバイスは空間コンピューティングを活用し、 デジタルコンテンツを物理世界に固定します。例えばARメンテナンスアプリでは、 修理手順を特定のエンジン部品に直接重ねて表示できます。 これはユーザーが頭を動かしてもグラフィックの位置がずれないよう、 精密な物体追跡を必要とします。

空間知能 vs. コンピュータビジョン

密接に関連しているものの、空間知能とコンピュータビジョンを区別することは有益である コンピュータビジョンは、デジタル画像、動画、その他の視覚的入力から意味のある情報を導き出すことに焦点を当てたより広範な分野である。分類や基本的な2D検出などのタスクを含む。 空間知能は空間と 物理の次元を特に付加した、 コンピュータビジョンの専門的なサブセットまたは進化形である。 「この物体は何か?」(ビジョン)から、 「この物体はどこにあり、どのように向き、どうインタラクトできるか?」(空間知能)へと移行する。

Ultralyticsによる空間認識の実装

Ultralytics を活用し、空間知能システムの基盤を構築できます。 Ultralytics モデルを 方向付き境界ボックス(OBB)検出や姿勢推定といったタスクで訓練することで、 下流のロボティクスやARアプリケーションに必要な幾何学的データを提供できます。

以下は、3D空間内での人間の動きを理解する上で重要なステップである姿勢推定モデルを用いた空間キーポイント抽出の簡単な例です:

from ultralytics import YOLO

# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")

# Access the keypoints (x, y coordinates and confidence)
for result in results:
    # keypoints.xy returns a tensor of shape (N, 17, 2)
    keypoints = result.keypoints.xy
    print(f"Detected keypoints for {len(keypoints)} persons.")

ビジョン・トランスフォーマー(ViT)基盤モデルの最近の進歩は、この分野をさらに加速させており、 システムが広範な再学習なしに異なる環境間で空間理解を一般化することを可能にしている。 スタンフォード Google グループによる研究が続く中、 空間知能が次世代スマートデバイスの標準機能となることが期待される。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加