Yolo 深圳
深セン
今すぐ参加
用語集

深さの推定

ステレオ、ToF、LiDAR、単眼ディープラーニングなど、深度推定がどのように画像から深度マップを作成し、ロボット工学、AR/VR、3D知覚に威力を発揮するかをご覧ください。

深度推定は、コンピュータビジョン(CV)における基本的なタスクである。 コンピュータビジョン(CV)における基本的なタスクである。 シーン内のオブジェクトのカメラに対する相対的な距離を決定する。画像の各ピクセルの深度値を計算することによって、このプロセスは標準的な2次元データを豊かな3次元表現に変換する、 このプロセスは、標準的な2次元データを、しばしば深度マップと呼ばれる豊かな3次元表現に変換します。 この機能は、機械が空間的関係を認識し、環境をナビゲートできるようにするために不可欠である、 オブジェクトを操作し、人間の視覚システムと同じように世界の形状を理解することができます。

深度推定のメカニズム

奥行きの推定は、ハードウェアを多用するアクティブ・センシングから、ソフトウェア主導のディープラーニング(DL)アプローチまで、さまざまな方法で実現できる。 ソフトウェア主導のディープラーニング(DL)アプローチに至るまで、さまざまな方法で達成できる。

  • ステレオビジョン:人間の両眼視にヒントを得た、 ステレオ・ビジョン・システムは を使用する。視差(左右の画像間の物体の水平方向の位置の差)を分析することにより、アルゴリズムは数学的に距離を三角測量することができる。 アルゴリズムが数学的に距離を三角測量する。この方法は、信頼性の高い フレーム間の特徴マッチングに大きく依存している。
  • 単眼深度推定:この技術は、単一の2D画像から奥行きを推定する。 単一画像には明示的な奥行き情報がないため、困難なタスクです。現代の 畳み込みニューラルネットワーク(CNN) は、物体の大きさ、遠近感、オクルージョンなどの単眼的手がかりを認識するために、膨大なデータセットで学習される。 単眼的な奥行き予測に関する研究は著しく進歩している、 標準的なカメラで3D構造を推測できるようになった。
  • アクティブセンサー(LiDARとToF):パッシブカメラシステムとは異なり、アクティブセンサーは距離を測定するために信号を発する。 距離を測定します。 LiDAR(光検出と測距)はレーザーパルスを使用し 正確な3D点群を作成する。 飛行時間型(ToF)カメラ は、光がセンサーに戻ってくるまでの時間を測定する。これらの技術は、高精度の地上真実データを提供する。 データを提供する。 機械学習(ML)モデルの学習によく使用される。

実際のアプリケーション

第3の次元を認識する能力は、様々な業界において重要な機能を解き放つ。

自律システムとロボット工学

自律走行車の分野では 推定は安全性とナビゲーションに不可欠です。自動運転車は、カメラデータとLiDARを組み合わせて障害物をdetect します、 他の車両との距離を推定し、道路のリアルタイムマップを構築する。同様に ロボット工学では、奥行き知覚によって自動アームが ピック&プレース」作業を行うことができる。 製造自動化ワークフロー

拡張現実(AR)

について 拡張現実 没入感を得るためには、仮想オブジェクトが物理的な世界とリアルに相互作用しなければならない。奥行き推定 は、モバイルデバイスが部屋の形状を理解することを可能にし、仮想家具やキャラクタを床に置いたり、現実世界のオブジェクトの後ろに隠したり(オクルージョン)することを可能にします。 床に置いたり、現実世界のオブジェクトの背後に隠したり(オクルージョン)できるようになり、ユーザー体験が大幅に向上する。

Python 例YOLO11距離近似

専用のデプスモデルが存在する一方で、開発者はしばしば2Dを使用する。 オブジェクト検出 キャリブレーション・データとともに 距離の近似値その ultralytics ライブラリーは、そのソリューション・モジュールを介してこれを簡素化し、ユーザーがバウンディング・ボックスの位置に基づいて追跡されたオブジェクトの距離を推定することを可能にする。 バウンディングボックスの位置に基づいて追跡オブジェクトの距離を推定する。

次のコードは YOLO11を使って物体をtrack し を使用する方法を示します。

import cv2
from ultralytics import YOLO, solutions

# Load the YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Initialize the DistanceCalculation solution
# This estimates distance based on bounding box centroids
dist_obj = solutions.DistanceCalculation(names=model.names, view_img=True)

# Open a video file or camera stream
cap = cv2.VideoCapture("path/to/video.mp4")

while cap.isOpened():
    success, im0 = cap.read()
    if not success:
        break

    # Track objects and calculate distance
    tracks = model.track(im0, persist=True, show=False)
    im0 = dist_obj.start_process(im0, tracks)

    # Display result (or save/process further)
    cv2.imshow("Distance Estimation", im0)
    if cv2.waitKey(1) == ord("q"):
        break

cap.release()
cv2.destroyAllWindows()

深度推定と関連概念

深度推定は、AIエコシステムにおける類似の用語と区別することが重要である:

  • 3Dオブジェクト検出一方 深度推定がすべてのピクセルに距離値を割り当てるのに対して、3Dオブジェクト検出は、特定のオブジェクトを識別することに重点を置いています。 オブジェクトを特定し、その周囲に3Dバウンディングボックス(立方体)を配置する。 を配置する。3D検出は「車の位置と大きさ」を教えてくれるのに対し、深度推定は「車の位置と大きさ」を教えてくれる。 深度推定は、道路や背景を含むシーン全体のジオメトリを提供します。
  • 距離計算これは通常 これは通常、特定の2点間、またはカメラから明確なオブジェクトまでの直線距離を測定することを指します。 (多くの場合、2Dヒューリスティックを使用します)。深度推定は、高密度のピクセル単位の予測タスクです。 ビューの完全な地形図を生成するタスクです。
  • オプティカル・フローフレーム間の物体の見かけの動きを測定する。 フレーム間の物体の見かけの動きを測定する。オプティカルフローは、深度(動きから構造)を推測するために使用することができる、 その主な出力は、静的な距離マップではなく、動きベクトルフィールドである。

空間AIの進化

ジェネレーティブAIと基礎モデルの最近の進歩は、2Dと3Dのギャップをさらに埋めつつある。 モデルは、2Dと3Dのギャップをさらに埋めつつある。例えば Neural Radiance Fields(NeRF)のような技術は、疎な2D画像を使用して複雑な3Dシーンを再構築する。 複雑な3Dシーンを再構築する。モデルの最適化が進むにつれて モデルの最適化が進むにつれて 高精度の奥行き推定がエッジデバイスで実現可能になり、次世代のスマートドローンやサービスロボット、空間コンピューティングデバイスに力を与える、 サービス・ロボット、空間コンピューティング・デバイスに電力を供給する。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加