ステレオ、ToF、LiDAR、単眼ディープラーニングなど、深度推定がどのように画像から深度マップを作成し、ロボット工学、AR/VR、3D知覚に威力を発揮するかをご覧ください。
深度推定は、コンピュータビジョン(CV)における基本的なタスクである。 コンピュータビジョン(CV)における基本的なタスクである。 シーン内のオブジェクトのカメラに対する相対的な距離を決定する。画像の各ピクセルの深度値を計算することによって、このプロセスは標準的な2次元データを豊かな3次元表現に変換する、 このプロセスは、標準的な2次元データを、しばしば深度マップと呼ばれる豊かな3次元表現に変換します。 この機能は、機械が空間的関係を認識し、環境をナビゲートできるようにするために不可欠である、 オブジェクトを操作し、人間の視覚システムと同じように世界の形状を理解することができます。
奥行きの推定は、ハードウェアを多用するアクティブ・センシングから、ソフトウェア主導のディープラーニング(DL)アプローチまで、さまざまな方法で実現できる。 ソフトウェア主導のディープラーニング(DL)アプローチに至るまで、さまざまな方法で達成できる。
第3の次元を認識する能力は、様々な業界において重要な機能を解き放つ。
自律走行車の分野では 推定は安全性とナビゲーションに不可欠です。自動運転車は、カメラデータとLiDARを組み合わせて障害物をdetect します、 他の車両との距離を推定し、道路のリアルタイムマップを構築する。同様に ロボット工学では、奥行き知覚によって自動アームが ピック&プレース」作業を行うことができる。 製造自動化ワークフロー
について 拡張現実 没入感を得るためには、仮想オブジェクトが物理的な世界とリアルに相互作用しなければならない。奥行き推定 は、モバイルデバイスが部屋の形状を理解することを可能にし、仮想家具やキャラクタを床に置いたり、現実世界のオブジェクトの後ろに隠したり(オクルージョン)することを可能にします。 床に置いたり、現実世界のオブジェクトの背後に隠したり(オクルージョン)できるようになり、ユーザー体験が大幅に向上する。
専用のデプスモデルが存在する一方で、開発者はしばしば2Dを使用する。
オブジェクト検出 キャリブレーション・データとともに
距離の近似値その ultralytics ライブラリーは、そのソリューション・モジュールを介してこれを簡素化し、ユーザーがバウンディング・ボックスの位置に基づいて追跡されたオブジェクトの距離を推定することを可能にする。
バウンディングボックスの位置に基づいて追跡オブジェクトの距離を推定する。
次のコードは YOLO11を使って物体をtrack し を使用する方法を示します。
import cv2
from ultralytics import YOLO, solutions
# Load the YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Initialize the DistanceCalculation solution
# This estimates distance based on bounding box centroids
dist_obj = solutions.DistanceCalculation(names=model.names, view_img=True)
# Open a video file or camera stream
cap = cv2.VideoCapture("path/to/video.mp4")
while cap.isOpened():
success, im0 = cap.read()
if not success:
break
# Track objects and calculate distance
tracks = model.track(im0, persist=True, show=False)
im0 = dist_obj.start_process(im0, tracks)
# Display result (or save/process further)
cv2.imshow("Distance Estimation", im0)
if cv2.waitKey(1) == ord("q"):
break
cap.release()
cv2.destroyAllWindows()
深度推定は、AIエコシステムにおける類似の用語と区別することが重要である:
ジェネレーティブAIと基礎モデルの最近の進歩は、2Dと3Dのギャップをさらに埋めつつある。 モデルは、2Dと3Dのギャップをさらに埋めつつある。例えば Neural Radiance Fields(NeRF)のような技術は、疎な2D画像を使用して複雑な3Dシーンを再構築する。 複雑な3Dシーンを再構築する。モデルの最適化が進むにつれて モデルの最適化が進むにつれて 高精度の奥行き推定がエッジデバイスで実現可能になり、次世代のスマートドローンやサービスロボット、空間コンピューティングデバイスに力を与える、 サービス・ロボット、空間コンピューティング・デバイスに電力を供給する。

