YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

深さの推定

深度推定がコンピュータービジョンに3Dの視点をもたらす方法を学びましょう。Ultralytics YOLO26モデルを使用して、単眼深度やステレオビジョンなどの手法を探ってください。

深度推定は、コンピュータービジョンにおける重要なプロセスであり、カメラからオブジェクトまでの距離を決定し、2D画像に第3の次元を効果的に追加します。画像内のすべてのピクセルがどれだけ離れているかを計算することで、この技術は深度マップを作成します。これは、ピクセル強度が距離に対応する表現です。この機能は人間の両眼視を模倣し、機械が空間関係と幾何学を認識することを可能にします。これは、自律システムが安全にナビゲートし、環境を理解し、物理オブジェクトと相互作用することを可能にするための基礎となる技術です。

中核的なメカニズムと技術

深度推定を実現する方法はいくつかあり、ハードウェアベースのソリューションから、人工知能を用いた純粋なソフトウェア駆動型アプローチまで多岐にわたります。

  • ステレオビジョンシステム: 人間の目に似て、ステレオビジョンは並べて配置された2つのカメラを使用します。アルゴリズムは、左右の画像間のわずかな違い、つまり視差を分析して距離を三角測量します。これは、両方のフレームで同じ点を識別するための正確な特徴マッチングに大きく依存します。
  • Monocular Depth Estimation: この高度な手法は、単一の画像から深度を推定します。単一の2D写真には固有の深度データがないため、深層学習モデルは、遠近法、オブジェクトサイズ、オクルージョンなどの視覚的キューを認識するために膨大なデータセットで学習されます。畳み込みニューラルネットワーク (CNN) などの最新のアーキテクチャは、このタスクに優れており、標準的なカメラから3D構造を導き出すことを可能にします。
  • LiDARとTime-of-Flight (ToF): LiDAR (Light Detection and Ranging)Time-of-Flightカメラのようなアクティブセンサーは、光パルスを発射し、それが戻ってくるまでの時間を測定します。これらの方法は高精度な点群を生成し、機械学習モデルのトレーニングのためのグラウンドトゥルースデータを収集するためによく使用されます。

実際のアプリケーション

距離を測定する能力は、多くの産業で革新的であり、空間認識を必要とするアプリケーションを強化します。

  • 自動運転: 自動運転車は、障害物をdetectし、他の車両との距離を測定し、複雑な道路網を安全に走行するために深度推定に依存しています。これは、歩行者や自転車を識別するための3Dオブジェクト検出に不可欠です。
  • ロボット工学と自動化: ロボットは、経路計画や物体操作などのタスクに深度知覚を使用します。例えば、倉庫ロボットは、棚がどれくらい離れているかを正確に把握し、衝突することなく荷物をピックアップする必要があります。
  • 拡張現実(AR): 仮想objectを現実世界のシーンに説得力をもって配置するには、ARデバイスは環境の3Dジオメトリを理解する必要があります。深度推定は、仮想キャラクターが実際の家具の後ろに隠れることができるようにし、これはオクルージョン処理として知られる概念です。

コード例: 単眼深度推定

特殊な深度モデルも存在しますが、単純なシナリオでは、物体検出バウンディングボックスを距離の代理として使用することで、空間関係を推測できることがよくあります(大きなボックスはしばしばより近い物体を意味します)。以下に、モデルをロードする方法を示します。 ultralytics オブジェクトをdetectするためのパッケージ。これは多くの深度認識パイプラインにおける最初のステップです。

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Process results
for result in results:
    # Get bounding boxes (xyxy format)
    boxes = result.boxes.xyxy

    # Iterate through detections
    for box in boxes:
        print(f"Detected object at: {box}")

他のコンピュータービジョン概念との関係

深度推定と関連用語を区別することが重要です。物体検出が2D空間でオブジェクトがであり、どこにあるか(バウンディングボックスを使用)を識別するのに対し、深度推定はそれがどれくらい離れているか(Z軸)を識別します。同様に、セマンティックセグメンテーションがピクセルをカテゴリ(例:道路、空、車)に分類するのに対し、深度推定はそれらの同じピクセルに距離値を割り当てます。

空間AIの進歩

生成AIにおける最近の進歩は、2Dと3Dビジョンの間のギャップを埋めています。Neural Radiance Fields (NeRF)のような技術は、複数の2D画像を使用して複雑な3Dシーンを再構築し、根底にある深度原理に大きく依存しています。さらに、モデル最適化技術が向上するにつれて、エッジAIデバイス上で高精度な深度推定を実行することが可能になっています。これにより、ドローンやスマートグラスのような小型ハードウェア上でのリアルタイム空間コンピューティングが可能になり、効率的なモデルトレーニングとデプロイのためのUltralytics Platformのようなプラットフォームによって促進されます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。