Yolo 深圳
深セン
今すぐ参加
用語集

深さの推定

深度推定がコンピュータビジョンに3Dの遠近感を加える仕組みを学びましょう。Ultralytics を用いた単眼深度やステレオビジョンなどの技術を探求します。

深度推定は、カメラからの物体の距離を決定するコンピュータビジョンにおける重要なプロセスであり、 2D画像に事実上第三の次元を追加する。画像内の各ピクセルがどれほど離れているかを計算することで、 この技術は深度マップを作成する。深度マップとは、ピクセルの強度が距離に対応する表現である。 この機能は人間の両眼視覚を模倣し、機械が空間的関係や幾何学的構造を認識することを可能にします。自律システムが安全に移動し、環境を理解し、物理的物体と相互作用するための基盤技術です。

中核的なメカニズムと技術

深度推定を実現する方法は複数存在し、ハードウェアベースのソリューションから、人工知能を用いた純粋なソフトウェア駆動型のアプローチまで多岐にわたる。

  • ステレオビジョンシステム:人間の目と同様に、 ステレオビジョンは並列に配置された2台のカメラを使用する。 アルゴリズムは左右の画像間のわずかな差異(視差)を分析し、 距離を三角測量で算出する。これは両フレーム内の同一点を特定する 正確な特徴点マッチングに大きく依存している。
  • 単眼深度推定:この高度な手法は単一画像から深度を推定する。単一の2D写真には固有の深度データが存在しないため、 深層学習モデルは膨大なデータセットで訓練され、 遠近法、物体の大きさ、遮蔽といった視覚的手がかりを認識する。畳み込みニューラルネットワーク(CNN)などの現代的なアーキテクチャはこの課題に優れており、 標準カメラから3D構造を導出することを可能にしている。
  • LiDARと飛行時間(ToF): LiDAR(光検出と測距) 飛行時間カメラなどの能動型センサーは、 光パルスを発射し、 それが戻ってくるまでの時間を測定します。 これらの手法は高精度の点群を生成し、 機械学習モデルの訓練用グラウンドトゥルースデータの収集に 頻繁に用いられます。

実際のアプリケーション

距離を測る能力は多くの産業において変革をもたらし、空間認識を必要とするアプリケーションを支えています。

  • 自動運転:自動運転車は、detect 、他車との距離測定、複雑な道路網の安全な走行のために深度推定に依存している。歩行者や自転車利用者を識別する3D物体検出に不可欠である。
  • ロボティクスと自動化:ロボットは経路計画や物体操作などのタスクに深度知覚を利用する。例えば、倉庫ロボットは棚までの正確な距離を把握し、衝突せずに荷物をピックアップする必要がある。
  • 拡張現実(AR):仮想オブジェクトを現実世界のシーンに説得力を持って配置するには、ARデバイスは環境の3D形状を理解する必要がある。深度推定により、仮想キャラクターが実際の家具の背後に隠れることが可能となり、この概念はオクルージョン処理として知られる。

コード例:単眼深度推定

専門的な深度モデルは存在するものの、単純なシナリオでは距離の代用として物体検出のバウンディングボックスを用いて空間関係を推測できる場合が多い(大きなボックスは通常、近い物体を意味する)。以下にモデルを読み込む方法を示す: ultralytics detect パッケージであり、多くの深度認識パイプラインにおける最初のステップである。

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Process results
for result in results:
    # Get bounding boxes (xyxy format)
    boxes = result.boxes.xyxy

    # Iterate through detections
    for box in boxes:
        print(f"Detected object at: {box}")

他のコンピュータビジョン概念との関係

深度推定は関連用語と区別することが重要です。 物体検出が2次元空間における物体の「何」「どこ」を特定する(バウンディングボックスを使用)のに対し、深度推定はその物体が「どれほど離れているか」(Z軸)を特定します。同様に、 セマンティックセグメンテーションがピクセルをカテゴリ(例:道路、空、車)に分類するのに対し、深度推定はそれらの同じピクセルに距離値を割り当てます。

空間AIの進歩

生成AIの最近の進歩は、2Dと3Dの視覚の間のギャップを埋めています。 ニューラル放射場(NeRF)のような技術は、 複数の2D画像を用いて複雑な3Dシーンを再構築し、 その基盤となる深度原理に大きく依存しています。 さらに、モデル最適化技術の進歩により、エッジAIデバイス上で高精度な深度推定を実行することが現実的になりつつある。これにより、ドローンやスマートグラスといった小型ハードウェア上でのリアルタイム空間コンピューティングが可能となり、効率的なモデルトレーニングとデプロイメントUltralytics プラットフォームによって促進されている。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加