深度推定がコンピュータービジョンに3Dの視点をもたらす方法を学びましょう。Ultralytics YOLO26モデルを使用して、単眼深度やステレオビジョンなどの手法を探ってください。
深度推定は、コンピュータービジョンにおける重要なプロセスであり、カメラからオブジェクトまでの距離を決定し、2D画像に第3の次元を効果的に追加します。画像内のすべてのピクセルがどれだけ離れているかを計算することで、この技術は深度マップを作成します。これは、ピクセル強度が距離に対応する表現です。この機能は人間の両眼視を模倣し、機械が空間関係と幾何学を認識することを可能にします。これは、自律システムが安全にナビゲートし、環境を理解し、物理オブジェクトと相互作用することを可能にするための基礎となる技術です。
深度推定を実現する方法はいくつかあり、ハードウェアベースのソリューションから、人工知能を用いた純粋なソフトウェア駆動型アプローチまで多岐にわたります。
距離を測定する能力は、多くの産業で革新的であり、空間認識を必要とするアプリケーションを強化します。
特殊な深度モデルも存在しますが、単純なシナリオでは、物体検出バウンディングボックスを距離の代理として使用することで、空間関係を推測できることがよくあります(大きなボックスはしばしばより近い物体を意味します)。以下に、モデルをロードする方法を示します。 ultralytics オブジェクトをdetectするためのパッケージ。これは多くの深度認識パイプラインにおける最初のステップです。
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")
深度推定と関連用語を区別することが重要です。物体検出が2D空間でオブジェクトが何であり、どこにあるか(バウンディングボックスを使用)を識別するのに対し、深度推定はそれがどれくらい離れているか(Z軸)を識別します。同様に、セマンティックセグメンテーションがピクセルをカテゴリ(例:道路、空、車)に分類するのに対し、深度推定はそれらの同じピクセルに距離値を割り当てます。
生成AIにおける最近の進歩は、2Dと3Dビジョンの間のギャップを埋めています。Neural Radiance Fields (NeRF)のような技術は、複数の2D画像を使用して複雑な3Dシーンを再構築し、根底にある深度原理に大きく依存しています。さらに、モデル最適化技術が向上するにつれて、エッジAIデバイス上で高精度な深度推定を実行することが可能になっています。これにより、ドローンやスマートグラスのような小型ハードウェア上でのリアルタイム空間コンピューティングが可能になり、効率的なモデルトレーニングとデプロイのためのUltralytics Platformのようなプラットフォームによって促進されます。

未来の機械学習で、新たな一歩を踏み出しましょう。