Yolo 深圳
深セン
今すぐ参加
用語集

3Dオブジェクト検出

3Dオブジェクト検出:LiDAR、点群、ディープラーニングが、自律走行車、ロボット工学、ARのための正確な3Dバウンディングボックスをどのように構築しているかを探る。

3Dオブジェクト検出は コンピュータ・ビジョン(CV)技術である、 分類し、3次元空間内のオブジェクトを特定します。従来の2D 物体検出は、画像平面上に平らな矩形 従来の2次元物体検出とは異なり、3次元物体検出では、画像平面上の物体の周囲に平らな矩形のバウンディングボックスを描画します。 オブジェクト検出では、中心座標(x、y、z)で定義される3次元バウンディングボックスを推定します、 寸法(長さ、幅、高さ)、方向(方位角)によって定義される立方体です。この機能により 人工知能(AI)システムは 物体の実世界のサイズ、距離、姿勢を認識することができる。 ナビゲーションに不可欠である。

3Dオブジェクト検出の仕組み

奥行きとボリュームを認識するために、3Dオブジェクト検出モデルは空間形状をキャプチャするデータソースに依存する。2D 手法がピクセルの強度のみに依存するのに対し、3D手法は高度なセンサーからのデータを処理する:

  • LiDAR (光検出と測距):レーザーパルスを照射して正確な距離を測定し、点群として知られる疎な3D表現を生成する。 点群
  • ステレオカメラ:2つのレンズを使って両眼視をシミュレートし、視差マップを通して奥行きを計算する。 3D構造を再構築する。
  • 単眼カメラ:ディープラーニング ディープラーニング(DL)を活用する 擬似LiDAR」技術と呼ばれる。

専門的なアーキテクチャがこのデータを処理する。例えば PointNetは生の点群を直接処理するが ボクセルネットは3次元空間を体積格子(ボクセル (ボクセル)に分割し、畳み込み演算を適用する。これらのモデルは、物体の正確な3D座標と向きを出力する、 物体がであるかだけでなく、それが物理世界のどこにあるかを正確に理解することができる。 を理解することができる。

3Dと2Dの物体検出

主な違いは、空間的な次元と提供される情報にある:

  • 2D オブジェクト検出:画像空間(ピクセル)で動作。バウンディングボックス(min_x, min_y、 max_x, max_y)を出力する。これはカメラフレーム内のオブジェクトの位置を示すが、奥行きや絶対的なサイズは持たない。
  • 3Dオブジェクト検出:ワールドスペース(メートル/単位)で動作。奥行き、物理的寸法、回転を考慮した を出力します。これにより、オクルージョンをうまく処理し、正確な距離測定が可能になります。 測定が可能になります。

完全な3Dオーバーヘッドなしで部分的な空間認識を必要とするアプリケーション向け、 オリエンテッド・バウンディング・ボックス(OBB)検出は 回転したバウンディングボックスを2Dで予測し、空撮ビューの船舶や車両のようなオブジェクトをより適切にフィットさせます。

実際のアプリケーション

3Dオブジェクト検出は、物理的世界と相互作用する産業の知覚エンジンである:

  • 自律走行車:Waymoが開発したような自動運転車は、LiDARやカメラのデータから3D検出を行い、他の車両や歩行者の速度、方位、距離を追跡して、安全な走行計画を立てる。 他の車両や歩行者の速度、方位、距離をtrack し、安全な軌道を計画する。 軌道を描く。
  • ロボット工学:産業用アームと移動ロボット 製造業における産業用アームや移動ロボットは により、特定のポーズで物体を把持したり、動的な倉庫内を衝突することなく移動したりします。
  • 拡張現実(AR):デバイスは3D検出を使用して、仮想オブジェクトを現実世界の表面に固定する、 環境のジオメトリと正しく配置されるようにする。

YOLO11統合

一方 YOLO11は主に2D検出器だが は多くの3D検出パイプラインで重要な役割を果たしている。一般的なアプローチは、"フラクタムベースの検出 "として知られている。 は、画像内の関心領域を特定するために高速2Dモデルを使用します。次に、この2Dボックスを3D空間に押し出し に押し出され、3Dモデルの探索空間を大幅に縮小します。

次の例は、Ultralytics YOLO11使用して、最初の2D検出ステップを実行する方法を示しています。 3Dリフティングモジュールの提案として機能します:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

関連概念

  • 深度推定:画像内の各ピクセルのカメラからの距離を予測する。奥行きデータを提供するが、3D検出のように個々の物体やその寸法を本質的に特定するものではない。 3D検出のように個々のオブジェクトやその寸法を本質的に識別するものではない。
  • センサーフュージョン:複数のセンサー(LiDAR、レーダー、カメラなど)からのデータを組み合わせて、3D検出の精度と信頼性を向上させるプロセス。 3D検出の精度と信頼性を向上させるプロセス。
  • 衛星画像アーカイブ:LiDARとカメラデータの3Dバウンディングボックスアノテーションを提供する、自律走行用の大規模公開データセット。 3Dモデルのベンチマークに広く使用されています。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加