3Dオブジェクト検出:LiDAR、点群、ディープラーニングが、自律走行車、ロボット工学、ARのための正確な3Dバウンディングボックスをどのように構築しているかを探る。
3Dオブジェクト検出は コンピュータ・ビジョン(CV)技術である、 分類し、3次元空間内のオブジェクトを特定します。従来の2D 物体検出は、画像平面上に平らな矩形 従来の2次元物体検出とは異なり、3次元物体検出では、画像平面上の物体の周囲に平らな矩形のバウンディングボックスを描画します。 オブジェクト検出では、中心座標(x、y、z)で定義される3次元バウンディングボックスを推定します、 寸法(長さ、幅、高さ)、方向(方位角)によって定義される立方体です。この機能により 人工知能(AI)システムは 物体の実世界のサイズ、距離、姿勢を認識することができる。 ナビゲーションに不可欠である。
奥行きとボリュームを認識するために、3Dオブジェクト検出モデルは空間形状をキャプチャするデータソースに依存する。2D 手法がピクセルの強度のみに依存するのに対し、3D手法は高度なセンサーからのデータを処理する:
専門的なアーキテクチャがこのデータを処理する。例えば PointNetは生の点群を直接処理するが ボクセルネットは3次元空間を体積格子(ボクセル (ボクセル)に分割し、畳み込み演算を適用する。これらのモデルは、物体の正確な3D座標と向きを出力する、 物体が何であるかだけでなく、それが物理世界のどこにあるかを正確に理解することができる。 を理解することができる。
主な違いは、空間的な次元と提供される情報にある:
完全な3Dオーバーヘッドなしで部分的な空間認識を必要とするアプリケーション向け、 オリエンテッド・バウンディング・ボックス(OBB)検出は 回転したバウンディングボックスを2Dで予測し、空撮ビューの船舶や車両のようなオブジェクトをより適切にフィットさせます。
3Dオブジェクト検出は、物理的世界と相互作用する産業の知覚エンジンである:
一方 YOLO11は主に2D検出器だが は多くの3D検出パイプラインで重要な役割を果たしている。一般的なアプローチは、"フラクタムベースの検出 "として知られている。 は、画像内の関心領域を特定するために高速2Dモデルを使用します。次に、この2Dボックスを3D空間に押し出し に押し出され、3Dモデルの探索空間を大幅に縮小します。
次の例は、Ultralytics YOLO11使用して、最初の2D検出ステップを実行する方法を示しています。 3Dリフティングモジュールの提案として機能します:
from ultralytics import YOLO
# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")
# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")
# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
for box in result.boxes:
print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")


