3Dオブジェクト検出:LiDAR、点群、ディープラーニングが、自律走行車、ロボット工学、ARのための正確な3Dバウンディングボックスをどのように構築しているかを探る。
3D物体検出は、三次元環境内の物体を識別・分類・位置特定する高度なコンピュータビジョン(CV)技術である。従来の2D物体検出が画像平面上の物体に平坦な長方形の境界ボックスを描くのとは異なり、3D物体検出は空間的な直方体を推定する。 この体積は7つの主要パラメータで定義される:中心座標(x, y, z)、物理的寸法(長さ、幅、高さ)、および方位角(ヘディング角)。この豊富な空間データにより、人工知能(AI)システムはセンサーに対するオブジェクトの真のサイズ、距離、姿勢を認識でき、デジタル知覚と物理的相互作用の間のギャップを埋める。
世界の体積的理解を構築するため、3D検出モデルには幾何学的情報を含む入力データが必要である。標準的な画像認識が画素輝度値に依存するのに対し、3D手法では視覚データと深度測定値を組み合わせるセンサーフュージョンが頻繁に利用される。
主なデータソースには以下が含まれます:
奥行きと体積を認識する能力により、3D物体検出は物理世界と相互作用する産業における知覚エンジンとなる。
これら二つの技術の相違点は、出力の次元性と想定される使用事例にある。
単純な正方形ボックスよりも多くの方位データが必要だが、完全な3Dよりも計算負荷が少ないシナリオにおいて、 方向付きバウンディングボックス(OBB)検出は効率的な中間手段となる。 OBBはUltralytics YOLO26で完全にサポートされており、 航空画像や複雑な製造ラインにおける回転した物体の検出を可能にする。
完全な3D検出にはVoxelNet やPointPillarsのような特殊なアーキテクチャが必要となることが多い一方、高速2D検出器は「視錐台ベース」の3Dパイプラインにおいて重要な役割を果たす。このワークフローでは、 YOLO11 (あるいは新世代のYOLO26)が2D画像内の オブジェクトを検出します。この2Dバウンディングボックスを3D空間に押し出すことで、LiDAR点群の関連領域を 切り出し、3Dモデル検索領域を大幅に縮小します。
以下の例は、OBBモデルを用いた推論の実行方法を示しています。
ultralytics rotation-aware detectionを提供するパッケージで、完全な3D解析の前段階としてよく使用される:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)
.webp)
