探索 3D 目标 detect,掌握 AI 中的空间感知。了解 Ultralytics YOLO26 如何驱动现实世界的深度、方向和 3D 边界框估计。
三维目标检测是一项复杂的计算机视觉任务,它使机器能够在三维空间中识别、定位并确定物体的尺寸。与传统的二维目标检测不同,传统方法仅在图像中围绕物体绘制一个平面的边界框,而三维目标检测则估计一个包裹住物体的长方体(一个三维盒子)。这提供了关键的深度信息、方向(航向)和精确的空间尺寸,使系统不仅能理解物体“是什么”,还能准确理解它在现实世界中相对于传感器的“位置”。这项能力对于需要与环境进行物理交互的技术至关重要。
为了感知深度和体积,3D detect模型通常依赖比标准相机更丰富的数据输入。虽然一些先进方法可以从单目(单镜头)图像中推断3D结构,但大多数稳健的系统利用来自LiDAR传感器、雷达或立体相机的数据。这些传感器生成点云——大量数据点的集合,代表物体的外部表面。
该过程涉及几个关键步骤:
区分这两个相关概念非常重要。
从2D感知到3D感知的转变,在安全和空间意识至关重要的行业中开启了强大的用例。
尽管完整的 3D detect 通常需要专门的点云架构,但像 YOLO26 这样的现代 2D detect 器越来越多地用作伪 3D 工作流中的组件,或通过边界框缩放来估计深度。对于希望在自己的数据集上训练模型的开发人员,Ultralytics Platform 提供了一个简化的标注和训练环境。
以下是一个使用 Ultralytics python API 运行标准 detect 的简单示例,这通常是更大感知管道中的第一步:
import cv2
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Perform inference on a local image
results = model("path/to/image.jpg")
# Visualize the results
for result in results:
# Plot predictions on the image (returns a numpy array)
im_array = result.plot()
# Display using OpenCV
cv2.imshow("Detections", im_array)
cv2.waitKey(0) # Press any key to close
cv2.destroyAllWindows()
尽管 3D 目标 detect 具有实用性,但它在计算成本和传感器费用方面面临挑战。处理点云中的数百万个点需要大量的 GPU 算力,这使得在边缘设备上的部署变得困难。然而,模型量化和高效神经网络架构的创新正在减轻这一负担。
此外,传感器融合等技术通过结合相机丰富的色彩信息与 LiDAR 精确的深度数据来提高准确性。随着这些技术的成熟,我们可以期待 3D 感知被集成到更多可访问的设备中,从 增强现实眼镜 到智能家居设备。
开启您的机器学习未来之旅