深圳Yolo 视觉
深圳
立即加入
词汇表

边界框

了解边界框如何在计算机视觉中定义物体位置。探索坐标格式、实际应用以及如何使用Ultralytics YOLO26。

边界框是一个矩形区域,由一组坐标定义,用于包围图像或视频帧中的特定对象。在计算机视觉 (CV)领域中,这些框作为基础标注,用于训练人工智能 (AI)系统如何定位和识别不同的项目。边界框不仅仅是将整个图像简单地归类为“包含一辆汽车”,它允许模型精确地定位汽车的精确位置和空间范围,将其与背景和其他实体分离。这种定位能力对于目标 detect任务至关重要,其目标是以高精度同时识别多个对象。

核心概念与坐标

为了有效处理视觉数据,机器学习(ML)模型依赖特定的坐标系统来数学表示边界框。所选格式通常决定了数据如何为模型训练做准备以及模型如何输出其预测。

  • XYXY 坐标: 这种格式使用左上角和右下角的绝对像素值来定义一个框。对于像OpenCVMatplotlib这样的可视化工具,在图像上直接绘制矩形时,这种格式非常直观。
  • XYWH 格式:COCO等数据集中常见,此方法指定对象的中心点,然后是框的宽度和高度。这种表示对于在学习过程中计算损失函数至关重要。
  • 归一化坐标: 为确保在不同分辨率图像间的可扩展性,坐标通常被缩放到 0 到 1 之间。这有助于模型在分析不同维度输入时更好地泛化。

实际应用

边界框是各行各业无数AI解决方案的基石。通过实现精准定位,它们使系统能够与物理世界智能交互。

  • 自动驾驶汽车: 自动驾驶汽车使用边界框实时detect和track行人、其他车辆、交通标志和障碍物。这种空间感知对于导航和安全系统做出瞬间决策至关重要。
  • 零售分析: 在智能商店中, 边界框有助于监控货架上的库存并 track 顾客与产品的互动。这些数据可以自动化库存补货,并提供对购物者行为的洞察,无需人工盘点。

边界框应用实践

当使用现代架构时,例如 YOLO26,模型会预测边界框以及类别标签和 信心分数。以下示例演示了如何 在图像上运行推理并访问边界框坐标。 ultralytics 包装

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0])  # Output: tensor([x1, y1, x2, y2, ...])

相关术语与区别

虽然边界框是通用detect的标准,但它们与用于更细粒度任务的其他标注类型不同。

  • Instance Segmentation: 与矩形边界框不同,分割创建了一个像素级的遮罩,描绘出对象的精确轮廓。当精确形状比大致位置更重要时,这非常有用。
  • 定向边界框(旋转框检测): 标准边界框是轴对齐的(直立矩形)。旋转框检测可以旋转以适应倾斜的对象,例如卫星图像中的船只或传送带上的包裹,提供更紧密的拟合并减少背景噪声。
  • 关键点: 关键点不是包围一个对象,而是识别特定的地标,例如人体上的关节,用于姿势估计

标注与管理工具

创建高质量的边界框标注是机器学习(ML)流程中的关键一步。Ultralytics Platform 通过提供数据标注和数据集管理工具来简化这一过程。准确的标注确保模型能够准确区分物体,最大程度地减少诸如过拟合或背景混淆等错误。在推理过程中,会使用Non-Maximum Suppression (NMS)等先进技术来优化这些预测,通过移除重叠的边界框,确保每个物体只保留最准确的 detect。

让我们一起共建AI的未来!

开启您的机器学习未来之旅