返回 Ultralytics 词汇表
Bounding Box
学习边界框(bounding boxes)如何在计算机视觉中定义物体位置。探索坐标格式、现实应用以及如何使用 Ultralytics YOLO26。
边界框是一个由坐标集定义的矩形区域,用于框定图像或视频帧中的特定对象。在计算机视觉 (CV) 领域,这些框是教导人工智能 (AI) 系统如何定位和识别不同物体的基础标注。边界框不仅是简单地将整个图像分类为“包含汽车”,它还能让模型精确指出汽车的具体位置和空间范围,将其与背景及其他实体区分开来。这种定位能力对于目标检测任务至关重要,其目标是同时高精度地识别多个对象。
Link to this section核心概念与坐标#
为了有效地处理视觉数据,机器学习 (ML) 模型依赖特定的坐标系来以数学方式表示边界框。所选格式通常决定了如何为模型训练准备数据以及模型如何输出其预测结果。
- XYXY 坐标: 此格式使用左上角和右下角的绝对像素值来定义一个框。当在图像上直接绘制矩形时,它对于像 OpenCV 或 Matplotlib 这样的可视化工具来说非常直观。
- XYWH 格式: 这种方法在 COCO 等数据集中很常见,它指定对象的中心点,后跟框的宽度和高度。这种表示方法对于在学习过程中计算损失函数至关重要。
- 归一化坐标: 为了确保在不同分辨率的图像间具有可扩展性,坐标通常被缩放到 0 到 1 之间。这有助于模型在分析不同维度的输入时实现更好的泛化。
Link to this section实际应用#
边界框是跨多个行业无数 AI 解决方案的构建基块。通过实现精确的定位,它们使系统能够与物理世界进行智能交互。
- 自动驾驶汽车: 自动驾驶汽车利用边界框实时检测和跟踪行人、其他车辆、交通标志和障碍物。这种空间感知能力对于导航和安全系统做出瞬时决策至关重要。
- 零售分析: 在智能商店中,边界框有助于监控货架库存并跟踪顾客与产品的互动。这些数据可以自动补货并提供关于购物者行为的洞察,无需人工盘点。
Link to this section边界框的应用实践#
当使用像 YOLO26 这样的现代架构时,模型会预测边界框以及类标签和置信度分数。以下示例演示了如何对图像进行推理,并使用 ultralytics 包访问边界框坐标。
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])Link to this section相关术语与区别#
虽然边界框是常规检测的标准,但它们与用于更细粒度任务的其他标注类型有所不同。
- 实例分割: 与矩形边界框不同,分割会创建一个像素级的掩码,勾勒出对象的精确轮廓。当精确形状比常规位置更重要时,这非常有用。
- 旋转边界框 (OBB): 标准边界框是轴对齐的(直立矩形)。OBB 可以旋转以贴合倾斜的对象,例如卫星图像中的船只或传送带上的包裹,从而提供更紧密的拟合并减少背景噪声。
- 关键点: 关键点不是框定对象,而是识别特定标志点,例如用于姿态估计的人体关节。
Link to this section标注与管理工具#
创建高质量的边界框标注是 ML 流水线中的关键步骤。Ultralytics Platform 通过提供数据标注和数据集管理工具简化了此过程。正确的标注可确保模型准确学习区分对象,从而最大限度地减少过拟合或背景混淆等错误。在推理过程中,会使用像非极大值抑制 (NMS) 这样的高级技术通过移除重叠框来优化这些预测,确保每个对象仅保留最准确的检测结果。






