深圳Yolo 视觉
深圳
立即加入
词汇表

边界框

了解边界框如何实现目标检测、人工智能和机器学习系统。探索它们在计算机视觉应用中的作用!

边界框是一个由坐标定义的矩形区域,用于隔离图像或视频帧中的特定特征或对象。 图像或视频帧中的特定特征或物体。在计算机视觉领域 在计算机视觉领域,这种标注是 定位不同实体的基本单位,使 人工智能(AI)系统 "看到 "物品的位置,而不仅仅是知道它存在于场景中。主要用于 物体检测任务中,边界框勾勒出 目标(如汽车、人或产品)的空间范围,通常与类别标签和表示模型确定性的 置信度分数表示模型的确定性。

坐标系和格式

为了使机器学习(ML)模型能够 在数学上处理视觉数据时,边界框需要使用特定的坐标系来表示。格式的选择 格式通常取决于用于训练的数据集或 检测架构的具体要求。

  • XYXY(角坐标):此格式使用左上角($x1、 y1$)和右下角($x2, y2$)的绝对像素值。这种格式非常直观,常用于可视化库中,如 如 Matplotlib等可视化库中常用,用于在图像上绘制矩形。
  • XYWH(中心尺寸):COCO 数据集所推广,这种表示法指定了对象的 中心点($x_center, y_center$),然后是方框的宽度和高度。这种格式 对于在模型训练过程中计算损失函数至关重要。 模型训练时计算损失函数至关重要。
  • 归一化坐标:为确保 在不同图像分辨率下的可扩展性、 坐标通常归一化为相对于图像尺寸的 0 至 1 之间的范围。这使得模型 在处理不同尺寸的输入时具有更好的通用性。

边界框的类型

虽然标准矩形框适用于许多场景,但复杂的现实环境有时需要更特殊的形状。 专门的形状。

  • 轴对齐包围盒(AABB):这是指边缘与图像轴(垂直和水平)平行的标准方框。 图像轴(垂直和水平)平行的标准方框。它们的计算效率很高,是高速 模型的默认输出,如 YOLO11.
  • 旋转框检测(Oriented Bounding Box):当物体旋转、变薄或紧密地挤在一起时--如 港中的船只或文件中的文本时,标准方框可能会包含过多的背景噪声。一个 定向边框包含一个额外的角度参数、 允许矩形旋转并紧密贴合对象。这对于卫星图像分析等精确任务至关重要。 卫星图像分析

实际应用

边界框是各行各业复杂决策系统的基石。

  1. 自动驾驶汽车:自动驾驶技术在很大程度上依赖边界框来维持空间感知。 空间感知。通过在行人、交通信号灯 在行人、红绿灯和其他车辆周围画出方框,系统就能估算出距离和轨迹,从而防止碰撞。 碰撞。您可以在我们的 人工智能在汽车领域的应用
  2. 零售和库存管理:智能商店使用边界框track 货架上的产品。 系统可以识别缺货商品,或通过定位购物车中的商品实现结账流程自动化。这 提高了效率,是现代 人工智能零售解决方案的关键组成部分。

边界框与分割

重要的是要将边界框与 图像分割,因为它们解决的是不同 粒度。

  • 边界框:提供粗略定位。它通过将对象 将物体围在一个框内。对于实时推理来说,它的注释速度更快,计算成本更低。 实时推理
  • 实例分割:创建一个像素完美的遮罩,勾勒出对象的精确形状。 分割虽然更精确,但计算量更大。对于 医疗图像分析等应用中,精确的肿瘤 在医学图像分析等应用中,精确的肿瘤边界非常重要,因此分割通常比简单的边界框更受青睐。

Python实例

下面的代码段演示了如何使用 ultralytics 库生成边界框。我们加载 预训练的 YOLO11 模型,并打印 检测到的物体的坐标数据。

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")

# Access the bounding box coordinates (xyxy format) for the first detection
box = results[0].boxes[0]
print(f"Object Class: {box.cls}")
print(f"Coordinates: {box.xyxy}")

这些预测的准确性通常使用一种称为 交集大于联合(IoU)的指标进行评估。 该指标衡量预测框与人工标注者提供的基本真实标注之间的重叠程度。 的重叠度。高IoU 分数表明模型已正确定位物体。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入