了解边界框如何实现目标检测、人工智能和机器学习系统。探索它们在计算机视觉应用中的作用!
边界框是一个由坐标定义的矩形区域,用于隔离图像或视频帧中的特定特征或对象。 图像或视频帧中的特定特征或物体。在计算机视觉领域 在计算机视觉领域,这种标注是 定位不同实体的基本单位,使 人工智能(AI)系统 "看到 "物品的位置,而不仅仅是知道它存在于场景中。主要用于 物体检测任务中,边界框勾勒出 目标(如汽车、人或产品)的空间范围,通常与类别标签和表示模型确定性的 置信度分数表示模型的确定性。
为了使机器学习(ML)模型能够 在数学上处理视觉数据时,边界框需要使用特定的坐标系来表示。格式的选择 格式通常取决于用于训练的数据集或 检测架构的具体要求。
虽然标准矩形框适用于许多场景,但复杂的现实环境有时需要更特殊的形状。 专门的形状。
边界框是各行各业复杂决策系统的基石。
重要的是要将边界框与 图像分割,因为它们解决的是不同 粒度。
下面的代码段演示了如何使用 ultralytics 库生成边界框。我们加载
预训练的 YOLO11 模型,并打印
检测到的物体的坐标数据。
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Access the bounding box coordinates (xyxy format) for the first detection
box = results[0].boxes[0]
print(f"Object Class: {box.cls}")
print(f"Coordinates: {box.xyxy}")
这些预测的准确性通常使用一种称为 交集大于联合(IoU)的指标进行评估。 该指标衡量预测框与人工标注者提供的基本真实标注之间的重叠程度。 的重叠度。高IoU 分数表明模型已正确定位物体。

