了解边界框如何在计算机视觉中定义物体位置。探索坐标格式、实际应用以及如何使用Ultralytics YOLO26。
边界框是一个矩形区域,由一组坐标定义,用于包围图像或视频帧中的特定对象。在计算机视觉 (CV)领域中,这些框作为基础标注,用于训练人工智能 (AI)系统如何定位和识别不同的项目。边界框不仅仅是将整个图像简单地归类为“包含一辆汽车”,它允许模型精确地定位汽车的精确位置和空间范围,将其与背景和其他实体分离。这种定位能力对于目标 detect任务至关重要,其目标是以高精度同时识别多个对象。
为了有效处理视觉数据,机器学习(ML)模型依赖特定的坐标系统来数学表示边界框。所选格式通常决定了数据如何为模型训练做准备以及模型如何输出其预测。
边界框是各行各业无数AI解决方案的基石。通过实现精准定位,它们使系统能够与物理世界智能交互。
当使用现代架构时,例如 YOLO26,模型会预测边界框以及类别标签和
信心分数。以下示例演示了如何
在图像上运行推理并访问边界框坐标。 ultralytics 包装
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])
虽然边界框是通用detect的标准,但它们与用于更细粒度任务的其他标注类型不同。
创建高质量的边界框标注是机器学习(ML)流程中的关键一步。Ultralytics Platform 通过提供数据标注和数据集管理工具来简化这一过程。准确的标注确保模型能够准确区分物体,最大程度地减少诸如过拟合或背景混淆等错误。在推理过程中,会使用Non-Maximum Suppression (NMS)等先进技术来优化这些预测,通过移除重叠的边界框,确保每个物体只保留最准确的 detect。
开启您的机器学习未来之旅