Bounding Box
Узнай, как ограничивающие рамки (bounding boxes) определяют местоположение объектов в компьютерном зрении. Изучи форматы координат, практическое применение и работу с Ultralytics YOLO26.
Bounding box — это прямоугольная область, определяемая набором координат, которая охватывает конкретный объект на изображении или видеокадре. В области компьютерного зрения (CV) эти рамки служат фундаментальными аннотациями для обучения систем искусственного интеллекта (AI) находить и распознавать отдельные объекты. Вместо того чтобы просто классифицировать изображение целиком как «содержащее автомобиль», bounding box позволяет модели точно определить местоположение и пространственный охват автомобиля, отделяя его от фона и других сущностей. Эта способность к локализации необходима для задач обнаружения объектов, где цель состоит в одновременном обнаружении множества объектов с высокой точностью.
Link to this sectionОсновные концепции и координаты#
Для эффективной обработки визуальных данных модели машинного обучения (ML) полагаются на специфические системы координат для математического представления bounding box. Выбранный формат часто определяет, как данные подготавливаются для обучения модели и как модель выдает свои предсказания.
- Координаты XYXY: Этот формат определяет прямоугольник с использованием абсолютных значений пикселей верхнего левого и нижнего правого углов. Это интуитивно понятно для инструментов визуализации, таких как OpenCV или Matplotlib, при рисовании прямоугольников непосредственно на изображениях.
- Формат XYWH: Этот метод, распространенный в таких наборах данных, как COCO, задает центральную точку объекта, за которой следуют ширина и высота рамки. Такое представление критически важно для вычисления функций потерь в процессе обучения.
- Нормализованные координаты: Чтобы обеспечить масштабируемость для изображений с разным разрешением, координаты часто масштабируются в диапазон от 0 до 1. Это помогает моделям лучше обобщать данные при анализе входных данных различных размеров.
Link to this sectionРеальные приложения#
Bounding box — это строительные блоки для бесчисленных решений в области AI в различных отраслях. Обеспечивая точную локализацию, они позволяют системам интеллектуально взаимодействовать с физическим миром.
- Автономные транспортные средства: Беспилотные автомобили используют bounding box для обнаружения и отслеживания пешеходов, других транспортных средств, дорожных знаков и препятствий в режиме реального времени. Это пространственное восприятие имеет решающее значение для навигационных систем и систем безопасности при принятии мгновенных решений.
- Аналитика розничной торговли: В умных магазинах bounding box помогают контролировать наличие товаров на полках и отслеживать взаимодействие покупателей с продуктами. Эти данные позволяют автоматизировать пополнение запасов и получать информацию о поведении покупателей без ручного подсчета.
Link to this sectionBounding box в действии#
При использовании современных архитектур, таких как YOLO26, модель предсказывает bounding box вместе с меткой класса и показателем уверенности. Следующий пример демонстрирует, как запустить инференс на изображении и получить доступ к координатам bounding box с помощью пакета ultralytics.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])Link to this sectionСвязанные термины и различия#
Хотя bounding box являются стандартом для общего обнаружения, они отличаются от других типов аннотаций, используемых в более детализированных задачах.
- Сегментация экземпляров: В отличие от прямоугольного bounding box, сегментация создает маску с точностью до пикселя, которая повторяет точный контур объекта. Это полезно, когда точная форма важнее, чем общее расположение.
- Ориентированный Bounding Box (OBB): Стандартные bounding box выровнены по осям (вертикальные прямоугольники). OBB могут поворачиваться, чтобы соответствовать объектам, которые расположены под углом, например, кораблям на спутниковых снимках или упаковкам на конвейерной ленте, что обеспечивает более плотное прилегание и снижает фоновый шум.
- Ключевые точки (Keypoints): Вместо охвата объекта, ключевые точки определяют специфические ориентиры, такие как суставы на теле человека для оценки позы.
Link to this sectionИнструменты для аннотирования и управления#
Создание высококачественных аннотаций с помощью bounding box — критически важный этап в ML-пайплайне. Ultralytics Platform упрощает этот процесс, предлагая инструменты для аннотирования данных и управления наборами данных. Правильная аннотация гарантирует, что модели учатся точно различать объекты, сводя к минимуму ошибки, такие как переобучение или путаница с фоном. Передовые методы, такие как Non-Maximum Suppression (NMS), используются во время инференса для уточнения предсказаний путем удаления перекрывающихся рамок, гарантируя, что для каждого объекта остается только самое точное обнаружение.






