Ограничивающая рамка
Узнайте, как ограничивающие рамки позволяют системам обнаружения объектов, ИИ и машинного обучения. Изучите их роль в приложениях компьютерного зрения!
Ограничительная рамка - это прямоугольная область, заданная координатами, которая изолирует определенный элемент или объект в пределах
изображения или видеокадра. В сфере
компьютерного зрения эта аннотация служит
фундаментальной единицей для локализации отдельных объектов, что позволяет
системам искусственного интеллекта (ИИ)
"видеть", где находится тот или иной предмет, а не просто знать о его существовании в сцене. В основном используется в
в задачах обнаружения объектов, ограничительная рамка очерчивает
пространственную область объекта - например, автомобиля, человека или товара - и, как правило, ассоциируется с меткой класса и
оценка уверенности, указывающая на достоверность модели.
Системы координат и форматы
Чтобы модели машинного обучения (ML) могли
математически обрабатывать визуальные данные, ограничительные рамки представляются с помощью определенных систем координат. Выбор
формата часто зависит от наборов данных, используемых для обучения, или от
специфических требований архитектуры обнаружения.
-
XYXY (угловые координаты): В этом формате используются абсолютные значения пикселей левого верхнего угла ($x1,
y1$) и правого нижнего угла ($x2, y2$). Он очень интуитивно понятен и часто используется в библиотеках визуализации
таких как Matplotlib для рисования прямоугольников на изображениях.
-
XYWH (центральный размер): Популярное в
наборе данныхCOCO , это представление указывает
центральную точку объекта ($x_center, y_center$), за которой следуют ширина и высота поля. Этот формат
очень важен для вычисления функций потерь во время
обучения модели.
-
Нормализованные координаты: Для обеспечения
масштабируемость при различных разрешениях изображения,
координаты часто нормируются в диапазоне от 0 до 1 относительно размеров изображения. Это позволяет моделям
лучше обобщаться при обработке исходных данных разного размера.
Типы ограничивающих рамок
Хотя стандартная прямоугольная коробка подходит для многих сценариев, сложные реальные условия иногда требуют более специализированных форм.
специализированных форм.
-
Выровненные по оси граничные рамки (AABB): Это стандартные рамки, края которых параллельны
осям изображения (вертикальной и горизонтальной). Они эффективны с точки зрения вычислений и используются по умолчанию для высокоскоростных
моделей, таких как YOLO11.
-
Oriented Bounding Box (OBB): Когда объекты повернуты, тонкие или плотно упакованы друг к другу, например
корабли в гавани или текст в документе, стандартная рамка может содержать слишком много фонового шума. На сайте
Oriented Bounding Box включает дополнительный параметр угла,
позволяющий прямоугольнику поворачиваться и плотно прилегать к объекту. Это очень важно для точных задач, таких как
анализ спутниковых снимков.
Применение в реальном мире
Граничные коробки служат строительными блоками для сложных систем принятия решений в различных отраслях.
-
Автономные транспортные средства: Технология автономного вождения в значительной степени опирается на ограничительные рамки для поддержания
пространственной осведомленности. Рисуя
рамки вокруг пешеходов, светофоров и других автомобилей, система оценивает расстояния и траектории движения, чтобы предотвратить
столкновений. Подробнее об этом вы можете прочитать в нашем обзоре
ИИ в автомобилестроении.
-
Розничная торговля и управление запасами: Умные магазины используют ограничительные рамки для track товаров на полках.
Системы могут выявлять отсутствующие на складе товары или автоматизировать процесс оформления заказа, локализуя товары в корзине. Это
повышает эффективность и является ключевым компонентом современных
ИИ в розничной торговле.
Ограничительная рамка против сегментации
Важно отличать ограничительные рамки от
сегментации изображений, поскольку они решают задачи разного
уровни детализации.
-
Граничная коробка: Обеспечивает грубую локализацию. Она подсказывает, где примерно находится объект, заключая его
заключив его в рамку. Она быстрее аннотируется и вычислительно дешевле для
вычислений в реальном времени.
-
Сегментация объекта: Создает маску с идеальным пиксельным разрешением, которая точно очерчивает форму объекта.
Несмотря на большую точность, сегментация требует больших вычислительных затрат. Для таких приложений, как
анализ медицинских изображений, где важны точные границы опухоли
где важны точные границы опухоли, сегментация часто предпочтительнее простых ограничительных рамок.
Практический пример с Python
Следующий фрагмент демонстрирует, как использовать ultralytics библиотека для создания ограничительных рамок. Мы загружаем
предварительно обученный YOLO11 модель и распечатать данные о координатах
обнаруженных объектов.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Access the bounding box coordinates (xyxy format) for the first detection
box = results[0].boxes[0]
print(f"Object Class: {box.cls}")
print(f"Coordinates: {box.xyxy}")
Точность этих предсказаний обычно оценивается с помощью метрики, называемой
Intersection over Union (IoU), которая
измеряет перекрытие между предсказанным блоком и
аннотацией , предоставленной человеком. Высокие показатели IoU
указывают на то, что модель правильно локализовала объект.