Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Ограничивающая рамка

Узнайте, как ограничивающие рамки позволяют системам обнаружения объектов, ИИ и машинного обучения. Изучите их роль в приложениях компьютерного зрения!

Ограничительная рамка — это прямоугольная область, определяемая набором координат, которая охватывает конкретный объект в изображении или видеокадре. В области компьютерного зрения (CV) эти рамки служат основными аннотациями для обучения систем искусственного интеллекта (ИИ) тому, как находить и распознавать отдельные объекты. Вместо того, чтобы просто классифицировать все изображение как «содержащее автомобиль», ограничительная рамка позволяет модели точно определить местоположение и пространственные размеры автомобиля, отделяя его от фона и других объектов. Эта способность локализации имеет важное значение для задач обнаружения объектов, где цель состоит в том, чтобы одновременно идентифицировать несколько объектов с высокой точностью.

Основные понятия и координаты

Для эффективной обработки визуальных данных модели машинного обучения (ML) используют специальные системы координат для математического представления ограничивающих прямоугольников. Выбранный формат часто определяет, как данные готовятся для обучения модели и как модель выдает свои прогнозы.

  • Координаты XYXY: этот формат определяет прямоугольник с помощью абсолютных значений пикселей левого верхнего угла и правого нижнего угла. Он интуитивно понятен для таких инструментов визуализации, как OpenCV или Matplotlib при рисовании прямоугольников непосредственно на изображениях.
  • Формат XYWH: Часто встречается в наборах данных, таких как COCO, этот метод определяет центр объекта, за которым следуют ширина и высота прямоугольника. Это представление имеет решающее значение для вычисления функций потерь в процессе обучения .
  • Нормализованные координаты: Для обеспечения масштабируемости между изображениями с разным разрешением координаты часто масштабируются в диапазоне от 0 до 1. Это помогает моделям лучше обобщать при анализе входных данных с различными размерами.

Применение в реальном мире

Ограничительные рамки являются строительными блоками для бесчисленных решений искусственного интеллекта в различных отраслях. Обеспечивая точную локализацию, они позволяют системам интеллектуально взаимодействовать с физическим миром.

  • Автономные транспортные средства: Автомобили с автопилотом используют ограничительные рамки для detect track , других транспортных средств, дорожных знаков и препятствий в режиме реального времени. Это пространственное восприятие имеет решающее значение для навигационных и безопасности систем, позволяя принимать решения за доли секунды.
  • Аналитика розничной торговли: в умных магазинах ограничительные рамки помогают контролировать запасы на полках и track взаимодействие track с товарами. Эти данные позволяют автоматизировать пополнение запасов и получать информацию о поведении покупателей без ручного подсчета.

Ограничительные рамки в действии

При использовании современных архитектур, таких как YOLO26, модель предсказывает граничные рамки вместе с меткой класса и показатель доверия. Следующий пример демонстрирует, как выполнить инференцию по изображению и получить доступ к координатам ограничительной рамки с помощью ultralytics пакет.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0])  # Output: tensor([x1, y1, x2, y2, ...])

Связанные термины и дифференциация

Хотя ограничительные рамки являются стандартом для общего обнаружения, они отличаются от других типов аннотаций, используемых в более детализированных задачах.

  • Сегментация экземпляров: В отличие от прямоугольной ограничивающей рамки, сегментация создает маску с точной точностью до пикселя, которая прослеживает точный контур объекта. Это полезно, когда точная форма важнее общего расположения.
  • Ориентированная ограничительная рамка (OBB): Стандартные ограничительные рамки выровнены по осям (вертикальные прямоугольники). OBB могут поворачиваться, чтобы соответствовать объектам, расположенным под углом, таким как корабли на спутниковых снимках или посылки на конвейерной ленте, обеспечивая более плотное прилегание и уменьшая фоновый шум.
  • Ключевые точки: вместо того, чтобы охватывать объект, ключевые точки определяют конкретные ориентиры, такие как суставы на теле человека для оценки позы.

Инструменты для аннотирования и управления

Создание высококачественных аннотаций ограничительных рамок является важным этапом в процессе машинного обучения. Ultralytics упрощает этот процесс, предлагая инструменты для аннотирования данных и управления наборами данных. Правильное аннотирование гарантирует, что модели научатся точно различать объекты, сводя к минимуму такие ошибки, как переобучение или путаница с фоном. Передовые методы, такие как немаксимальное подавление (NMS), используются во время вывода для уточнения этих прогнозов путем удаления перекрывающихся рамок, обеспечивая, чтобы для каждого объекта оставалось только самое точное обнаружение.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас