Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

One-Stage Object Detectors

Откройте для себя скорость и эффективность одноэтапных детекторов объектов, таких как YOLO, идеально подходящих для приложений реального времени, таких как робототехника и видеонаблюдение.

Одноэтапные детекторы объектов — это класс моделей глубокого обучения, разработанных для скорости и эффективности в компьютерном зрении. Они выполняют локализацию и классификацию объектов за один унифицированный проход нейронной сети. Это контрастирует с их более сложными аналогами, двухэтапными детекторами объектов, которые разбивают задачу на два отдельных этапа. Рассматривая обнаружение объектов как простую задачу регрессии, одноэтапные модели прогнозируют ограничивающие рамки и вероятности классов непосредственно на основе признаков изображения, что делает их исключительно быстрыми и подходящими для приложений, требующих вывода в реальном времени.

Как работают одноэтапные детекторы

Одноэтапный детектор обрабатывает все изображение сразу через единую сверточную нейронную сеть (CNN). Архитектура сети предназначена для одновременного выполнения нескольких задач. Во-первых, основная часть сети выполняет извлечение признаков, создавая богатые представления входного изображения в различных масштабах. Затем эти признаки передаются в специализированную головку обнаружения.

Эта голова отвечает за прогнозирование набора ограничивающих рамок (bounding boxes), оценки достоверности (confidence) для каждой рамки, указывающей на наличие объекта, и вероятности принадлежности каждого объекта к определенному классу. Весь этот процесс происходит за один прямой проход (forward pass), что является ключом к их высокой скорости. Такие методы, как подавление немаксимумов (non-maximum suppression, NMS), затем используются для фильтрации избыточных и перекрывающихся обнаружений для получения окончательного результата. Модели обучаются с использованием специализированной функции потерь (loss function), которая объединяет потери локализации (насколько точна ограничивающая рамка) и потери классификации (насколько точен прогноз класса).

Сравнение с двухэтапными детекторами объектов

Основное различие заключается в методологии. Одноэтапные детекторы созданы для скорости и простоты, в то время как двухэтапные детекторы отдают приоритет точности, хотя это различие становится менее выраженным с появлением новых моделей.

  • Одноэтапные детекторы: Эти модели, такие как семейство YOLO (You Only Look Once), выполняют обнаружение за один шаг. Они, как правило, быстрее и имеют более простую архитектуру, что делает их идеальными для периферийных устройств и приложений реального времени. Разработка детекторов без привязки к якорям еще больше улучшила их производительность и простоту.
  • Двухэтапные детекторы объектов: Модели, такие как серия R-CNN и ее более быстрые варианты, сначала генерируют разреженный набор предложений регионов, где могут располагаться объекты. На втором этапе отдельная сеть классифицирует эти предложения и уточняет координаты ограничивающего прямоугольника. Этот двухэтапный процесс обычно обеспечивает более высокую точность, особенно для небольших объектов, но за счет значительно более низкой скорости инференса. Mask R-CNN — хорошо известный пример, который расширяет этот подход до сегментации экземпляров.

Ключевые архитектуры и модели

Было разработано несколько влиятельных одноэтапных архитектур, каждая из которых внесла уникальный вклад:

  • YOLO (You Only Look Once): Представленная в революционной статье 2015 года, YOLO представила обнаружение объектов как единую задачу регрессии. Последующие версии, включая YOLOv8 и современную Ultralytics YOLO11, постоянно улучшали баланс между скоростью и точностью.
  • Single Shot MultiBox Detector (SSD): Архитектура SSD была еще одной новаторской одноэтапной моделью, которая использует многомасштабные карты признаков для обнаружения объектов различных размеров, повышая точность по сравнению с оригинальной YOLO.
  • RetinaNet: В этой модели была представлена Focal Loss, новая функция потерь, разработанная для решения проблемы экстремального дисбаланса классов, возникающего во время обучения плотных детекторов, что позволило ей превзойти точность многих двухэтапных детекторов в то время.
  • EfficientDet: Семейство моделей, разработанное Google Research, которое фокусируется на масштабируемости и эффективности за счет использования метода составного масштабирования и новой сети признаков BiFPN. Вы можете увидеть, как она сравнивается с другими моделями, такими как YOLO11 vs. EfficientDet.

Применение в реальном мире

Скорость и эффективность одноэтапных детекторов сделали их незаменимыми во многих приложениях, управляемых ИИ:

  1. Автономные транспортные средства: В ИИ для самоуправляемых автомобилей одноэтапные детекторы имеют решающее значение для восприятия окружающей среды в реальном времени. Они могут мгновенно идентифицировать и отслеживать пешеходов, велосипедистов, другие транспортные средства и дорожные знаки, позволяя навигационной системе транспортного средства принимать критические решения за доли секунды. Такие компании, как Tesla, используют аналогичные принципы для своих систем Autopilot.
  2. Интеллектуальная безопасность и видеонаблюдение: Одноэтапные модели обеспечивают работу современных систем безопасности, анализируя видеопотоки для выявления угроз, таких как несанкционированный вход или подозрительная активность. Например, система может быть обучена подсчету людей в очереди для управления очередью или выявлению оставленного багажа в аэропорту, и все это в режиме реального времени.

Преимущества и ограничения

Основным преимуществом одноэтапных детекторов является их невероятная скорость, которая обеспечивает обнаружение объектов в реальном времени на различном оборудовании, включая маломощные периферийные устройства ИИ, такие как NVIDIA Jetson или Raspberry Pi. Их более простая сквозная архитектура также упрощает их обучение и развертывание с использованием таких фреймворков, как PyTorch или TensorFlow.

Исторически основным ограничением была более низкая точность по сравнению с двухэтапными детекторами, особенно при работе с очень маленькими или сильно перекрытыми объектами. Однако последние достижения в архитектуре моделей и методах обучения, как видно в моделях, таких как YOLO11, значительно сократили этот разрыв в производительности, предлагая мощное сочетание скорости и высокой точности для широкого спектра задач компьютерного зрения. Платформы, такие как Ultralytics HUB, еще больше упрощают процесс обучения пользовательских моделей для конкретных нужд.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена