Откройте для себя скорость и эффективность одноэтапных детекторов объектов, таких как YOLO, идеально подходящих для приложений реального времени, таких как робототехника и видеонаблюдение.
Одноэтапные детекторы объектов — это класс моделей глубокого обучения, разработанных для скорости и эффективности в компьютерном зрении. Они выполняют локализацию и классификацию объектов за один унифицированный проход нейронной сети. Это контрастирует с их более сложными аналогами, двухэтапными детекторами объектов, которые разбивают задачу на два отдельных этапа. Рассматривая обнаружение объектов как простую задачу регрессии, одноэтапные модели прогнозируют ограничивающие рамки и вероятности классов непосредственно на основе признаков изображения, что делает их исключительно быстрыми и подходящими для приложений, требующих вывода в реальном времени.
Одноэтапный детектор обрабатывает все изображение сразу через единую сверточную нейронную сеть (CNN). Архитектура сети предназначена для одновременного выполнения нескольких задач. Во-первых, основная часть сети выполняет извлечение признаков, создавая богатые представления входного изображения в различных масштабах. Затем эти признаки передаются в специализированную головку обнаружения.
Эта голова отвечает за прогнозирование набора ограничивающих рамок (bounding boxes), оценки достоверности (confidence) для каждой рамки, указывающей на наличие объекта, и вероятности принадлежности каждого объекта к определенному классу. Весь этот процесс происходит за один прямой проход (forward pass), что является ключом к их высокой скорости. Такие методы, как подавление немаксимумов (non-maximum suppression, NMS), затем используются для фильтрации избыточных и перекрывающихся обнаружений для получения окончательного результата. Модели обучаются с использованием специализированной функции потерь (loss function), которая объединяет потери локализации (насколько точна ограничивающая рамка) и потери классификации (насколько точен прогноз класса).
Основное различие заключается в методологии. Одноэтапные детекторы созданы для скорости и простоты, в то время как двухэтапные детекторы отдают приоритет точности, хотя это различие становится менее выраженным с появлением новых моделей.
Было разработано несколько влиятельных одноэтапных архитектур, каждая из которых внесла уникальный вклад:
Скорость и эффективность одноэтапных детекторов сделали их незаменимыми во многих приложениях, управляемых ИИ:
Основным преимуществом одноэтапных детекторов является их невероятная скорость, которая обеспечивает обнаружение объектов в реальном времени на различном оборудовании, включая маломощные периферийные устройства ИИ, такие как NVIDIA Jetson или Raspberry Pi. Их более простая сквозная архитектура также упрощает их обучение и развертывание с использованием таких фреймворков, как PyTorch или TensorFlow.
Исторически основным ограничением была более низкая точность по сравнению с двухэтапными детекторами, особенно при работе с очень маленькими или сильно перекрытыми объектами. Однако последние достижения в архитектуре моделей и методах обучения, как видно в моделях, таких как YOLO11, значительно сократили этот разрыв в производительности, предлагая мощное сочетание скорости и высокой точности для широкого спектра задач компьютерного зрения. Платформы, такие как Ultralytics HUB, еще больше упрощают процесс обучения пользовательских моделей для конкретных нужд.