Откройте для себя скорость и эффективность одноступенчатых детекторов объектов, таких как YOLO, идеально подходящих для приложений реального времени, таких как робототехника и видеонаблюдение.
Одноэтапные детекторы объектов - это класс моделей глубокого обучения, разработанных для повышения скорости и эффективности в компьютерном зрении. Они выполняют локализацию и классификацию объектов за один, единый проход нейронной сети. Это контрастирует с их более сложными аналогами - двухэтапными детекторами объектов, которые разбивают задачу на два отдельных этапа. Рассматривая обнаружение объектов как простую регрессионную задачу, одноэтапные модели предсказывают граничные поля и вероятности классов непосредственно по признакам изображения, что делает их исключительно быстрыми и подходящими для приложений, требующих выводов в реальном времени.
Одноэтапный детектор обрабатывает сразу все изображение с помощью одной конволюционной нейронной сети (CNN). Архитектура сети разработана таким образом, чтобы выполнять несколько задач одновременно. Сначала основная часть сети выполняет извлечение признаков, создавая богатые представления входного изображения в различных масштабах. Затем эти признаки поступают в специализированную головку обнаружения.
Эта головка отвечает за предсказание набора ограничительных ячеек, доверительный балл для каждой ячейки, указывающий на наличие объекта, и вероятность принадлежности каждого объекта к определенному классу. Весь этот процесс происходит за один проход вперед, что является залогом их высокой скорости. Затем используются такие техники, как не максимальное подавление (NMS), чтобы отфильтровать избыточные и перекрывающиеся обнаружения для получения конечного результата. Модели обучаются с помощью специализированной функции потерь, которая сочетает в себе потери при локализации (точность определения границ) и потери при классификации (точность предсказания класса).
Основное различие заключается в методологии. Одноступенчатые детекторы созданы для скорости и простоты, в то время как для двухступенчатых приоритетом является точность, хотя в новых моделях это различие становится все менее заметным.
Было разработано несколько влиятельных одноступенчатых архитектур, каждая из которых имеет свой уникальный вклад:
Скорость и эффективность одноступенчатых детекторов сделали их незаменимыми в многочисленных приложениях, основанных на искусственном интеллекте:
Основное преимущество одноступенчатых детекторов - невероятная скорость, которая позволяет обнаруживать объекты в реальном времени на различном оборудовании, включая маломощные устройства краевого ИИ, такие как NVIDIA Jetson или Raspberry Pi. Более простая сквозная архитектура также облегчает их обучение и развертывание с помощью таких фреймворков, как PyTorch или TensorFlow.
Исторически основным ограничением была более низкая точность по сравнению с двухэтапными детекторами, особенно при работе с очень маленькими или сильно окклюдированными объектами. Однако последние достижения в архитектуре моделей и методах обучения, как это видно на примере таких моделей, как YOLO11, значительно сократили этот разрыв в производительности, предлагая мощное сочетание скорости и высокой точности для широкого спектра задач компьютерного зрения. Платформы, подобные Ultralytics HUB, еще больше упрощают процесс обучения пользовательских моделей для конкретных задач.