Глоссарий

Одноступенчатые детекторы объектов

Откройте для себя скорость и эффективность одноступенчатых детекторов объектов, таких как YOLO, идеально подходящих для приложений реального времени, таких как робототехника и видеонаблюдение.

Одноэтапные детекторы объектов - это класс моделей глубокого обучения, разработанных для повышения скорости и эффективности в компьютерном зрении. Они выполняют локализацию и классификацию объектов за один, единый проход нейронной сети. Это контрастирует с их более сложными аналогами - двухэтапными детекторами объектов, которые разбивают задачу на два отдельных этапа. Рассматривая обнаружение объектов как простую регрессионную задачу, одноэтапные модели предсказывают граничные поля и вероятности классов непосредственно по признакам изображения, что делает их исключительно быстрыми и подходящими для приложений, требующих выводов в реальном времени.

Принцип работы одноступенчатых извещателей

Одноэтапный детектор обрабатывает сразу все изображение с помощью одной конволюционной нейронной сети (CNN). Архитектура сети разработана таким образом, чтобы выполнять несколько задач одновременно. Сначала основная часть сети выполняет извлечение признаков, создавая богатые представления входного изображения в различных масштабах. Затем эти признаки поступают в специализированную головку обнаружения.

Эта головка отвечает за предсказание набора ограничительных ячеек, доверительный балл для каждой ячейки, указывающий на наличие объекта, и вероятность принадлежности каждого объекта к определенному классу. Весь этот процесс происходит за один проход вперед, что является залогом их высокой скорости. Затем используются такие техники, как не максимальное подавление (NMS), чтобы отфильтровать избыточные и перекрывающиеся обнаружения для получения конечного результата. Модели обучаются с помощью специализированной функции потерь, которая сочетает в себе потери при локализации (точность определения границ) и потери при классификации (точность предсказания класса).

Сравнение с двухступенчатыми детекторами объектов

Основное различие заключается в методологии. Одноступенчатые детекторы созданы для скорости и простоты, в то время как для двухступенчатых приоритетом является точность, хотя в новых моделях это различие становится все менее заметным.

  • Одноступенчатые детекторы: Эти модели, такие как семейство YOLO (You Only Look Once), выполняют обнаружение за один шаг. Они, как правило, быстрее и имеют более простую архитектуру, что делает их идеальными для краевых устройств и приложений реального времени. Разработка безъякорных детекторов позволила еще больше повысить их производительность и простоту.
  • Двухступенчатые детекторы объектов: Модели, подобные серии R-CNN и ее более быстрым вариантам, сначала генерируют разреженный набор предложений областей, в которых могут находиться объекты. На втором этапе отдельная сеть классифицирует эти предложения и уточняет координаты ограничительной рамки. Этот двухэтапный процесс обычно дает более высокую точность, особенно для мелких объектов, но ценой значительно меньшей скорости вывода. Маска R-CNN - хорошо известный пример, который расширяет этот подход к сегментации экземпляров.

Ключевые архитектуры и модели

Было разработано несколько влиятельных одноступенчатых архитектур, каждая из которых имеет свой уникальный вклад:

  • YOLO (You Only Look Once): Представленный в новаторской статье 2015 года, YOLO рассматривает обнаружение объектов как единственную проблему регрессии. Последующие версии, включая YOLOv8 и ультрасовременный Ultralytics YOLO11, постоянно улучшали баланс между скоростью и точностью.
  • Одноэтапный многобоксовый детектор (SSD): Архитектура SSD - еще одна новаторская одноэтапная модель, использующая многомасштабные карты признаков для обнаружения объектов различных размеров, что повышает точность по сравнению с оригинальным YOLO.
  • RetinaNet: В этой модели была представлена функция потерь Focal Loss, разработанная для решения проблемы дисбаланса классов, возникающей при обучении плотных детекторов, что позволило ей превзойти по точности многие двухэтапные детекторы того времени.
  • EfficientDet: Семейство моделей, разработанных Google Research, в которых особое внимание уделяется масштабируемости и эффективности за счет использования комбинированного метода масштабирования и новой сети функций BiFPN. Вы можете увидеть, как она сравнивается с другими моделями, например YOLO11 против EfficientDet.

Применение в реальном мире

Скорость и эффективность одноступенчатых детекторов сделали их незаменимыми в многочисленных приложениях, основанных на искусственном интеллекте:

  1. Автономные транспортные средства: В ИИ для самоуправляемых автомобилей одноступенчатые детекторы играют решающую роль в восприятии окружающей среды в режиме реального времени. Они могут мгновенно идентифицировать и отслеживать пешеходов, велосипедистов, другие транспортные средства и дорожные знаки, позволяя навигационной системе автомобиля принимать важные решения в доли секунды. Такие компании, как Tesla, используют аналогичные принципы в своих системах автопилота.
  2. Интеллектуальные системы безопасности и видеонаблюдения: Одноступенчатые модели обеспечивают работу современных систем безопасности, анализируя видеопоток для обнаружения таких угроз, как несанкционированное проникновение или подозрительная активность. Например, система может быть обучена подсчету людей в очереди для управления очередью или выявлению брошенного багажа в аэропорту - и все это в режиме реального времени.

Преимущества и ограничения

Основное преимущество одноступенчатых детекторов - невероятная скорость, которая позволяет обнаруживать объекты в реальном времени на различном оборудовании, включая маломощные устройства краевого ИИ, такие как NVIDIA Jetson или Raspberry Pi. Более простая сквозная архитектура также облегчает их обучение и развертывание с помощью таких фреймворков, как PyTorch или TensorFlow.

Исторически основным ограничением была более низкая точность по сравнению с двухэтапными детекторами, особенно при работе с очень маленькими или сильно окклюдированными объектами. Однако последние достижения в архитектуре моделей и методах обучения, как это видно на примере таких моделей, как YOLO11, значительно сократили этот разрыв в производительности, предлагая мощное сочетание скорости и высокой точности для широкого спектра задач компьютерного зрения. Платформы, подобные Ultralytics HUB, еще больше упрощают процесс обучения пользовательских моделей для конкретных задач.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена