Архитектуры обнаружения объектов
Откройте для себя возможности архитектур обнаружения объектов — основы искусственного интеллекта для понимания изображений. Изучите типы, инструменты и реальные приложения уже сегодня!
Архитектуры обнаружения объектов являются основополагающими чертежами для моделей глубокого обучения, которые выполняют обнаружение объектов. Эта задача компьютерного зрения (CV) включает в себя определение наличия и местоположения объектов на изображении или видео, как правило, путем рисования ограничивающей рамки вокруг них и присвоения метки класса. Архитектура определяет структуру модели, включая то, как она обрабатывает визуальную информацию и делает прогнозы. Выбор архитектуры имеет решающее значение, поскольку он напрямую влияет на скорость модели, точность и вычислительные требования.
Как работают архитектуры обнаружения объектов
Большинство современных архитектур обнаружения объектов состоят из трех основных компонентов, которые работают последовательно:
- Backbone: Это сверточная нейронная сеть (CNN), часто предварительно обученная на большом наборе данных для классификации изображений, таком как ImageNet. Ее основная роль заключается в том, чтобы действовать в качестве средства извлечения признаков, преобразуя входное изображение в серию карт признаков, которые фиксируют иерархическую визуальную информацию. Популярные сети backbone включают ResNet и CSPDarknet, которая используется во многих моделях YOLO. Вы можете узнать больше об основах CNN из таких источников, как подробный обзор IBM.
- Neck (Шея сети): Этот дополнительный компонент находится между backbone и head. Он служит для агрегирования и уточнения карт признаков, генерируемых backbone, часто объединяя признаки из разных масштабов для улучшения обнаружения объектов различных размеров. Примеры включают Feature Pyramid Networks (FPN).
- Обнаруживающая головка: Головка — это последний компонент, отвечающий за формирование прогнозов. Она принимает обработанные карты признаков из neck (или непосредственно из backbone) и выдает вероятности классов и координаты ограничивающих рамок для каждого обнаруженного объекта.
Типы архитектур
Архитектуры обнаружения объектов широко классифицируются на основе их подхода к прогнозированию, что приводит к компромиссу между скоростью и точностью. Вы можете изучить подробные сравнения моделей, чтобы увидеть эти компромиссы в действии.
- Двухэтапные детекторы объектов: Эти модели, такие как семейство R-CNN, сначала идентифицируют набор регионов-кандидатов объектов (предложения регионов), а затем классифицируют каждый регион. Этот двухэтапный процесс может обеспечить высокую точность, но часто работает медленнее.
- Одноэтапные детекторы объектов: Архитектуры, такие как семейство Ultralytics YOLO (You Only Look Once), рассматривают обнаружение объектов как задачу единой регрессии. Они предсказывают ограничивающие рамки и вероятности классов непосредственно из полного изображения за один проход, обеспечивая вывод в реальном времени.
- Детекторы без якорей (Anchor-Free Detectors): Более современная эволюция в рамках одноэтапных детекторов, архитектуры без якорей, такие как Ultralytics YOLO11, устраняют необходимость в предопределенных якорных прямоугольниках. Это упрощает процесс обучения и часто приводит к созданию более быстрых и эффективных моделей.
Применение в реальном мире
Архитектуры обнаружения объектов поддерживают многочисленные приложения ИИ в различных секторах:
- Автономные транспортные средства: Необходимы для того, чтобы беспилотные автомобили воспринимали свое окружение, обнаруживая пешеходов, другие транспортные средства, дорожные знаки и дорожную разметку. Такие компании, как Waymo, в значительной степени полагаются на сложное обнаружение объектов. Подробнее об ИИ в беспилотных автомобилях.
- Безопасность и наблюдение: Используется в системах безопасности для обнаружения несанкционированного доступа, мониторинга толпы на предмет необычной активности или реализации распознавания лиц. См. Руководство по системе охранной сигнализации Ultralytics для практического примера.
- Анализ медицинских изображений: Помогает радиологам в обнаружении аномалий, таких как опухоли или переломы, на рентгеновских снимках, КТ и МРТ. Изучите решения на основе ИИ в здравоохранении и конкретные приложения, такие как обнаружение опухолей с использованием YOLO11.
- Аналитика розничной торговли: Обеспечивает такие приложения, как автоматизированная касса, мониторинг полок и ИИ для управления запасами.
Инструменты и технологии
Разработка и развертывание моделей на основе этих архитектур часто требует специализированных инструментов и фреймворков: