Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Архитектуры обнаружения объектов

Откройте для себя возможности архитектур обнаружения объектов — основы искусственного интеллекта для понимания изображений. Изучите типы, инструменты и реальные приложения уже сегодня!

Архитектуры обнаружения объектов являются основополагающими чертежами для моделей глубокого обучения, которые выполняют обнаружение объектов. Эта задача компьютерного зрения (CV) включает в себя определение наличия и местоположения объектов на изображении или видео, как правило, путем рисования ограничивающей рамки вокруг них и присвоения метки класса. Архитектура определяет структуру модели, включая то, как она обрабатывает визуальную информацию и делает прогнозы. Выбор архитектуры имеет решающее значение, поскольку он напрямую влияет на скорость модели, точность и вычислительные требования.

Как работают архитектуры обнаружения объектов

Большинство современных архитектур обнаружения объектов состоят из трех основных компонентов, которые работают последовательно:

  • Backbone: Это сверточная нейронная сеть (CNN), часто предварительно обученная на большом наборе данных для классификации изображений, таком как ImageNet. Ее основная роль заключается в том, чтобы действовать в качестве средства извлечения признаков, преобразуя входное изображение в серию карт признаков, которые фиксируют иерархическую визуальную информацию. Популярные сети backbone включают ResNet и CSPDarknet, которая используется во многих моделях YOLO. Вы можете узнать больше об основах CNN из таких источников, как подробный обзор IBM.
  • Neck (Шея сети): Этот дополнительный компонент находится между backbone и head. Он служит для агрегирования и уточнения карт признаков, генерируемых backbone, часто объединяя признаки из разных масштабов для улучшения обнаружения объектов различных размеров. Примеры включают Feature Pyramid Networks (FPN).
  • Обнаруживающая головка: Головка — это последний компонент, отвечающий за формирование прогнозов. Она принимает обработанные карты признаков из neck (или непосредственно из backbone) и выдает вероятности классов и координаты ограничивающих рамок для каждого обнаруженного объекта.

Типы архитектур

Архитектуры обнаружения объектов широко классифицируются на основе их подхода к прогнозированию, что приводит к компромиссу между скоростью и точностью. Вы можете изучить подробные сравнения моделей, чтобы увидеть эти компромиссы в действии.

  • Двухэтапные детекторы объектов: Эти модели, такие как семейство R-CNN, сначала идентифицируют набор регионов-кандидатов объектов (предложения регионов), а затем классифицируют каждый регион. Этот двухэтапный процесс может обеспечить высокую точность, но часто работает медленнее.
  • Одноэтапные детекторы объектов: Архитектуры, такие как семейство Ultralytics YOLO (You Only Look Once), рассматривают обнаружение объектов как задачу единой регрессии. Они предсказывают ограничивающие рамки и вероятности классов непосредственно из полного изображения за один проход, обеспечивая вывод в реальном времени.
  • Детекторы без якорей (Anchor-Free Detectors): Более современная эволюция в рамках одноэтапных детекторов, архитектуры без якорей, такие как Ultralytics YOLO11, устраняют необходимость в предопределенных якорных прямоугольниках. Это упрощает процесс обучения и часто приводит к созданию более быстрых и эффективных моделей.

Применение в реальном мире

Архитектуры обнаружения объектов поддерживают многочисленные приложения ИИ в различных секторах:

Инструменты и технологии

Разработка и развертывание моделей на основе этих архитектур часто требует специализированных инструментов и фреймворков:

  • Фреймворки глубокого обучения: Библиотеки, такие как PyTorch (посетите официальный сайт PyTorch) и TensorFlow (см. сайт TensorFlow), предоставляют основные строительные блоки.
  • Библиотеки компьютерного зрения: OpenCV (официальный сайт: OpenCV.org) предлагает широкий спектр функций для обработки и манипулирования изображениями.
  • Модели и платформы: Ultralytics предоставляет современные модели Ultralytics YOLO и платформу Ultralytics HUB, упрощая процесс обучения пользовательских моделей, управления наборами данных (например, COCO) и развертывания решений.
  • Открытый исходный код: Многие архитектуры и инструменты обнаружения объектов разрабатываются под лицензиями с открытым исходным кодом, способствуя сотрудничеству и инновациям в сообществе ИИ. Такие ресурсы, как GitHub, размещают многочисленные проекты в этой области.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена