Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Архитектуры обнаружения объектов

Откройте для себя возможности архитектур обнаружения объектов — основы искусственного интеллекта для понимания изображений. Изучите типы, инструменты и реальные приложения уже сегодня!

Архитектуры обнаружения объектов служат структурной основой для моделей глубокого обучения, предназначенных для поиска и идентификации отдельных объектов в визуальных данных. В отличие от стандартной классификации изображений, при которой всему изображению присваивается одна метку всему изображению, эти архитектуры позволяют машинам распознавать множество объектов, определяя их точное определяя их точное положение с помощью ограничительной рамки и присваивая каждому из них определенную метку класса для каждого. Архитектура фактически диктует, как нейронная сеть обрабатывает пиксельные данные, превращая их в осмысленные Архитектура фактически диктует, как нейросеть обрабатывает данные пикселей в осмысленные сведения, что напрямую влияет на точность модели, скорость и эффективность вычислений.

Ключевые компоненты архитектур обнаружения

Большинство современных систем обнаружения основаны на модульной конструкции, состоящей из трех основных этапов. Понимание этих компонентов помогает исследователям и инженерам выбрать подходящий инструмент для решения самых разных задач - от анализа медицинских изображений до промышленной автоматизации.

  • Магистраль: Это начальная часть сети, отвечающая за извлечение признаков. Она обычно Конволюционная нейронная сеть (CNN) которая обрабатывает необработанное изображение для выявления деталей, таких как края, текстуры и формы. К популярным опорным сетям относятся остаточные сети (ResNet) и перекрестные Частичные сети (Cross Stage Partial, CSP), используемые в моделях YOLO . Для более глубокого понимания извлечения признаков вы можете просмотреть Заметки по CS231n в Стэнфордском университете.
  • Шея: Расположенная между позвоночником и головой, шея объединяет карты характеристик, полученные на разных различных этапов. Это позволяет модели detect объекты различных масштабов (мелкие, средние и крупные). Чаще всего здесь используется Сеть пирамид признаков (FPN), которая создает многомасштабное представление изображения.
  • Детекторная головка: Последним компонентом является головка обнаружения, которая генерирует окончательные прогнозы. Она выводит конкретные координаты ограничительных рамок и баллы доверия для каждого класса.

Типы архитектур

Архитектуры обычно классифицируются по подходу к обработке данных, который часто представляет собой компромисс между скоростью вывода и точностью обнаружения.

Одноступенчатые и двухступенчатые детекторы

  • Двухэтапные детекторы объектов: Эти модели, такие как семейство R-CNN, работают в два этапа: сначала генерируют предложения регионов (областей. где может находиться объект), а затем классифицируют эти регионы. Хотя исторически они известны высокой точностью, они они требуют больших вычислительных затрат. Вы можете прочитать оригинальную статью Faster R-CNN, чтобы понять истоки этого подхода.
  • Одноэтапные детекторы объектов: Архитектуры, подобные Ultralytics YOLO рассматривают обнаружение как как единую регрессионную задачу, предсказывая ограничительные рамки и вероятности классов непосредственно по изображению за один проход. Такая структура позволяет делать выводы в режиме реального времени, что делает их идеальным решением для видеопотоков и устройств, работающих на грани.

Якорь с привязкой и без привязки

Старые архитектуры часто полагались на якорных ящиков - предопределенныхфигур, которые модель пытается подгонять под объекты. Однако современные безъякорные детекторы, такие как YOLO11исключают ручную настройку гиперпараметров. Это приводит к упрощению процесса обучения и улучшению обобщения. В перспективе такие проекты, как YOLO26, направлены на дальнейшее совершенствование совершенствование этих безъякорных концепций, ориентированных на сквозные архитектуры для еще большей эффективности.

Применение в реальном мире

Универсальность архитектур обнаружения объектов способствует инновациям во многих отраслях:

  • Автономные транспортные средства: Самостоятельно управляемые автомобили используют высокоскоростные архитектуры для detect пешеходов, дорожных знаков и других транспортных средств в в режиме реального времени. Такие компании, как Waymo, используют эти передовые системы технического зрения для безопасной навигации по в сложных городских условиях.
  • Аналитика в розничной торговле: В секторе розничной торговли развертываются архитектуры для умных супермаркетов для управления запасами и анализа поведения покупателей. Отслеживая перемещение товаров на полках, магазины могут автоматизировать процессы пополнения запасов.
  • Точное земледелие: Фермеры используют эти модели для ИИ в сельском хозяйстве для выявления болезней сельскохозяйственных культур или автоматического обнаружения сорняков, что значительно сокращает использование химикатов.

Реализация обнаружения объектов

Использование такой современной архитектуры, как YOLO11 , очень просто благодаря высокоуровневым API-интерфейсам Python . Следующий пример демонстрирует, как загрузить предварительно обученную модель и выполнить вывод на изображении.

from ultralytics import YOLO

# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object detection on a remote image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results (bounding boxes and labels)
results[0].show()

Для тех, кому интересно сравнить, как различные архитектурные решения влияют на производительность, вы можете изучить подробные сравнение моделей, чтобы увидеть бенчмарки между YOLO11 и другими системами, такими как RT-DETR. Кроме того, понимание таких метрик таких как Intersection over Union (IoU). очень важно для оценки того, насколько хорошо архитектура справляется со своей задачей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас