Глоссарий

Обнаружение объектов

Откройте для себя возможности обнаружения объектов - идентифицируйте и находите объекты на изображениях и видео с помощью передовых моделей, таких как YOLO. Изучите реальные приложения!

Обнаружение объектов - это фундаментальная задача компьютерного зрения (КВ), которая заключается в определении наличия, местоположения и типа одного или нескольких объектов на изображении или видео. В отличие от классификации изображений, которая присваивает единую метку всему изображению (например, "кошка"), обнаружение объектов точно очерчивает каждый экземпляр объекта с помощью ограничительной рамки и присваивает ему метку класса (например, "кошка" по координатам x, y, ширина, высота). Эта возможность позволяет машинам понимать визуальные сцены с большей детализацией, более точно имитируя человеческое восприятие и обеспечивая более сложное взаимодействие с окружающей средой. Это основная технология, лежащая в основе многих современных приложений искусственного интеллекта (ИИ).

Как работает обнаружение объектов

Обнаружение объектов обычно сочетает в себе две основные задачи: классификацию объектов (определение "какой" объект присутствует) и локализацию объектов (определение "где" находится объект, обычно через координаты ограничительной рамки). Современные системы обнаружения объектов в значительной степени опираются на глубокое обучение (ГОО), в частности на конволюционные нейронные сети (КНС). Эти сети обучаются на больших аннотированных наборах данных, таких как популярный набор данных COCO или Open Images V7, для изучения визуальных особенностей и паттернов, связанных с различными классами объектов.

Во время работы (известной как вывод) обученная модель обрабатывает входное изображение или видеокадр. Она выдает список потенциальных объектов, каждый из которых представлен ограничивающей рамкой, предсказанную метку класса (например, "автомобиль", "человек", "собака") и балл доверия, указывающий на уверенность модели в том, что объект обнаружен. Такие методы, как немаксимальное подавление (NMS), часто используются для уточнения результатов путем удаления избыточных, перекрывающих друг друга боксов для одного и того же объекта. Производительность этих моделей обычно оценивается с помощью таких метрик, как Intersection over Union (IoU) и mean Average Precision (mAP).

Обнаружение объектов по сравнению со смежными задачами

Важно отличать обнаружение объектов от других связанных с компьютерным зрением задач:

  • Классификация изображений: Присваивает единую метку всему изображению (например, "На этом изображении собака"). Она не определяет местоположение объекта (объектов).
  • Сегментация изображений: Классифицирует каждый пиксель на изображении, создавая подробную карту границ объектов. Это более подробная карта, чем ограничительные рамки при обнаружении объектов.
    • Семантическая сегментация: Присваивает каждому пикселю метку класса (например, все пиксели, принадлежащие к классу "автомобили", помечаются как "автомобиль"). Он не различает различные экземпляры одного класса.
    • Сегментация экземпляра: Присваивает каждому пикселю метку класса и различает отдельные экземпляры одного класса (например, "автомобиль 1", "автомобиль 2"). Она сочетает в себе обнаружение и сегментацию.
  • Отслеживание объектов: Обнаружение объектов в последовательных кадрах видео и присвоение уникального идентификатора каждому объекту для отслеживания его перемещения во времени. Это основано на обнаружении объектов.

Типы моделей обнаружения объектов

Модели обнаружения объектов обычно делятся на две основные категории, различающиеся в основном подходом и компромиссом между скоростью и точностью:

  • Двухступенчатые детекторы объектов: Эти модели сначала предлагают области интереса (RoIs), в которых могут находиться объекты, а затем классифицируют объекты в этих областях. В качестве примера можно привести семейство R-CNN (Fast R-CNN, Faster R-CNN). Они часто достигают высокой точности, но, как правило, работают медленнее.
  • Одноступенчатые детекторы объектов: Эти модели напрямую предсказывают ограничительные рамки и вероятности классов по входному изображению за один проход, без отдельного этапа предложения областей. Примерами могут служить серии Ultralytics YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector) и RetinaNet. Они обычно быстрее, что позволяет использовать их для выводов в режиме реального времени, но иногда ценой несколько меньшей точности по сравнению с двухэтапными методами, хотя такие модели, как YOLO11, эффективно преодолевают этот разрыв. Новые подходы, такие как детекторы без якорей, еще больше упрощают одноэтапный процесс. Вы можете изучить сравнения между различными моделями YOLO и другими архитектурами, такими как RT-DETR.

Применение в реальном мире

Обнаружение объектов - это краеугольная технология, позволяющая решать многочисленные задачи в различных отраслях промышленности:

  1. Автономные системы: Необходимы для самоуправляемых автомобилей и робототехники, позволяя транспортным средствам и роботам воспринимать окружающую обстановку, обнаруживая пешеходов, другие транспортные средства, препятствия, дорожные знаки и конкретные предметы для взаимодействия. Такие компании, как Tesla и Waymo, в значительной степени полагаются на надежное обнаружение объектов.
  2. Безопасность и наблюдение: Используется в системах охранной сигнализации для обнаружения нарушителей, мониторинга толпы(Vision AI in Crowd Management), идентификации оставленных предметов и повышения эффективности мониторинга в общественных местах и частных владениях.
  3. Аналитика розничной торговли: Используется в таких приложениях, как автоматизированные кассовые системы, управление запасами на основе искусственного интеллекта, мониторинг полок (обнаружение отсутствующих на складе товаров) и анализ трафика покупателей.
  4. Здравоохранение: Применяется в анализе медицинских изображений для обнаружения аномалий, таких как опухоли(Использование YOLO11 для обнаружения опухолей) или повреждений на рентгеновских снимках, КТ и МРТ, помогая радиологам в диагностике(Радиология: искусственный интеллект).
  5. Сельское хозяйство: Позволяет использовать методы точного земледелия, такие как обнаружение вредителей, болезней, сорняков, подсчет плодов(компьютерное зрение в сельском хозяйстве) и мониторинг состояния посевов(ИИ в решениях для сельского хозяйства).
  6. Производство: Используется для контроля качества путем обнаружения дефектов в продукции на сборочных линиях(Quality Inspection in Manufacturing), обеспечения безопасности путем мониторинга опасных зон и автоматизации роботизированных задач.

Инструменты и обучение

Разработка и развертывание моделей обнаружения объектов включает в себя различные инструменты и техники. Популярные фреймворки глубокого обучения, такие как PyTorch и TensorFlow, предоставляют базовые библиотеки. Библиотеки компьютерного зрения, такие как OpenCV, предлагают основные функции обработки изображений.

Ultralytics предоставляет самые современные модели Ultralytics YOLO, включая YOLOv8 и YOLO11, оптимизированные для скорости и точности. Платформа Ultralytics HUB еще больше упрощает рабочий процесс, предлагая инструменты для управления наборами данных, обучения пользовательских моделей, настройки гиперпараметров и облегчения развертывания моделей. Для эффективного обучения моделей часто используются стратегии увеличения объема данных и такие методы, как трансферное обучение с использованием предварительно обученных весов из таких наборов данных, как ImageNet.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена