Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Руководство по глубокому погружению в обнаружение объектов в 2025 году

Абирами Вина

6 мин чтения

6 февраля 2025 г.

Узнайте об обнаружении объектов, его важности для искусственного интеллекта и о том, как модели, подобные YOLO11 , преобразуют такие отрасли, как производство самоуправляемых автомобилей, здравоохранение и безопасность.

Многие отрасли быстро интегрируют решения на основе искусственного интеллекта (ИИ) в свою деятельность. Среди множества доступных сегодня технологий ИИ одним из самых популярных является компьютерное зрение. Компьютерное зрение — это раздел ИИ, который помогает компьютерам видеть и понимать содержимое изображений и видео, подобно тому, как это делают люди. Оно позволяет машинам распознавать объекты, выявлять закономерности и понимать, что они видят. 

По оценкам, мировой объем рынка компьютерного зрения вырастет до 175,72 миллиарда долларов к 2032 году. Компьютерное зрение охватывает различные задачи, которые позволяют системам Vision AI анализировать и интерпретировать визуальные данные. Одной из наиболее широко используемых и важных задач компьютерного зрения является обнаружение объектов. 

Обнаружение объектов направлено на локализацию и классификацию объектов в визуальных данных. Например, если показать компьютеру изображение коровы, он сможет detect ее и нарисовать вокруг нее ограничительную рамку. Эта способность полезна в реальных приложениях, таких как наблюдение за животными, самоуправляемые автомобили и видеонаблюдение. 

Как же можно обнаружить объект? Один из способов - с помощью моделей компьютерного зрения. Например, Ultralytics YOLO11 это модель компьютерного зрения, которая поддерживает задачи компьютерного зрения, такие как обнаружение объектов. 

В этом руководстве мы расскажем об обнаружении объектов и о том, как оно работает. Мы также обсудим некоторые реальные применения обнаружения объектов и Ultralytics YOLO11.

__wf_reserved_inherit
Рис. 1. Использование поддержки обнаружения объектов в YOLO11для наблюдения за крупным рогатым скотом.

Что такое обнаружение объектов? 

Обнаружение объектов — это задача компьютерного зрения, которая идентифицирует и определяет местоположение объектов на изображениях или видео. Она отвечает на два ключевых вопроса: «Какие объекты есть на изображении?» и «Где они расположены?»

Обнаружение объектов можно рассматривать как процесс, включающий два ключевых этапа. Первый, классификация объектов, позволяет системе распознавать и маркировать объекты, например идентифицировать кошку, автомобиль или человека на основе изученных шаблонов. Второй этап, локализация, определяет положение объекта, рисуя вокруг него ограничительную рамку, указывающую место его появления на изображении. Вместе эти этапы позволяют машинам detect и понимать объекты в сцене.

Аспект обнаружения объектов, который делает его уникальным, — это его способность распознавать объекты и точно определять их местоположение. Другие задачи компьютерного зрения сосредоточены на разных целях.

Например, классификация изображений присваивает метку всему изображению. Между тем, сегментация изображений обеспечивает понимание различных элементов на уровне пикселей. С другой стороны, обнаружение объектов сочетает в себе распознавание с локализацией. Это делает его особенно полезным для таких задач, как подсчет нескольких объектов в режиме реального времени.

__wf_reserved_inherit
Рис. 2. Сравнение задач компьютерного зрения.

Распознавание объектов vs. обнаружение объектов

При изучении различных терминов компьютерного зрения может показаться, что распознавание объектов и обнаружение объектов взаимозаменяемы, но на самом деле они служат разным целям. Чтобы понять разницу, полезно рассмотреть примеры распознавания и обнаружения лиц.

Обнаружение лиц - это один из видов обнаружения объектов. Он определяет наличие лица на изображении и отмечает его местоположение с помощью ограничительной рамки. Это отвечает на вопрос: "Где находится лицо на изображении?". Эта технология обычно используется в камерах смартфонов, которые автоматически фокусируются на лицах, или в камерах безопасности, которые detect присутствие человека.

Распознавание лиц, с другой стороны, является разновидностью распознавания объектов. Оно не просто detect лицо; оно определяет, чье это лицо, анализируя уникальные черты и сравнивая их с базой данных. Оно отвечает на вопрос: "Кто этот человек?". Именно эта технология лежит в основе разблокировки телефона с помощью Face ID или систем безопасности в аэропортах, проверяющих личность.

Проще говоря, обнаружение объектов находит и определяет местоположение объектов, а распознавание объектов классифицирует и идентифицирует их. 

__wf_reserved_inherit
Рис. 3. Обнаружение объектов и распознавание объектов. Изображение автора.

Многие модели обнаружения объектов, такие как YOLO11, разработаны для поддержки обнаружения лиц, но не для их распознавания. YOLO11 может эффективно определить присутствие лица на изображении и нарисовать вокруг него ограничительную рамку, что делает ее полезной для таких приложений, как системы наблюдения, мониторинг толпы и автоматическая маркировка фотографий. Однако он не может определить, чье это лицо. YOLO11 можно интегрировать с моделями, специально обученными для распознавания лиц, такими как Facenet или DeepFace, чтобы обеспечить как обнаружение, так и идентификацию в одной системе.

Как работает обнаружение объектов

Прежде чем обсуждать, как работает обнаружение объектов, давайте сначала внимательнее посмотрим, как компьютер анализирует изображение. Вместо того чтобы видеть изображение так, как видим его мы, компьютер разбивает его на сетку крошечных квадратов, называемых пикселями. Каждый пиксель содержит информацию о цвете и яркости, которую компьютеры могут обрабатывать для интерпретации визуальных данных.

Чтобы разобраться в этих пикселях, алгоритмы группируют их в значимые области на основе формы, цвета и степени близости друг к другу. Модели обнаружения объектов, такие как YOLO11, могут распознавать паттерны или особенности в этих группах пикселей. 

Например, беспилотный автомобиль не видит пешехода так, как мы, — он обнаруживает формы и закономерности, соответствующие признакам пешехода. Эти модели основаны на обширном обучении с использованием размеченных наборов изображений, что позволяет им изучать отличительные характеристики таких объектов, как автомобили, дорожные знаки и люди.

Типичная модель обнаружения объектов состоит из трех основных частей: backbone (основная сеть), neck (промежуточный слой) и head (голова). Backbone извлекает важные признаки из изображения. Neck обрабатывает и уточняет эти признаки, а head отвечает за прогнозирование местоположения объектов и их классификацию.

Уточнение обнаружений и представление результатов

После выполнения первоначальных обнаружений применяются методы постобработки для повышения точности и фильтрации избыточных прогнозов. Например, перекрывающиеся ограничивающие рамки удаляются, что гарантирует сохранение только наиболее релевантных обнаружений. Кроме того, каждому обнаруженному объекту присваиваются оценки достоверности (числовые значения, представляющие уверенность модели в том, что обнаруженный объект принадлежит к определенному классу), чтобы указать уверенность модели в своих прогнозах.

Наконец, результат представляется в виде ограничивающих рамок, нарисованных вокруг обнаруженных объектов, вместе с прогнозируемыми метками классов и оценками достоверности. Эти результаты затем можно использовать для реальных приложений.

Популярные модели обнаружения объектов 

В настоящее время существует множество моделей компьютерного зрения, и одними из самых популярных являются моделиUltralytics YOLO . Они известны своей скоростью, точностью и универсальностью. С годами эти модели стали быстрее, точнее и способны решать более широкий круг задач. Выпуск Ultralytics YOLOv5 упростил развертывание с помощью таких фреймворков, как PyTorch, что позволило большему числу людей использовать передовой Vision AI, не нуждаясь в глубоких технических знаниях.

Опираясь на этот фундамент, Ultralytics YOLOv8 представила новые функции, такие как сегментация экземпляров, оценка позы и классификация изображений. Теперь YOLO11 идет еще дальше, повышая производительность в различных задачах. Используя на 22 % меньше параметров, чем YOLOv8m, YOLO11m достигает более высокой средней точностиmAP) на наборе данных COCO . Проще говоря, YOLO11 может распознавать объекты с большей точностью, используя при этом меньше ресурсов, что делает его более быстрым и надежным.

Независимо от того, являетесь ли вы экспертом в области искусственного интеллекта или только начинаете, YOLO11 предлагает мощное и в то же время удобное решение для приложений компьютерного зрения.

Пользовательская тренировка модели для обнаружения объектов

Обучение моделей Vision AI включает в себя помощь компьютерам в распознавании и понимании изображений и видео. Однако обучение может быть трудоемким процессом. Вместо того чтобы начинать с нуля, transfer learning (перенос обучения) ускоряет процесс, используя предварительно обученные модели, которые уже распознают общие закономерности.

Например, YOLO11 уже была обучена на наборе данныхCOCO , который содержит разнообразный набор повседневных объектов. Эта предварительно обученная модель может быть дополнительно натренирована для detect специфических объектов, которые могут не входить в исходный набор данных. 

Чтобы обучить YOLO11, вам понадобится набор данных с метками, содержащий изображения объектов, которые вы хотите detect. Например, если вы хотите построить модель для определения различных типов фруктов в продуктовом магазине, вы должны создать набор данных с помеченными изображениями яблок, бананов, апельсинов и т. д. После того как набор данных подготовлен, YOLO11 можно обучать, настраивая такие параметры, как размер партии, скорость обучения и эпохи, чтобы оптимизировать производительность.

Благодаря такому подходу компании могут обучить YOLO11 detect что угодно - от дефектных деталей на производстве до видов диких животных в природоохранных проектах, подстраивая модель под свои нужды.

Применение обнаружения объектов

Далее давайте рассмотрим некоторые реальные примеры использования обнаружения объектов и то, как оно преобразует различные отрасли.

Обнаружение опасностей для автономного вождения

Автономные автомобили используют задачи компьютерного зрения, такие как обнаружение объектов, для безопасной навигации и избежания препятствий. Эта технология помогает им распознавать пешеходов, другие транспортные средства, выбоины и дорожные опасности, что позволяет им лучше понимать свое окружение. Постоянно анализируя окружающую среду, они могут быстро принимать решения и безопасно двигаться в транспортном потоке.

__wf_reserved_inherit
Рис. 4. Пример использования обнаружения объектов для detect выбоин с помощью YOLO11.

Анализ медицинских изображений в здравоохранении

Такие методы медицинской визуализации, как рентген, МРТ, КТ и УЗИ, создают высокодетальные изображения человеческого тела, помогая диагностировать и лечить заболевания. Эти снимки содержат большое количество данных, которые врачи, такие как радиологи и патологоанатомы, должны тщательно проанализировать для detect заболеваний. Однако детальный анализ каждого изображения может занять много времени, а специалисты могут упустить детали из-за усталости или нехватки времени.

Модели обнаружения объектов, подобные YOLO11 , помогают автоматически определять ключевые особенности на медицинских снимках, такие как органы, опухоли или аномалии, с высокой точностью. Настроенные модели могут выделять проблемные области с помощью ограничительных рамок, помогая врачам быстрее сосредоточиться на потенциальных проблемах. Это снижает рабочую нагрузку, повышает эффективность и обеспечивает быстрое получение информации.

__wf_reserved_inherit
Рис. 5. Анализ медицинских изображений с помощью YOLO11.

Повышение безопасности с помощью обнаружения людей и аномалий

Отслеживание объектов - это задача компьютерного зрения, поддерживаемая YOLO11, позволяющая осуществлять мониторинг в реальном времени и повышать безопасность. Она основывается на обнаружении объектов, идентифицируя их и непрерывно отслеживая их перемещение по кадрам. Эта технология широко используется в системах видеонаблюдения для повышения безопасности в различных условиях.

Например, в школах и детских садах отслеживание объектов помогает следить за детьми и не давать им заблудиться. В системах безопасности оно играет ключевую роль в обнаружении нарушителей в запретных зонах, мониторинге толпы на предмет переполненности или подозрительного поведения, а также в отправке оповещений в режиме реального времени при обнаружении несанкционированной активности. track перемещение объектов, системы слежения YOLO11 повышают безопасность, автоматизируют мониторинг и позволяют быстрее реагировать на потенциальные угрозы.

Плюсы и минусы обнаружения объектов

Вот некоторые из ключевых преимуществ, которые обнаружение объектов может принести различным отраслям:

  • Автоматизация: Обнаружение объектов может помочь уменьшить потребность в контроле со стороны человека в таких задачах, как мониторинг видеозаписей с камер видеонаблюдения.
  • Работает с другими моделями ИИ: Его можно интегрировать с системами распознавания лиц, распознавания действий и отслеживания для повышения точности и функциональности.
  • Обработка в режиме реального времени: Многие модели обнаружения объектов, например YOLO11, работают быстро и эффективно, что делает их идеальными для приложений, работающих в режиме реального времени и требующих мгновенных результатов. 

Хотя эти преимущества показывают, как обнаружение объектов влияет на различные варианты использования, важно также учитывать проблемы, связанные с его внедрением. Вот некоторые из ключевых проблем:

  • Конфиденциальность данных: Использование визуальных данных, особенно в чувствительных областях, таких как наблюдение или здравоохранение, может вызывать вопросы конфиденциальности и безопасности.
  • Окклюзия: Окклюзия при обнаружении объектов возникает, когда объекты частично заслонены или скрыты от глаз, что затрудняет их точное detect и classify моделью.
  • Вычислительно затратно: Высокопроизводительные модели часто требуют мощных графических процессоров (Graphics Processing Units) для обработки, что делает развертывание в реальном времени дорогостоящим.

Основные выводы

Обнаружение объектов - важнейший инструмент компьютерного зрения, который помогает машинам detect и находить объекты на изображениях и видео. Он используется в различных отраслях, от самодвижущихся автомобилей до здравоохранения, делая задачи проще, безопаснее и эффективнее. С помощью новых моделей, таких как YOLO11, компании могут легко создавать пользовательские модели обнаружения объектов для создания специализированных приложений компьютерного зрения. 

Несмотря на некоторые проблемы, такие как проблемы конфиденциальности и скрытые из виду объекты, обнаружение объектов является надежной технологией. Его способность автоматизировать задачи, обрабатывать визуальные данные в режиме реального времени и интегрироваться с другими инструментами Vision AI делает его важной частью передовых инноваций.

Чтобы узнать больше, посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу. Ознакомьтесь с инновациями в таких отраслях, как ИИ в самоуправляемых автомобилях и компьютерное зрение в сельском хозяйстве, на страницах наших решений. Ознакомьтесь с вариантами лицензирования yolo и воплотите в жизнь свои проекты в области искусственного интеллекта. 🚀

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно