Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Узнайте об обнаружении объектов, его важности в ИИ и о том, как такие модели, как YOLO11, преобразуют такие отрасли, как самоуправляемые автомобили, здравоохранение и безопасность.
Многие отрасли быстро интегрируют решения на основе искусственного интеллекта (ИИ) в свою деятельность. Среди множества доступных сегодня технологий ИИ одним из самых популярных является компьютерное зрение. Компьютерное зрение — это раздел ИИ, который помогает компьютерам видеть и понимать содержимое изображений и видео, подобно тому, как это делают люди. Оно позволяет машинам распознавать объекты, выявлять закономерности и понимать, что они видят.
По оценкам, мировой объем рынка компьютерного зрения вырастет до 175,72 миллиарда долларов к 2032 году. Компьютерное зрение охватывает различные задачи, которые позволяют системам Vision AI анализировать и интерпретировать визуальные данные. Одной из наиболее широко используемых и важных задач компьютерного зрения является обнаружение объектов.
Обнаружение объектов фокусируется на локализации и классификации объектов в визуальных данных. Например, если вы покажете компьютеру изображение коровы, он сможет обнаружить корову и нарисовать вокруг нее ограничивающую рамку. Эта способность полезна в реальных приложениях, таких как мониторинг животных, самоуправляемые автомобили и наблюдение.
Итак, как можно выполнить обнаружение объектов? Один из способов — с помощью моделей компьютерного зрения. Например, Ultralytics YOLO11 — это модель компьютерного зрения, которая поддерживает такие задачи компьютерного зрения, как обнаружение объектов.
В этом руководстве мы рассмотрим обнаружение объектов и то, как оно работает. Мы также обсудим некоторые реальные приложения обнаружения объектов и Ultralytics YOLO11.
Рис. 1. Использование поддержки YOLO11 для обнаружения объектов для мониторинга крупного рогатого скота.
Что такое обнаружение объектов?
Обнаружение объектов — это задача компьютерного зрения, которая идентифицирует и определяет местоположение объектов на изображениях или видео. Она отвечает на два ключевых вопроса: «Какие объекты есть на изображении?» и «Где они расположены?»
Вы можете рассматривать обнаружение объектов как процесс, который включает в себя два ключевых этапа. Первый, классификация объектов, позволяет системе распознавать и маркировать объекты, например, идентифицировать кошку, автомобиль или человека на основе изученных закономерностей. Второй, локализация, определяет положение объекта, рисуя вокруг него ограничивающую рамку, указывающую, где он появляется на изображении. Вместе эти этапы позволяют машинам обнаруживать и понимать объекты в сцене.
Аспект обнаружения объектов, который делает его уникальным, — это его способность распознавать объекты и точно определять их местоположение. Другие задачи компьютерного зрения сосредоточены на разных целях.
Например, классификация изображений присваивает метку всему изображению. Между тем, сегментация изображений обеспечивает понимание различных элементов на уровне пикселей. С другой стороны, обнаружение объектов сочетает в себе распознавание с локализацией. Это делает его особенно полезным для таких задач, как подсчет нескольких объектов в режиме реального времени.
При изучении различных терминов компьютерного зрения может показаться, что распознавание объектов и обнаружение объектов взаимозаменяемы, но на самом деле они служат разным целям. Чтобы понять разницу, полезно рассмотреть примеры распознавания и обнаружения лиц.
Обнаружение лиц — это один из видов обнаружения объектов. Оно определяет наличие лица на изображении и отмечает его местоположение с помощью ограничивающей рамки. Оно отвечает на вопрос: «Где находится лицо на изображении?». Эта технология широко используется в камерах смартфонов, которые автоматически фокусируются на лицах, или в камерах видеонаблюдения, которые обнаруживают присутствие человека.
Распознавание лиц, с другой стороны, является формой распознавания объектов. Оно не просто обнаруживает лицо, а идентифицирует, чье это лицо, анализируя уникальные черты и сравнивая их с базой данных. Оно отвечает на вопрос: «Кто этот человек?». Эта технология используется для разблокировки телефона с помощью Face ID или в системах безопасности аэропортов, которые проверяют личность.
Проще говоря, обнаружение объектов находит и определяет местоположение объектов, а распознавание объектов классифицирует и идентифицирует их.
Рис. 3. Обнаружение объектов и распознавание объектов. Изображение автора.
Многие модели обнаружения объектов, такие как YOLO11, предназначены для поддержки обнаружения лиц, но не распознавания лиц. YOLO11 может эффективно определять наличие лица на изображении и рисовать вокруг него ограничивающую рамку, что делает его полезным для таких приложений, как системы видеонаблюдения, мониторинг толпы и автоматическое добавление тегов к фотографиям. Однако он не может определить, чье это лицо. YOLO11 можно интегрировать с моделями, специально обученными для распознавания лиц, такими как Facenet или DeepFace, чтобы обеспечить как обнаружение, так и идентификацию в одной системе.
Как работает обнаружение объектов
Прежде чем обсуждать, как работает обнаружение объектов, давайте сначала внимательнее посмотрим, как компьютер анализирует изображение. Вместо того чтобы видеть изображение так, как видим его мы, компьютер разбивает его на сетку крошечных квадратов, называемых пикселями. Каждый пиксель содержит информацию о цвете и яркости, которую компьютеры могут обрабатывать для интерпретации визуальных данных.
Чтобы понять эти пиксели, алгоритмы группируют их в значимые области на основе формы, цвета и близости друг к другу. Модели обнаружения объектов, такие как YOLO11, могут распознавать закономерности или признаки в этих группах пикселей.
Например, беспилотный автомобиль не видит пешехода так, как мы, — он обнаруживает формы и закономерности, соответствующие признакам пешехода. Эти модели основаны на обширном обучении с использованием размеченных наборов изображений, что позволяет им изучать отличительные характеристики таких объектов, как автомобили, дорожные знаки и люди.
Типичная модель обнаружения объектов состоит из трех основных частей: backbone (основная сеть), neck (промежуточный слой) и head (голова). Backbone извлекает важные признаки из изображения. Neck обрабатывает и уточняет эти признаки, а head отвечает за прогнозирование местоположения объектов и их классификацию.
Уточнение обнаружений и представление результатов
После выполнения первоначальных обнаружений применяются методы постобработки для повышения точности и фильтрации избыточных прогнозов. Например, перекрывающиеся ограничивающие рамки удаляются, что гарантирует сохранение только наиболее релевантных обнаружений. Кроме того, каждому обнаруженному объекту присваиваются оценки достоверности (числовые значения, представляющие уверенность модели в том, что обнаруженный объект принадлежит к определенному классу), чтобы указать уверенность модели в своих прогнозах.
Наконец, результат представляется в виде ограничивающих рамок, нарисованных вокруг обнаруженных объектов, вместе с прогнозируемыми метками классов и оценками достоверности. Эти результаты затем можно использовать для реальных приложений.
Популярные модели обнаружения объектов
В настоящее время существует множество моделей компьютерного зрения, и одними из самых популярных являются модели Ultralytics YOLO. Они известны своей скоростью, точностью и универсальностью. С годами эти модели стали быстрее, точнее и способны выполнять более широкий спектр задач. Выпуск Ultralytics YOLOv5 упростил развертывание с помощью таких фреймворков, как PyTorch, что позволило большему количеству людей использовать передовые технологии Vision AI без необходимости глубоких технических знаний.
Основываясь на этом фундаменте, Ultralytics YOLOv8 представила новые функции, такие как сегментация экземпляров, оценка позы и классификация изображений. Теперь YOLO11 идет еще дальше, обеспечивая лучшую производительность при выполнении нескольких задач. Имея на 22% меньше параметров, чем YOLOv8m, YOLO11m достигает более высокой средней точности (mAP) на наборе данных COCO. Проще говоря, YOLO11 может распознавать объекты с большей точностью, используя меньше ресурсов, что делает его быстрее и надежнее.
Независимо от того, являетесь ли вы экспертом в области ИИ или только начинаете, YOLO11 предлагает мощное и в то же время удобное решение для приложений компьютерного зрения.
Пользовательская тренировка модели для обнаружения объектов
Обучение моделей Vision AI включает в себя помощь компьютерам в распознавании и понимании изображений и видео. Однако обучение может быть трудоемким процессом. Вместо того чтобы начинать с нуля, transfer learning (перенос обучения) ускоряет процесс, используя предварительно обученные модели, которые уже распознают общие закономерности.
Например, YOLO11 уже была обучена на наборе данных COCO, который содержит разнообразный набор повседневных объектов. Эта предварительно обученная модель может быть дополнительно обучена для обнаружения конкретных объектов, которые могут не быть включены в исходный набор данных.
Чтобы выполнить пользовательскую тренировку YOLO11, вам понадобится размеченный набор данных, содержащий изображения объектов, которые вы хотите обнаружить. Например, если вы хотите создать модель для идентификации различных видов фруктов в продуктовом магазине, вам нужно создать набор данных с размеченными изображениями яблок, бананов, апельсинов и т. д. После подготовки набора данных можно обучить YOLO11, настроив такие параметры, как размер пакета, скорость обучения и количество эпох, чтобы оптимизировать производительность.
Благодаря такому подходу предприятия могут обучать YOLO11 для обнаружения чего угодно, от дефектных деталей в производстве до видов диких животных в природоохранных проектах, адаптируя модель к своим конкретным потребностям.
Применение обнаружения объектов
Далее давайте рассмотрим некоторые реальные примеры использования обнаружения объектов и то, как оно преобразует различные отрасли.
Обнаружение опасностей для автономного вождения
Автономные автомобили используют задачи компьютерного зрения, такие как обнаружение объектов, для безопасной навигации и избежания препятствий. Эта технология помогает им распознавать пешеходов, другие транспортные средства, выбоины и дорожные опасности, что позволяет им лучше понимать свое окружение. Постоянно анализируя окружающую среду, они могут быстро принимать решения и безопасно двигаться в транспортном потоке.
Рис. 4. Пример использования обнаружения объектов для выявления выбоин с помощью YOLO11.
Анализ медицинских изображений в здравоохранении
Методы медицинской визуализации, такие как рентген, МРТ, КТ и УЗИ, создают высокодетализированные изображения человеческого тела, помогающие диагностировать и лечить заболевания. Эти сканы генерируют большие объемы данных, которые врачи, такие как радиологи и патологоанатомы, должны тщательно анализировать для выявления заболеваний. Однако детальный просмотр каждого изображения может занять много времени, и эксперты могут иногда упускать детали из-за усталости или нехватки времени.
Модели обнаружения объектов, такие как YOLO11, могут помочь, автоматически идентифицируя ключевые особенности на медицинских снимках, такие как органы, опухоли или аномалии, с высокой точностью. Специально обученные модели могут выделять области, вызывающие беспокойство, ограничивающими рамками, помогая врачам быстрее сосредотачиваться на потенциальных проблемах. Это снижает рабочую нагрузку, повышает эффективность и обеспечивает быстрый анализ.
Рис. 5. Анализ медицинских изображений с использованием YOLO11.
Повышение безопасности с помощью обнаружения людей и аномалий
Отслеживание объектов — это задача компьютерного зрения, поддерживаемая YOLO11, обеспечивающая мониторинг в реальном времени и повышение безопасности. Она основана на обнаружении объектов, идентифицируя объекты и непрерывно отслеживая их перемещение между кадрами. Эта технология широко используется в системах видеонаблюдения для повышения безопасности в различных средах.
Например, в школах и детских садах отслеживание объектов может помочь контролировать детей и предотвращать их уход. В приложениях безопасности оно играет ключевую роль в обнаружении злоумышленников в запрещенных зонах, мониторинге толпы на предмет переполненности или подозрительного поведения и отправке оповещений в режиме реального времени при обнаружении несанкционированной активности. Отслеживая объекты по мере их перемещения, системы отслеживания на базе YOLO11 повышают безопасность, автоматизируют мониторинг и позволяют быстрее реагировать на потенциальные угрозы.
Плюсы и минусы обнаружения объектов
Вот некоторые из ключевых преимуществ, которые обнаружение объектов может принести различным отраслям:
Автоматизация: Обнаружение объектов может помочь уменьшить потребность в контроле со стороны человека в таких задачах, как мониторинг видеозаписей с камер видеонаблюдения.
Работает с другими моделями ИИ: Его можно интегрировать с системами распознавания лиц, распознавания действий и отслеживания для повышения точности и функциональности.
Обработка в реальном времени: Многие модели обнаружения объектов, такие как YOLO11, являются быстрыми и эффективными, что делает их идеальными для приложений реального времени, требующих мгновенных результатов.
Хотя эти преимущества показывают, как обнаружение объектов влияет на различные варианты использования, важно также учитывать проблемы, связанные с его внедрением. Вот некоторые из ключевых проблем:
Конфиденциальность данных: Использование визуальных данных, особенно в чувствительных областях, таких как наблюдение или здравоохранение, может вызывать вопросы конфиденциальности и безопасности.
Окклюзия: Окклюзия при обнаружении объектов возникает, когда объекты частично заблокированы или скрыты из виду, что затрудняет для модели точное обнаружение и классификацию.
Вычислительно затратно: Высокопроизводительные модели часто требуют мощных графических процессоров (Graphics Processing Units) для обработки, что делает развертывание в реальном времени дорогостоящим.
Основные выводы
Обнаружение объектов — это революционный инструмент в компьютерном зрении, который помогает машинам обнаруживать и определять местоположение объектов на изображениях и видео. Он используется в различных секторах, от беспилотных автомобилей до здравоохранения, что делает задачи проще, безопаснее и эффективнее. С помощью новых моделей, таких как YOLO11, предприятия могут легко создавать собственные модели обнаружения объектов для создания специализированных приложений компьютерного зрения.
Несмотря на некоторые проблемы, такие как проблемы конфиденциальности и скрытые из виду объекты, обнаружение объектов является надежной технологией. Его способность автоматизировать задачи, обрабатывать визуальные данные в режиме реального времени и интегрироваться с другими инструментами Vision AI делает его важной частью передовых инноваций.