Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Настройки файлов cookie
Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Узнайте об обнаружении объектов, его важности для искусственного интеллекта и о том, как модели, подобные YOLO11, преобразуют такие отрасли, как производство самоуправляемых автомобилей, здравоохранение и безопасность.
Многие отрасли промышленности стремительно внедряют в свою деятельность решения на основе искусственного интеллекта (ИИ). Среди множества технологий ИИ, доступных сегодня, компьютерное зрение является одной из самых популярных. Компьютерное зрение - это направление ИИ, которое помогает компьютерам видеть и понимать содержимое изображений и видео так же, как это делают люди. Оно позволяет машинам распознавать объекты, выявлять закономерности и понимать смысл того, на что они смотрят.
По оценкам, к 2032 году стоимость мирового рынка компьютерного зрения вырастет до 175,72 миллиарда долларов. Компьютерное зрение включает в себя различные задачи, которые позволяют системам искусственного интеллекта анализировать и интерпретировать визуальные данные. Одной из наиболее распространенных и важных задач компьютерного зрения является обнаружение объектов.
Обнаружение объектов направлено на локализацию и классификацию объектов в визуальных данных. Например, если показать компьютеру изображение коровы, он сможет обнаружить ее и нарисовать вокруг нее ограничительную рамку. Эта способность полезна в реальных приложениях, таких как мониторинг животных, самоуправляемые автомобили и видеонаблюдение.
Как же можно обнаружить объект? Один из способов - с помощью моделей компьютерного зрения. Например, Ultralytics YOLO11 - это модель компьютерного зрения, которая поддерживает задачи компьютерного зрения, такие как обнаружение объектов.
В этом руководстве мы расскажем об обнаружении объектов и о том, как оно работает. Мы также обсудим некоторые реальные применения обнаружения объектов и Ultralytics YOLO11.
Рис. 1. Использование поддержки обнаружения объектов в YOLO11 для наблюдения за крупным рогатым скотом.
Что такое обнаружение объектов?
Обнаружение объектов - это задача компьютерного зрения, которая заключается в идентификации и определении местоположения объектов на изображениях или видео. Она отвечает на два ключевых вопроса: "Какие объекты находятся на изображении?" и "Где они расположены?".
Обнаружение объектов можно рассматривать как процесс, включающий два ключевых этапа. Первый, классификация объектов, позволяет системе распознавать и маркировать объекты, например идентифицировать кошку, автомобиль или человека на основе изученных шаблонов. Второй этап, локализация, определяет положение объекта, рисуя вокруг него ограничительную рамку, указывающую место его появления на изображении. Вместе эти этапы позволяют машинам обнаруживать и понимать объекты в сцене.
Аспект обнаружения объектов, который делает его уникальным, - это способность распознавать объекты и точно определять их местоположение. Другие задачи компьютерного зрения направлены на достижение иных целей.
Например, классификация изображений присваивает метку всему изображению. Сегментация изображения обеспечивает понимание различных элементов на уровне пикселей. С другой стороны, обнаружение объектов сочетает в себе распознавание и локализацию. Это делает его особенно полезным для таких задач, как подсчет нескольких объектов в реальном времени.
Распознавание объектов в сравнении с обнаружением объектов
Изучая различные термины компьютерного зрения, вы можете почувствовать, что распознавание объектов и обнаружение объектов взаимозаменяемы - но они служат разным целям. Отличный способ понять разницу - рассмотреть распознавание лиц и распознавание лиц.
Обнаружение лиц - это один из видов обнаружения объектов. Он определяет наличие лица на изображении и отмечает его местоположение с помощью ограничительной рамки. Это отвечает на вопрос: "Где находится лицо на изображении?". Эта технология обычно используется в камерах смартфонов, которые автоматически фокусируются на лицах, или в камерах безопасности, которые определяют присутствие человека.
Распознавание лиц, с другой стороны, является разновидностью распознавания объектов. Оно не просто обнаруживает лицо; оно определяет, чье это лицо, анализируя уникальные черты и сравнивая их с базой данных. Оно отвечает на вопрос: "Кто этот человек?". Именно эта технология лежит в основе разблокировки телефона с помощью Face ID или систем безопасности в аэропортах, проверяющих личность.
Проще говоря, обнаружение объектов находит и определяет их местоположение, а распознавание объектов классифицирует и идентифицирует их.
Рис. 3. Обнаружение объекта в сравнении с распознаванием объекта. Изображение автора.
Многие модели обнаружения объектов, такие как YOLO11, разработаны для поддержки обнаружения лиц, но не для их распознавания. YOLO11 может эффективно определять наличие лица на изображении и рисовать вокруг него ограничительную рамку, что делает ее полезной для таких приложений, как системы наблюдения, мониторинг толпы и автоматическая маркировка фотографий. Однако он не может определить, чье это лицо. YOLO11 можно интегрировать с моделями, специально обученными для распознавания лиц, такими как Facenet или DeepFace, чтобы обеспечить как обнаружение, так и идентификацию в одной системе.
Понимание того, как работает обнаружение объектов
Прежде чем мы обсудим, как происходит обнаружение объектов, давайте рассмотрим, как компьютер анализирует изображение. Вместо того чтобы воспринимать изображение так, как это делаем мы, компьютер разбивает его на сетку крошечных квадратиков, называемых пикселями. Каждый пиксель содержит информацию о цвете и яркости, которую компьютер может обрабатывать для интерпретации визуальных данных.
Чтобы разобраться в этих пикселях, алгоритмы группируют их в значимые области на основе формы, цвета и степени близости друг к другу. Модели обнаружения объектов, такие как YOLO11, могут распознавать паттерны или особенности в этих группах пикселей.
Например, самодвижущийся автомобиль видит пешехода не так, как мы - он распознает формы и узоры, соответствующие признакам пешехода. Эти модели основаны на длительном обучении с использованием наборов меченых изображений, что позволяет им узнавать отличительные характеристики таких объектов, как автомобили, дорожные знаки и люди.
Типичная модель обнаружения объектов состоит из трех ключевых частей: позвоночника, шеи и головы. Хребет извлекает важные признаки из изображения. Шея обрабатывает и уточняет эти признаки, а голова отвечает за предсказание местоположения объектов и их классификацию.
Уточнение обнаружения и представление результатов
После первоначального обнаружения применяются методы постобработки для повышения точности и отсеивания лишних прогнозов. Например, удаляются перекрывающиеся ограничительные рамки, чтобы сохранить только самые важные обнаружения. Кроме того, каждому обнаруженному объекту присваиваются баллы доверия (числовые значения, отражающие степень уверенности модели в том, что обнаруженный объект принадлежит к определенному классу), чтобы показать уверенность модели в своих прогнозах.
Наконец, на выходе мы получаем ограничительные рамки, нарисованные вокруг обнаруженных объектов, а также их прогнозируемые метки классов и баллы доверия. Эти результаты можно использовать в реальных приложениях.
Популярные модели обнаружения объектов
В настоящее время существует множество моделей компьютерного зрения, и одними из самых популярных являются модели Ultralytics YOLO. Они известны своей скоростью, точностью и универсальностью. С годами эти модели стали быстрее, точнее и способны решать более широкий круг задач. Выпуск Ultralytics YOLOv5 упростил развертывание с помощью таких фреймворков, как PyTorch, что позволило большему числу людей использовать передовой Vision AI, не нуждаясь в глубоких технических знаниях.
Основываясь на этом фундаменте, Ultralytics YOLOv8 представила такие новые функции, как сегментация экземпляров, оценка позы и классификация изображений. Теперь YOLO11 идет еще дальше, повышая производительность в различных задачах. Используя на 22 % меньше параметров, чем YOLOv8m, YOLO11m достигает более высокой средней точности (mAP) на наборе данных COCO. Проще говоря, YOLO11 может распознавать объекты с большей точностью, используя при этом меньше ресурсов, что делает его более быстрым и надежным.
Независимо от того, являетесь ли вы экспертом в области искусственного интеллекта или только начинаете, YOLO11 предлагает мощное и в то же время удобное решение для приложений компьютерного зрения.
Индивидуальное обучение модели для обнаружения объектов
Обучение моделей искусственного интеллекта - это помощь компьютерам в распознавании и понимании изображений и видео. Однако обучение может занять много времени. Вместо того чтобы начинать с нуля, трансферное обучение ускоряет процесс за счет использования предварительно обученных моделей, которые уже распознают общие закономерности.
Например, модель YOLO11 уже была обучена на наборе данных COCO, который содержит разнообразный набор повседневных объектов. Эта предварительно обученная модель может быть дополнительно натренирована для обнаружения специфических объектов, которые могут не входить в исходный набор данных.
Чтобы обучить YOLO11, вам понадобится набор данных с метками, содержащий изображения объектов, которые вы хотите обнаружить. Например, если вы хотите построить модель для определения различных типов фруктов в продуктовом магазине, вы должны создать набор данных с помеченными изображениями яблок, бананов, апельсинов и т. д. После того как набор данных подготовлен, YOLO11 можно обучать, настраивая такие параметры, как размер партии, скорость обучения и эпохи, чтобы оптимизировать производительность.
Благодаря такому подходу компании могут обучить YOLO11 обнаруживать что угодно - от дефектных деталей на производстве до видов диких животных в природоохранных проектах, подстраивая модель под свои нужды.
Области применения обнаружения объектов
Далее рассмотрим некоторые реальные примеры использования обнаружения объектов и то, как оно преобразует различные отрасли.
Обнаружение опасностей для автономного вождения
Для безопасной навигации и объезда препятствий в самоуправляемых автомобилях используются задачи компьютерного зрения, такие как распознавание объектов. Эта технология помогает им распознавать пешеходов, другие транспортные средства, выбоины и дорожные опасности, что позволяет им лучше понимать окружающую обстановку. Они могут быстро принимать решения и безопасно передвигаться по дорогам, постоянно анализируя окружающую обстановку.
Рис. 4. Пример использования обнаружения объектов для обнаружения выбоин с помощью YOLO11.
Анализ медицинских изображений в здравоохранении
Такие методы медицинской визуализации, как рентген, МРТ, КТ и УЗИ, создают высокодетальные изображения человеческого тела, помогая диагностировать и лечить заболевания. Эти снимки содержат большое количество данных, которые врачи, такие как радиологи и патологоанатомы, должны тщательно проанализировать для выявления заболеваний. Однако детальный анализ каждого изображения может занять много времени, а специалисты иногда упускают детали из-за усталости или нехватки времени.
Модели обнаружения объектов, подобные YOLO11, помогают автоматически определять ключевые особенности на медицинских снимках, такие как органы, опухоли или аномалии, с высокой точностью. Настроенные модели могут выделять проблемные области с помощью ограничительных рамок, помогая врачам быстрее сосредоточиться на потенциальных проблемах. Это снижает рабочую нагрузку, повышает эффективность и обеспечивает быстрое получение информации.
Рис. 5. Анализ медицинских изображений с помощью YOLO11.
Повышение безопасности с помощью обнаружения лиц и аномалий
Отслеживание объектов - это задача компьютерного зрения, поддерживаемая YOLO11, позволяющая осуществлять мониторинг в реальном времени и повышать безопасность. Она основывается на обнаружении объектов, идентифицируя их и непрерывно отслеживая их перемещение по кадрам. Эта технология широко используется в системах видеонаблюдения для повышения безопасности в различных условиях.
Например, в школах и детских садах отслеживание объектов помогает следить за детьми и не давать им заблудиться. В системах безопасности оно играет ключевую роль в обнаружении нарушителей в запретных зонах, мониторинге толпы на предмет переполненности или подозрительного поведения, а также в отправке оповещений в режиме реального времени при обнаружении несанкционированной активности. Отслеживая перемещение объектов, системы слежения на базе YOLO11 повышают безопасность, автоматизируют мониторинг и позволяют быстрее реагировать на потенциальные угрозы.
Плюсы и минусы обнаружения объектов
Вот некоторые из ключевых преимуществ, которые может дать обнаружение объектов в различных отраслях промышленности:
Автоматизация: Обнаружение объектов может помочь уменьшить необходимость в человеческом контроле при выполнении таких задач, как мониторинг записей камер видеонаблюдения.
Работает с другими моделями ИИ: Его можно интегрировать с системами распознавания лиц, действий и слежения для повышения точности и функциональности.
Обработка в режиме реального времени: Многие модели обнаружения объектов, например YOLO11, работают быстро и эффективно, что делает их идеальными для приложений, работающих в режиме реального времени и требующих мгновенных результатов.
Хотя эти преимущества подчеркивают, как обнаружение объектов влияет на различные сценарии использования, важно также рассмотреть проблемы, связанные с его реализацией. Вот некоторые из ключевых проблем:
Конфиденциальность данных: Использование визуальных данных, особенно в таких деликатных областях, как наблюдение или здравоохранение, может вызвать вопросы конфиденциальности и безопасности.
Окклюзия: Окклюзия при обнаружении объектов возникает, когда объекты частично заслонены или скрыты от глаз, что затрудняет их точное обнаружение и классификацию моделью.
Дороговизна вычислений: для обработки высокопроизводительных моделей часто требуются мощные графические процессоры (GPU), что делает развертывание в реальном времени дорогостоящим.
Основные выводы
Обнаружение объектов - важнейший инструмент компьютерного зрения, который помогает машинам обнаруживать и находить объекты на изображениях и видео. Он используется в различных отраслях, от самодвижущихся автомобилей до здравоохранения, делая задачи проще, безопаснее и эффективнее. С помощью новых моделей, таких как YOLO11, компании могут легко создавать пользовательские модели обнаружения объектов для создания специализированных приложений компьютерного зрения.
Несмотря на некоторые сложности, такие как соображения конфиденциальности и скрытые от глаз объекты, обнаружение объектов - надежная технология. Ее способность автоматизировать задачи, обрабатывать визуальные данные в режиме реального времени и интегрироваться с другими инструментами Vision AI делает ее важной частью передовых инноваций.