Руководство по глубокому погружению в обнаружение объектов в 2025 году
Узнай об обнаружении объектов, его важности для ИИ и о том, как такие модели, как YOLO11, трансформируют такие отрасли, как самоуправляемые автомобили, здравоохранение и безопасность.

Многие отрасли стремительно внедряют решения на базе искусственного интеллекта (ИИ) в свою деятельность. Среди множества доступных сегодня технологий ИИ компьютерное зрение является одной из самых популярных. Компьютерное зрение — это область ИИ, которая помогает компьютерам видеть и понимать содержимое изображений и видео, подобно тому, как это делают люди. Это позволяет машинам распознавать объекты, выявлять закономерности и осмыслять то, что они видят.
Ожидается, что мировая рыночная стоимость компьютерного зрения вырастет до 175,72 млрд долларов к 2032 году. Компьютерное зрение охватывает различные задачи, которые позволяют системам визуального ИИ анализировать и интерпретировать визуальные данные. Одной из наиболее широко используемых и важных задач компьютерного зрения является обнаружение объектов.
Обнаружение объектов фокусируется на локализации и классификации объектов на визуальных данных. Например, если ты покажешь компьютеру изображение коровы, он сможет обнаружить ее и нарисовать вокруг нее ограничивающую рамку (bounding box). Эта способность полезна в реальных задачах, таких как мониторинг животных, беспилотные автомобили и видеонаблюдение.
Итак, как можно реализовать обнаружение объектов? Один из способов — использование моделей компьютерного зрения. Например, Ultralytics YOLO11 — это модель компьютерного зрения, которая поддерживает такие задачи, как обнаружение объектов.
В этом руководстве мы рассмотрим обнаружение объектов и принцип его работы. Мы также обсудим некоторые практические применения обнаружения объектов и Ultralytics YOLO11.

Рис. 1. Использование поддержки YOLO11 для обнаружения объектов при мониторинге скота.
Link to this sectionЧто такое обнаружение объектов?#
Обнаружение объектов — это задача компьютерного зрения, которая идентифицирует и находит объекты на изображениях или видео. Она отвечает на два ключевых вопроса: «Какие объекты есть на изображении?» и «Где они находятся?»
Ты можешь воспринимать обнаружение объектов как процесс, состоящий из двух основных этапов. Первый, классификация объектов, позволяет системе распознавать и помечать объекты, например, определять кошку, автомобиль или человека на основе изученных шаблонов. Второй, локализация, определяет положение объекта, рисуя ограничивающую рамку вокруг него, показывая, где он находится на изображении. Вместе эти этапы позволяют машинам обнаруживать и понимать объекты на сцене.
Аспект обнаружения объектов, который делает его уникальным, — это способность распознавать объекты и точно определять их местоположение. Другие задачи компьютерного зрения фокусируются на иных целях.
Например, классификация изображений присваивает метку всему изображению целиком. В то же время сегментация изображений обеспечивает понимание различных элементов на уровне пикселей. С другой стороны, обнаружение объектов сочетает распознавание с локализацией. Это делает его особенно полезным для таких задач, как подсчет множества объектов в режиме реального времени.

Рис. 2. Сравнение задач компьютерного зрения.
Link to this sectionРаспознавание объектов против обнаружения объектов#
Изучая различные термины компьютерного зрения, ты можешь почувствовать, что распознавание объектов и обнаружение объектов — это взаимозаменяемые понятия, но они служат разным целям. Отличный способ понять разницу — посмотреть на обнаружение лиц и распознавание лиц.
Обнаружение лиц — это тип обнаружения объектов. Оно выявляет наличие лица на изображении и отмечает его местоположение с помощью ограничивающей рамки. Оно отвечает на вопрос: «Где на изображении находится лицо?» Эта технология обычно используется в камерах смартфонов, которые автоматически фокусируются на лицах, или в камерах безопасности, обнаруживающих присутствие человека.
Распознавание лиц, с другой стороны, является формой распознавания объектов. Оно не просто обнаруживает лицо; оно идентифицирует, чье это лицо, анализируя уникальные признаки и сравнивая их с базой данных. Оно отвечает на вопрос: «Кто этот человек?» Это технология, лежащая в основе разблокировки телефона с помощью Face ID или систем безопасности аэропортов, которые проверяют личности.
Проще говоря, обнаружение объектов находит и локализует объекты, тогда как распознавание объектов классифицирует и идентифицирует их.

Рис 3. Обнаружение объектов против распознавания объектов. Изображение автора.
Многие модели обнаружения объектов, такие как YOLO11, разработаны для поддержки обнаружения лиц, но не распознавания лиц. YOLO11 может эффективно выявлять наличие лица на изображении и рисовать вокруг него ограничивающую рамку, что полезно для таких приложений, как системы видеонаблюдения, мониторинг толпы и автоматическая пометка фотографий. Однако он не может определить, чье это лицо. YOLO11 можно интегрировать с моделями, специально обученными для распознавания лиц, такими как Facenet или DeepFace, чтобы реализовать и обнаружение, и идентификацию в одной системе.
Link to this sectionПонимание принципов работы обнаружения объектов#
Прежде чем мы обсудим принцип работы обнаружения объектов, давай сначала подробнее рассмотрим, как компьютер анализирует изображение. Вместо того чтобы видеть изображение так, как мы, компьютер разбивает его на сетку крошечных квадратов, называемых пикселями. Каждый пиксель содержит информацию о цвете и яркости, которую компьютеры могут обрабатывать для интерпретации визуальных данных.
Чтобы осмыслить эти пиксели, алгоритмы группируют их в значимые области на основе формы, цвета и близости друг к другу. Модели обнаружения объектов, такие как YOLO11, могут распознавать паттерны или признаки в этих группах пикселей.
Например, беспилотный автомобиль видит пешехода не так, как мы — он обнаруживает формы и паттерны, которые соответствуют признакам пешехода. Эти модели полагаются на обширное обучение с использованием размеченных наборов данных изображений, что позволяет им изучать отличительные характеристики таких объектов, как автомобили, дорожные знаки и люди.
Типичная модель обнаружения объектов состоит из трех ключевых частей: backbone (основа), neck (шея) и head (голова). Основа извлекает важные признаки из изображения. Шея обрабатывает и уточняет эти признаки, а голова отвечает за предсказание местоположения объектов и их классификацию.
Link to this sectionУточнение результатов обнаружения и их представление#
После того как сделаны первоначальные обнаружения, применяются методы постобработки для улучшения точности и фильтрации избыточных предсказаний. Например, перекрывающиеся ограничивающие рамки удаляются, чтобы остались только наиболее релевантные результаты. Кроме того, каждому обнаруженному объекту присваиваются оценки достоверности (числовые значения, представляющие уверенность модели в том, что обнаруженный объект принадлежит к определенному классу), чтобы указать на точность предсказаний модели.
Наконец, результат представляется с ограничивающими рамками вокруг обнаруженных объектов, вместе с их предсказанными метками классов и оценками достоверности. Эти результаты затем могут быть использованы для практических задач.
Link to this sectionПопулярные модели обнаружения объектов#
Сегодня доступно множество моделей компьютерного зрения, и одними из самых популярных являются модели Ultralytics YOLO. Они известны своей скоростью, точностью и универсальностью. С годами эти модели стали быстрее, точнее и способнее решать более широкий спектр задач. Выпуск Ultralytics YOLOv5 упростил развертывание с помощью таких фреймворков, как PyTorch, позволив большему количеству людей использовать продвинутый визуальный ИИ без необходимости глубоких технических знаний.
Развивая эту основу, Ultralytics YOLOv8 представила новые функции, такие как сегментация экземпляров, оценка позы и классификация изображений. Сейчас YOLO11 идет еще дальше, обеспечивая лучшую производительность при решении различных задач. Обладая на 22% меньшим количеством параметров, чем YOLOv8m, YOLO11m достигает более высокого среднего значения точности (mAP) на наборе данных COCO. Проще говоря, YOLO11 может распознавать объекты с большей точностью, используя при этом меньше ресурсов, что делает его быстрее и надежнее.
Независимо от того, являешься ли ты экспертом в области ИИ или только начинаешь, YOLO11 предлагает мощное, но удобное решение для задач компьютерного зрения.
Link to this sectionОбучение модели под свои задачи (Custom-training) для обнаружения объектов#
Обучение моделей визуального ИИ включает в себя помощь компьютерам в распознавании и понимании изображений и видео. Однако обучение может быть трудоемким процессом. Вместо того чтобы начинать с нуля, трансферное обучение ускоряет процесс, используя предобученные модели, которые уже распознают общие шаблоны.
Например, YOLO11 уже был обучен на наборе данных COCO, который содержит разнообразный набор повседневных объектов. Эту предобученную модель можно дополнительно дообучить для обнаружения специфических объектов, которые могут отсутствовать в исходном наборе данных.
Чтобы дообучить YOLO11, тебе нужен размеченный набор данных, содержащий изображения объектов, которые ты хочешь обнаруживать. Например, если ты хочешь создать модель для идентификации различных видов фруктов в продуктовом магазине, тебе нужно создать набор данных с размеченными изображениями яблок, бананов, апельсинов и т. д. Как только набор данных готов, YOLO11 можно обучать, настраивая такие параметры, как размер пакета (batch size), скорость обучения (learning rate) и количество эпох, для оптимизации производительности.
С таким подходом компании могут обучить YOLO11 обнаруживать что угодно: от бракованных деталей на производстве до видов диких животных в природоохранных проектах, адаптируя модель под свои точные нужды.
Link to this sectionПрименения обнаружения объектов#
Далее давай рассмотрим некоторые реальные сценарии использования обнаружения объектов и то, как оно трансформирует различные отрасли.
Link to this sectionОбнаружение опасностей для автономного вождения#
Беспилотные автомобили используют задачи компьютерного зрения, такие как обнаружение объектов, для безопасной навигации и предотвращения столкновений с препятствиями. Эта технология помогает им распознавать пешеходов, другие транспортные средства, выбоины и дорожные опасности, позволяя лучше понимать окружающую обстановку. Они могут принимать быстрые решения и безопасно двигаться в потоке машин, постоянно анализируя окружающую среду.

Рис. 4. Пример использования обнаружения объектов для выявления выбоин с помощью YOLO11.
Link to this sectionАнализ медицинских изображений в здравоохранении#
Методы медицинской визуализации, такие как рентген, МРТ, КТ и УЗИ, создают высокодетализированные изображения человеческого тела, помогая диагностировать и лечить заболевания. Эти сканы производят огромное количество данных, которые врачи, такие как радиологи и патологоанатомы, должны тщательно анализировать для обнаружения болезней. Однако детальный просмотр каждого изображения может отнимать много времени, а эксперты-люди иногда могут упустить детали из-за усталости или нехватки времени.
Модели обнаружения объектов, такие как YOLO11, могут помочь, автоматически выявляя ключевые особенности на медицинских сканах, такие как органы, опухоли или аномалии, с высокой точностью. Дообученные модели могут подсвечивать области, вызывающие беспокойство, с помощью ограничивающих рамок, помогая врачам быстрее сосредоточиться на потенциальных проблемах. Это снижает рабочую нагрузку, повышает эффективность и обеспечивает быстрое получение выводов.

Рис. 5. Анализ медицинских изображений с использованием YOLO11.
Link to this sectionПовышение безопасности с помощью обнаружения людей и аномалий#
Отслеживание объектов — это задача компьютерного зрения, поддерживаемая YOLO11, обеспечивающая мониторинг в реальном времени и повышение безопасности. Она основана на обнаружении объектов путем идентификации объектов и непрерывного отслеживания их перемещения между кадрами. Эта технология широко используется в системах видеонаблюдения для повышения безопасности в различных условиях.
Например, в школах и детских садах отслеживание объектов может помочь следить за детьми и не давать им уходить в неизвестном направлении. В системах безопасности она играет ключевую роль в обнаружении злоумышленников в закрытых зонах, мониторинге скоплений людей на предмет переполненности или подозрительного поведения, а также отправке оповещений в реальном времени при обнаружении несанкционированной активности. Отслеживая объекты по мере их перемещения, системы слежения на базе YOLO11 повышают уровень безопасности, автоматизируют мониторинг и позволяют быстрее реагировать на потенциальные угрозы.
Link to this sectionПлюсы и минусы обнаружения объектов#
Вот некоторые из ключевых преимуществ, которые обнаружение объектов может принести различным отраслям:
- Автоматизация: Обнаружение объектов может помочь сократить потребность в контроле со стороны человека при решении таких задач, как мониторинг записей камер видеонаблюдения.
- Работа с другими моделями ИИ: Его можно интегрировать с системами распознавания лиц, распознавания действий и отслеживания для повышения точности и функциональности.
- Обработка в реальном времени: Многие модели обнаружения объектов, такие как YOLO11, быстры и эффективны, что делает их идеальными для приложений реального времени, требующих мгновенных результатов.
Хотя эти преимущества подчеркивают влияние обнаружения объектов на различные сценарии использования, важно также учитывать проблемы, связанные с его внедрением. Вот некоторые из ключевых проблем:
-
Конфиденциальность данных: Использование визуальных данных, особенно в чувствительных областях, таких как наблюдение или здравоохранение, может вызвать проблемы с конфиденциальностью и вопросы безопасности.
-
Окклюзия: Окклюзия при обнаружении объектов возникает, когда объекты частично перекрыты или скрыты из вида, что затрудняет их точное обнаружение и классификацию моделью.
-
Высокие вычислительные затраты: Высокопроизводительные модели часто требуют мощных GPU (графических процессоров) для обработки, что делает развертывание в реальном времени дорогостоящим.
Link to this sectionОсновные выводы#
Обнаружение объектов — это революционный инструмент компьютерного зрения, который помогает машинам находить и определять местоположение объектов на изображениях и видео. Оно используется в самых разных секторах: от беспилотных автомобилей до здравоохранения, делая задачи проще, безопаснее и эффективнее. Благодаря новым моделям, таким как YOLO11, компании могут легко создавать специализированные модели обнаружения объектов для реализации целевых приложений компьютерного зрения.
Несмотря на наличие некоторых проблем, таких как вопросы конфиденциальности и перекрытие объектов, обнаружение объектов является надежной технологией. Ее способность автоматизировать задачи, обрабатывать визуальные данные в реальном времени и интегрироваться с другими инструментами визуального ИИ делает ее неотъемлемой частью передовых инноваций.
Чтобы узнать больше, посети наш GitHub репозиторий и пообщайся с нашим сообществом. Изучи инновации в таких секторах, как ИИ в беспилотных автомобилях и компьютерное зрение в сельском хозяйстве, на наших страницах решений. Ознакомься с нашими вариантами лицензирования YOLO и воплоти свои проекты в области визуального ИИ в жизнь. 🚀






