Все, что вам нужно знать о задачах компьютерного зрения

Абирами Вина

4 мин. чтения

16 апреля 2025 г.

Узнайте, как работают задачи компьютерного зрения, такие как отслеживание объектов, сегментация объектов и классификация изображений, и как Ultralytics YOLO11 поддерживает их.

Благодаря камерам и достижениям в области искусственного интеллекта (ИИ) компьютеры и машины теперь способны видеть мир так же, как и люди. Например, они могут распознавать людей, отслеживать объекты и даже понимать контекст происходящего на видео.

В частности, компьютерное зрение - это раздел искусственного интеллекта, позволяющий машинам понимать и интерпретировать визуальную информацию из окружающего мира. Компьютерное зрение включает в себя множество задач, каждая из которых предназначена для извлечения определенного вида информации из изображений или видео. Например, обнаружение объектов помогает идентифицировать и определить местоположение различных предметов на изображении, а другие задачи, такие как отслеживание, сегментация и оценка положения, помогают машинам более точно понять движение, форму и положение.

Задача компьютерного зрения, используемая в конкретном приложении, зависит от типа информации, которая вам нужна. Модели компьютерного зрения, подобные Ultralytics YOLO11, поддерживают различные задачи компьютерного зрения, что делает их надежным выбором для создания систем ИИ реального мира.

В этом руководстве мы подробно рассмотрим задачи компьютерного зрения, поддерживаемые моделями типа YOLO11. Мы узнаем, как работает каждая задача и как они используются в различных отраслях. Давайте начнем!

Что такое задачи компьютерного зрения?

Задачи компьютерного зрения направлены на то, чтобы воспроизвести человеческое зрение различными способами. Эти задачи помогают машинам обнаруживать объекты, отслеживать их перемещения, оценивать позы и даже выделять отдельные элементы на изображениях и видео. Как правило, задачи компьютерного зрения решаются с помощью моделей, которые разбивают визуальные данные на более мелкие части, чтобы они могли более четко интерпретировать происходящее. 

Модели ИИ зрения, такие как модели Ultralytics YOLO, поддерживают множество задач, таких как обнаружение, отслеживание и сегментация, в рамках одной структуры. Благодаря этой универсальности модели YOLO11 легко использовать в самых разных случаях.

__wf_reserved_inherit
Рис. 1. Задачи компьютерного зрения, поддерживаемые YOLO11.

Хороший пример - спортивная аналитика. YOLO11 можно использовать для обнаружения каждого игрока на поле с помощью функции распознавания объектов, а затем следить за ними на протяжении всего матча с помощью функции отслеживания объектов. При этом возможности YOLO11 по оценке позы помогут проанализировать движения и технику игроков, а сегментация экземпляров позволит отделить каждого игрока от фона, добавив точности анализу. 

Вместе эти задачи компьютерного зрения с поддержкой YOLO11 создают полную картину происходящего во время игры, позволяя командам глубже понять игру игроков, тактику и общую стратегию.

Обзор задач компьютерного зрения, поддерживаемых YOLO11

Теперь, когда мы рассмотрели, что такое задачи компьютерного зрения, давайте более подробно разберем каждую из них, поддерживаемую YOLO11, на реальных примерах.

Поддержка классификации изображений в YOLO11

Взглянув на фотографию, большинство людей могут легко определить, изображена ли на ней собака, гора или дорожный знак, потому что все мы знаем, как эти вещи обычно выглядят. Классификация изображений помогает машинам делать то же самое, обучая их классифицировать и маркировать изображение на основе его основного объекта - будь то "автомобиль", "банан" или "рентгеновский снимок с переломом". Такая маркировка помогает системам компьютерного зрения понять визуальный контент, чтобы они могли реагировать или принимать решения соответствующим образом.

Одним из интересных применений этой задачи компьютерного зрения является мониторинг дикой природы. Классификация изображений может быть использована для идентификации различных видов животных по фотографиям, сделанным в дикой природе. Автоматически маркируя изображения, исследователи могут отслеживать популяции, наблюдать за миграционными процессами и легче идентифицировать исчезающие виды для поддержки усилий по сохранению природы.

__wf_reserved_inherit
Рис. 2. Пример использования YOLO11 для классификации изображений.

Возможности YOLO11 по обнаружению объектов

Хотя классификация изображений полезна для получения общего представления о том, что содержит изображение, она присваивает только одну метку всему изображению. В ситуациях, когда требуется подробная информация, например, точное местоположение и идентичность нескольких объектов, обнаружение объектов становится необходимым.

Обнаружение объектов - это процесс идентификации и определения местоположения отдельных объектов на изображении, часто путем рисования ограничительных рамок вокруг них. Ultralytics YOLO11 особенно хорошо справляется с обнаружением объектов в режиме реального времени, что делает его идеальным для широкого спектра приложений.

Например, решения на основе компьютерного зрения, используемые в розничных магазинах для инвентаризации полок. Обнаружение объектов помогает подсчитать количество фруктов, овощей и других товаров, обеспечивая точный учет. На сельскохозяйственных полях эта же технология может отслеживать зрелость культур, помогая фермерам определять оптимальное время сбора урожая, даже различать спелые и недозрелые продукты.

__wf_reserved_inherit
Рис. 3. Обнаружение фруктов с помощью Ultralytics YOLO11.

Использование YOLO11 для сегментации экземпляров

При обнаружении объектов используются ограничительные рамки для идентификации и определения местоположения объектов на изображении, но они не передают их точную форму. Именно здесь на помощь приходит сегментация экземпляров. Вместо того чтобы рисовать рамку вокруг объекта, сегментация экземпляров отслеживает его точные очертания.

Можно представить это так: вместо того чтобы просто указать, что "в этой области есть яблоко", он тщательно очерчивает и заполняет точную форму яблока. Такой детальный процесс помогает системам искусственного интеллекта четко понимать границы объекта, особенно когда объекты находятся близко друг к другу.

Сегментация экземпляров может применяться во многих приложениях, от инспекции инфраструктуры до геологических исследований. Например, данные геологических исследований можно анализировать с помощью YOLO11, чтобы сегментировать как крупные, так и мелкие поверхностные трещины или аномалии. Проводя точные границы вокруг этих аномалий, инженеры могут точно определить проблемы и устранить их до начала реализации проекта. 

__wf_reserved_inherit
Рис. 4. Сегментация трещин с помощью YOLO11.

Отслеживание объектов: Слежение за объектами в разных кадрах с помощью YOLO11

До сих пор мы рассматривали задачи компьютерного зрения, ориентированные на то, что находится на одном изображении. Однако когда речь идет о видео, нам нужны знания, выходящие за рамки одного кадра. Для этого можно использовать задачу отслеживания объектов.

Функция отслеживания объектов YOLO11 позволяет следить за конкретным объектом, например человеком или автомобилем, по мере его перемещения в серии видеокадров. Даже если угол камеры меняется или появляются другие объекты, система продолжает следить за одной и той же целью. 

Это очень важно для приложений, требующих мониторинга в течение длительного времени, например, для отслеживания автомобилей в пробках. Фактически YOLO11 может точно отслеживать транспортные средства, следуя за каждым автомобилем, чтобы помочь оценить его скорость в режиме реального времени. Это делает отслеживание объектов ключевым компонентом в таких системах, как мониторинг дорожного движения.

__wf_reserved_inherit
Рис. 5. Поддержка YOLO11 для отслеживания объектов может быть использована для оценки скорости.

Обнаружение ориентированных ограничительных коробок (OBB) с помощью YOLO11

Объекты в реальном мире не всегда идеально выровнены - они могут быть наклонены, сдвинуты в сторону или расположены под странными углами. Например, на спутниковых снимках корабли и здания часто кажутся повернутыми. 

Традиционные методы обнаружения объектов используют фиксированные прямоугольные рамки, которые не подстраиваются под ориентацию объекта, что затрудняет точную фиксацию этих повернутых фигур. Обнаружение ориентированных ограничительных рамок (OBB) решает эту проблему, используя рамки, которые поворачиваются, чтобы плотно прилегать к объекту, выравниваясь по его углу для более точного обнаружения.

Что касается мониторинга портов, то поддержка обнаружения OBB в YOLO11 позволяет точно идентифицировать и отслеживать суда независимо от их ориентации, обеспечивая надлежащее наблюдение за каждым судном, входящим в порт или выходящим из него. Такое точное обнаружение позволяет в режиме реального времени получать информацию о положении и движении судов, что очень важно для управления загруженными портами и предотвращения столкновений.

__wf_reserved_inherit
Рис. 6. Обнаружение лодок с помощью обнаружения OBB и YOLO11.

Оценка позы и YOLO11: отслеживание ключевых точек 

Оценка позы - это метод компьютерного зрения, который отслеживает ключевые точки, такие как суставы, конечности или другие маркеры, чтобы понять, как движется объект. Вместо того чтобы рассматривать весь объект или тело как единое целое, этот метод разбивает его на ключевые части. Это позволяет детально анализировать движения, жесты и взаимодействие.

Одним из распространенных применений этой технологии является оценка позы человека. Отслеживая положение различных частей тела в реальном времени, она позволяет получить четкое представление о том, как движется человек. Эта информация может быть использована в самых разных целях - от распознавания жестов и мониторинга активности до анализа спортивных результатов. 

Аналогично, в процессе физической реабилитации терапевты могут использовать оценку позы человека и YOLO11 для контроля движений пациентов во время упражнений. Это помогает убедиться, что каждое движение выполняется правильно, и отслеживать прогресс с течением времени.

__wf_reserved_inherit
Рис. 7. YOLO11 может следить за тренировкой, используя оценку позы.

Изучение того, как YOLO11 поддерживает различные задачи компьютерного зрения

Теперь, когда мы подробно рассмотрели все задачи компьютерного зрения, поддерживаемые YOLO11, давайте разберемся, как YOLO11 их поддерживает. 

YOLO11 - это не просто одна модель, это набор специализированных вариантов моделей, каждая из которых предназначена для решения конкретных задач компьютерного зрения. Это делает YOLO11 универсальным инструментом, который может быть адаптирован к широкому спектру приложений. Вы также можете точно настроить эти модели на пользовательских наборах данных для решения уникальных задач ваших проектов.

Здесь представлены варианты модели YOLO11, предварительно обученные для решения конкретных задач по зрению:

  • YOLO11: Эта модель обнаруживает и маркирует несколько объектов в режиме реального времени, что делает ее идеальной для высокоскоростного визуального распознавания.

  • YOLO11-seg: В этом варианте основное внимание уделяется сегментации с использованием детальных масок для отделения объектов от фона.

  • YOLO11-obb: Эта модель предназначена для обнаружения повернутых объектов путем рисования ограничительных рамок, которые соответствуют ориентации каждого объекта.

  • YOLO11-cls: Этот вариант классифицирует изображения, присваивая им метку одной категории на основе общего содержания.

  • YOLO11-pose: эта модель оценивает ключевые точки на теле для отслеживания осанки, положения конечностей и движений.

Каждый вариант доступен в разных размерах, что позволяет пользователям выбрать оптимальный баланс между скоростью и точностью для своих конкретных нужд.

Основные выводы

Задачи компьютерного зрения меняют способы понимания и взаимодействия машин с миром. Разбивая изображения и видео на ключевые элементы, эти технологии облегчают детальный анализ объектов, движений и взаимодействий. 

Модели, подобные YOLO11, позволяют в режиме реального времени получать информацию, способствующую инновациям, - от повышения безопасности дорожного движения и улучшения спортивных результатов до оптимизации промышленных процессов. По мере развития ИИ Vision AI будет играть все более важную роль в том, как мы интерпретируем и используем визуальные данные каждый день.

Присоединяйтесь к нашему сообществу и посетите наш репозиторий GitHub, чтобы увидеть ИИ в действии. Изучите наши варианты лицензирования и узнайте больше об ИИ в сельском хозяйстве и компьютерном зрении в производстве на страницах наших решений. 

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена