Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Все, что вам нужно знать о задачах компьютерного зрения

Абирами Вина

4 мин чтения

16 апреля 2025 г.

Узнайте, как работают задачи компьютерного зрения, такие как отслеживание объектов, сегментация экземпляров и классификация изображений, и как Ultralytics YOLO11 поддерживает их.

Благодаря камерам и достижениям в области искусственного интеллекта (AI) компьютеры и машины теперь могут видеть мир так же, как и люди. Например, они могут распознавать людей, отслеживать объекты и даже понимать контекст происходящего на видео.

В частности, компьютерное зрение - это раздел ИИ, который позволяет машинам понимать и интерпретировать визуальную информацию из окружающего мира. Компьютерное зрение включает в себя множество задач, каждая из которых предназначена для извлечения определенного вида информации из изображений или видео. Например, обнаружение объектов помогает идентифицировать и находить различные элементы на изображении, в то время как другие задачи, такие как отслеживание, сегментация и оценка позы, помогают машинам более точно понимать движение, формы и положения.

Задача компьютерного зрения, используемая для конкретного приложения, зависит от типа необходимых вам данных. Модели компьютерного зрения, такие как Ultralytics YOLO11, поддерживают различные задачи компьютерного зрения, что делает их надежным выбором для создания реальных систем Vision AI.

В этом руководстве мы более подробно рассмотрим задачи компьютерного зрения, поддерживаемые такими моделями, как YOLO11. Мы рассмотрим, как работает каждая задача и как они используются в различных отраслях. Давайте начнем!

Что такое задачи компьютерного зрения?

Задачи компьютерного зрения направлены на воспроизведение способностей человеческого зрения различными способами. Эти задачи помогают машинам обнаруживать объекты, отслеживать их движения, оценивать позы и даже выделять отдельные элементы на изображениях и видео. Как правило, задачи компьютерного зрения реализуются с помощью моделей, которые разбивают визуальные данные на более мелкие части, чтобы можно было более четко интерпретировать происходящее. 

Модели Vision AI, такие как модели Ultralytics YOLO, поддерживают несколько задач, таких как обнаружение, отслеживание и сегментация, в одной структуре. Благодаря этой универсальности модели YOLO11 легко адаптируются для широкого спектра вариантов использования.

__wf_reserved_inherit
Рис. 1. Задачи компьютерного зрения, поддерживаемые YOLO11.

Хорошим примером этого является спортивная аналитика. YOLO11 можно использовать для обнаружения каждого игрока на поле с помощью обнаружения объектов, затем можно следить за ними на протяжении всего матча с помощью отслеживания объектов. Между тем, возможности оценки позы YOLO11 могут помочь проанализировать движения и технику игроков, а сегментация экземпляров может отделить каждого игрока от фона, добавляя точности анализу. 

Вместе эти задачи компьютерного зрения, реализованные с помощью YOLO11, создают полную картину происходящего во время игры, предоставляя командам более глубокое понимание производительности игроков, тактики и общей стратегии.

Обзор задач компьютерного зрения, поддерживаемых YOLO11

Теперь, когда мы рассмотрели задачи компьютерного зрения, давайте углубимся в понимание каждой из них, поддерживаемой YOLO11, более подробно, используя реальные примеры.

Поддержка классификации изображений в YOLO11

Когда вы смотрите на фотографию, большинство людей могут легко сказать, изображена ли на ней собака, гора или дорожный знак, потому что мы все научились тому, как эти вещи обычно выглядят. Классификация изображений помогает машинам делать то же самое, обучая их классифицировать и маркировать изображение на основе его основного объекта - будь то «автомобиль», «банан» или «рентгеновский снимок с переломом». Эта метка помогает системам компьютерного зрения понимать визуальный контент, чтобы они могли реагировать или принимать решения соответствующим образом.

Одним из интересных применений этой задачи компьютерного зрения является мониторинг дикой природы. Классификация изображений может быть использована для идентификации различных видов животных по фотографиям, сделанным в дикой природе. Автоматически маркируя изображения, исследователи могут отслеживать популяции, контролировать модели миграции и легче идентифицировать исчезающие виды для поддержки природоохранных мероприятий.

__wf_reserved_inherit
Рис. 2. Пример использования YOLO11 для классификации изображений.

Возможности object detection в YOLO11

Хотя классификация изображений полезна для получения общего представления о том, что содержит изображение, она присваивает только одну метку всему изображению. В ситуациях, когда требуется подробная информация, такая как точное местоположение и идентификация нескольких объектов, обнаружение объектов становится необходимым.

Обнаружение объектов — это процесс идентификации и локализации отдельных объектов на изображении, часто путем рисования ограничивающих рамок вокруг них. Ultralytics YOLO11 особенно хорошо справляется с обнаружением объектов в реальном времени, что делает его идеальным для широкого спектра применений.

Возьмем, к примеру, решения компьютерного зрения, используемые в розничных магазинах для пополнения полок. Обнаружение объектов может помочь подсчитать фрукты, овощи и другие товары, обеспечивая точную инвентаризацию. В сельскохозяйственных полях эта же технология может отслеживать созревание урожая, помогая фермерам определять лучшее время для сбора урожая, даже различая спелые и неспелые продукты.

__wf_reserved_inherit
Рис. 3. Обнаружение фруктов с использованием Ultralytics YOLO11.

Использование YOLO11 для сегментации экземпляров

Обнаружение объектов использует ограничивающие рамки для идентификации и локализации объектов на изображении, но не фиксирует их точные формы. Именно здесь вступает в дело сегментация экземпляров. Вместо того чтобы рисовать рамку вокруг объекта, сегментация экземпляров отслеживает его точный контур.

Это можно представить так: вместо того, чтобы просто указать, что «в этой области есть яблоко», он тщательно очерчивает и заполняет точную форму яблока. Этот детальный процесс помогает системам ИИ четко понимать границы объекта, особенно когда объекты находятся близко друг к другу.

Сегментация экземпляров может применяться во многих областях, от инспекции инфраструктуры до геологических исследований. Например, данные геологических исследований можно анализировать с помощью YOLO11 для сегментирования как крупных, так и мелких поверхностных трещин или аномалий. Проводя точные границы вокруг этих аномалий, инженеры могут выявлять проблемы и решать их до начала проекта. 

__wf_reserved_inherit
Рис. 4. Сегментация трещин с использованием YOLO11.

Отслеживание объектов: отслеживание объектов по кадрам с помощью YOLO11

До сих пор рассматриваемые нами задачи компьютерного зрения фокусировались на том, что находится на одном изображении. Однако, когда речь идет о видео, нам нужны сведения, выходящие за рамки одного кадра. Для этого можно использовать задачу отслеживания объектов.

Функция отслеживания объектов YOLO11 может следовать за определенным объектом, например человеком или автомобилем, по серии видеокадров. Даже если угол обзора камеры меняется или появляются другие объекты, система продолжает следить за той же целью. 

Это имеет решающее значение для приложений, требующих мониторинга во времени, таких как отслеживание автомобилей в транспортном потоке. Фактически, YOLO11 может точно отслеживать транспортные средства, сопровождая каждый автомобиль, чтобы помочь оценить его скорость в реальном времени. Это делает отслеживание объектов ключевым компонентом в таких системах, как мониторинг дорожного движения.

__wf_reserved_inherit
Рис. 5. Поддержка отслеживания объектов в YOLO11 может использоваться для оценки скорости.

Обнаружение ориентированных ограничивающих рамок (OBB) с использованием YOLO11

Объекты в реальном мире не всегда идеально выровнены — они могут быть наклонены, расположены боком или под странными углами. Например, на спутниковых снимках корабли и здания часто кажутся повернутыми. 

Традиционные методы обнаружения объектов используют фиксированные прямоугольные рамки, которые не подстраиваются под ориентацию объекта, что затрудняет точное захватывание этих повернутых форм. Обнаружение ориентированных ограничивающих рамок (OBB) решает эту проблему, используя рамки, которые поворачиваются, чтобы плотно прилегать к объекту, выравниваясь с его углом для более точного обнаружения.

Что касается мониторинга гаваней, поддержка YOLO11 обнаружения OBB может помочь точно идентифицировать и отслеживать суда независимо от их ориентации, гарантируя, что каждое судно, входящее или покидающее гавань, должным образом контролируется. Это точное обнаружение предоставляет информацию о местоположении и перемещении судов в режиме реального времени, что имеет решающее значение для управления загруженными портами и предотвращения столкновений.

__wf_reserved_inherit
Рис. 6. Обнаружение лодок с использованием OBB-детектирования и YOLO11.

Оценка позы и YOLO11: отслеживание ключевых точек 

Оценка позы — это метод компьютерного зрения, который отслеживает ключевые точки, такие как суставы, конечности или другие маркеры, чтобы понять, как движется объект. Вместо того, чтобы рассматривать весь объект или тело как единое целое, этот метод разбивает его на ключевые части. Это позволяет детально анализировать движения, жесты и взаимодействия.

Одним из распространенных применений этой технологии является оценка позы человека. Отслеживая положение различных частей тела в режиме реального времени, она дает четкое представление о том, как движется человек. Эта информация может быть использована для различных целей, от распознавания жестов и мониторинга активности до анализа производительности в спорте. 

В физической реабилитации терапевты могут использовать оценку позы человека и YOLO11 для мониторинга движений пациентов во время упражнений. Это помогает убедиться в правильности выполнения каждого движения и отслеживать прогресс с течением времени.

__wf_reserved_inherit
Рис. 7. YOLO11 может отслеживать тренировку, используя оценку позы.

Изучение того, как YOLO11 поддерживает различные задачи компьютерного зрения

Теперь, когда мы подробно изучили все задачи компьютерного зрения, поддерживаемые YOLO11, давайте рассмотрим, как YOLO11 их поддерживает. 

YOLO11 — это не просто одна модель, это набор специализированных вариантов моделей, каждая из которых предназначена для конкретной задачи компьютерного зрения. Это делает YOLO11 универсальным инструментом, который можно адаптировать к широкому спектру приложений. Вы также можете точно настроить эти модели на пользовательских наборах данных, чтобы решить уникальные задачи ваших проектов.

Вот варианты модели YOLO11, предварительно обученные для конкретных задач компьютерного зрения:

  • YOLO11: Эта модель обнаруживает и маркирует несколько объектов в режиме реального времени, что делает ее идеальной для высокоскоростного визуального распознавания.

  • YOLO11-seg: Этот вариант фокусируется на сегментации, используя подробные маски для отделения объектов от их фона.

  • YOLO11-obb: Эта модель предназначена для обнаружения повернутых объектов путем рисования ограничивающих рамок, которые выравниваются с ориентацией каждого объекта.

  • YOLO11-cls: Этот вариант классифицирует изображения, присваивая единую категорийную метку на основе общего содержания.

  • YOLO11-pose: Эта модель оценивает ключевые точки на теле для отслеживания осанки, положения конечностей и движения.

Каждый вариант доступен в разных размерах, что позволяет пользователям выбирать правильный баланс между скоростью и точностью для своих конкретных потребностей.

Основные выводы

Задачи компьютерного зрения меняют то, как машины понимают мир и взаимодействуют с ним. Разбивая изображения и видео на ключевые элементы, эти технологии упрощают детальный анализ объектов, движений и взаимодействий. 

От повышения безопасности дорожного движения и спортивных результатов до оптимизации промышленных процессов, модели, такие как YOLO11, могут предоставлять аналитические данные в реальном времени, которые стимулируют инновации. Поскольку Vision AI продолжает развиваться, он, вероятно, будет играть все более важную роль в том, как мы интерпретируем и используем визуальные данные каждый день.

Присоединяйтесь к нашему сообществу и посетите наш репозиторий на GitHub, чтобы увидеть ИИ в действии. Ознакомьтесь с нашими вариантами лицензирования и узнайте больше о применении ИИ в сельском хозяйстве и компьютерного зрения в производстве на страницах наших решений. 

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена