Зелёная проверка
Ссылка копируется в буфер обмена

Все, что тебе нужно знать о задачах по компьютерному зрению

Узнай, как работают такие задачи компьютерного зрения, как отслеживание объектов, сегментация экземпляров и классификация изображений, и как Ultralytics YOLO11 поддерживает их.

Благодаря камерам и достижениям в области искусственного интеллекта (ИИ) компьютеры и машины теперь способны видеть мир так, как это делают люди. Например, они могут распознавать людей, отслеживать объекты и даже понимать контекст происходящего на видео.

В частности, компьютерное зрение - это отрасль ИИ, которая позволяет машинам понимать и интерпретировать визуальную информацию из окружающего мира. Компьютерное зрение включает в себя множество задач, каждая из которых предназначена для извлечения определенного вида информации из изображений или видео. Например, обнаружение объектов помогает идентифицировать и определить местоположение различных предметов на картинке, а другие задачи, такие как отслеживание, сегментация и оценка позы, помогают машинам более точно понимать движение, формы и положения.

Задача компьютерного зрения, используемая для конкретного приложения, зависит от типа понимания, которое тебе нужно. Такие модели компьютерного зрения, как Ultralytics YOLO11 поддерживают различные задачи компьютерного зрения, что делает их надежным выбором для построения систем ИИ реального мира.

В этом руководстве мы подробно рассмотрим задачи компьютерного зрения, которые поддерживаются моделями вроде YOLO11. Мы изучим, как работает каждая задача и как они используются в разных отраслях. Давай приступим!

Что такое задачи компьютерного зрения?

Задачи компьютерного зрения направлены на то, чтобы различными способами воспроизвести способности человеческого зрения. Эти задачи могут помочь машинам обнаруживать объекты, отслеживать их движения, оценивать позы и даже очерчивать отдельные элементы на изображениях и видео. Как правило, задачи компьютерного зрения решаются с помощью моделей, которые разбивают визуальные данные на более мелкие части, чтобы они могли более четко интерпретировать происходящее. 

Модели ИИ зрения, такие как модели Ultralytics YOLO , поддерживают множество задач, таких как обнаружение, отслеживание и сегментация, в одной структуре. Благодаря такой универсальности модели YOLO11 легко использовать в самых разных случаях.

Рис. 1. Задачи компьютерного зрения, поддерживаемые YOLO11.

Хороший пример - спортивная аналитика. YOLO11 можно использовать для обнаружения каждого игрока на поле с помощью функции распознавания объектов, а затем следить за ними на протяжении всего матча с помощью функции отслеживания объектов. При этом возможности YOLO11 по оценке позы помогут проанализировать движения и технику игроков, а сегментация экземпляров позволит отделить каждого игрока от фона, добавив точности анализу. 

Вместе эти задачи компьютерного зрения YOLO11 создают полную картину происходящего во время игры, давая командам более глубокие представления о производительности игроков, тактике и общей стратегии.

Обзор задач компьютерного зрения, поддерживаемых YOLO11

Теперь, когда мы рассмотрели, что такое задачи компьютерного зрения, давай погрузимся в понимание каждой из них, поддерживаемой YOLO11 , более подробно, на реальных примерах.

Поддержка YOLO11для классификации изображений

Когда ты смотришь на фотографию, большинство людей легко могут сказать, изображена ли на ней собака, гора или дорожный знак, потому что мы все выучили, как эти вещи обычно выглядят. Классификация изображений помогает машинам делать то же самое, обучая их классифицировать и маркировать изображение на основе его главного объекта - будь то "автомобиль", "банан" или "рентгеновский снимок с переломом". Эта маркировка помогает системам компьютерного зрения понять визуальный контент, чтобы они могли реагировать или принимать решения соответствующим образом.

Одно из интересных применений этой задачи компьютерного зрения - мониторинг дикой природы. Классификация изображений может быть использована для идентификации различных видов животных по фотографиям, сделанным в дикой природе. Автоматически маркируя изображения, исследователи могут отслеживать популяции, следить за миграционными процессами и легче идентифицировать исчезающие виды, чтобы поддержать усилия по сохранению природы.

Рис. 2. Пример использования YOLO11 для классификации изображений.

Возможности YOLO11по обнаружению объектов

Хотя классификация изображений полезна для получения общего представления о том, что содержит изображение, она присваивает только одну метку всему изображению. В ситуациях, когда требуется подробная информация, например точное местоположение и идентичность нескольких объектов, обнаружение объектов становится просто необходимым.

Обнаружение объектов - это процесс идентификации и определения местоположения отдельных объектов на изображении, часто с помощью рисования ограничительных рамок вокруг них. Ultralytics YOLO11 особенно хорошо справляется с обнаружением объектов в режиме реального времени, что делает его идеальным для широкого спектра приложений.

Возьмем, к примеру, решения на основе компьютерного зрения, используемые в розничных магазинах для инвентаризации полок. Обнаружение объектов помогает подсчитывать фрукты, овощи и другие товары, обеспечивая точность инвентаризации. На сельскохозяйственных полях та же технология может отслеживать зрелость культур, чтобы помочь фермерам определить лучшее время для сбора урожая, даже различая спелые и недозрелые продукты.

Рис. 3. Обнаружение фруктов с помощью Ultralytics YOLO11.

Использование YOLO11 для сегментации экземпляров

При обнаружении объектов используются ограничительные рамки, чтобы идентифицировать и определить местоположение объектов на изображении, но они не передают их точные формы. Вот тут-то и приходит на помощь сегментация экземпляров. Вместо того чтобы рисовать рамку вокруг объекта, сегментация экземпляров прослеживает его точные очертания.

Ты можешь думать об этом так: вместо того чтобы просто указать, что "в этой области есть яблоко", он тщательно очерчивает и заполняет точную форму яблока. Этот детальный процесс помогает системам ИИ четко понимать границы объекта, особенно когда объекты находятся близко друг к другу.

Сегментация экземпляров может применяться во многих приложениях, начиная от инспекции инфраструктуры и заканчивая геологическими исследованиями. Например, данные геологических исследований можно анализировать с помощью YOLO11 , чтобы сегментировать как крупные, так и мелкие поверхностные трещины или аномалии. Проводя точные границы вокруг этих аномалий, инженеры могут точно определить проблемы и решить их еще до начала проекта. 

Рис. 4. Сегментация трещин YOLO11.

Слежение за объектами: Отслеживание объектов по кадрам с помощью YOLO11

До сих пор задачи компьютерного зрения, которые мы рассматривали, фокусировались на том, что находится на одном изображении. Однако когда речь идет о видео, нам нужны сведения, выходящие за рамки одного кадра. Для этого можно использовать задачу " Отслеживание объектов".

Способность YOLO11 отслеживать объекты позволяет следить за конкретным объектом, например человеком или машиной, по мере его перемещения по серии видеокадров. Даже если угол камеры меняется или появляются другие объекты, система продолжает следить за одной и той же целью. 

Это очень важно для приложений, которые требуют мониторинга в течение долгого времени, например, для отслеживания автомобилей в пробках. На самом деле YOLO11 может точно отслеживать транспортные средства, следуя за каждым автомобилем, чтобы помочь оценить его скорость в реальном времени. Это делает отслеживание объектов ключевым компонентом в таких системах, как мониторинг дорожного движения.

Рис. 5. Поддержка YOLO11в отслеживании объектов может быть использована для оценки скорости.

Обнаружение ориентированных ограничительных коробок (OBB) с помощью YOLO11

Объекты в реальном мире не всегда идеально выровнены - они могут быть наклонены, сдвинуты в сторону или расположены под странными углами. Например, на спутниковых снимках корабли и здания часто кажутся повернутыми. 

Традиционные методы обнаружения объектов используют фиксированные прямоугольные рамки, которые не подстраиваются под ориентацию объекта, что затрудняет точное определение этих повернутых фигур. Обнаружение ориентированных ограничивающих боксов (OBB) решает эту проблему, используя боксы, которые поворачиваются, чтобы плотно прилегать к объекту, выравниваясь по его углу для более точного обнаружения.

Что касается мониторинга портов, то поддержка обнаружения OBB в YOLO11помогает точно идентифицировать и отслеживать суда независимо от их ориентации, обеспечивая надлежащее наблюдение за каждым судном, входящим в порт или выходящим из него. Такое точное обнаружение позволяет в режиме реального времени получать информацию о положении и движении судов, что крайне важно для управления загруженными портами и предотвращения столкновений.

Рис. 6. Обнаружение лодок с помощью OBB detection и YOLO11.

Оценка позы и YOLO11: отслеживание ключевых точек 

Оценка позы - это техника компьютерного зрения, которая отслеживает ключевые точки, такие как суставы, конечности или другие маркеры, чтобы понять, как движется объект. Вместо того чтобы рассматривать весь объект или тело как единое целое, этот метод разбивает его на ключевые части. Это позволяет детально анализировать движения, жесты и взаимодействия.

Одно из распространенных применений этой технологии - оценка позы человека. Отслеживая положение различных частей тела в реальном времени, она позволяет получить четкое представление о том, как движется человек. Эту информацию можно использовать для самых разных целей, от распознавания жестов и мониторинга активности до анализа спортивных результатов. 

Аналогично, в физической реабилитации терапевты могут использовать оценку позы человека и YOLO11 , чтобы следить за движениями пациентов во время упражнений. Это помогает убедиться, что каждое движение выполняется правильно, и при этом отслеживать прогресс со временем.

Рис. 7. YOLO11 может следить за тренировкой, используя оценку позы.

Изучение того, как YOLO11 поддерживает различные задачи компьютерного зрения

Теперь, когда мы подробно изучили все задачи компьютерного зрения, поддерживаемые YOLO11 , давай пройдемся по тому, как YOLO11 их поддерживает. 

YOLO11 - это не просто одна модель - это набор специализированных вариантов моделей, каждая из которых предназначена для решения конкретной задачи компьютерного зрения. Это делает YOLO11 универсальным инструментом, который можно адаптировать к широкому спектру приложений. Ты также можешь точно настроить эти модели на пользовательских наборах данных, чтобы решить уникальные задачи твоих проектов.

Здесь представлены варианты моделиYOLO11 , предварительно обученные для решения конкретных задач по зрению:

  • YOLO11: Эта модель обнаруживает и маркирует несколько объектов в режиме реального времени, что делает ее идеальной для высокоскоростного визуального распознавания.

  • YOLO11: Этот вариант фокусируется на сегментации, используя детальные маски для отделения объектов от фона.

  • YOLO11: Эта модель предназначена для обнаружения повернутых объектов путем рисования ограничительных коробок, которые выравниваются в соответствии с ориентацией каждого объекта.

  • YOLO11: Этот вариант классифицирует изображения, присваивая им метку одной категории на основе общего содержания.

  • YOLO11: эта модель оценивает ключевые точки на теле, чтобы отслеживать осанку, положение конечностей и движения.

Каждый вариант доступен в разных размерах, что позволяет пользователям выбрать правильный баланс между скоростью и точностью для своих конкретных нужд.

Основные выводы

Задачи компьютерного зрения меняют то, как машины понимают и взаимодействуют с миром. Разбивая изображения и видео на ключевые элементы, эти технологии облегчают детальный анализ объектов, движений и взаимодействий. 

От повышения безопасности дорожного движения и улучшения спортивных результатов до оптимизации промышленных процессов - такие модели, как YOLO11 , могут в реальном времени дать представление о том, что является движущей силой инноваций. По мере того как Vision AI будет развиваться, он, вероятно, будет играть все более важную роль в том, как мы интерпретируем и используем визуальные данные каждый день.

Присоединяйся к нашему сообществу и посети наш репозиторий GitHub, чтобы увидеть ИИ в действии. Изучи наши варианты лицензирования и узнай больше об ИИ в сельском хозяйстве и компьютерном зрении в производстве на страницах наших решений. 

Логотип LinkedInЛоготип ТвиттераЛоготип FacebookСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения