Узнайте, как работают задачи компьютерного зрения, такие как отслеживание объектов, сегментация объектов и классификация изображений, и как Ultralytics YOLO11 поддерживает их.

Узнайте, как работают задачи компьютерного зрения, такие как отслеживание объектов, сегментация объектов и классификация изображений, и как Ultralytics YOLO11 поддерживает их.

Благодаря камерам и достижениям в области искусственного интеллекта (ИИ) компьютеры и машины теперь способны видеть мир так же, как и люди. Например, они могут распознавать людей, track объекты и даже понимать контекст происходящего на видео.
В частности, компьютерное зрение - это раздел ИИ, который позволяет машинам понимать и интерпретировать визуальную информацию из окружающего мира. Компьютерное зрение включает в себя множество задач, каждая из которых предназначена для извлечения определенного вида информации из изображений или видео. Например, обнаружение объектов помогает идентифицировать и находить различные элементы на изображении, в то время как другие задачи, такие как отслеживание, сегментация и оценка позы, помогают машинам более точно понимать движение, формы и положения.
Задача компьютерного зрения, используемая для конкретного приложения, зависит от того, какие именно сведения вам нужны. Модели компьютерного зрения, такие как Ultralytics YOLO11 поддерживают различные задачи компьютерного зрения, что делает их надежным выбором для создания систем искусственного интеллекта реального мира.
В этом руководстве мы подробно рассмотрим задачи компьютерного зрения, поддерживаемые моделями типа YOLO11. Мы узнаем, как работает каждая задача и как они используются в различных отраслях. Давайте начнем!
Задачи компьютерного зрения направлены на то, чтобы воспроизвести человеческое зрение различными способами. Эти задачи помогают машинам detect объекты, track их перемещения, оценивать позы и даже выделять отдельные элементы на изображениях и видео. Как правило, задачи компьютерного зрения решаются с помощью моделей, которые разбивают визуальные данные на более мелкие части, чтобы они могли более четко интерпретировать происходящее.
Модели ИИ зрения, такие как модели Ultralytics YOLO , поддерживают множество задач, таких как обнаружение, отслеживание и сегментация, в рамках одной структуры. Благодаря этой универсальности модели YOLO11 легко использовать в самых разных случаях.

Хороший пример - спортивная аналитика. YOLO11 можно использовать для detect каждого игрока на поле с помощью функции распознавания объектов, а затем следить за ними на протяжении всего матча с помощью функции отслеживания объектов. При этом возможности YOLO11 по оценке позы помогут проанализировать движения и технику игроков, а сегментация экземпляров позволит отделить каждого игрока от фона, добавив точности анализу.
Вместе эти задачи компьютерного зрения YOLO11 создают полную картину происходящего во время игры, позволяя командам глубже понять игру игроков, тактику и общую стратегию.
Теперь, когда мы рассмотрели, что такое задачи компьютерного зрения, давайте более подробно разберем каждую из них, поддерживаемую YOLO11 , на реальных примерах.
Взглянув на фотографию, большинство людей могут легко определить, изображена ли на ней собака, гора или дорожный знак, потому что все мы знаем, как эти вещи обычно выглядят. Классификация изображений помогает машинам делать то же самое, обучая их classify и маркировать изображение на основе его основного объекта - будь то "автомобиль", "банан" или "рентгеновский снимок с переломом". Такая маркировка помогает системам компьютерного зрения понять визуальный контент, чтобы они могли реагировать или принимать решения соответствующим образом.
Одним из интересных применений этой задачи компьютерного зрения является мониторинг дикой природы. Классификация изображений может быть использована для идентификации различных видов животных по фотографиям, сделанным в дикой природе. Автоматически маркируя изображения, исследователи могут track популяции, наблюдать за миграционными процессами и легче идентифицировать исчезающие виды для поддержки усилий по сохранению природы.

Хотя классификация изображений полезна для получения общего представления о том, что содержит изображение, она присваивает только одну метку всему изображению. В ситуациях, когда требуется подробная информация, такая как точное местоположение и идентификация нескольких объектов, обнаружение объектов становится необходимым.
Обнаружение объектов - это процесс идентификации и определения местоположения отдельных объектов на изображении, часто путем рисования ограничительных рамок вокруг них. Ultralytics YOLO11 особенно хорошо справляется с обнаружением объектов в режиме реального времени, что делает его идеальным для широкого спектра приложений.
Возьмем, к примеру, решения компьютерного зрения, используемые в розничных магазинах для пополнения полок. Обнаружение объектов может помочь подсчитать фрукты, овощи и другие товары, обеспечивая точную инвентаризацию. В сельскохозяйственных полях эта же технология может отслеживать созревание урожая, помогая фермерам определять лучшее время для сбора урожая, даже различая спелые и неспелые продукты.
.webp)
Обнаружение объектов использует ограничивающие рамки для идентификации и локализации объектов на изображении, но не фиксирует их точные формы. Именно здесь вступает в дело сегментация экземпляров. Вместо того чтобы рисовать рамку вокруг объекта, сегментация экземпляров отслеживает его точный контур.
Это можно представить так: вместо того, чтобы просто указать, что «в этой области есть яблоко», он тщательно очерчивает и заполняет точную форму яблока. Этот детальный процесс помогает системам ИИ четко понимать границы объекта, особенно когда объекты находятся близко друг к другу.
Сегментация объектов может применяться во многих приложениях, от инспекции инфраструктуры до геологических исследований. Например, данные геологических исследований можно анализировать с помощью YOLO11 , чтобы segment как крупные, так и мелкие поверхностные трещины или аномалии. Проводя точные границы вокруг этих аномалий, инженеры могут точно определить проблемы и устранить их до начала реализации проекта.

До сих пор рассматриваемые нами задачи компьютерного зрения фокусировались на том, что находится на одном изображении. Однако, когда речь идет о видео, нам нужны сведения, выходящие за рамки одного кадра. Для этого можно использовать задачу отслеживания объектов.
Функция отслеживания объектов YOLO11 позволяет следить за конкретным объектом, например человеком или автомобилем, по мере его перемещения в серии видеокадров. Даже если угол камеры меняется или появляются другие объекты, система продолжает следить за одной и той же целью.
Это очень важно для приложений, требующих мониторинга в течение длительного времени, например, для отслеживания автомобилей в пробках. Фактически YOLO11 может точно track транспортные средства, следуя за каждым автомобилем, чтобы помочь оценить его скорость в режиме реального времени. Это делает отслеживание объектов ключевым компонентом в таких системах, как мониторинг дорожного движения.

Объекты в реальном мире не всегда идеально выровнены — они могут быть наклонены, расположены боком или под странными углами. Например, на спутниковых снимках корабли и здания часто кажутся повернутыми.
Традиционные методы обнаружения объектов используют фиксированные прямоугольные рамки, которые не подстраиваются под ориентацию объекта, что затрудняет точное захватывание этих повернутых форм. Обнаружение ориентированных ограничивающих рамок (OBB) решает эту проблему, используя рамки, которые поворачиваются, чтобы плотно прилегать к объекту, выравниваясь с его углом для более точного обнаружения.
Что касается мониторинга портов, то поддержка обнаружения OBB в YOLO11позволяет точно идентифицировать и track суда независимо от их ориентации, обеспечивая надлежащее наблюдение за каждым судном, входящим в порт или покидающим его. Такое точное обнаружение позволяет в режиме реального времени получать информацию о положении и движении судов, что очень важно для управления загруженными портами и предотвращения столкновений.

Оценка позы — это метод компьютерного зрения, который отслеживает ключевые точки, такие как суставы, конечности или другие маркеры, чтобы понять, как движется объект. Вместо того, чтобы рассматривать весь объект или тело как единое целое, этот метод разбивает его на ключевые части. Это позволяет детально анализировать движения, жесты и взаимодействия.
Одним из распространенных применений этой технологии является оценка позы человека. Отслеживая положение различных частей тела в режиме реального времени, она дает четкое представление о том, как движется человек. Эта информация может быть использована для различных целей, от распознавания жестов и мониторинга активности до анализа производительности в спорте.
Аналогичным образом, при физической реабилитации терапевты могут использовать оценку позы человека и YOLO11 для контроля движений пациентов во время упражнений. Это помогает убедиться, что каждое движение выполняется правильно, и отслеживать прогресс с течением времени.

Теперь, когда мы подробно рассмотрели все задачи компьютерного зрения, поддерживаемые YOLO11 , давайте разберемся, как YOLO11 их поддерживает.
YOLO11 - это не просто одна модель, это набор специализированных вариантов моделей, каждая из которых предназначена для решения конкретных задач компьютерного зрения. Это делает YOLO11 универсальным инструментом, который может быть адаптирован к широкому спектру приложений. Вы также можете точно настроить эти модели на пользовательских наборах данных для решения уникальных задач ваших проектов.
Здесь представлены варианты моделиYOLO11 , предварительно обученные для решения конкретных задач по зрению:
Каждый вариант доступен в разных размерах, что позволяет пользователям выбирать правильный баланс между скоростью и точностью для своих конкретных потребностей.
Задачи компьютерного зрения меняют то, как машины понимают мир и взаимодействуют с ним. Разбивая изображения и видео на ключевые элементы, эти технологии упрощают детальный анализ объектов, движений и взаимодействий.
Модели, подобные YOLO11 , позволяют в режиме реального времени получать информацию, способствующую инновациям, - от повышения безопасности дорожного движения и улучшения спортивных результатов до оптимизации промышленных процессов. По мере развития ИИ Vision AI будет играть все более важную роль в том, как мы интерпретируем и используем визуальные данные каждый день.
Присоединяйтесь к нашему сообществу и посетите наш репозиторий на GitHub, чтобы увидеть ИИ в действии. Ознакомьтесь с нашими вариантами лицензирования и узнайте больше о применении ИИ в сельском хозяйстве и компьютерного зрения в производстве на страницах наших решений.