Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Руководства

Полное руководство по инструментам оценки позы

Узнай, как инструменты оценки позы используются для поиска ключевых точек тела на фото и видео, оценки 2D и 3D поз и работы различных Vision AI приложений.

АБАбирами Вина
6 min read
Использование Ultralytics YOLO11 для оценки позы

Как люди, мы инстинктивно считываем движения. Когда кто-то наклоняется вперед, поворачивает голову или поднимает руку, ты сразу понимаешь, что он делает. Это тихий, почти подсознательный навык, который определяет то, как мы взаимодействуем с людьми и познаем мир.

Поскольку технологии становятся все более важной частью повседневной жизни, вполне естественно желание, чтобы наши устройства понимали движения так же легко, как и мы. Последние достижения в области искусственного интеллекта, особенно в глубоком обучении, делают это возможным. В частности, компьютерное зрение помогает машинам извлекать смысл из изображений и видео и движет этот прогресс вперед.

Например, оценка позы — это распространенная задача компьютерного зрения, которая предсказывает расположение предопределенных ключевых точек тела (таких как плечи, локти, бедра и колени) на изображении или кадре видео. Эти ключевые точки можно соединить с помощью фиксированного скелетного представления, чтобы получить упрощенную модель позы.

Модели компьютерного зрения, такие как Ultralytics YOLO11 и предстоящая Ultralytics YOLO26, поддерживают задачи, подобные оценке позы, и могут использоваться для работы приложений в реальном времени, включая проверку техники в фитнесе и спорте, мониторинг безопасности и интерактивные возможности дополненной реальности.

Взгляд на использование Ultralytics YOLO11 для оценки позы

Рис 1. Взгляд на использование Ultralytics YOLO11 для оценки позы (Источник)

В этой статье мы подробно разберем инструменты для оценки позы и узнаем, как работает эта технология, где она применяется, а также рассмотрим некоторые из лучших моделей и библиотек, доступных сегодня. Давай начнем!

Link to this sectionЧто такое оценка позы?#

Оценка позы — это метод компьютерного зрения, который помогает системе понять, как человек или объект расположен на изображении или видео. Вместо того чтобы анализировать каждый пиксель одинаково, система предсказывает набор согласованных ориентиров, таких как голова, плечи, локти, бедра, колени и лодыжки.

Большинство моделей выдают координаты этих ключевых точек и оценку, которая отражает вероятность того, что каждое предсказание верно. Затем эти ключевые точки могут быть соединены с использованием предопределенной структуры скелета для формирования простого представления позы.

При применении к каждому кадру в видео, полученные ключевые точки могут сопоставляться во времени для оценки движения. Это открывает возможности для таких приложений, как проверка техники упражнений, анализ движений и интерактивное управление жестами.

Пример оценки позы

Рис 2. Пример оценки позы (Источник)

Link to this sectionЗачем нужны инструменты для оценки позы#

Движения человека несут в себе массу информации. То, как кто-то наклоняется, тянется или переносит вес, может выдать намерение, уровень усилий, усталость или даже риск получения травмы. До недавнего времени для захвата такого уровня детализации обычно требовались специальные датчики, костюмы для захвата движения или контролируемые лабораторные условия.

Оценка позы меняет это. Извлечение ключевых точек тела из обычных изображений и видео позволяет компьютерам анализировать движения с помощью стандартных камер. Это делает анализ движений более доступным, масштабируемым и практичным для использования в реальных условиях.

Вот несколько способов, которыми оценка позы может принести пользу:

  • Безопасность на рабочем месте: системы на базе видеоаналитики могут использоваться для обнаружения опасных поз, повторяющихся нагрузок или неправильной техники поднятия тяжестей до того, как произойдет травма.
  • Улучшение фитнеса и тренировок: решения на основе ИИ могут оценивать технику, баланс и выполнение упражнений в реальном времени, предоставляя пользователям моментальную обратную связь без носимых устройств.
  • Здравоохранение и реабилитация: врачи могут дистанционно отслеживать прогресс восстановления, осанку и амплитуду движений, используя простые видеозаписи.
  • Интерактивные возможности: оценка позы упрощает задачу для цифровых аватаров и иммерсивных сред, позволяя точно отслеживать и отражать движения человека.

Link to this sectionЭволюция алгоритмов оценки позы#

Идея оценки позы существует уже много лет. Ранние подходы использовали простые геометрические модели и правила, созданные вручную, и обычно работали только в контролируемых условиях.

Например, система могла хорошо работать, когда человек стоит неподвижно в фиксированном положении, но переставала справляться, как только он начинал идти, поворачиваться или взаимодействовать с объектами в реальных сценах. Эти методы часто испытывали трудности с естественными движениями, изменением углов обзора камеры, захламленным фоном и частичным перекрытием объектов.

Современная оценка позы опирается на глубокое обучение для решения этих проблем. Обучая сверточные нейронные сети на больших размеченных наборах данных, модели изучают визуальные паттерны, которые помогают им надежнее обнаруживать ключевые точки для разных поз, людей и условий.

Чем больше примеров видит модель, тем точнее становятся ее предсказания и тем лучше она обобщает знания для новых сцен. Благодаря этому прогрессу оценка позы теперь поддерживает широкий спектр практических задач, включая мониторинг на производстве и эргономику, а также спортивную аналитику, где тренеры и аналитики изучают, как двигаются атлеты.

Link to this sectionТипы методов оценки позы#

Оценка позы бывает нескольких типов, в зависимости от обстановки и того, что тебе нужно измерить. Вот основные типы, с которыми ты столкнешься:

  • 2D-оценка позы: Этот подход обнаруживает ключевые точки тела на двумерном изображении или кадре видео. Он хорошо работает со стандартными камерами и эффективен с точки зрения вычислений, что делает его подходящим для задач вроде простого отслеживания движений, анализа осанки и получения обратной связи по технике упражнений в реальном времени.
  • 3D-оценка позы: Оценивая глубину в дополнение к координатам на изображении, 3D-оценка позы обеспечивает пространственное понимание движения тела. Это особенно полезно, когда важны движения вперед и назад, например в спортивной аналитике, реабилитации, биомеханике и анимации. В частности, 3D-оценка позы человека фиксирует положение суставов и их перемещение в 3D-пространстве, уменьшая неоднозначность, которая может возникать при 2D-проекциях.
  • Оценка позы одного человека: Эти системы предназначены для отслеживания одного человека за раз. Они, как правило, лучше всего показывают себя в контролируемых или полуконтролируемых условиях, где субъект хорошо виден, например, в приложениях для тренировок, видеозвонках или установках для анализа движения.
  • Оценка позы нескольких человек: Созданный для сцен с множеством людей, этот подход обнаруживает и отслеживает позы нескольких человек одновременно. Он особенно полезен в людных местах, таких как рабочие зоны, тренажерные залы, общественные пространства и массовые мероприятия, где люди могут перекрывать или частично заслонять друг друга.

Понимание движения человека в 3D-пространстве по сравнению с 2D-изображением

Рис. 3. Понимание движения человека в 3D-пространстве в сравнении с 2D-пространством изображения (Source)

Link to this sectionКак работают модели оценки позы человека#

Оценка позы может применяться ко многим типам объектов, но для простоты давай сосредоточимся на оценке позы человека.

Большинство систем оценки позы человека обучаются на аннотированных наборах данных, где ключевые части тела размечены на огромных коллекциях изображений и видеокадров. Используя эти примеры, модель изучает визуальные паттерны, связанные с ориентирами тела, такими как плечи, локти, бедра, колени и лодыжки, чтобы точно предсказывать ключевые точки в новых сценах.

Еще одним важным аспектом является архитектура логического вывода модели, которая определяет, как она обнаруживает ключевые точки и собирает их в полные позы. Некоторые системы сначала обнаруживают каждого человека, а затем оценивают ключевые точки внутри области каждого человека, в то время как другие находят ключевые точки по всему изображению, а затем группируют их по людям. Более новые одноэтапные конструкции могут предсказывать позы за один проход, балансируя между скоростью и точностью для использования в реальном времени.

Далее давай подробно разберем различные подходы к оценке позы.

Link to this sectionВосходящая оценка позы (bottom-up)#

В подходе «снизу вверх» (bottom-up) модель анализирует все изображение и сначала находит ключевые точки тела, такие как голова, плечи, локти, бедра, колени и лодыжки. На этом этапе она не пытается разделить людей. Она просто обнаруживает все ключевые точки или суставы, определенные скелетом позы, по всей сцене.

После этого система выполняет второй шаг для соединения точек. Она связывает ключевые точки, которые принадлежат друг другу, и группирует их в полные скелеты — по одному на человека. Поскольку нет необходимости сначала обнаруживать каждого человека, методы bottom-up часто хорошо работают в людных сценах, где люди перекрывают друг друга, различаются по размеру или частично скрыты.

Link to this sectionНисходящая оценка позы (top-down)#

Напротив, системы «сверху вниз» (top-down) начинают с обнаружения каждого человека на изображении. Они помещают ограничивающую рамку (bbox) вокруг каждого человека и рассматривают каждую рамку как отдельную область для анализа.

Как только человек изолирован, модель предсказывает ключевые точки тела внутри этой области. Такая пошаговая настройка часто дает очень точные результаты, особенно когда в сцене находится всего несколько человек и каждый из них хорошо виден.

Link to this sectionОдноэтапная или гибридная оценка позы#

Одноэтапные, иногда называемые гибридными, модели предсказывают позы за один проход. Вместо того чтобы сначала запускать обнаружение человека, а потом оценку ключевых точек, они выводят расположение человека и ключевые точки тела одновременно.

Поскольку все происходит в одном модуле, такие модели часто быстрее и эффективнее, что делает их отличным выбором для использования в реальном времени, например для отслеживания движения в прямом эфире или захвата движений. Модели, такие как Ultralytics YOLO11, построены вокруг этой идеи, стремясь сбалансировать скорость с надежными предсказаниями ключевых точек.

Link to this sectionОбучение и оценка моделей оценки позы#

Независимо от используемого подхода, модель оценки позы должна быть тщательно обучена и протестирована, прежде чем она станет надежной в реальных условиях. Обычно она учится на больших наборах изображений (и иногда видео), где ключевые точки тела размечены, что помогает ей справляться с различными позами, углами обзора камер и условиями.

Некоторые известные наборы данных для оценки позы включают COCO Keypoints, MPII Human Pose, CrowdPose и OCHuman. Когда эти наборы данных не отражают условия, с которыми модель столкнется при развертывании, инженеры часто собирают и размечают дополнительные изображения из целевой среды, например с заводского цеха, из спортзала или клиники.

Оценка различных поз с помощью компьютерного зрения

Рис 4. Различные позы, оцениваемые с помощью компьютерного зрения (Источник)

После обучения производительность модели оценивается на стандартных бенчмарках, чтобы измерить точность и надежность, а также направить дальнейшую настройку для реального использования. Результаты часто представляются с использованием средней точности, обычно называемой mAP, которая суммирует производительность при различных порогах достоверности, сравнивая предсказанные позы с размеченной истиной (ground truth).

Во многих бенчмарках оценки позы предсказанная поза сопоставляется с эталонной с использованием метрики OKS (Object Keypoint Similarity). OKS измеряет, насколько близко предсказанные ключевые точки расположены к аннотированным, учитывая такие факторы, как масштаб человека и типичную сложность локализации каждой ключевой точки.

Модели оценки позы также выдают показатели достоверности (confidence scores) для обнаруженных людей и для отдельных ключевых точек. Эти оценки отражают уверенность модели и используются для ранжирования и фильтрации предсказаний, что особенно важно в сложных условиях, таких как перекрытие объектов, размытие при движении или необычные углы наклона камеры.

Link to this sectionПопулярные инструменты и библиотеки для оценки позы#

Сегодня существует множество инструментов для оценки позы, каждый из которых балансирует между скоростью, точностью и простотой использования. Вот некоторые из наиболее широко используемых инструментов и библиотек:

  • Ultralytics YOLO11: Разработанная как передовая open-source модель компьютерного зрения, YOLO11 основывается на более ранних моделях, таких как Ultralytics YOLOv8. Она улучшает скорость, точность и общую эффективность, поддерживая различные задачи компьютерного зрения, включая оценку позы. Благодаря отличной производительности на разных платформах, от ноутбуков до edge-устройств, YOLO11 является отличным вариантом для многих реальных сценариев развертывания.
  • Ultralytics YOLO26: Эта предстоящая модель нового поколения спроектирована так, чтобы быть легче, меньше и быстрее, сохраняя при этом высокую точность. Она создана для использования в реальном времени и упрощенного развертывания, поддерживая задачи обнаружения объектов, сегментации экземпляров и оценки позы в разных размерах моделей, подходящих для всего — от edge-устройств до крупных систем.
  • MediaPipe: Это кроссплатформенный фреймворк для создания пайплайнов компьютерного зрения и машинного обучения. Он легкий и эффективно работает на мобильных устройствах, планшетах и в веб-приложениях, включая готовые решения и модели для оценки позы всего тела, ориентиров лица и отслеживания кистей рук.
  • OpenPose: Эта сквозная open-source система оценки позы широко известна своими возможностями детекции ключевых точек для нескольких человек. Она может одновременно оценивать ключевые точки тела, рук и лица и обычно используется в научных исследованиях, анимации и анализе движений.
  • MMPose: MMPose — это основанный на PyTorch инструментарий для оценки позы из экосистемы OpenMMLab. Он предоставляет множество реализаций моделей, утилит для обучения и вариантов конфигурации, что делает его полезным для экспериментов и глубокой настройки.
  • HRNet и AlphaPose: Это более старые модели оценки позы, которые до сих пор используются в исследованиях. HRNet — это архитектура модели позы, которая сохраняет высокоразрешающие визуальные признаки по всей сети, что помогает ей точно локализовать ключевые точки. AlphaPose — это широко используемая система оценки позы нескольких человек, обычно применяемая там, где требуется высокая точность в людных или сложных сценах.

Link to this sectionРеальное применение анализа и оценки позы#

Оценка позы все чаще используется для превращения обычных видео в полезные инсайты о движениях. Отслеживая ключевые точки тела кадр за кадром, эти системы могут определять осанку, движения и физическое поведение на основе видеопотоков, что делает такие технологии практичными во многих реальных сценариях.

Например, в здравоохранении и реабилитации отслеживание позы помогает врачам видеть и измерять, как пациент двигается во время терапии и восстановления. Извлекая ориентиры тела из обычных видеозаписей, можно оценивать осанку, амплитуду движений и общие паттерны движений с течением времени. Эти измерения могут поддерживать и оптимизировать традиционные клинические оценки, а в некоторых случаях упрощать отслеживание прогресса без необходимости в носимых датчиках или специализированном оборудовании.

Аналогично, в спорте и трансляциях оценка позы может анализировать движения атлетов напрямую из видеопотоков. Интересным примером является Hawk-Eye, система отслеживания на основе камер, используемая в профессиональном спорте для судейства и создания графики в трансляциях. Она также обеспечивает скелетное отслеживание, оценивая ключевые точки тела атлета на основе ракурсов камер.

Link to this sectionВыбор подходящего инструмента для оценки позы#

Выбор правильного инструмента для оценки позы начинается с понимания потребностей твоего проекта компьютерного зрения. Некоторые приложения отдают приоритет скорости в реальном времени, в то время как другие требуют более высокой точности и детализации.

Целевое устройство для развертывания также имеет значение. Мобильные приложения и edge-устройства обычно требуют легких и эффективных моделей, в то время как более крупные модели лучше подходят для серверов или облачных сред.

В дополнение к этому, простота использования играет не последнюю роль. Хорошая документация, легкое развертывание и поддержка кастомного обучения могут оптимизировать твой проект.

Проще говоря, разные инструменты хороши в разных областях. Например, модели Ultralytics YOLO обеспечивают практичный баланс между скоростью, точностью и легкостью развертывания для многих прикладных задач оценки позы в реальном мире.

Оценка позы животных с помощью Ultralytics YOLO11

Рис 5. Оценка позы животных с помощью Ultralytics YOLO11 (Источник)

Link to this sectionОсновные выводы#

Оценка позы помогает компьютерам понимать движения человека путем обнаружения ключевых точек тела на изображениях и видео. Модели, такие как YOLO11 и YOLO26, облегчают создание приложений реального времени для таких сфер, как спорт, здравоохранение, безопасность на рабочем месте и интерактивные возможности. Поскольку модели становятся все быстрее и точнее, оценка позы, вероятно, станет стандартной функцией во многих системах компьютерного зрения.

Хочешь узнать больше об ИИ? Загляни в наше сообщество и репозиторий на GitHub. Изучи наши страницы решений, чтобы узнать об ИИ в робототехнике и компьютерном зрении в производстве. Открой для себя наши варианты лицензирования и начни создавать решения с помощью компьютерного зрения уже сегодня!

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения