Улучшение оценки ключевых точек рук с помощью Ultralytics YOLO11
Исследуй оценку ключевых точек рук на основе ИИ с помощью поддержки оценки поз в Ultralytics YOLO11, применяемую в таких задачах, как распознавание жестов в реальном времени.

В последнее время сурдопереводчики на Супербоуле привлекли к себе много внимания. Когда ты наблюдаешь по телевизору, как они «поют» песню твоего любимого исполнителя, ты можешь их понять, если знаешь язык жестов, потому что твой мозг обрабатывает движения их рук. Но что, если бы компьютер мог делать то же самое? Благодаря решениям для отслеживания рук на базе ИИ, машины могут отслеживать и интерпретировать движения рук с впечатляющей точностью.
В основе этих решений лежит компьютерное зрение — подраздел ИИ, который позволяет машинам обрабатывать и понимать визуальную информацию. Анализируя изображения и видео, ИИ-зрение помогает им обнаруживать объекты, отслеживать движения и распознавать сложные жесты с поразительной точностью.
Например, модели компьютерного зрения, такие как Ultralytics YOLO11, можно обучить обнаруживать и анализировать ключевые точки рук в реальном времени с помощью оценки позы (pose estimation). Благодаря этому такие модели можно использовать в приложениях для распознавания жестов, перевода языка жестов и взаимодействия в AR/VR.
В этой статье мы рассмотрим, как YOLO11 обеспечивает отслеживание рук на базе ИИ, какие наборы данных используются для обучения и как выполнить кастомное обучение модели для оценки позы рук. Мы также затронем примеры реального применения. Давай начнем!
Link to this sectionРазбираемся в обнаружении ключевых точек рук с помощью ИИ#
ИИ можно использовать для распознавания и отслеживания движений рук в визуальных данных путем идентификации ключевых точек, таких как запястье, кончики пальцев и суставы. Один из подходов, известный как оценка позы, помогает компьютерам понимать человеческие движения, нанося ключевые точки на карту и анализируя их изменения с течением времени. Это позволяет ИИ-системам интерпретировать позы тела, жесты и паттерны движений с высокой точностью.
Модели компьютерного зрения делают это возможным, анализируя изображения или видео для идентификации ключевых точек на руке и отслеживания их движения. Как только эти точки нанесены на карту, ИИ может распознавать жесты, анализируя пространственные отношения между точками и их изменения во времени.
Например, если расстояние между большим и указательным пальцем уменьшается, ИИ может интерпретировать это как движение «щепотка». Аналогично, отслеживание последовательности перемещения ключевых точек помогает идентифицировать сложные жесты рук и даже прогнозировать будущие движения.

Рис. 1. Пример распознавания ключевых точек руки с помощью компьютерного зрения.
Интересно, что оценка позы для отслеживания рук открыла захватывающие возможности: от бесконтактного управления умными устройствами до повышения точности роботов и помощи в медицинских приложениях. По мере развития ИИ и компьютерного зрения, отслеживание рук, вероятно, будет играть все большую роль в том, чтобы сделать технологии более интерактивными, доступными и интуитивно понятными в повседневной жизни.
Link to this sectionИзучаем YOLO11 для оценки позы#
Прежде чем мы перейдем к созданию решения для отслеживания рук на базе ИИ, давай подробнее рассмотрим оценку позы и то, как YOLO11 поддерживает эту задачу компьютерного зрения. В отличие от стандартного обнаружения объектов, которое идентифицирует объекты целиком, оценка позы фокусируется на обнаружении ключевых ориентиров — таких как суставы, конечности или края — для анализа движения и осанки.
В частности, Ultralytics YOLO11 разработана для оценки позы в реальном времени. Используя методы «сверху вниз» (top-down) и «снизу вверх» (bottom-up), она эффективно обнаруживает людей и оценивает ключевые точки за один проход, превосходя предыдущие модели по скорости и точности.
«Из коробки» YOLO11 поставляется с предварительно обученной моделью на наборе данных COCO-Pose и способна распознавать ключевые точки на теле человека, включая голову, плечи, локти, запястья, бедра, колени и лодыжки.

Рис. 2. Использование YOLO11 для оценки позы человека.
Помимо оценки позы человека, YOLO11 можно обучить под свои задачи для обнаружения ключевых точек на различных объектах, как живых, так и неодушевленных. Эта гибкость делает YOLO11 отличным вариантом для широкого спектра приложений.
Link to this sectionОбзор набора данных Hand Keypoints#
Первый шаг в кастомном обучении модели — это сбор данных и их аннотирование или поиск готового набора данных, соответствующего потребностям проекта. Например, набор данных Hand Keypoints — это хорошая отправная точка для обучения ИИ-моделей компьютерного зрения для отслеживания рук и оценки позы. Содержащий 26 768 аннотированных изображений, он избавляет от необходимости ручной разметки.
Его можно использовать для обучения таких моделей, как Ultralytics YOLO11, чтобы они быстро научились обнаруживать и отслеживать движения рук. Набор данных включает 21 ключевую точку на каждой руке, включая запястье, пальцы и суставы. Кроме того, аннотации набора данных были созданы с помощью Google MediaPipe — инструмента для разработки ИИ-решений для обработки медиа в реальном времени, что гарантирует точное и надежное обнаружение ключевых точек.

Рис. 3. 21 ключевая точка, включенная в набор данных Hand Keypoints.
Использование такого структурированного набора данных экономит время и позволяет разработчикам сосредоточиться на обучении и тонкой настройке своих моделей вместо сбора и разметки данных. Фактически, набор данных уже разделен на подмножества для обучения (18 776 изображений) и валидации (7 992 изображения), что упрощает оценку производительности модели.
Link to this sectionКак обучить YOLO11 для оценки позы рук#
Обучение YOLO11 для оценки позы рук — это простой процесс, особенно с Python-пакетом Ultralytics, который облегчает настройку и обучение модели. Поскольку набор данных Hand Keypoints уже поддерживается в конвейере обучения, его можно использовать сразу без дополнительного форматирования, что экономит время и силы.
Вот как выглядит процесс обучения:
- Настройка среды: Первый шаг — это установка Python-пакета Ultralytics.
- Загрузка набора данных Hand Keypoints: YOLO11 поддерживает этот набор данных «из коробки», поэтому его можно загрузить и подготовить автоматически.
- Использование предварительно обученной модели: Ты можешь начать с предварительно обученной модели оценки позы YOLO11, что помогает повысить точность и ускорить процесс обучения.
- Обучение модели: Модель учится обнаруживать и отслеживать ключевые точки рук, проходя через несколько циклов обучения.
- Мониторинг производительности: Пакет Ultralytics также предоставляет встроенные инструменты для отслеживания ключевых метрик, таких как точность и потери (loss), помогая убедиться, что модель совершенствуется со временем.
- Сохранение и развертывание: После обучения модель можно экспортировать и использовать для приложений отслеживания рук в реальном времени.
Link to this sectionОценка твоей кастомной модели#
Проходя через этапы создания кастомной модели, ты заметишь, что мониторинг производительности имеет важное значение. Наряду с отслеживанием прогресса во время обучения, последующая оценка модели критически важна для того, чтобы убедиться, что она точно обнаруживает и отслеживает ключевые точки рук.
Ключевые метрики производительности, такие как точность, значения потерь и средняя точность (mAP), помогают оценить, насколько хорошо работает модель. Python-пакет Ultralytics предоставляет встроенные инструменты для визуализации результатов и сравнения предсказаний с реальными аннотациями, что облегчает поиск областей для улучшения.
Чтобы лучше понять работу модели, ты можешь проверить графики оценки, такие как кривые потерь, графики точности-полноты (precision-recall) и матрицы ошибок, которые автоматически генерируются в логах обучения.
Эти графики помогают выявить проблемы, такие как переобучение (когда модель запоминает данные обучения, но плохо работает с новыми данными) или недообучение (когда модель не может достаточно хорошо выучить закономерности), и направляют корректировки для повышения точности. Также важно протестировать модель на новых изображениях или видео, чтобы увидеть, как она работает в реальных сценариях.
Link to this sectionПрименение решений для отслеживания рук на базе ИИ#
Далее давай рассмотрим некоторые из наиболее значимых применений оценки ключевых точек рук с помощью Ultralytics YOLO11.
Link to this sectionРаспознавание жестов в реальном времени с помощью YOLO11#
Допустим, ты мог бы регулировать громкость на телевизоре, просто взмахнув рукой, или управлять системой «умный дом» простым движением в воздухе. Распознавание жестов в реальном времени на базе YOLO11 делает это бесконтактное взаимодействие возможным за счет точного обнаружения движений рук в режиме реального времени.
Это работает за счет использования ИИ-камер для отслеживания ключевых точек на твоей руке и интерпретации жестов как команд. Камеры глубины, инфракрасные датчики или даже обычные веб-камеры фиксируют движения рук, а YOLO11 обрабатывает данные для распознавания различных жестов. Например, такая система может отличить свайп для смены песни, «щепотку» для увеличения масштаба или круговое движение для регулировки громкости.
Link to this sectionОбнаружение ключевых точек рук на базе ИИ для распознавания языка жестов#
ИИ-решения для отслеживания рук могут обеспечить беспрепятственное общение между глухим человеком и тем, кто не знает языка жестов. Например, умные устройства, оснащенные камерами и YOLO11, можно использовать для мгновенного перевода языка жестов в текст или речь.
Благодаря достижениям вроде YOLO11, инструменты перевода языка жестов становятся более точными и доступными. Это влияет на такие сферы, как вспомогательные технологии, службы живого перевода и образовательные платформы. ИИ может помочь преодолеть коммуникационные барьеры и способствовать инклюзивности на рабочих местах, в школах и общественных местах.
Link to this sectionКомпьютерное зрение для отслеживания рук: Улучшение опыта AR и VR#
Ты когда-нибудь играл в игру виртуальной реальности (VR), где можно было хватать объекты без контроллера? Отслеживание рук на базе компьютерного зрения делает это возможным, позволяя пользователям естественным образом взаимодействовать в средах дополненной реальности (AR) и VR.

Рис. 4. Отслеживание рук — ключевая часть AR и VR приложений.
Благодаря оценке ключевых точек рук с использованием моделей вроде Ultralytics YOLO11, ИИ отслеживает движения в реальном времени, обеспечивая поддержку таких жестов, как «щепотка», захват и свайп. Это улучшает игровой процесс, виртуальное обучение и удаленное сотрудничество, делая взаимодействия более интуитивными. По мере совершенствования технологии отслеживания рук, AR и VR будут казаться еще более захватывающими и реалистичными.
Link to this sectionОсновные выводы#
Оценка ключевых точек рук с помощью Ultralytics YOLO11 делает решения для отслеживания рук на базе ИИ более доступными и надежными. От распознавания жестов в реальном времени до интерпретации языка жестов и AR/VR-приложений — компьютерное зрение открывает новые возможности во взаимодействии человека и компьютера.
Кроме того, оптимизированные процессы кастомного обучения и тонкой настройки помогают разработчикам создавать эффективные модели для различных реальных задач. По мере развития технологий компьютерного зрения мы можем ожидать еще больше инноваций в таких областях, как здравоохранение, робототехника, игры и безопасность.
Присоединяйся к нашему сообществу и изучай достижения в области ИИ в нашем репозитории на GitHub. Узнай о влиянии ИИ в производстве и компьютерного зрения в здравоохранении на страницах наших решений. Ознакомься с нашими лицензионными планами и начни свое путешествие в мир ИИ уже сегодня!






