Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Улучшение оценки ключевых точек руки с помощью Ultralytics YOLO11

Абирами Вина

6 мин чтения

5 марта 2025 г.

Изучите возможности оценки ключевых точек руки с помощью искусственного интеллекта благодаря поддержке Ultralytics YOLO11 для оценки позы в таких приложениях, как распознавание жестов в режиме реального времени.

В последнее время сурдопереводчики на Суперкубке привлекли к себе много внимания. Когда вы смотрите по телевизору, как они исполняют песню вашего любимого исполнителя, вы можете понять их, если знаете язык жестов, потому что ваш мозг обрабатывает движения их рук. Но что, если бы компьютер мог делать то же самое? Благодаря решениям для отслеживания движений рук, основанным на искусственном интеллекте, машины могут track и интерпретировать движения рук с впечатляющей точностью.

В основе этих решений лежит компьютерное зрение- область искусственного интеллекта, позволяющая машинам обрабатывать и понимать визуальную информацию. Анализируя изображения и видео, искусственное зрение помогает им detect объекты, track движения и распознавать сложные жесты с поразительной точностью.

Например, модели компьютерного зрения, такие как Ultralytics YOLO11 можно обучить detect и анализировать ключевые точки руки в реальном времени с помощью оценки положения. Таким образом, эти модели можно использовать в таких приложениях, как распознавание жестов, сурдоперевод и взаимодействие AR/VR. 

В этой статье мы рассмотрим, как YOLO11 позволяет отслеживать руки на основе ИИ, какие наборы данных используются для обучения и как настраивать модель для оценки положения рук. Мы также рассмотрим реальные приложения. Давайте приступим!

Понимание обнаружения ключевых точек рук на основе ИИ

ИИ можно использовать для распознавания и track движений рук в визуальных данных, определяя такие ключевые точки, как запястье, кончики пальцев и суставы пальцев. Один из подходов, известный как оценка позы, помогает компьютерам понять движения человека, отображая ключевые точки и анализируя, как они меняются со временем. Это позволяет системам искусственного интеллекта с высокой точностью интерпретировать позу, жесты и движения человека.

Модели компьютерного зрения делают это возможным, анализируя изображения или видео, чтобы определить ключевые точки на руке и track их перемещение. После нанесения этих точек на карту искусственный интеллект может распознавать жесты, анализируя пространственные отношения между ключевыми точками и их изменение с течением времени. 

Например, если расстояние между большим и указательным пальцем уменьшается, ИИ может интерпретировать это как щипающее движение. Аналогично, отслеживание того, как ключевые точки движутся в последовательностях, помогает идентифицировать сложные жесты рук и даже предсказывать будущие движения.

__wf_reserved_inherit
Рис. 1. Пример распознавания ключевых точек руки с использованием компьютерного зрения.

Интересно, что оценка позы для отслеживания рук открыла захватывающие возможности, от управления интеллектуальными устройствами без помощи рук до повышения точности роботов и помощи в приложениях здравоохранения. Поскольку ИИ и компьютерное зрение продолжают развиваться, отслеживание рук, вероятно, будет играть все большую роль в том, чтобы сделать технологии более интерактивными, доступными и интуитивно понятными в повседневной жизни.

Исследование YOLO11 для оценки позы

Прежде чем перейти к рассмотрению того, как создать решение для отслеживания рук на основе ИИ, давайте подробнее рассмотрим оценку позы и то, как YOLO11 поддерживает эту задачу компьютерного зрения. В отличие от стандартного обнаружения объектов, которое идентифицирует целые объекты, оценка позы фокусируется на обнаружении ключевых ориентиров - таких как суставы, конечности или края - для анализа движения и позы. 

В частности, Ultralytics YOLO11 предназначена для оценки позы в режиме реального времени. Используя нисходящие и восходящие методы, она эффективно обнаруживает людей и оценивает ключевые точки за один шаг, превосходя предыдущие модели по скорости и точности.

Из коробки YOLO11 поставляется предварительно обученным на наборе данныхCOCO и может распознавать ключевые точки на человеческом теле, включая голову, плечи, локти, запястья, бедра, колени и лодыжки. 

__wf_reserved_inherit
Рис. 2. Использование YOLO11 для оценки позы человека.

Помимо оценки позы человека, YOLO11 можно обучить detect ключевые точки на различных объектах, как одушевленных, так и неодушевленных. Такая гибкость делает YOLO11 отличным вариантом для широкого круга приложений.

Обзор набора данных Hand Keypoints

Первый шаг в пользовательской тренировке модели — это сбор данных и их аннотация или поиск существующего набора данных, который соответствует потребностям проекта. Например, набор данных Hand Keypoints — хорошая отправная точка для обучения моделей Vision AI для отслеживания рук и оценки позы. Благодаря 26 768 аннотированным изображениям отпадает необходимость в ручной разметке. 

Его можно использовать для обучения моделей, подобных Ultralytics YOLO11 , чтобы быстро научиться detect и track движения рук. Набор данных включает 21 ключевую точку на руку, охватывающую запястье, пальцы и суставы. Кроме того, аннотации к набору данных были созданы с помощью Google MediaPipe, инструмента для разработки решений на основе искусственного интеллекта для обработки медиа в режиме реального времени, что обеспечивает точное и надежное определение ключевых точек. 

__wf_reserved_inherit
Рис. 3. 21 ключевая точка, включенная в набор данных Hand Keypoints.

Использование структурированного набора данных, подобного этому, экономит время и позволяет разработчикам сосредоточиться на обучении и точной настройке своих моделей вместо сбора и маркировки данных. Фактически, набор данных уже разделен на подмножества для обучения (18 776 изображений) и проверки (7 992 изображения), что упрощает оценку производительности модели. 

Как обучить YOLO11 оценивать положение руки

Обучение YOLO11 для оценки положения рук - несложный процесс, особенно с пакетомUltralytics Python , который упрощает настройку и обучение модели. Поскольку набор данных Hand Keypoints уже поддерживается в конвейере обучения, его можно сразу использовать без дополнительного форматирования, что экономит время и усилия.

Вот как работает процесс обучения:

  • Настройте окружение: Первым шагом будет установка пакета Ultralytics Python .
  • Загрузите набор данных Hand Keypoints: YOLO11 поддерживает этот набор данных нативно, так что он может быть загружен и подготовлен автоматически.
  • Используйте предварительно обученную модель: Вы можете начать с предварительно обученной модели оценки позы YOLO11 , что поможет повысить точность и ускорить процесс обучения.
  • Обучите модель: Модель учится detect и track точки нажатия клавиш рукой, проходя несколько циклов обучения.
  • Отслеживайте производительность: Пакет Ultralytics также содержит встроенные инструменты для track ключевых показателей, таких как точность и потери, что помогает обеспечить улучшение модели с течением времени.
  • Сохранение и развертывание: После обучения модель можно экспортировать и использовать для приложений отслеживания рук в реальном времени.

Оценка вашей пользовательской обученной модели

Проходя этапы создания пользовательской модели, вы заметите, что мониторинг производительности имеет важное значение. Наряду с отслеживанием прогресса во время обучения, оценка модели после этого имеет решающее значение для того, чтобы убедиться, что она точно обнаруживает и отслеживает ключевые точки рук. 

Ключевые показатели эффективности, такие как точность, величина потерь и средняя точностьmAP), помогают оценить, насколько хорошо работает модель. Пакет Ultralytics Python предоставляет встроенные инструменты для визуализации результатов и сравнения прогнозов с реальными аннотациями, что облегчает поиск областей для улучшения.

Чтобы лучше понять производительность модели, вы можете проверить графики оценки, такие как кривые потерь, графики точности-полноты и матрицы ошибок, которые автоматически генерируются в журналах обучения. 

Эти графики помогают выявить такие проблемы, как переобучение (когда модель запоминает обучающие данные, но испытывает трудности с новыми данными) или недообучение (когда модель не может достаточно хорошо изучить закономерности для точного выполнения) и направляют корректировки для повышения точности. Кроме того, важно протестировать модель на новых изображениях или видео, чтобы увидеть, насколько хорошо она работает в реальных сценариях.

Применение решений для отслеживания рук на основе ИИ

Далее мы рассмотрим некоторые из наиболее эффективных применений оценки ключевых точек руками с помощью Ultralytics YOLO11.

Распознавание жестов в реальном времени с помощью YOLO11

Допустим, вы можете регулировать громкость на телевизоре простым взмахом руки или управлять системой "умного дома" простым взмахом руки. Распознавание жестов в реальном времени на базе YOLO11 делает возможным такое бесконтактное взаимодействие благодаря точному распознаванию движений рук в режиме реального времени. 

Для этого используются камеры с искусственным интеллектом, которые track ключевые точки на руке и интерпретируют жесты как команды. Камеры с датчиком глубины, инфракрасные датчики или даже обычные веб-камеры фиксируют движения руки, а YOLO11 обрабатывает полученные данные для распознавания различных жестов. Например, такая система может отличить смахивание, чтобы переключить песню, щипок, чтобы увеличить масштаб, или круговое движение, чтобы отрегулировать громкость.

Обнаружение ключевых точек рук на основе ИИ для распознавания языка жестов

ИИ-решения для отслеживания движения рук могут обеспечить беспрепятственное общение между глухим человеком и человеком, не знающим языка жестов. Например, смарт-устройства, оснащенные камерами и YOLO11 , могут использоваться для мгновенного перевода языка жестов в текст или речь. 

Благодаря таким достижениям, как YOLO11, инструменты сурдоперевода становятся все более точными и доступными. Это влияет на такие приложения, как вспомогательные технологии, службы живого перевода и образовательные платформы. ИИ может помочь устранить пробелы в общении и способствовать инклюзивности на рабочих местах, в школах и общественных местах.

Компьютерное зрение для отслеживания движений рук: улучшение опыта в AR и VR

Вы когда-нибудь играли в игру виртуальной реальности (VR), где вы могли хватать объекты без использования контроллера? Отслеживание рук на основе компьютерного зрения делает это возможным, позволяя пользователям взаимодействовать естественным образом в средах дополненной реальности (AR) и VR. 

__wf_reserved_inherit
Рис. 4. Отслеживание рук — ключевая часть приложений AR и VR.

Благодаря оценке ключевых точек руки с помощью таких моделей, как Ultralytics YOLO11, ИИ отслеживает движения в режиме реального времени, позволяя выполнять такие жесты, как щипок, захват и смахивание. Это улучшает игры, виртуальное обучение и удаленное сотрудничество, делая взаимодействие более интуитивным. По мере совершенствования технологии отслеживания движений рук AR и VR станут еще более захватывающими и реалистичными. 

Основные выводы

Оценка ключевых точек руки с помощью Ultralytics YOLO11 делает решения по отслеживанию рук на основе ИИ более доступными и надежными. Компьютерное зрение открывает новые возможности взаимодействия человека и компьютера - от распознавания жестов в реальном времени до сурдоперевода и AR/VR-приложений.

Кроме того, оптимизированные процессы пользовательского обучения и тонкой настройки помогают разработчикам создавать эффективные модели для различных реальных применений. По мере развития технологии компьютерного зрения мы можем ожидать еще больше инноваций в таких областях, как здравоохранение, робототехника, игры и безопасность.

Взаимодействуйте с нашим сообществом и изучайте достижения в области ИИ в нашем репозитории GitHub. Узнайте о влиянии ИИ в производстве и компьютерного зрения в здравоохранении на страницах наших решений. Ознакомьтесь с нашими тарифными планами и начните свой путь в мир ИИ уже сегодня!

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно