Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Улучшение оценки ключевых точек рук с помощью Ultralytics YOLO11

Абирами Вина

6 мин чтения

5 марта 2025 г.

Изучите оценку ключевых точек рук на основе ИИ с поддержкой оценки позы в Ultralytics YOLO11 для таких приложений, как распознавание жестов в реальном времени.

В последнее время сурдопереводчики на Супербоуле привлекают много внимания. Когда вы смотрите, как они поют песню вашего любимого исполнителя по телевизору, вы можете понять их, если знаете язык жестов, потому что ваш мозг обрабатывает движения их рук. Но что, если бы компьютер мог делать то же самое? Благодаря решениям для отслеживания рук на основе ИИ, машины могут отслеживать и интерпретировать движения рук с впечатляющей точностью.

В основе этих решений лежит компьютерное зрение — подобласть ИИ, которая позволяет машинам обрабатывать и понимать визуальную информацию. Анализируя изображения и видео, Vision AI помогает им обнаруживать объекты, отслеживать движения и распознавать сложные жесты с поразительной точностью.

Например, модели компьютерного зрения, такие как Ultralytics YOLO11, можно обучить обнаруживать и анализировать ключевые точки рук в режиме реального времени с использованием оценки позы. Это позволяет использовать эти модели для таких приложений, как распознавание жестов, перевод языка жестов и AR/VR-взаимодействия. 

В этой статье мы рассмотрим, как YOLO11 обеспечивает отслеживание рук на основе ИИ, наборы данных, используемые для обучения, и как выполнить пользовательскую настройку модели для оценки положения рук. Мы также рассмотрим реальные примеры применения. Давайте начнем!

Понимание обнаружения ключевых точек рук на основе ИИ

Искусственный интеллект можно использовать для распознавания и отслеживания движений рук в визуальных данных путем определения ключевых точек, таких как запястье, кончики пальцев и суставы пальцев. Один из подходов, известный как оценка позы, помогает компьютерам понимать движения человека, отображая ключевые точки и анализируя, как они меняются со временем. Это позволяет системам искусственного интеллекта с высокой точностью интерпретировать осанку тела, жесты и модели движений.

Модели компьютерного зрения делают это возможным, анализируя изображения или видео, чтобы идентифицировать ключевые точки на руке и отслеживать их движение. После того как эти точки нанесены на карту, ИИ может распознавать жесты, анализируя пространственные взаимосвязи между ключевыми точками и то, как они меняются со временем. 

Например, если расстояние между большим и указательным пальцем уменьшается, ИИ может интерпретировать это как щипающее движение. Аналогично, отслеживание того, как ключевые точки движутся в последовательностях, помогает идентифицировать сложные жесты рук и даже предсказывать будущие движения.

__wf_reserved_inherit
Рис. 1. Пример распознавания ключевых точек руки с использованием компьютерного зрения.

Интересно, что оценка позы для отслеживания рук открыла захватывающие возможности, от управления интеллектуальными устройствами без помощи рук до повышения точности роботов и помощи в приложениях здравоохранения. Поскольку ИИ и компьютерное зрение продолжают развиваться, отслеживание рук, вероятно, будет играть все большую роль в том, чтобы сделать технологии более интерактивными, доступными и интуитивно понятными в повседневной жизни.

Изучение YOLO11 для оценки позы

Прежде чем мы углубимся в создание решения для отслеживания рук на основе ИИ, давайте подробнее рассмотрим оценку позы и то, как YOLO11 поддерживает эту задачу компьютерного зрения. В отличие от стандартного обнаружения объектов, которое идентифицирует объекты целиком, оценка позы фокусируется на обнаружении ключевых ориентиров, таких как суставы, конечности или края, для анализа движения и осанки. 

В частности, Ultralytics YOLO11 разработан для оценки позы в реальном времени. Используя как нисходящие, так и восходящие методы, он эффективно обнаруживает людей и оценивает ключевые точки за один шаг, превосходя предыдущие модели по скорости и точности.

YOLO11 поставляется с предварительно обученной моделью на наборе данных COCO-Pose и может распознавать ключевые точки на теле человека, включая голову, плечи, локти, запястья, бедра, колени и лодыжки. 

__wf_reserved_inherit
Рис. 2. Использование YOLO11 для оценки позы человека.

Помимо оценки позы человека, YOLO11 можно настраивать для обнаружения ключевых точек на различных объектах, как одушевленных, так и неодушевленных. Эта гибкость делает YOLO11 отличным вариантом для широкого спектра применений.

Обзор набора данных Hand Keypoints

Первый шаг в пользовательской тренировке модели — это сбор данных и их аннотация или поиск существующего набора данных, который соответствует потребностям проекта. Например, набор данных Hand Keypoints — хорошая отправная точка для обучения моделей Vision AI для отслеживания рук и оценки позы. Благодаря 26 768 аннотированным изображениям отпадает необходимость в ручной разметке. 

Его можно использовать для обучения моделей, таких как Ultralytics YOLO11, чтобы быстро научиться обнаруживать и отслеживать движения рук. Набор данных включает 21 ключевую точку на каждую руку, охватывающую запястье, пальцы и суставы. Кроме того, аннотации набора данных были сгенерированы с помощью Google MediaPipe, инструмента для разработки AI-решений для обработки медиа в реальном времени, что обеспечивает точное и надежное обнаружение ключевых точек. 

__wf_reserved_inherit
Рис. 3. 21 ключевая точка, включенная в набор данных Hand Keypoints.

Использование структурированного набора данных, подобного этому, экономит время и позволяет разработчикам сосредоточиться на обучении и точной настройке своих моделей вместо сбора и маркировки данных. Фактически, набор данных уже разделен на подмножества для обучения (18 776 изображений) и проверки (7 992 изображения), что упрощает оценку производительности модели. 

Как обучить YOLO11 для оценки позы руки

Обучение YOLO11 для оценки позы рук — это простой процесс, особенно с пакетом Ultralytics Python, который упрощает настройку и обучение модели. Поскольку набор данных Hand Keypoints уже поддерживается в конвейере обучения, его можно использовать сразу без дополнительного форматирования, что экономит время и усилия.

Вот как работает процесс обучения:

  • Настройте окружение: Первый шаг — установить пакет Ultralytics Python.
  • Загрузите набор данных ключевых точек рук: YOLO11 изначально поддерживает этот набор данных, поэтому его можно загрузить и подготовить автоматически.
  • Используйте предварительно обученную модель: Вы можете начать с предварительно обученной модели оценки позы YOLO11, которая помогает повысить точность и ускорить процесс обучения.
  • Обучение модели: Модель учится обнаруживать и отслеживать ключевые точки рук, проходя через несколько циклов обучения.
  • Мониторинг производительности: Пакет Ultralytics также предоставляет встроенные инструменты для отслеживания ключевых показателей, таких как точность и потери, помогая обеспечить улучшение модели с течением времени.
  • Сохранение и развертывание: После обучения модель можно экспортировать и использовать для приложений отслеживания рук в реальном времени.

Оценка вашей пользовательской обученной модели

Проходя этапы создания пользовательской модели, вы заметите, что мониторинг производительности имеет важное значение. Наряду с отслеживанием прогресса во время обучения, оценка модели после этого имеет решающее значение для того, чтобы убедиться, что она точно обнаруживает и отслеживает ключевые точки рук. 

Ключевые показатели производительности, такие как точность, значения потерь и средняя точность (mAP), помогают оценить, насколько хорошо работает модель. Пакет Ultralytics Python предоставляет встроенные инструменты для визуализации результатов и сравнения прогнозов с реальными аннотациями, что упрощает выявление областей для улучшения.

Чтобы лучше понять производительность модели, вы можете проверить графики оценки, такие как кривые потерь, графики точности-полноты и матрицы ошибок, которые автоматически генерируются в журналах обучения. 

Эти графики помогают выявить такие проблемы, как переобучение (когда модель запоминает обучающие данные, но испытывает трудности с новыми данными) или недообучение (когда модель не может достаточно хорошо изучить закономерности для точного выполнения) и направляют корректировки для повышения точности. Кроме того, важно протестировать модель на новых изображениях или видео, чтобы увидеть, насколько хорошо она работает в реальных сценариях.

Применение решений для отслеживания рук на основе ИИ

Далее, давайте рассмотрим некоторые из наиболее значимых применений оценки ключевых точек рук с помощью Ultralytics YOLO11.

Распознавание жестов в реальном времени с помощью YOLO11

Предположим, вы можете регулировать громкость телевизора, просто махнув рукой, или перемещаться по системе умного дома простым взмахом в воздухе. Распознавание жестов в реальном времени на базе YOLO11 делает такое бесконтактное взаимодействие возможным благодаря точному определению движений рук в реальном времени. 

Это работает с использованием AI-камер для отслеживания ключевых точек на вашей руке и интерпретации жестов как команд. Камеры, определяющие глубину, инфракрасные датчики или даже обычные веб-камеры фиксируют движения рук, а YOLO11 может обрабатывать данные для распознавания различных жестов. Например, такая система может различать смахивание для смены песни, сведение пальцев для увеличения или круговое движение для регулировки громкости.

Обнаружение ключевых точек рук на основе ИИ для распознавания языка жестов

AI-решения для отслеживания движений рук могут поддерживать беспрепятственное общение между глухим человеком и тем, кто не знает язык жестов. Например, интеллектуальные устройства, интегрированные с камерами и YOLO11, можно использовать для мгновенного перевода языка жестов в текст или речь. 

Благодаря таким достижениям, как YOLO11, инструменты перевода языка жестов становятся все более точными и доступными. Это влияет на такие приложения, как вспомогательные технологии, услуги синхронного перевода и образовательные платформы. ИИ может помочь преодолеть коммуникационные барьеры и способствовать инклюзивности на рабочих местах, в школах и общественных местах.

Компьютерное зрение для отслеживания движений рук: улучшение опыта в AR и VR

Вы когда-нибудь играли в игру виртуальной реальности (VR), где вы могли хватать объекты без использования контроллера? Отслеживание рук на основе компьютерного зрения делает это возможным, позволяя пользователям взаимодействовать естественным образом в средах дополненной реальности (AR) и VR. 

__wf_reserved_inherit
Рис. 4. Отслеживание рук — ключевая часть приложений AR и VR.

Благодаря оценке ключевых точек рук с использованием таких моделей, как Ultralytics YOLO11, ИИ отслеживает движения в режиме реального времени, позволяя выполнять такие жесты, как сведение пальцев, захват и смахивание. Это улучшает игры, виртуальное обучение и удаленное сотрудничество, делая взаимодействие более интуитивным. По мере совершенствования технологии отслеживания рук AR и VR будут ощущаться еще более захватывающими и реалистичными. 

Основные выводы

Оценка ключевых точек рук с помощью Ultralytics YOLO11 делает решения для отслеживания рук на основе ИИ более доступными и надежными. От распознавания жестов в реальном времени до интерпретации языка жестов и приложений AR/VR, компьютерное зрение открывает новые возможности во взаимодействии человека с компьютером.

Кроме того, оптимизированные процессы пользовательского обучения и тонкой настройки помогают разработчикам создавать эффективные модели для различных реальных применений. По мере развития технологии компьютерного зрения мы можем ожидать еще больше инноваций в таких областях, как здравоохранение, робототехника, игры и безопасность.

Взаимодействуйте с нашим сообществом и изучайте достижения в области ИИ в нашем репозитории GitHub. Узнайте о влиянии ИИ в производстве и компьютерного зрения в здравоохранении на страницах наших решений. Ознакомьтесь с нашими тарифными планами и начните свой путь в мир ИИ уже сегодня!

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена