Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Configuración de cookies
Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Explore la estimación de puntos clave de la mano basada en IA con la compatibilidad de Ultralytics YOLO11 con la estimación de poses en aplicaciones como el reconocimiento de gestos en tiempo real.
Recientemente, los intérpretes de lengua de signos de la Super Bowl han acaparado mucha atención. Cuando les ves cantar la canción de tu artista favorito en la tele, puedes entenderles si conoces el lenguaje de signos porque tu cerebro procesa los movimientos de sus manos. Pero, ¿y si un ordenador pudiera hacer lo mismo? Gracias a las soluciones de seguimiento de manos basadas en IA, las máquinas pueden seguir e interpretar los movimientos de las manos con una precisión impresionante.
El núcleo de estas soluciones es la visión por ordenador, un subcampo de la IA que permite a las máquinas procesar y comprender la información visual. Mediante el análisis de imágenes y vídeos, la IA de visión les ayuda a detectar objetos, seguir movimientos y reconocer gestos complejos con notable precisión.
Por ejemplo, los modelos de visión por ordenador como Ultralytics YOLO11 pueden entrenarse para detectar y analizar los puntos clave de las manos en tiempo real mediante la estimación de la pose. De este modo, estos modelos pueden utilizarse para aplicaciones como el reconocimiento de gestos, la traducción del lenguaje de signos y las interacciones AR/VR.
En este artículo, exploraremos cómo YOLO11 permite el seguimiento de manos basado en IA, los conjuntos de datos utilizados para el entrenamiento y cómo personalizar el entrenamiento de un modelo para la estimación de la pose de la mano. También veremos aplicaciones reales. Pongámonos manos a la obra.
Comprender la detección de los puntos clave de las manos basada en la IA
La IA puede utilizarse para reconocer y seguir los movimientos de la mano en datos visuales identificando puntos clave como la muñeca, las puntas de los dedos y las articulaciones. Un método, conocido como estimación de la postura, ayuda a los ordenadores a comprender el movimiento humano mediante la asignación de puntos clave y el análisis de cómo cambian con el tiempo. Esto permite a los sistemas de IA interpretar con gran precisión la postura corporal, los gestos y los patrones de movimiento.
Los modelos de visión artificial lo hacen posible analizando imágenes o vídeos para identificar puntos clave en la mano y seguir su movimiento. Una vez mapeados estos puntos, la IA puede reconocer gestos analizando las relaciones espaciales entre los puntos clave y cómo cambian con el tiempo.
Por ejemplo, si la distancia entre el pulgar y el índice disminuye, la IA puede interpretarlo como un movimiento de pellizco. Del mismo modo, el seguimiento de cómo se mueven los puntos clave en secuencias ayuda a identificar gestos complejos de la mano e incluso a predecir movimientos futuros.
Fig. 1. Ejemplo de reconocimiento de los puntos clave de una mano mediante visión por ordenador.
Curiosamente, la estimación de la postura para el seguimiento de las manos ha abierto interesantes posibilidades, desde el control manos libres de dispositivos inteligentes hasta la mejora de la precisión robótica y la asistencia en aplicaciones sanitarias. A medida que la IA y la visión por ordenador sigan evolucionando, es probable que el seguimiento de las manos desempeñe un papel más importante a la hora de hacer que la tecnología sea más interactiva, accesible e intuitiva en la vida cotidiana.
Exploración de YOLO11 para la estimación de la pose
Antes de adentrarnos en cómo crear una solución para el seguimiento de manos basada en IA, vamos a echar un vistazo más de cerca a la estimación de la pose y cómo YOLO11 es compatible con esta tarea de visión por ordenador. A diferencia de la detección de objetos estándar, que identifica objetos enteros, la estimación de la pose se centra en detectar puntos de referencia clave, como articulaciones, extremidades o bordes, para analizar el movimiento y la postura.
En concreto, Ultralytics YOLO11 está diseñado para la estimación de la pose en tiempo real. Aprovechando métodos descendentes y ascendentes, detecta personas y estima puntos clave en un solo paso, superando a modelos anteriores en velocidad y precisión.
YOLO11 viene preentrenado con el conjunto de datos COCO-Pose y puede reconocer puntos clave del cuerpo humano, como la cabeza, los hombros, los codos, las muñecas, las caderas, las rodillas y los tobillos.
Fig. 2. Uso de YOLO11 para la estimación de la pose humana.
Además de la estimación de la pose humana, YOLO11 puede entrenarse para detectar puntos clave en una gran variedad de objetos, tanto animados como inanimados. Esta flexibilidad convierte a YOLO11 en una gran opción para una amplia gama de aplicaciones.
Visión general del conjunto de datos Hand Keypoints
El primer paso en el entrenamiento personalizado de un modelo es recopilar datos y anotarlos o encontrar un conjunto de datos existente que se ajuste a las necesidades del proyecto. Por ejemplo, el conjunto de datos Hand Keypoints es un buen punto de partida para entrenar modelos de Vision AI para el seguimiento de manos y la estimación de poses. Con 26.768 imágenes anotadas, elimina la necesidad de etiquetado manual.
Puede utilizarse para entrenar modelos como Ultralytics YOLO11 para aprender rápidamente a detectar y seguir los movimientos de la mano. El conjunto de datos incluye 21 puntos clave por mano, que abarcan la muñeca, los dedos y las articulaciones. Además, las anotaciones del conjunto de datos se generaron con Google MediaPipe, una herramienta para desarrollar soluciones basadas en IA para el procesamiento de medios en tiempo real, lo que garantiza una detección precisa y fiable de los puntos clave.
Fig. 3. Los 21 puntos clave incluidos en el conjunto de datos Hand Keypoints.
El uso de un conjunto de datos estructurado como éste ahorra tiempo y permite a los desarrolladores centrarse en la formación y el ajuste de sus modelos en lugar de recopilar y etiquetar datos. De hecho, el conjunto de datos ya está dividido en subconjuntos de entrenamiento (18.776 imágenes) y validación (7.992 imágenes), lo que facilita la evaluación del rendimiento del modelo.
Cómo entrenar a YOLO11 para la estimación de la postura de la mano
El entrenamiento de YOLO11 para la estimación de la pose de la mano es un proceso sencillo, especialmente con el paquete Python Ultralytics, que facilita la configuración y el entrenamiento del modelo. Dado que el conjunto de datos Hand Keypoints ya es compatible con el proceso de entrenamiento, puede utilizarse de inmediato sin necesidad de formateo adicional, lo que ahorra tiempo y esfuerzo.
Así es como funciona el proceso de formación:
Configurar el entorno: El primer paso es instalar el paquete Python de Ultralytics.
Cargue el conjunto de datos Hand Keypoints: YOLO11 soporta este conjunto de datos de forma nativa, por lo que puede descargarse y prepararse automáticamente.
Utilice un modelo preentrenado: Puede empezar con un modelo de estimación de pose YOLO11 preentrenado, que ayuda a mejorar la precisión y acelera el proceso de entrenamiento.
Entrenar el modelo: El modelo aprende a detectar y rastrear los puntos clave de las manos pasando por múltiples ciclos de entrenamiento.
Supervisar el rendimiento: El paquete Ultralytics también proporciona herramientas integradas para realizar un seguimiento de métricas clave como la precisión y las pérdidas, lo que ayuda a garantizar que el modelo mejore con el tiempo.
Guardar y desplegar: Una vez entrenado, el modelo puede exportarse y utilizarse para aplicaciones de seguimiento de manos en tiempo real.
Evaluación del modelo personalizado
Al seguir los pasos de la creación de un modelo personalizado, se dará cuenta de que la supervisión del rendimiento es esencial. Junto con el seguimiento del progreso durante el entrenamiento, la evaluación posterior del modelo es crucial para asegurarse de que detecta y rastrea con precisión los puntos clave de la mano.
Las principales métricas de rendimiento, como la exactitud, los valores de pérdida y la precisión media (mAP), ayudan a evaluar el rendimiento del modelo. El paquete Ultralytics Python proporciona herramientas integradas para visualizar los resultados y comparar las predicciones con anotaciones reales, lo que facilita la detección de áreas de mejora.
Para comprender mejor el rendimiento del modelo, puede consultar los gráficos de evaluación, como las curvas de pérdida, los gráficos de precisión-recuerdo y las matrices de confusión, que se generan automáticamente en los registros de entrenamiento.
Estos gráficos ayudan a identificar problemas como la sobreadaptación (cuando el modelo memoriza los datos de entrenamiento pero tiene dificultades con los nuevos) o la inadaptación (cuando el modelo no aprende patrones lo suficientemente bien como para funcionar con precisión) y orientar los ajustes para mejorar la precisión. Además, es importante probar el modelo con nuevas imágenes o vídeos para comprobar su eficacia en situaciones reales.
Aplicaciones de las soluciones de seguimiento de manos basadas en IA
Reconocimiento de gestos en tiempo real con YOLO11
Digamos que puedes ajustar el volumen de tu televisor simplemente moviendo la mano o navegar por un sistema doméstico inteligente con un simple gesto en el aire. El reconocimiento de gestos en tiempo real de YOLO11 hace posibles estas interacciones sin contacto al detectar con precisión los movimientos de la mano en tiempo real.
Para ello utiliza cámaras de inteligencia artificial que rastrean los puntos clave de la mano e interpretan los gestos como órdenes. Las cámaras de detección de profundidad, los sensores infrarrojos o incluso las cámaras web normales captan los movimientos de la mano, mientras que YOLO11 puede procesar los datos para reconocer diferentes gestos. Por ejemplo, un sistema así puede diferenciar entre un barrido para cambiar de canción, un pellizco para hacer zoom o un movimiento circular para ajustar el volumen.
Detección de puntos clave de la mano basada en IA para el reconocimiento del lenguaje de signos
Las soluciones de IA para el seguimiento de las manos pueden favorecer una comunicación fluida entre una persona sorda y otra que no conozca el lenguaje de signos. Por ejemplo, los dispositivos inteligentes integrados con cámaras y YOLO11 pueden utilizarse para traducir instantáneamente el lenguaje de signos a texto o voz.
Gracias a avances como YOLO11, las herramientas de traducción de la lengua de signos son cada vez más precisas y accesibles. Esto afecta a aplicaciones como la tecnología de asistencia, los servicios de traducción en directo y las plataformas educativas. La IA puede ayudar a salvar las brechas de comunicación y promover la inclusión en los lugares de trabajo, las escuelas y los espacios públicos.
Visión por ordenador para el seguimiento de las manos: Mejora de las experiencias de RA y RV
¿Ha jugado alguna vez a un juego de realidad virtual (RV) en el que pudiera agarrar objetos sin utilizar un mando? El seguimiento de las manos mediante visión por ordenador lo hace posible, permitiendo a los usuarios interactuar de forma natural en entornos de realidad aumentada (RA) y RV.
Fig. 4. El seguimiento de las manos es una parte fundamental de las aplicaciones de RA y RV.
Con la estimación de los puntos clave de la mano mediante modelos como Ultralytics YOLO11, la IA rastrea los movimientos en tiempo real, lo que permite gestos como pellizcar, agarrar y deslizar. Esto mejora los juegos, la formación virtual y la colaboración a distancia, haciendo que las interacciones sean más intuitivas. A medida que mejore la tecnología de seguimiento de las manos, la RA y la RV serán aún más envolventes y realistas.
Principales conclusiones
La estimación de los puntos clave de las manos con Ultralytics YOLO11 está haciendo que las soluciones de seguimiento de manos basadas en IA sean más accesibles y fiables. Desde el reconocimiento de gestos en tiempo real hasta la interpretación del lenguaje de signos y las aplicaciones AR/VR, la visión por ordenador está abriendo nuevas posibilidades en la interacción persona-ordenador.
Además, los procesos simplificados de formación y ajuste personalizados están ayudando a los desarrolladores a crear modelos eficientes para diversos usos en el mundo real. A medida que evolucione la tecnología de visión por ordenador, podemos esperar aún más innovaciones en ámbitos como la sanidad, la robótica, los juegos y la seguridad.