Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Explore la estimación de puntos clave de la mano impulsada por IA con el soporte de Ultralytics YOLO11 para la estimación de poses en aplicaciones como el reconocimiento de gestos en tiempo real.
Recientemente, los intérpretes de lenguaje de señas en la Super Bowl han ganado mucha atención. Cuando los ves cantar la canción de tu artista favorito en la televisión, puedes entenderlos si conoces el lenguaje de señas porque tu cerebro procesa sus movimientos de manos. Pero, ¿y si una computadora pudiera hacer lo mismo? Gracias a las soluciones de seguimiento de manos impulsadas por la IA, es posible que las máquinas rastreen e interpreten los movimientos de las manos con una precisión impresionante.
En el núcleo de estas soluciones se encuentra la visión artificial, un subcampo de la IA que permite a las máquinas procesar y comprender la información visual. Al analizar imágenes y vídeos, la visión artificial les ayuda a detectar objetos, rastrear movimientos y reconocer gestos complejos con una precisión notable.
Por ejemplo, los modelos de visión artificial como Ultralytics YOLO11 pueden entrenarse para detectar y analizar los puntos clave de la mano en tiempo real mediante la estimación de la pose. Al hacerlo, estos modelos pueden utilizarse para aplicaciones como el reconocimiento de gestos, la traducción de la lengua de signos y las interacciones AR/VR.
En este artículo, exploraremos cómo YOLO11 permite el seguimiento de manos basado en IA, los conjuntos de datos utilizados para el entrenamiento y cómo entrenar de forma personalizada un modelo para la estimación de la pose de la mano. También analizaremos aplicaciones del mundo real. ¡Empecemos!
Comprensión de la detección de puntos clave de la mano basada en IA
La IA se puede utilizar para reconocer y rastrear los movimientos de la mano en datos visuales mediante la identificación de puntos clave como la muñeca, las yemas de los dedos y las articulaciones de los dedos. Un enfoque, conocido como estimación de pose, ayuda a las computadoras a comprender el movimiento humano mediante el mapeo de puntos clave y el análisis de cómo cambian con el tiempo. Esto permite que los sistemas de IA interpreten la postura corporal, los gestos y los patrones de movimiento con gran precisión.
Los modelos de visión artificial hacen esto posible analizando imágenes o vídeos para identificar puntos clave en la mano y rastrear su movimiento. Una vez que estos puntos están mapeados, la IA puede reconocer gestos analizando las relaciones espaciales entre los puntos clave y cómo cambian con el tiempo.
Por ejemplo, si la distancia entre un pulgar y un índice disminuye, la IA puede interpretarlo como un movimiento de pinzamiento. De forma similar, el seguimiento de cómo se mueven los puntos clave en secuencias ayuda a identificar gestos complejos con las manos e incluso a predecir movimientos futuros.
Fig 1. Ejemplo del reconocimiento de puntos clave en una mano mediante visión artificial.
Curiosamente, la estimación de la pose para el seguimiento de manos ha abierto posibilidades interesantes, desde el control manos libres de dispositivos inteligentes hasta la mejora de la precisión robótica y la asistencia en aplicaciones sanitarias. A medida que la IA y la visión artificial sigan evolucionando, es probable que el seguimiento de manos desempeñe un papel más importante a la hora de hacer que la tecnología sea más interactiva, accesible e intuitiva en la vida cotidiana.
Explorando YOLO11 para la estimación de la pose
Antes de sumergirnos en cómo crear una solución para el seguimiento de manos basado en IA, echemos un vistazo más de cerca a la estimación de poses y cómo YOLO11 admite esta tarea de visión artificial. A diferencia de la detección de objetos estándar, que identifica objetos completos, la estimación de poses se centra en la detección de puntos de referencia clave, como articulaciones, extremidades o bordes, para analizar el movimiento y la postura.
Específicamente, Ultralytics YOLO11 está diseñado para la estimación de la pose en tiempo real. Al aprovechar los métodos tanto ascendentes como descendentes, detecta eficientemente a las personas y estima los puntos clave en un solo paso, superando a los modelos anteriores en velocidad y precisión.
YOLO11 viene pre-entrenado de fábrica con el conjunto de datos COCO-Pose y puede reconocer puntos clave en el cuerpo humano, incluyendo la cabeza, los hombros, los codos, las muñecas, las caderas, las rodillas y los tobillos.
Fig 2. Uso de YOLO11 para la estimación de la pose humana.
Más allá de la estimación de la pose humana, YOLO11 se puede entrenar a medida para detectar puntos clave en una variedad de objetos, tanto animados como inanimados. Esta flexibilidad convierte a YOLO11 en una excelente opción para una amplia gama de aplicaciones.
Una visión general del conjunto de datos Hand Keypoints
El primer paso para entrenar un modelo personalizado es recopilar datos y anotarlos o encontrar un conjunto de datos existente que se ajuste a las necesidades del proyecto. Por ejemplo, el conjunto de datos Hand Keypoints es un buen punto de partida para entrenar modelos de Visión Artificial para el seguimiento de manos y la estimación de la pose. Con 26.768 imágenes anotadas, elimina la necesidad de etiquetado manual.
Puede utilizarse para entrenar modelos como Ultralytics YOLO11 para que aprendan rápidamente a detectar y rastrear los movimientos de las manos. El conjunto de datos incluye 21 puntos clave por mano, que cubren la muñeca, los dedos y las articulaciones. Además, las anotaciones del conjunto de datos se generaron con Google MediaPipe, una herramienta para desarrollar soluciones impulsadas por IA para el procesamiento de medios en tiempo real, lo que garantiza una detección de puntos clave precisa y fiable.
Fig 3. Los 21 puntos clave incluidos en el conjunto de datos de puntos clave de la mano.
El uso de un conjunto de datos estructurado como este ahorra tiempo y permite a los desarrolladores centrarse en el entrenamiento y el ajuste fino de sus modelos en lugar de recopilar y etiquetar datos. De hecho, el conjunto de datos ya está dividido en subconjuntos de entrenamiento (18.776 imágenes) y validación (7.992 imágenes), lo que facilita la evaluación del rendimiento del modelo.
Cómo entrenar YOLO11 para la estimación de la pose de la mano
Entrenar YOLO11 para la estimación de la pose de la mano es un proceso sencillo, especialmente con el paquete de Python de Ultralytics, que facilita la configuración y el entrenamiento del modelo. Dado que el conjunto de datos de puntos clave de la mano ya es compatible con la canalización de entrenamiento, se puede utilizar de inmediato sin formato adicional, lo que ahorra tiempo y esfuerzo.
Así es como funciona el proceso de entrenamiento:
Configurar el entorno: El primer paso es instalar el paquete de Python Ultralytics.
Cargar el conjunto de datos de puntos clave de la mano: YOLO11 es compatible con este conjunto de datos de forma nativa, por lo que se puede descargar y preparar automáticamente.
Utilice un modelo pre-entrenado: Puede comenzar con un modelo de estimación de pose YOLO11 pre-entrenado, lo que ayuda a mejorar la precisión y acelera el proceso de entrenamiento.
Entrenar el modelo: El modelo aprende a detectar y rastrear los puntos clave de la mano pasando por múltiples ciclos de entrenamiento.
Supervisar el rendimiento: El paquete Ultralytics también proporciona herramientas integradas para rastrear métricas clave como la precisión y la pérdida, lo que ayuda a garantizar que el modelo mejore con el tiempo.
Guardar y desplegar: Una vez entrenado, el modelo puede ser exportado y utilizado para aplicaciones de seguimiento de manos en tiempo real.
Evaluación de su modelo personalizado entrenado
Al seguir los pasos para crear un modelo personalizado, notará que el monitoreo del rendimiento es esencial. Además de realizar un seguimiento del progreso durante el entrenamiento, evaluar el modelo posteriormente es crucial para asegurarse de que detecte y rastree con precisión los puntos clave de la mano.
Las métricas de rendimiento clave, como la precisión, los valores de pérdida y la precisión media promedio (mAP), ayudan a evaluar el rendimiento del modelo. El paquete de Python de Ultralytics proporciona herramientas integradas para visualizar los resultados y comparar las predicciones con las anotaciones reales, lo que facilita la detección de áreas de mejora.
Para comprender mejor el rendimiento del modelo, puede consultar gráficos de evaluación como las curvas de pérdida, los diagramas de precisión-recuperación y las matrices de confusión, que se generan automáticamente en los registros de entrenamiento.
Estos gráficos ayudan a identificar problemas como el sobreajuste (cuando el modelo memoriza los datos de entrenamiento pero tiene dificultades con los nuevos datos) o el desajuste (cuando el modelo no aprende los patrones lo suficientemente bien como para funcionar con precisión) y guían los ajustes para mejorar la precisión. Además, es importante probar el modelo con nuevas imágenes o vídeos para ver cómo funciona en escenarios del mundo real.
Aplicaciones de soluciones de seguimiento de manos impulsadas por IA
Reconocimiento de gestos en tiempo real con YOLO11
Digamos que pudieras ajustar el volumen de tu televisor simplemente agitando la mano o navegar por un sistema de hogar inteligente con un simple deslizamiento en el aire. El reconocimiento de gestos en tiempo real impulsado por YOLO11 hace posible estas interacciones sin contacto al detectar con precisión los movimientos de la mano en tiempo real.
Esto funciona mediante el uso de cámaras de IA para rastrear puntos clave en tu mano e interpretar los gestos como comandos. Las cámaras de detección de profundidad, los sensores de infrarrojos o incluso las cámaras web normales capturan los movimientos de la mano, mientras que YOLO11 puede procesar los datos para reconocer diferentes gestos. Por ejemplo, un sistema de este tipo puede distinguir entre un deslizamiento para cambiar una canción, un pellizco para ampliar o un movimiento circular para ajustar el volumen.
Detección de puntos clave de la mano basada en IA para el reconocimiento del lenguaje de señas
Las soluciones de IA para el seguimiento de manos pueden facilitar la comunicación fluida entre una persona sorda y alguien que no conoce el lenguaje de señas. Por ejemplo, los dispositivos inteligentes integrados con cámaras y YOLO11 se pueden utilizar para traducir instantáneamente el lenguaje de señas en texto o voz.
Gracias a los avances como YOLO11, las herramientas de traducción de lenguaje de señas son cada vez más precisas y accesibles. Esto impacta en aplicaciones como la tecnología de asistencia, los servicios de traducción en vivo y las plataformas educativas. La IA puede ayudar a cerrar las brechas de comunicación y promover la inclusión en los lugares de trabajo, las escuelas y los espacios públicos.
Visión artificial para el seguimiento de manos: mejora de las experiencias de RA y RV
¿Alguna vez has jugado a un juego de realidad virtual (RV) en el que podías agarrar objetos sin usar un mando? El seguimiento de manos impulsado por la visión artificial lo hace posible al permitir a los usuarios interactuar de forma natural en entornos de realidad aumentada (RA) y RV.
Fig. 4. El seguimiento de manos es una parte clave de las aplicaciones de AR y VR.
Con la estimación de puntos clave de la mano mediante modelos como Ultralytics YOLO11, la IA rastrea los movimientos en tiempo real, lo que permite gestos como pellizcar, agarrar y deslizar. Esto mejora los juegos, la formación virtual y la colaboración remota, haciendo que las interacciones sean más intuitivas. A medida que la tecnología de seguimiento de manos mejora, la RA y la RV se sentirán aún más inmersivas y realistas.
Conclusiones clave
La estimación de puntos clave de la mano con Ultralytics YOLO11 está haciendo que las soluciones de seguimiento de manos impulsadas por IA sean más accesibles y fiables. Desde el reconocimiento de gestos en tiempo real hasta la interpretación del lenguaje de signos y las aplicaciones de AR/VR, la visión artificial está abriendo nuevas posibilidades en la interacción humano-ordenador.
Además, los procesos optimizados de entrenamiento personalizado y ajuste fino están ayudando a los desarrolladores a construir modelos eficientes para diversos usos en el mundo real. A medida que la tecnología de visión artificial evoluciona, podemos esperar aún más innovaciones en áreas como la atención médica, la robótica, los juegos y la seguridad.