Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Explore la estimación de puntos clave de la mano basada en IA con la compatibilidad de Ultralytics YOLO11 con la estimación de poses en aplicaciones como el reconocimiento de gestos en tiempo real.
Recientemente, los intérpretes de lengua de signos de la Super Bowl han acaparado mucha atención. Cuando les ves cantar la canción de tu artista favorito en la tele, puedes entenderles si conoces el lenguaje de signos porque tu cerebro procesa los movimientos de sus manos. Pero, ¿y si un ordenador pudiera hacer lo mismo? Gracias a las soluciones de seguimiento de manos basadas en IA, las máquinas pueden track e interpretar los movimientos de las manos con una precisión impresionante.
El núcleo de estas soluciones es la visión por ordenador, un subcampo de la IA que permite a las máquinas procesar y comprender la información visual. Mediante el análisis de imágenes y vídeos, la IA de visión les ayuda a detect objetos, track movimientos y reconocer gestos complejos con notable precisión.
Por ejemplo, modelos de visión por ordenador como Ultralytics YOLO11 pueden entrenarse para detect y analizar los puntos clave de las manos en tiempo real mediante la estimación de la postura. De este modo, estos modelos pueden utilizarse para aplicaciones como el reconocimiento de gestos, la traducción del lenguaje de signos y las interacciones AR/VR.
En este artículo, exploraremos cómo YOLO11 permite el seguimiento de manos basado en IA, los conjuntos de datos utilizados para el entrenamiento y cómo personalizar el entrenamiento de un modelo para la estimación de la pose de la mano. También veremos aplicaciones reales. Pongámonos manos a la obra.
Comprensión de la detección de puntos clave de la mano basada en IA
La IA puede utilizarse para reconocer y track los movimientos de la mano en datos visuales identificando puntos clave como la muñeca, las puntas de los dedos y las articulaciones. Un método, conocido como estimación de la postura, ayuda a los ordenadores a comprender el movimiento humano mediante la asignación de puntos clave y el análisis de cómo cambian con el tiempo. Esto permite a los sistemas de IA interpretar con gran precisión la postura corporal, los gestos y los patrones de movimiento.
Los modelos de visión artificial lo hacen posible analizando imágenes o vídeos para identificar puntos clave en la mano y track su movimiento. Una vez mapeados estos puntos, la IA puede reconocer gestos analizando las relaciones espaciales entre los puntos clave y cómo cambian con el tiempo.
Por ejemplo, si la distancia entre un pulgar y un índice disminuye, la IA puede interpretarlo como un movimiento de pinzamiento. De forma similar, el seguimiento de cómo se mueven los puntos clave en secuencias ayuda a identificar gestos complejos con las manos e incluso a predecir movimientos futuros.
Fig 1. Ejemplo del reconocimiento de puntos clave en una mano mediante visión artificial.
Curiosamente, la estimación de la pose para el seguimiento de manos ha abierto posibilidades interesantes, desde el control manos libres de dispositivos inteligentes hasta la mejora de la precisión robótica y la asistencia en aplicaciones sanitarias. A medida que la IA y la visión artificial sigan evolucionando, es probable que el seguimiento de manos desempeñe un papel más importante a la hora de hacer que la tecnología sea más interactiva, accesible e intuitiva en la vida cotidiana.
Exploración de YOLO11 para la estimación de la pose
Antes de adentrarnos en cómo crear una solución para el seguimiento de manos basada en IA, vamos a echar un vistazo más de cerca a la estimación de la pose y cómo YOLO11 es compatible con esta tarea de visión por ordenador. A diferencia de la detección de objetos estándar, que identifica objetos enteros, la estimación de la pose se centra en detectar puntos de referencia clave, como articulaciones, extremidades o bordes, para analizar el movimiento y la postura.
En concreto, Ultralytics YOLO11 está diseñado para la estimación de la pose en tiempo real. Aprovechando métodos descendentes y ascendentes, detecta personas y estima puntos clave en un solo paso, superando a modelos anteriores en velocidad y precisión.
YOLO11 viene preentrenado con el conjunto de datosCOCO y puede reconocer puntos clave del cuerpo humano, como la cabeza, los hombros, los codos, las muñecas, las caderas, las rodillas y los tobillos.
Fig. 2. Uso de YOLO11 para la estimación de la pose humana.
Además de la estimación de la pose humana, YOLO11 puede entrenarse para detect puntos clave en una gran variedad de objetos, tanto animados como inanimados. Esta flexibilidad convierte a YOLO11 en una gran opción para una amplia gama de aplicaciones.
Una visión general del conjunto de datos Hand Keypoints
El primer paso para entrenar un modelo personalizado es recopilar datos y anotarlos o encontrar un conjunto de datos existente que se ajuste a las necesidades del proyecto. Por ejemplo, el conjunto de datos Hand Keypoints es un buen punto de partida para entrenar modelos de Visión Artificial para el seguimiento de manos y la estimación de la pose. Con 26.768 imágenes anotadas, elimina la necesidad de etiquetado manual.
Puede utilizarse para entrenar modelos como Ultralytics YOLO11 para aprender rápidamente a detect y track los movimientos de la mano. El conjunto de datos incluye 21 puntos clave por mano, que abarcan la muñeca, los dedos y las articulaciones. Además, las anotaciones del conjunto de datos se generaron con Google MediaPipe, una herramienta para desarrollar soluciones basadas en IA para el procesamiento de medios en tiempo real, lo que garantiza una detección precisa y fiable de los puntos clave.
Fig 3. Los 21 puntos clave incluidos en el conjunto de datos de puntos clave de la mano.
El uso de un conjunto de datos estructurado como este ahorra tiempo y permite a los desarrolladores centrarse en el entrenamiento y el ajuste fino de sus modelos en lugar de recopilar y etiquetar datos. De hecho, el conjunto de datos ya está dividido en subconjuntos de entrenamiento (18.776 imágenes) y validación (7.992 imágenes), lo que facilita la evaluación del rendimiento del modelo.
Cómo entrenar a YOLO11 para la estimación de la postura de la mano
El entrenamiento de YOLO11 para la estimación de la pose de la mano es un proceso sencillo, especialmente con el paquetePython Ultralytics , que facilita la configuración y el entrenamiento del modelo. Dado que el conjunto de datos Hand Keypoints ya es compatible con el proceso de entrenamiento, puede utilizarse de inmediato sin necesidad de formateo adicional, lo que ahorra tiempo y esfuerzo.
Así es como funciona el proceso de entrenamiento:
Configurar el entorno: El primer paso es instalar el paquetePython Ultralytics .
Cargue el conjunto de datos Hand Keypoints: YOLO11 soporta este conjunto de datos de forma nativa, por lo que puede descargarse y prepararse automáticamente.
Utilice un modelo preentrenado: Puede empezar con un modelo de estimación de pose YOLO11 preentrenado, que ayuda a mejorar la precisión y acelera el proceso de entrenamiento.
Entrenar el modelo: El modelo aprende a detect y track los puntos clave de las manos pasando por múltiples ciclos de entrenamiento.
Supervisar el rendimiento: El paquete Ultralytics también proporciona herramientas integradas para track métricas clave como la precisión y las pérdidas, lo que ayuda a garantizar que el modelo mejore con el tiempo.
Guardar y desplegar: Una vez entrenado, el modelo puede ser exportado y utilizado para aplicaciones de seguimiento de manos en tiempo real.
Evaluación de su modelo personalizado entrenado
Al seguir los pasos para crear un modelo personalizado, notará que el monitoreo del rendimiento es esencial. Además de realizar un seguimiento del progreso durante el entrenamiento, evaluar el modelo posteriormente es crucial para asegurarse de que detecte y rastree con precisión los puntos clave de la mano.
Las principales métricas de rendimiento, como la exactitud, los valores de pérdida y la precisión mediamAP), ayudan a evaluar el rendimiento del modelo. El paquete Ultralytics Python proporciona herramientas integradas para visualizar los resultados y comparar las predicciones con anotaciones reales, lo que facilita la detección de áreas de mejora.
Para comprender mejor el rendimiento del modelo, puede consultar gráficos de evaluación como las curvas de pérdida, los diagramas de precisión-recuperación y las matrices de confusión, que se generan automáticamente en los registros de entrenamiento.
Estos gráficos ayudan a identificar problemas como el sobreajuste (cuando el modelo memoriza los datos de entrenamiento pero tiene dificultades con los nuevos datos) o el desajuste (cuando el modelo no aprende los patrones lo suficientemente bien como para funcionar con precisión) y guían los ajustes para mejorar la precisión. Además, es importante probar el modelo con nuevas imágenes o vídeos para ver cómo funciona en escenarios del mundo real.
Aplicaciones de soluciones de seguimiento de manos impulsadas por IA
Reconocimiento de gestos en tiempo real con YOLO11
Digamos que puedes ajustar el volumen de tu televisor simplemente moviendo la mano o navegar por un sistema doméstico inteligente con un simple gesto en el aire. El reconocimiento de gestos en tiempo real de YOLO11 hace posibles estas interacciones sin contacto al detectar con precisión los movimientos de la mano en tiempo real.
Para ello utiliza cámaras de inteligencia artificial que track los puntos clave de la mano e interpretan los gestos como órdenes. Las cámaras de detección de profundidad, los sensores infrarrojos o incluso las cámaras web normales captan los movimientos de la mano, mientras que YOLO11 puede procesar los datos para reconocer diferentes gestos. Por ejemplo, un sistema así puede diferenciar entre un barrido para cambiar de canción, un pellizco para hacer zoom o un movimiento circular para ajustar el volumen.
Detección de puntos clave de la mano basada en IA para el reconocimiento del lenguaje de señas
Las soluciones de IA para el seguimiento de las manos pueden favorecer una comunicación fluida entre una persona sorda y otra que no conozca el lenguaje de signos. Por ejemplo, los dispositivos inteligentes integrados con cámaras y YOLO11 pueden utilizarse para traducir instantáneamente el lenguaje de signos a texto o voz.
Gracias a avances como YOLO11, las herramientas de traducción de la lengua de signos son cada vez más precisas y accesibles. Esto afecta a aplicaciones como la tecnología de asistencia, los servicios de traducción en directo y las plataformas educativas. La IA puede ayudar a salvar las brechas de comunicación y promover la inclusión en los lugares de trabajo, las escuelas y los espacios públicos.
Visión artificial para el seguimiento de manos: mejora de las experiencias de RA y RV
¿Alguna vez has jugado a un juego de realidad virtual (RV) en el que podías agarrar objetos sin usar un mando? El seguimiento de manos impulsado por la visión artificial lo hace posible al permitir a los usuarios interactuar de forma natural en entornos de realidad aumentada (RA) y RV.
Fig. 4. El seguimiento de manos es una parte clave de las aplicaciones de AR y VR.
Con la estimación de los puntos clave de la mano mediante modelos como Ultralytics YOLO11, la IA rastrea los movimientos en tiempo real, lo que permite gestos como pellizcar, agarrar y deslizar. Esto mejora los juegos, la formación virtual y la colaboración a distancia, haciendo que las interacciones sean más intuitivas. A medida que mejore la tecnología de seguimiento de las manos, la RA y la RV serán aún más envolventes y realistas.
Conclusiones clave
La estimación de los puntos clave de las manos con Ultralytics YOLO11 está haciendo que las soluciones de seguimiento de manos basadas en IA sean más accesibles y fiables. Desde el reconocimiento de gestos en tiempo real hasta la interpretación del lenguaje de signos y las aplicaciones AR/VR, la visión por ordenador está abriendo nuevas posibilidades en la interacción persona-ordenador.
Además, los procesos optimizados de entrenamiento personalizado y ajuste fino están ayudando a los desarrolladores a construir modelos eficientes para diversos usos en el mundo real. A medida que la tecnología de visión artificial evoluciona, podemos esperar aún más innovaciones en áreas como la atención médica, la robótica, los juegos y la seguridad.