Vision AI permite la tecnología de reconocimiento de gestos sin contacto.

A medida que la tecnología evoluciona, también lo hace la forma en que interactuamos con ella. Las primeras máquinas dependían del esfuerzo físico y los controles mecánicos, mientras que la informática moderna introdujo las pantallas táctiles y la entrada de voz.

Ahora, el reconocimiento de gestos forma parte del siguiente paso, utilizando movimientos naturales como interfaz de usuario. Un simple movimiento de la mano, un pellizco o un rápido gesto con la mano ya pueden controlar aplicaciones, pantallas y máquinas.

Esta interacción sin contacto puede funcionar gracias a la visión artificial, una rama de la IA que ayuda a las máquinas a ver e interpretar lo que capta una cámara. Los sistemas de IA visual pueden integrarse en teléfonos inteligentes, cascos de realidad virtual (RV) y realidad aumentada (RA), automóviles y dispositivos domésticos inteligentes, donde los gestos pueden sustituir a los toques, clics y botones para ofrecer una experiencia de usuario más fluida.

El control sin contacto es cada vez más habitual en la vida cotidiana. En los lugares de trabajo y los espacios compartidos, evitar el contacto físico puede mejorar la higiene y la seguridad. Muchos productos digitales también están pasando a la interacción sin manos, y los gestos proporcionan una forma fácil e intuitiva de controlar los dispositivos sin tocarlos.

En este artículo, exploraremos qué es el reconocimiento de gestos, cómo la visión artificial lo hace más preciso y dónde se utiliza en aplicaciones del mundo real. ¡Empecemos!

¿Qué es el reconocimiento de gestos?

El reconocimiento de gestos es una tecnología de detección que permite a las máquinas comprender los gestos humanos, como los signos con las manos o los movimientos corporales, y convertirlos en acciones digitales. En lugar de tocar una pantalla o pulsar botones, los usuarios pueden controlar los dispositivos mediante movimientos sencillos y naturales.

Esto hace que las interacciones resulten más intuitivas y es la razón por la que la entrada basada en gestos se está adoptando en muchos sistemas de control basados en el aprendizaje automático y la inteligencia artificial. En concreto, el reconocimiento de gestos con las manos es una de las formas más utilizadas de reconocimiento de gestos y, a menudo, se basa en la visión artificial.

En pocas palabras, una solución de IA visual puede detectar las manos en la imagen de una cámara, track se mueven o cambian de forma, y relacionar esos patrones con un gesto conocido para activar una acción en la pantalla.

Una parte fundamental de estas soluciones es un modelo de visión artificial, que se entrena con conjuntos de datos de imágenes o vídeos etiquetados que muestran diferentes gestos con las manos. Con datos de entrenamiento diversos y una evaluación minuciosa, el modelo puede generalizar mejor entre diferentes usuarios, condiciones de iluminación y fondos, lo que le ayuda a reconocer los gestos de forma más fiable en entornos reales.

Fig. 1. Datos utilizados para entrenar un modelo de visión artificial para detect puntos clave detect (Fuente)

‍

Exploración de diferentes tipos de gestos y la interacción entre humanos y ordenadores.

Antes de analizar más detenidamente el papel que desempeña la visión artificial en el reconocimiento de gestos, demos un paso atrás y veamos los tipos de gestos que suelen reconocer estos sistemas.

En la mayoría de los casos, los gestos se dividen en dos categorías: estáticos y dinámicos. Los gestos estáticos son posturas fijas de las manos, como levantar el pulgar, hacer una señal de alto o el signo de la paz. Dado que no implican movimiento, a menudo se pueden reconocer a partir de una sola imagen.

Por su parte, los gestos dinámicos implican movimiento a lo largo del tiempo, como saludar con la mano o deslizarla por el aire. Para reconocerlos, un sistema de IA visual necesita analizar múltiples fotogramas para poder track la mano y comprender la dirección y el momento en que se realiza el gesto.

El papel de los algoritmos de visión artificial en el reconocimiento de gestos

Los sistemas de reconocimiento de gestos pueden construirse de diferentes maneras. Algunos sistemas de métodos de entrada utilizan sensores portátiles, como guantes o rastreadores montados en la muñeca, para capturar el movimiento de la mano.

Estas configuraciones pueden ser precisas, pero no siempre son prácticas. Los dispositivos portátiles deben llevarse puestos, configurarse, cargarse y mantenerse, y pueden resultar limitantes en espacios compartidos o cuando se utilizan a diario.

Por eso muchos sistemas de vanguardia se basan en la visión artificial. Con cámaras RGB estándar y sensores de profundidad o tiempo de vuelo, los dispositivos pueden capturar los movimientos de las manos y el cuerpo en tiempo real sin que los usuarios tengan que llevar dispositivos adicionales. Esto hace que el reconocimiento de gestos basado en la visión sea ideal para teléfonos inteligentes, automóviles, televisores inteligentes y cascos de realidad aumentada y realidad virtual.

Por ejemplo, modelos de visión artificial como Ultralytics YOLO11 y el próximo Ultralytics admiten tareas como la detección de objetos, el seguimiento de objetos y la estimación de posturas. Estas capacidades se pueden utilizar para detect en cada fotograma, track movimiento a lo largo del tiempo y mapear puntos clave como las yemas de los dedos y las articulaciones. Esto permite reconocer gestos como levantar la palma de la mano para pausar, pellizcar para ampliar, deslizar para navegar por los menús o señalar para seleccionar un elemento en RA y RV.

Tareas de visión artificial utilizadas para el reconocimiento de la interacción entre humanos y máquinas.

A continuación se ofrece una descripción general de algunas de las tareas clave de visión artificial utilizadas en el reconocimiento de gestos:

Detección de objetos: esta tarea se utiliza para localizar las manos en una imagen o fotograma de vídeo, normalmente dibujando cuadros delimitadores a su alrededor. Ayuda al sistema a centrarse en el área de gestos e ignorar los detalles innecesarios del fondo.
Seguimiento de objetos: basándose en la detección de objetos, esta tarea realiza un seguimiento de las manos detectadas en varios fotogramas y mantiene su identidad a lo largo del tiempo. Resulta especialmente útil para gestos dinámicos, en los que el movimiento y la dirección son cruciales.
Estimación de la postura: en lugar de centrarse en los cuadros delimitadores, la estimación de la postura identifica puntos clave de la mano, como las yemas de los dedos, los nudillos y la muñeca. Estos puntos de referencia crean un esqueleto simple de la mano que captura las posiciones de los dedos y los movimientos sutiles, lo que permite una clasificación más detallada de los gestos.
Segmentación de instancias: esta tarea tiene como objetivo separar cada mano del fondo a nivel de píxeles mediante la generación de una máscara para cada mano visible. Resulta útil en escenas abarrotadas, cuando las manos se superponen o cuando aparecen varias manos en el encuadre.

Muchas soluciones de IA visual utilizan estas tareas conjuntamente como parte de un único proceso. Por ejemplo, un sistema puede comenzar con la detección de objetos para encontrar las manos y, a continuación, utilizar el seguimiento para seguirlas a lo largo de los fotogramas y captar los gestos dinámicos.

Si el gesto depende de la colocación de los dedos, la estimación de la postura puede añadir puntos clave para obtener detalles más precisos, mientras que la segmentación de instancias puede ayudar a aislar cada mano con mayor precisión en escenas abarrotadas o cuando se superponen varias manos. Al trabajar conjuntamente, estos pasos proporcionan información tanto sobre la ubicación como sobre el movimiento, lo que hace que el reconocimiento de gestos sea más preciso y fiable.

Cómo funciona el reconocimiento de gestos basado en la visión

Ahora que comprendemos mejor las tareas de visión artificial que hay detrás del reconocimiento de gestos, veamos paso a paso cómo funciona un sistema basado en la visión.

Un sistema típico comienza capturando vídeo desde una cámara, a veces junto con datos de profundidad si el dispositivo lo admite. A continuación, los fotogramas se preprocesan mediante el procesamiento de imágenes para que el modelo pueda manejarlos de forma más consistente, por ejemplo, cambiando su tamaño, estabilizándolos o reduciendo el ruido y el desenfoque por movimiento.

A continuación, el sistema identifica las manos en el fotograma mediante detección o segmentación y las sigue a lo largo del tiempo mediante seguimiento. Si la aplicación necesita más detalles, también puede ejecutar una estimación de la postura para extraer puntos clave como las yemas de los dedos y las articulaciones. Con esta información, el modelo clasifica el gesto, ya sea una postura de un solo fotograma, como levantar el pulgar, o un patrón de movimiento, como deslizar el dedo.

Por último, el gesto reconocido se asigna a una acción en la interfaz, como desplazarse, ampliar, seleccionar un elemento, ajustar el volumen o controlar interacciones de RA y RV. El proceso exacto puede variar, ya que las aplicaciones más sencillas utilizan menos pasos y las más complejas combinan detección, seguimiento y estimación de la postura para obtener una mayor precisión.

Aplicaciones del reconocimiento de gestos basado en la visión

A continuación, veamos cómo se utiliza el reconocimiento de gestos en aplicaciones del mundo real para comprender las posiciones de las manos.

Interacción basada en gestos con los sistemas de infoentretenimiento de los automóviles

El reconocimiento de gestos está empezando a aparecer en las interfaces de los vehículos inteligentes, especialmente en los sistemas de infoentretenimiento. Es una forma cómoda de controlar determinadas funciones con simples movimientos de la mano, lo que puede reducir la frecuencia con la que los conductores tienen que tocar las pantallas táctiles o los botones físicos. Por ejemplo, se puede utilizar un gesto rápido para ajustar el volumen, gestionar las llamadas o navegar por los menús en pantalla.

Fig. 2. Un conductor realizando gestos con las manos dentro del rango de detección de un sistema de infoentretenimiento (Fuente)

‍

Interacciones basadas en gestos en los videojuegos

En los videojuegos y las experiencias inmersivas, el control basado en gestos está cambiando la forma en que las personas interactúan con los mundos virtuales. En lugar de depender únicamente de mandos o joysticks, los jugadores pueden utilizar movimientos naturales de las manos para navegar por los menús, recoger objetos virtuales, controlar personajes o activar acciones en un juego.

Fig. 3. Jugar a videojuegos utilizando gestos con las manos (Fuente).

‍

Este tipo de interacción sin contacto puede resultar más fluida, especialmente en RA y RV. Como resultado, el seguimiento de las manos y el control por gestos se están convirtiendo en características habituales en los cascos de RV y realidad mixta.

Control gestual fluido para dispositivos domésticos inteligentes

Los dispositivos domésticos inteligentes, como televisores inteligentes, altavoces y luces conectadas, están empezando a admitir el control basado en gestos para realizar acciones rápidas y sin contacto. Con un simple movimiento de la mano, los usuarios pueden encender las luces, ajustar el volumen o activar comandos básicos sin necesidad de alcanzar interruptores o mandos a distancia.

Por ejemplo, en los sistemas de entretenimiento doméstico, las cámaras de profundidad integradas o conectadas pueden reconocer gestos como deslizar, señalar o levantar la mano. Esto puede facilitar la navegación por los menús, el cambio de ajustes o la confirmación de selecciones desde cualquier punto de la habitación. Entre bastidores, los modelos de visión artificial procesan las imágenes de la cámara en tiempo real para detect interpretar estos gestos.

Control por gestos basado en inteligencia artificial en robótica

Consideremos una situación en una fábrica en la que un trabajador necesita guiar a un robot mientras transporta piezas, lleva guantes o se encuentra a una distancia segura del equipo en movimiento. En estos entornos, alcanzar los botones o el panel de control puede resultar lento o incluso peligroso.

Por el contrario, los sistemas de control basados en gestos pueden ser una forma más práctica y manos libres de interactuar con estas máquinas. Esto resulta especialmente útil para los robots colaborativos, o cobots, que están diseñados para trabajar junto a las personas.

En lugar de acercarse a un panel de control, los operadores pueden utilizar sencillos gestos con las manos para poner en marcha, detener o guiar un robot a distancia. Esto reduce la dependencia de los controles físicos y puede contribuir a que los flujos de trabajo en la planta de producción sean más seguros.

Los sistemas avanzados de control basados en la visión, habilitados por modelos de aprendizaje profundo o algoritmos de aprendizaje, también pueden ir más allá de los comandos básicos. Son capaces de interpretar movimientos más precisos de la mano y responder con fluidez a pequeños cambios de dirección, así como a una orientación y automatización más precisas.

Fig. 4. Una mano robótica analizando el gesto de un usuario (Fuente)

Ventajas y desventajas de la tecnología de reconocimiento de gestos

Estas son algunas de las principales ventajas de utilizar la tecnología de reconocimiento de gestos:

Mejora de la accesibilidad: los gestos pueden ofrecer una alternativa a los usuarios que tienen dificultades para utilizar teclados, pantallas táctiles o mandos.
Funciona a distancia: los gestos se pueden reconocer desde cualquier punto de la habitación, lo que resulta útil para televisores inteligentes, quioscos y dispositivos domésticos.
Flexible en todos los dispositivos: conjuntos de gestos similares pueden funcionar en teléfonos, automóviles, pantallas inteligentes y cascos de RA o RV, lo que garantiza una interacción coherente.

Al mismo tiempo, existen algunos retos del mundo real que pueden afectar a la precisión y la coherencia. Estos son algunos factores que hay que tener en cuenta:

Problemas de iluminación y calidad de la cámara: la poca luz, los reflejos, las sombras o las cámaras de baja resolución pueden reducir el rendimiento del reconocimiento. Esto, a su vez, puede afectar al control del movimiento.
Variación entre usuarios: Las personas realizan gestos de forma diferente de manera natural, y las diferencias en el tamaño de las manos, la flexibilidad de los dedos o los accesorios pueden afectar a la precisión.
Limitaciones del movimiento rápido: los gestos rápidos pueden provocar desenfoque de movimiento o hacer que el modelo pierda fotogramas clave, especialmente en cámaras con una velocidad de fotogramas más baja.

Conclusiones clave

La tecnología de reconocimiento de gestos ha traspasado las fronteras de los laboratorios de investigación y ahora forma parte de los dispositivos e innovaciones cotidianos. En concreto, la visión artificial permite el control sin contacto en juegos, robótica, hogares inteligentes y sistemas automovilísticos. A medida que mejoren los modelos de visión, estas interfaces sin contacto probablemente serán más fáciles de construir y se utilizarán más ampliamente.

Descubra nuestra comunidad y nuestro repositorio GitHub para obtener más información sobre los modelos de visión artificial. Explore nuestras páginas de soluciones para leer sobre aplicaciones como la IA en la agricultura y la visión artificial en la logística. Consulte nuestras opciones de licencia y comience a crear su propio modelo de IA de visión.

Vision AI permite la tecnología de reconocimiento de gestos sin contacto.

¿Qué es el reconocimiento de gestos?

Exploración de diferentes tipos de gestos y la interacción entre humanos y ordenadores.

El papel de los algoritmos de visión artificial en el reconocimiento de gestos

Tareas de visión artificial utilizadas para el reconocimiento de la interacción entre humanos y máquinas.

Cómo funciona el reconocimiento de gestos basado en la visión

Aplicaciones del reconocimiento de gestos basado en la visión

Interacción basada en gestos con los sistemas de infoentretenimiento de los automóviles

Interacciones basadas en gestos en los videojuegos

Control gestual fluido para dispositivos domésticos inteligentes

Control por gestos basado en inteligencia artificial en robótica

Ventajas y desventajas de la tecnología de reconocimiento de gestos

Conclusiones clave

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

Herramientas de visión artificial para el diagnóstico sanitario

De los datos a las decisiones: uso de la IA visual para la estrategia empresarial

¡Construyamos juntos el futuro
de la IA!

Vision AI permite la tecnología de reconocimiento de gestos sin contacto.

¿Qué es el reconocimiento de gestos?

Exploración de diferentes tipos de gestos y la interacción entre humanos y ordenadores.

El papel de los algoritmos de visión artificial en el reconocimiento de gestos

Tareas de visión artificial utilizadas para el reconocimiento de la interacción entre humanos y máquinas.

Cómo funciona el reconocimiento de gestos basado en la visión

Aplicaciones del reconocimiento de gestos basado en la visión

Interacción basada en gestos con los sistemas de infoentretenimiento de los automóviles

Interacciones basadas en gestos en los videojuegos

Control gestual fluido para dispositivos domésticos inteligentes

Control por gestos basado en inteligencia artificial en robótica

Ventajas y desventajas de la tecnología de reconocimiento de gestos

Conclusiones clave

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

Herramientas de visión artificial para el diagnóstico sanitario

De los datos a las decisiones: uso de la IA visual para la estrategia empresarial

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!