Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

La IA de visión permite la tecnología de reconocimiento de gestos sin contacto

Explora cómo la visión artificial impulsa la tecnología de reconocimiento de gestos para detectar, seguir y entender los gestos con las manos en diversas aplicaciones.

ABAbirami Vina
4 min read
La IA de visión potenciando el reconocimiento de gestos sin contacto

A medida que la tecnología evoluciona, nuestra forma de interactuar con ella también lo hace. Las primeras máquinas dependían del esfuerzo físico y controles mecánicos, mientras que la informática moderna introdujo las pantallas táctiles y la entrada por voz.

Ahora, el reconocimiento de gestos forma parte del siguiente paso, utilizando movimientos naturales como interfaz de usuario. Un simple saludo, un pellizco o una señal rápida con la mano ya pueden controlar aplicaciones, pantallas y máquinas.

Esta interacción sin contacto puede ser impulsada por visión artificial, una rama de la IA que ayuda a las máquinas a ver e interpretar lo que capta una cámara. Los sistemas de IA de visión pueden integrarse en teléfonos inteligentes, cascos de realidad virtual (VR) y realidad aumentada (AR), coches y dispositivos domésticos inteligentes, donde los gestos pueden sustituir a los toques, clics y botones para una experiencia de usuario más fluida.

El control sin contacto es cada vez más común en la vida cotidiana. En los lugares de trabajo y espacios compartidos, evitar el contacto físico puede mejorar la higiene y la seguridad. Muchos productos digitales también están cambiando hacia la interacción manos libres, y los gestos proporcionan una forma fácil e intuitiva de controlar dispositivos sin tocarlos.

En este artículo, exploraremos qué es el reconocimiento de gestos, cómo la visión artificial lo hace más preciso y dónde se utiliza en aplicaciones del mundo real. ¡Empecemos!

Link to this section¿Qué es el reconocimiento de gestos?#

El reconocimiento de gestos es una tecnología de detección que permite a las máquinas comprender gestos humanos, como señales con las manos o movimientos corporales, y convertirlos en acciones digitales. En lugar de tocar una pantalla o pulsar botones, los usuarios pueden controlar dispositivos mediante movimientos sencillos y naturales.

Esto hace que las interacciones se sientan más intuitivas y es la razón por la que la entrada basada en gestos se está adoptando en muchos sistemas de control basados en aprendizaje automático e IA. En particular, el reconocimiento de gestos con las manos es una de las formas de reconocimiento de gestos más utilizadas, y a menudo se basa en la visión artificial.

En pocas palabras, una solución de IA de visión puede detectar manos en la señal de una cámara, rastrear cómo se mueven o cambian de forma, y emparejar esos patrones con un gesto conocido para activar una acción en la pantalla.

Una parte fundamental de estas soluciones es un modelo de visión artificial, que se entrena con conjuntos de datos de imágenes o vídeos etiquetados que muestran diferentes gestos con las manos. Con datos de entrenamiento diversos y una evaluación cuidadosa, el modelo puede generalizar mejor entre distintos usuarios, condiciones de iluminación y fondos, lo que le ayuda a reconocer gestos de forma más fiable en entornos reales.

Datos utilizados para entrenar un modelo de visión artificial para detectar puntos clave de gestos

Fig 1. Datos utilizados para entrenar un modelo de visión artificial para detectar puntos clave de gestos (Fuente)

Link to this sectionExploración de diferentes tipos de gestos e interacción humano-computadora#

Antes de examinar más de cerca el papel que desempeña la visión artificial en el reconocimiento de gestos, demos un paso atrás y observemos los tipos de gestos que estos sistemas suelen reconocer.

En la mayoría de los casos, los gestos se dividen en dos categorías: estáticos y dinámicos. Los gestos estáticos son poses fijas de la mano, como un pulgar hacia arriba, una señal de stop o el signo de la paz. Como no implican movimiento, a menudo pueden reconocerse a partir de un solo fotograma de imagen.

Mientras tanto, los gestos dinámicos implican movimiento en el tiempo, como saludar o deslizar el dedo en el aire. Para reconocerlos, un sistema de IA de visión necesita analizar múltiples fotogramas para poder rastrear cómo se mueve la mano y entender la dirección y el tiempo del gesto.

Link to this sectionEl papel de los algoritmos de visión artificial en el reconocimiento de gestos#

Los sistemas de reconocimiento de gestos pueden construirse de diferentes maneras. Algunos sistemas de métodos de entrada utilizan sensores portátiles, como guantes o rastreadores montados en la muñeca, para capturar el movimiento de la mano.

Estas configuraciones pueden ser precisas, pero no siempre son prácticas. Los dispositivos portátiles deben llevarse puestos, configurarse, cargarse y mantenerse, y pueden resultar limitantes en espacios compartidos o cuando se utilizan a diario.

Por eso, muchos sistemas de vanguardia confían en cambio en la visión artificial. Con cámaras RGB estándar y sensores de profundidad o de tiempo de vuelo, los dispositivos pueden capturar movimientos de manos y cuerpo en tiempo real sin que los usuarios necesiten llevar dispositivos adicionales. Esto hace que el reconocimiento de gestos basado en visión sea una gran opción para teléfonos inteligentes, coches, televisores inteligentes y cascos de AR y VR.

Por ejemplo, modelos de visión artificial como Ultralytics YOLO11 y el próximo Ultralytics YOLO26 admiten tareas como la detección de objetos, el seguimiento de objetos y la estimación de poses. Estas capacidades pueden utilizarse para detectar manos en cada fotograma, rastrear su movimiento a lo largo del tiempo y mapear puntos clave como las puntas de los dedos y las articulaciones. Esto hace posible reconocer gestos tales como una palma levantada para pausar, un pellizco para hacer zoom, deslizar para navegar por menús, o un gesto de señalar para seleccionar un elemento en AR y VR.

Link to this sectionTareas de visión artificial utilizadas para el reconocimiento de la interacción humano-máquina#

Aquí tienes un resumen de algunas de las tareas de visión artificial clave utilizadas en el reconocimiento de gestos:

  • Detección de objetos: Esta tarea se utiliza para localizar manos en una imagen o fotograma de vídeo, normalmente dibujando cajas delimitadoras a su alrededor. Ayuda al sistema a centrarse en el área del gesto e ignorar detalles innecesarios del fondo.
  • Seguimiento de objetos: Basándose en la detección de objetos, esta tarea rastrea las manos detectadas a través de múltiples fotogramas y mantiene su identidad a lo largo del tiempo. Es especialmente útil para gestos dinámicos, donde el movimiento y la dirección son cruciales.
  • Estimación de poses: En lugar de centrarse en cajas delimitadoras, la estimación de poses identifica puntos clave en la mano, como las puntas de los dedos, los nudillos y la muñeca. Estos puntos de referencia crean un esqueleto de mano simple que captura las posiciones de los dedos y el movimiento sutil, permitiendo una clasificación de gestos más detallada.
  • Segmentación de instancias: Esta tarea tiene como objetivo separar cada mano del fondo a nivel de píxel generando una máscara para cada mano visible. Es útil en escenas desordenadas, cuando las manos se superponen o cuando aparecen varias manos en el fotograma.

Muchas soluciones de IA de visión utilizan estas tareas juntas como parte de una única canalización. Por ejemplo, un sistema puede empezar con la detección de objetos para encontrar las manos, y luego usar el seguimiento para seguirlas a través de los fotogramas para los gestos dinámicos.

Si el gesto depende de la posición de los dedos, la estimación de poses puede añadir puntos clave para obtener más detalles, mientras que la segmentación de instancias puede ayudar a aislar cada mano con mayor precisión en escenas desordenadas o cuando varias manos se superponen. Al trabajar juntos, estos pasos proporcionan información tanto de ubicación como de movimiento, haciendo que el reconocimiento de gestos sea más preciso y fiable.

Link to this sectionCómo funciona el reconocimiento de gestos basado en visión#

Ahora que entendemos mejor las tareas de visión artificial detrás del reconocimiento de gestos, echemos un vistazo paso a paso a cómo funciona un sistema basado en visión.

Un sistema típico comienza capturando vídeo de una cámara, a veces junto con datos de profundidad si el dispositivo lo admite. Luego, los fotogramas se preprocesan utilizando procesamiento de imágenes para que sean más fáciles de manejar para el modelo de forma consistente, tales como redimensionar, estabilizar o reducir el ruido y el desenfoque por movimiento.

A continuación, el sistema identifica las manos en el fotograma mediante detección o segmentación y las sigue a lo largo del tiempo mediante seguimiento. Si la aplicación necesita más detalles, también puede ejecutar la estimación de poses para extraer puntos clave como las puntas de los dedos y las articulaciones. Utilizando esta información, el modelo clasifica el gesto, ya sea una pose de un solo fotograma como el pulgar hacia arriba o un patrón de movimiento como un deslizamiento.

Finalmente, el gesto reconocido se mapea a una acción en la interfaz, tal como desplazarse, hacer zoom, seleccionar un elemento, ajustar el volumen o controlar interacciones de AR y VR. La canalización exacta puede variar, con aplicaciones más sencillas que utilizan menos pasos y otras más complejas que combinan detección, seguimiento y estimación de poses para una mayor precisión.

Link to this sectionAplicaciones del reconocimiento de gestos basado en visión#

A continuación, repasemos cómo se utiliza el reconocimiento de gestos en aplicaciones del mundo real para entender las posiciones de las manos.

Link to this sectionInteracción basada en gestos con sistemas de infoentretenimiento en coches#

El reconocimiento de gestos empieza a aparecer en las interfaces de vehículos inteligentes, especialmente en los sistemas de infoentretenimiento. Es una forma cómoda de controlar ciertas funciones con simples movimientos de la mano, lo que puede reducir la frecuencia con la que los conductores necesitan alcanzar pantallas táctiles o botones físicos. Por ejemplo, se puede utilizar un gesto rápido para ajustar el volumen, gestionar llamadas o navegar por los menús en pantalla.

Un conductor realizando gestos con las manos en el rango de detección de un sistema de infoentretenimiento

Fig 2. Un conductor realizando gestos con las manos en el rango de detección de un sistema de infoentretenimiento (Fuente)

Link to this sectionInteracciones basadas en gestos en los videojuegos#

En los videojuegos y las experiencias inmersivas, el control basado en gestos está cambiando la forma en que las personas interactúan con los mundos virtuales. En lugar de depender solo de mandos o joysticks, los jugadores pueden utilizar movimientos naturales de la mano para navegar por los menús, recoger objetos virtuales, controlar personajes o activar acciones en un juego.

Jugando a juegos mediante gestos con las manos

Fig 3. Jugando usando gestos con las manos (Fuente).

Este tipo de interacción sin contacto puede resultar más fluida, especialmente en AR y VR. Como resultado, el seguimiento de manos y el control por gestos se están convirtiendo en características comunes en los cascos de VR y realidad mixta.

Link to this sectionControl gestual sin fisuras para dispositivos domésticos inteligentes#

Dispositivos domésticos inteligentes como televisores inteligentes, altavoces y luces conectadas están empezando a admitir el control basado en gestos para acciones rápidas y sin contacto. Con un simple movimiento de la mano, los usuarios pueden encender las luces, ajustar el volumen o activar comandos básicos sin alcanzar interruptores o mandos a distancia.

Por ejemplo, en configuraciones de entretenimiento doméstico, las cámaras de profundidad integradas o conectadas pueden reconocer gestos como deslizar, señalar o levantar la mano. Esto puede facilitar la navegación por menús, cambiar ajustes o confirmar selecciones desde el otro lado de la habitación. Entre bastidores, los modelos de visión artificial procesan la señal de la cámara en tiempo real para detectar e interpretar estos gestos.

Link to this sectionControl gestual habilitado por inteligencia artificial en robótica#

Considera una situación en una fábrica donde un trabajador necesita guiar a un robot mientras lleva piezas, usa guantes o está de pie a una distancia segura del equipo en movimiento. En estos entornos, alcanzar botones o un panel de control puede ser lento o incluso inseguro.

Por el contrario, los sistemas de control basados en gestos pueden ser una forma más práctica y sin manos de interactuar con estas máquinas. Esto es especialmente útil para robots colaborativos, o cobots, que están diseñados para trabajar junto a las personas.

En lugar de acercarse a un panel de control, los operadores pueden utilizar simples señales manuales para iniciar, detener o guiar a un robot desde la distancia. Reduce la dependencia de los controles físicos y puede favorecer flujos de trabajo más seguros en la planta de producción.

Los sistemas de control avanzados basados en visión habilitados por modelos de aprendizaje profundo o algoritmos de aprendizaje también pueden ir más allá de los comandos básicos. Pueden interpretar movimientos más finos de la mano y responder suavemente a pequeños cambios de dirección y a una guía y automatización más precisas.

Una mano robótica analizando el gesto de un usuario

Fig 4. Una mano robótica analizando el gesto de un usuario (Fuente)

Link to this sectionPros y contras de la tecnología de reconocimiento de gestos#

Aquí tienes algunos beneficios clave de utilizar la tecnología de reconocimiento de gestos:

  • Accesibilidad mejorada: Los gestos pueden ofrecer una alternativa para los usuarios a quienes les resulta difícil utilizar teclados, pantallas táctiles o mandos.
  • Funciona a distancia: Los gestos pueden reconocerse desde el otro lado de una habitación, lo cual es útil para televisores inteligentes, quioscos y dispositivos domésticos.
  • Flexible entre dispositivos: Conjuntos de gestos similares pueden funcionar en teléfonos, coches, pantallas inteligentes y cascos de AR o VR, haciendo que la interacción sea consistente.

Al mismo tiempo, existen algunos retos del mundo real que pueden afectar a la precisión y la consistencia. Aquí tienes algunos factores a tener en cuenta:

  • Problemas de iluminación y calidad de la cámara: La poca luz, el deslumbramiento, las sombras o las cámaras de baja resolución pueden reducir el rendimiento del reconocimiento. Esto, a su vez, puede afectar al control del movimiento.
  • Variación entre usuarios: Las personas realizan los gestos de forma natural de manera diferente, y las diferencias en el tamaño de la mano, la flexibilidad de los dedos o los accesorios pueden afectar a la precisión.
  • Limitaciones de movimiento rápido: Los gestos rápidos pueden introducir desenfoque por movimiento o hacer que el modelo pase por alto fotogramas clave, especialmente en cámaras con una tasa de fotogramas más baja.

Link to this sectionConclusiones clave#

La tecnología de reconocimiento de gestos ha ido más allá de los laboratorios de investigación y ahora forma parte de dispositivos e innovaciones cotidianos. Específicamente, la visión artificial permite el control sin contacto en videojuegos, robótica, hogares inteligentes y sistemas automotrices. A medida que mejoren los modelos de visión, será probable que estas interfaces sin contacto sean más fáciles de construir y se utilicen de forma más generalizada.

Descubre nuestra comunidad y repositorio GitHub para aprender más sobre modelos de visión artificial. Explora nuestras páginas de soluciones para leer sobre aplicaciones como la IA en agricultura y la visión artificial en logística. Consulta nuestras opciones de licencia y empieza a construir tu propio modelo de IA de visión.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático