Vision AI permite la tecnología de reconocimiento de gestos sin contacto.
Descubra cómo la visión artificial impulsa la tecnología de reconocimiento de gestos para detect, track y comprender los gestos de las manos en diversas aplicaciones.

Descubra cómo la visión artificial impulsa la tecnología de reconocimiento de gestos para detect, track y comprender los gestos de las manos en diversas aplicaciones.

A medida que la tecnología evoluciona, también lo hace la forma en que interactuamos con ella. Las primeras máquinas dependían del esfuerzo físico y los controles mecánicos, mientras que la informática moderna introdujo las pantallas táctiles y la entrada de voz.
Ahora, el reconocimiento de gestos forma parte del siguiente paso, utilizando movimientos naturales como interfaz de usuario. Un simple movimiento de la mano, un pellizco o un rápido gesto con la mano ya pueden controlar aplicaciones, pantallas y máquinas.
Esta interacción sin contacto puede funcionar gracias a la visión artificial, una rama de la IA que ayuda a las máquinas a ver e interpretar lo que capta una cámara. Los sistemas de IA visual pueden integrarse en teléfonos inteligentes, cascos de realidad virtual (RV) y realidad aumentada (RA), automóviles y dispositivos domésticos inteligentes, donde los gestos pueden sustituir a los toques, clics y botones para ofrecer una experiencia de usuario más fluida.
El control sin contacto es cada vez más habitual en la vida cotidiana. En los lugares de trabajo y los espacios compartidos, evitar el contacto físico puede mejorar la higiene y la seguridad. Muchos productos digitales también están pasando a la interacción sin manos, y los gestos proporcionan una forma fácil e intuitiva de controlar los dispositivos sin tocarlos.
En este artículo, exploraremos qué es el reconocimiento de gestos, cómo la visión artificial lo hace más preciso y dónde se utiliza en aplicaciones del mundo real. ¡Empecemos!
El reconocimiento de gestos es una tecnología de detección que permite a las máquinas comprender los gestos humanos, como los signos con las manos o los movimientos corporales, y convertirlos en acciones digitales. En lugar de tocar una pantalla o pulsar botones, los usuarios pueden controlar los dispositivos mediante movimientos sencillos y naturales.
Esto hace que las interacciones resulten más intuitivas y es la razón por la que la entrada basada en gestos se está adoptando en muchos sistemas de control basados en el aprendizaje automático y la inteligencia artificial. En concreto, el reconocimiento de gestos con las manos es una de las formas más utilizadas de reconocimiento de gestos y, a menudo, se basa en la visión artificial.
En pocas palabras, una solución de IA visual puede detectar las manos en la imagen de una cámara, track se mueven o cambian de forma, y relacionar esos patrones con un gesto conocido para activar una acción en la pantalla.
Una parte fundamental de estas soluciones es un modelo de visión artificial, que se entrena con conjuntos de datos de imágenes o vídeos etiquetados que muestran diferentes gestos con las manos. Con datos de entrenamiento diversos y una evaluación minuciosa, el modelo puede generalizar mejor entre diferentes usuarios, condiciones de iluminación y fondos, lo que le ayuda a reconocer los gestos de forma más fiable en entornos reales.
.webp)
Antes de analizar más detenidamente el papel que desempeña la visión artificial en el reconocimiento de gestos, demos un paso atrás y veamos los tipos de gestos que suelen reconocer estos sistemas.
En la mayoría de los casos, los gestos se dividen en dos categorías: estáticos y dinámicos. Los gestos estáticos son posturas fijas de las manos, como levantar el pulgar, hacer una señal de alto o el signo de la paz. Dado que no implican movimiento, a menudo se pueden reconocer a partir de una sola imagen.
Por su parte, los gestos dinámicos implican movimiento a lo largo del tiempo, como saludar con la mano o deslizarla por el aire. Para reconocerlos, un sistema de IA visual necesita analizar múltiples fotogramas para poder track la mano y comprender la dirección y el momento en que se realiza el gesto.
Los sistemas de reconocimiento de gestos pueden construirse de diferentes maneras. Algunos sistemas de métodos de entrada utilizan sensores portátiles, como guantes o rastreadores montados en la muñeca, para capturar el movimiento de la mano.
Estas configuraciones pueden ser precisas, pero no siempre son prácticas. Los dispositivos portátiles deben llevarse puestos, configurarse, cargarse y mantenerse, y pueden resultar limitantes en espacios compartidos o cuando se utilizan a diario.
Por eso muchos sistemas de vanguardia se basan en la visión artificial. Con cámaras RGB estándar y sensores de profundidad o tiempo de vuelo, los dispositivos pueden capturar los movimientos de las manos y el cuerpo en tiempo real sin que los usuarios tengan que llevar dispositivos adicionales. Esto hace que el reconocimiento de gestos basado en la visión sea ideal para teléfonos inteligentes, automóviles, televisores inteligentes y cascos de realidad aumentada y realidad virtual.
Por ejemplo, modelos de visión artificial como Ultralytics YOLO11 y el próximo Ultralytics admiten tareas como la detección de objetos, el seguimiento de objetos y la estimación de posturas. Estas capacidades se pueden utilizar para detect en cada fotograma, track movimiento a lo largo del tiempo y mapear puntos clave como las yemas de los dedos y las articulaciones. Esto permite reconocer gestos como levantar la palma de la mano para pausar, pellizcar para ampliar, deslizar para navegar por los menús o señalar para seleccionar un elemento en RA y RV.
A continuación se ofrece una descripción general de algunas de las tareas clave de visión artificial utilizadas en el reconocimiento de gestos:
Muchas soluciones de IA visual utilizan estas tareas conjuntamente como parte de un único proceso. Por ejemplo, un sistema puede comenzar con la detección de objetos para encontrar las manos y, a continuación, utilizar el seguimiento para seguirlas a lo largo de los fotogramas y captar los gestos dinámicos.
Si el gesto depende de la colocación de los dedos, la estimación de la postura puede añadir puntos clave para obtener detalles más precisos, mientras que la segmentación de instancias puede ayudar a aislar cada mano con mayor precisión en escenas abarrotadas o cuando se superponen varias manos. Al trabajar conjuntamente, estos pasos proporcionan información tanto sobre la ubicación como sobre el movimiento, lo que hace que el reconocimiento de gestos sea más preciso y fiable.
Ahora que comprendemos mejor las tareas de visión artificial que hay detrás del reconocimiento de gestos, veamos paso a paso cómo funciona un sistema basado en la visión.
Un sistema típico comienza capturando vídeo desde una cámara, a veces junto con datos de profundidad si el dispositivo lo admite. A continuación, los fotogramas se preprocesan mediante el procesamiento de imágenes para que el modelo pueda manejarlos de forma más consistente, por ejemplo, cambiando su tamaño, estabilizándolos o reduciendo el ruido y el desenfoque por movimiento.
A continuación, el sistema identifica las manos en el fotograma mediante detección o segmentación y las sigue a lo largo del tiempo mediante seguimiento. Si la aplicación necesita más detalles, también puede ejecutar una estimación de la postura para extraer puntos clave como las yemas de los dedos y las articulaciones. Con esta información, el modelo clasifica el gesto, ya sea una postura de un solo fotograma, como levantar el pulgar, o un patrón de movimiento, como deslizar el dedo.
Por último, el gesto reconocido se asigna a una acción en la interfaz, como desplazarse, ampliar, seleccionar un elemento, ajustar el volumen o controlar interacciones de RA y RV. El proceso exacto puede variar, ya que las aplicaciones más sencillas utilizan menos pasos y las más complejas combinan detección, seguimiento y estimación de la postura para obtener una mayor precisión.
A continuación, veamos cómo se utiliza el reconocimiento de gestos en aplicaciones del mundo real para comprender las posiciones de las manos.
El reconocimiento de gestos está empezando a aparecer en las interfaces de los vehículos inteligentes, especialmente en los sistemas de infoentretenimiento. Es una forma cómoda de controlar determinadas funciones con simples movimientos de la mano, lo que puede reducir la frecuencia con la que los conductores tienen que tocar las pantallas táctiles o los botones físicos. Por ejemplo, se puede utilizar un gesto rápido para ajustar el volumen, gestionar las llamadas o navegar por los menús en pantalla.
.webp)
En los videojuegos y las experiencias inmersivas, el control basado en gestos está cambiando la forma en que las personas interactúan con los mundos virtuales. En lugar de depender únicamente de mandos o joysticks, los jugadores pueden utilizar movimientos naturales de las manos para navegar por los menús, recoger objetos virtuales, controlar personajes o activar acciones en un juego.
.webp)
Este tipo de interacción sin contacto puede resultar más fluida, especialmente en RA y RV. Como resultado, el seguimiento de las manos y el control por gestos se están convirtiendo en características habituales en los cascos de RV y realidad mixta.
Los dispositivos domésticos inteligentes, como televisores inteligentes, altavoces y luces conectadas, están empezando a admitir el control basado en gestos para realizar acciones rápidas y sin contacto. Con un simple movimiento de la mano, los usuarios pueden encender las luces, ajustar el volumen o activar comandos básicos sin necesidad de alcanzar interruptores o mandos a distancia.
Por ejemplo, en los sistemas de entretenimiento doméstico, las cámaras de profundidad integradas o conectadas pueden reconocer gestos como deslizar, señalar o levantar la mano. Esto puede facilitar la navegación por los menús, el cambio de ajustes o la confirmación de selecciones desde cualquier punto de la habitación. Entre bastidores, los modelos de visión artificial procesan las imágenes de la cámara en tiempo real para detect interpretar estos gestos.
Consideremos una situación en una fábrica en la que un trabajador necesita guiar a un robot mientras transporta piezas, lleva guantes o se encuentra a una distancia segura del equipo en movimiento. En estos entornos, alcanzar los botones o el panel de control puede resultar lento o incluso peligroso.
Por el contrario, los sistemas de control basados en gestos pueden ser una forma más práctica y manos libres de interactuar con estas máquinas. Esto resulta especialmente útil para los robots colaborativos, o cobots, que están diseñados para trabajar junto a las personas.
En lugar de acercarse a un panel de control, los operadores pueden utilizar sencillos gestos con las manos para poner en marcha, detener o guiar un robot a distancia. Esto reduce la dependencia de los controles físicos y puede contribuir a que los flujos de trabajo en la planta de producción sean más seguros.
Los sistemas avanzados de control basados en la visión, habilitados por modelos de aprendizaje profundo o algoritmos de aprendizaje, también pueden ir más allá de los comandos básicos. Son capaces de interpretar movimientos más precisos de la mano y responder con fluidez a pequeños cambios de dirección, así como a una orientación y automatización más precisas.
.webp)
Estas son algunas de las principales ventajas de utilizar la tecnología de reconocimiento de gestos:
Al mismo tiempo, existen algunos retos del mundo real que pueden afectar a la precisión y la coherencia. Estos son algunos factores que hay que tener en cuenta:
La tecnología de reconocimiento de gestos ha traspasado las fronteras de los laboratorios de investigación y ahora forma parte de los dispositivos e innovaciones cotidianos. En concreto, la visión artificial permite el control sin contacto en juegos, robótica, hogares inteligentes y sistemas automovilísticos. A medida que mejoren los modelos de visión, estas interfaces sin contacto probablemente serán más fáciles de construir y se utilizarán más ampliamente.
Descubra nuestra comunidad y nuestro repositorio GitHub para obtener más información sobre los modelos de visión artificial. Explore nuestras páginas de soluciones para leer sobre aplicaciones como la IA en la agricultura y la visión artificial en la logística. Consulte nuestras opciones de licencia y comience a crear su propio modelo de IA de visión.