¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Puntos clave

Descubra los puntos clave de la visión por ordenador: estimación de la pose con Ultralytics YOLO11 para fitness, reconocimiento de gestos y seguimiento rápido y preciso.

En visión por ordenador, los puntos clave son puntos de interés específicos en una imagen que son distintivos y repetibles. Estos puntos sirven como puntos de referencia compactos y estructurales que representan un objeto o una escena, lo que permite a las máquinas comprender y analizar el contenido visual con mayor detalle. En lugar de procesar cada píxel, los algoritmos se centran en estos puntos clave -como esquinas, bordes o las articulaciones de un cuerpo humano- para realizar tareas complejas como rastrear movimientos, reconocer objetos y reconstruir escenas en 3D. Al concentrarse en estos puntos informativos, los modelos de visión por ordenador pueden lograr una gran eficacia y precisión.

Detección de puntos clave y estimación de poses

La principal aplicación de los puntos clave es la estimación de la pose, una tarea de visión por ordenador centrada en la identificación de la posición y orientación de un objeto o persona. En la estimación de la pose humana, los puntos clave corresponden a las principales articulaciones del cuerpo, como hombros, codos, rodillas y muñecas. Al detectar estos puntos en una imagen o vídeo, un modelo puede construir una representación esquelética del cuerpo humano. Este "esqueleto digital" permite a un sistema de IA analizar la postura, los gestos y los movimientos sin necesidad de conocer el aspecto de la persona, su ropa o el entorno que la rodea.

Los modelos avanzados de aprendizaje profundo, como Ultralytics YOLO11, se entrenan en grandes conjuntos de datos anotados como COCO para predecir con precisión la ubicación de estos puntos clave en tiempo real. Los primeros sistemas, como OpenPose, allanaron el camino al demostrar la capacidad de detectar puntos clave en todo el cuerpo, las manos y la cara de varias personas a la vez. Las arquitecturas modernas se han basado en estos fundamentos para ofrecer resultados más rápidos y precisos en una amplia gama de aplicaciones.

Puntos clave frente a otros conceptos de visión por ordenador

Es importante diferenciar la detección de puntos clave de otras tareas relacionadas en visión por ordenador:

  • Cuadros delimitadores: La detección de objetos suele utilizar un cuadro delimitador -unsimple rectángulo- para mostrar la ubicación de un objeto. La detección de puntos clave ofrece una comprensión más detallada mediante la identificación de puntos estructurales específicos dentro de esa caja, describiendo la pose y la forma del objeto.
  • Segmentación de instancias: Mientras que los puntos clave crean un contorno esquelético, la segmentación de instancias va un paso más allá al perfilar la forma exacta de un objeto a nivel de píxel. La segmentación proporciona un límite completo, mientras que los puntos clave ofrecen un resumen estructural.
  • Descriptores de características: Una vez detectado un punto clave, puede calcularse un descriptor de características para describir el fragmento de imagen que lo rodea. Algoritmos como SIFT y ORB generan estos descriptores, que actúan como una "huella digital" numérica utilizada para emparejar puntos clave correspondientes entre distintas imágenes.

Aplicaciones en el mundo real

La capacidad de detectar y rastrear puntos clave ha permitido importantes avances en diversos sectores. He aquí dos ejemplos destacados:

  1. Fitness inteligente y análisis deportivo: En las aplicaciones de fitness, los modelos de estimación de la postura realizan un seguimiento de las articulaciones clave del cuerpo para controlar la forma del usuario durante ejercicios como las sentadillas o el yoga. El sistema puede contar repeticiones, proporcionar información en tiempo real sobre la postura para prevenir lesiones y analizar el rendimiento deportivo con gran precisión. Esta tecnología ayuda a crear experiencias de entrenamiento personalizadas e interactivas accesibles a través de una cámara estándar.
  2. Reconocimiento de los gestos de la mano: Al identificar puntos clave en la mano y los dedos, los sistemas de IA pueden interpretar movimientos complejos de la mano. Esto es crucial para desarrollar controles intuitivos en realidad aumentada y virtual, crear herramientas de traducción al lenguaje de signos y permitir la interacción sin contacto con dispositivos inteligentes. Los modelos entrenados en conjuntos de datos de puntos clave de la mano pueden reconocer gestos que van desde un simple pellizco hasta signos intrincados.

Otras aplicaciones son la detección de puntos de referencia faciales para el análisis de emociones y los filtros de RA, la estimación de la postura de animales para estudios de comportamiento en la conservación de la fauna salvaje y la robótica para ayudar a las máquinas a navegar e interactuar con su entorno.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles