Todo lo que necesitas saber sobre las tareas de visión artificial
Aprende cómo funcionan las tareas de visión artificial como el seguimiento de objetos, la segmentación de instancias y la clasificación de imágenes, y cómo Ultralytics YOLO11 las soporta.

Gracias a las cámaras y a los avances en inteligencia artificial (IA), los ordenadores y las máquinas ahora pueden ver el mundo de una forma similar a como lo hacemos los humanos. Por ejemplo, pueden reconocer personas, seguir objetos e incluso entender el contexto de lo que sucede en un vídeo.
En concreto, la visión artificial es la rama de la IA que permite a las máquinas entender e interpretar información visual del mundo que las rodea. La visión artificial implica una variedad de tareas, cada una diseñada para extraer un tipo específico de información de imágenes o vídeos. Por ejemplo, la detección de objetos ayuda a identificar y localizar diferentes elementos en una imagen, mientras que otras tareas como el seguimiento, la segmentación y la estimación de poses ayudan a las máquinas a entender el movimiento, las formas y las posiciones con mayor precisión.
La tarea de visión artificial que utilices para una aplicación concreta depende del tipo de información que necesites. Los modelos de visión artificial como Ultralytics YOLO11 son compatibles con diversas tareas de visión artificial, lo que lo convierte en una opción fiable para crear sistemas de Vision AI del mundo real.
En esta guía, analizaremos más de cerca las tareas de visión artificial que admiten modelos como YOLO11. Exploraremos cómo funciona cada tarea y cómo se utilizan en distintos sectores. ¡Empecemos!
Link to this section¿Qué son las tareas de visión artificial?#
Las tareas de visión artificial tienen como objetivo replicar las capacidades de la visión humana de diferentes maneras. Estas tareas pueden ayudar a las máquinas a detectar objetos, seguir sus movimientos, estimar poses e incluso perfilar elementos individuales en imágenes y vídeos. Normalmente, las tareas de visión artificial son posibles gracias a modelos que descomponen los datos visuales en partes más pequeñas para que puedan interpretar lo que ocurre con mayor claridad.
Los modelos de Vision AI como los modelos Ultralytics YOLO admiten múltiples tareas, como la detección, el seguimiento y la segmentación, en un mismo marco de trabajo. Gracias a esta versatilidad, los modelos YOLO11 son fáciles de adoptar para una gran variedad de casos de uso.

Fig 1. Tareas de visión artificial soportadas por YOLO11.
Un buen ejemplo de esto es el análisis deportivo. YOLO11 puede utilizarse para detectar a cada jugador en el campo mediante la detección de objetos y, a continuación, seguirles durante todo el partido con el seguimiento de objetos. Mientras tanto, las capacidades de estimación de poses de YOLO11 pueden ayudar a analizar los movimientos y las técnicas de los jugadores, y la segmentación de instancias puede separar a cada jugador del fondo, añadiendo precisión al análisis.
Juntas, estas tareas de visión artificial habilitadas por YOLO11 crean una imagen completa de lo que ocurre durante el partido, ofreciendo a los equipos información más profunda sobre el rendimiento, las tácticas y la estrategia general de los jugadores.
Link to this sectionUna visión general de las tareas de visión artificial soportadas por YOLO11#
Ahora que hemos visto qué son las tareas de visión artificial, profundicemos en la comprensión de cada una de ellas soportada por YOLO11, utilizando ejemplos del mundo real.
Link to this sectionSoporte de YOLO11 para la clasificación de imágenes#
Cuando miras una foto, la mayoría de la gente puede decir fácilmente si muestra un perro, una montaña o una señal de tráfico porque todos hemos aprendido qué aspecto tienen normalmente estas cosas. La clasificación de imágenes ayuda a las máquinas a hacer lo mismo enseñándoles a clasificar y etiquetar una imagen basándose en su objeto principal, ya sea un "coche", un "plátano" o una "radiografía con fractura". Esta etiqueta ayuda a los sistemas de visión artificial a entender el contenido visual para que puedan responder o tomar decisiones en consecuencia.
Una aplicación interesante de esta tarea de visión artificial es la vigilancia de la fauna. La clasificación de imágenes puede utilizarse para identificar diferentes especies animales a partir de fotos tomadas en la naturaleza. Al etiquetar automáticamente las imágenes, los investigadores pueden rastrear poblaciones, controlar los patrones migratorios e identificar más fácilmente las especies en peligro de extinción para apoyar los esfuerzos de conservación.

Fig 2. Un ejemplo del uso de YOLO11 para la clasificación de imágenes.
Link to this sectionCapacidades de detección de objetos de YOLO11#
Aunque la clasificación de imágenes es útil para obtener una idea general de lo que contiene una imagen, solo asigna una etiqueta a toda la imagen. En situaciones en las que se requiere información detallada, como la ubicación precisa y la identidad de múltiples objetos, la detección de objetos se vuelve esencial.
La detección de objetos es el proceso de identificar y localizar objetos individuales dentro de una imagen, a menudo dibujando cajas delimitadoras alrededor de ellos. Ultralytics YOLO11 funciona especialmente bien en la detección de objetos en tiempo real, lo que lo hace ideal para una amplia gama de aplicaciones.
Tomemos, por ejemplo, las soluciones de visión artificial utilizadas en las tiendas minoristas para reponer las estanterías. La detección de objetos puede ayudar a contar frutas, verduras y otros artículos, garantizando un inventario preciso. En los campos agrícolas, la misma tecnología puede controlar la madurez de los cultivos para ayudar a los agricultores a determinar el mejor momento para la cosecha, distinguiendo incluso entre productos maduros e inmaduros.

Fig 3. Detección de frutas utilizando Ultralytics YOLO11.
Link to this sectionUso de YOLO11 para la segmentación de instancias#
La detección de objetos utiliza cajas delimitadoras para identificar y localizar objetos en una imagen, pero no captura sus formas exactas. Ahí es donde entra en juego la segmentación de instancias. En lugar de dibujar una caja alrededor de un objeto, la segmentación de instancias traza su contorno preciso.
Puedes pensarlo de esta manera: en lugar de indicar simplemente que "hay una manzana en esta zona", dibuja cuidadosamente y rellena la forma exacta de la manzana. Este proceso detallado ayuda a los sistemas de IA a entender claramente los límites de un objeto, especialmente cuando los objetos están muy juntos.
La segmentación de instancias puede aplicarse a muchas aplicaciones, desde inspecciones de infraestructuras hasta estudios geológicos. Por ejemplo, los datos de estudios geológicos pueden analizarse con YOLO11 para segmentar grietas o anomalías superficiales, tanto grandes como pequeñas. Al trazar límites precisos alrededor de estas anomalías, los ingenieros pueden identificar los problemas y solucionarlos antes de que empiece un proyecto.

Fig 4. Segmentación de grietas habilitada por YOLO11.
Link to this sectionSeguimiento de objetos: Seguir objetos a través de fotogramas con YOLO11#
Hasta ahora, las tareas de visión artificial que hemos analizado se centran en lo que hay en una sola imagen. Sin embargo, cuando se trata de vídeos, necesitamos información que vaya más allá de un solo fotograma. Para ello se puede utilizar la tarea de seguimiento de objetos.
La capacidad de seguimiento de objetos de YOLO11 puede seguir un objeto específico, como una persona o un coche, a medida que se mueve a través de una serie de fotogramas de vídeo. Incluso si el ángulo de la cámara cambia o aparecen otros objetos, el sistema sigue al mismo objetivo.
Esto es crucial para las aplicaciones que requieren una vigilancia continua, como el seguimiento de coches en el tráfico. De hecho, YOLO11 puede rastrear vehículos con precisión, siguiendo a cada coche para ayudar a estimar su velocidad en tiempo real. Esto convierte al seguimiento de objetos en un componente clave en sistemas como la monitorización del tráfico.

Fig 5. El soporte de YOLO11 para el seguimiento de objetos puede utilizarse para la estimación de la velocidad.
Link to this sectionDetección de cajas delimitadoras orientadas (OBB) utilizando YOLO11#
Los objetos en el mundo real no siempre están perfectamente alineados; pueden estar inclinados, de lado o colocados en ángulos extraños. Por ejemplo, en las imágenes por satélite, los barcos y los edificios suelen aparecer rotados.
Los métodos tradicionales de detección de objetos utilizan cajas rectangulares fijas que no se ajustan a la orientación de un objeto, lo que dificulta la captura precisa de estas formas rotadas. La detección de cajas delimitadoras orientadas (OBB) resuelve este problema utilizando cajas que giran para ajustarse perfectamente alrededor de un objeto, alineándose con su ángulo para una detección más precisa.
Con respecto a la monitorización portuaria, el soporte de YOLO11 para la detección OBB puede ayudar a identificar y rastrear con precisión los buques independientemente de su orientación, garantizando que cada barco que entra o sale del puerto sea monitorizado adecuadamente. Esta detección precisa proporciona información en tiempo real sobre las posiciones y movimientos de los buques, lo cual es fundamental para gestionar puertos concurridos y evitar colisiones.

Fig 6. Detección de barcos mediante la detección OBB y YOLO11.
Link to this sectionEstimación de poses y YOLO11: Seguimiento de puntos clave#
La estimación de poses es una técnica de visión artificial que rastrea puntos clave, como articulaciones, extremidades u otros marcadores, para entender cómo se mueve un objeto. En lugar de tratar un objeto o cuerpo entero como una unidad completa, este método lo descompone en sus partes clave. Esto permite analizar movimientos, gestos e interacciones en detalle.
Una aplicación común de esta tecnología es la estimación de poses humanas. Al rastrear las posiciones de varias partes del cuerpo en tiempo real, ofrece una imagen clara de cómo se mueve una persona. Esta información puede utilizarse para diversos fines, desde el reconocimiento de gestos y el seguimiento de actividades hasta el análisis del rendimiento en deportes.
Del mismo modo, en rehabilitación física, los terapeutas pueden utilizar la estimación de poses humanas y YOLO11 para monitorizar los movimientos de los pacientes durante los ejercicios. Esto ayuda a asegurar que cada movimiento se realiza correctamente mientras se sigue el progreso a lo largo del tiempo.

Fig 7. YOLO11 puede monitorizar un entrenamiento mediante estimación de poses.
Link to this sectionExplorando cómo YOLO11 soporta varias tareas de visión artificial#
Ahora que hemos explorado detalladamente todas las tareas de visión artificial soportadas por YOLO11, repasemos cómo las soporta YOLO11.
YOLO11 no es solo un modelo: es un conjunto de variantes de modelos especializados, cada uno diseñado para una tarea de visión artificial específica. Esto convierte a YOLO11 en una herramienta versátil que puede adaptarse a una amplia gama de aplicaciones. También puedes ajustar estos modelos en conjuntos de datos personalizados para abordar los desafíos únicos de tus proyectos.
Aquí tienes las variantes del modelo YOLO11 preentrenadas para tareas de visión específicas:
- YOLO11: Este modelo detecta y etiqueta múltiples objetos en tiempo real, lo que lo hace ideal para el reconocimiento visual de alta velocidad.
- YOLO11-seg: Esta variante se centra en la segmentación mediante el uso de máscaras detalladas para separar los objetos de sus fondos.
- YOLO11-obb: Este modelo está diseñado para detectar objetos rotados dibujando cajas delimitadoras que se alinean con la orientación de cada objeto.
- YOLO11-cls: Esta variante clasifica imágenes asignando una etiqueta de categoría única basada en el contenido general.
- YOLO11-pose: Este modelo estima puntos clave en el cuerpo para seguir la postura, las posiciones de las extremidades y el movimiento.
Cada variante está disponible en diferentes tamaños, lo que permite a los usuarios elegir el equilibrio adecuado entre velocidad y precisión para sus necesidades específicas.
Link to this sectionConclusiones clave#
Las tareas de visión artificial están cambiando la forma en que las máquinas entienden e interactúan con el mundo. Al descomponer imágenes y vídeos en elementos clave, estas tecnologías facilitan el análisis de objetos, movimientos e interacciones en detalle.
Desde la mejora de la seguridad vial y el rendimiento deportivo hasta la racionalización de los procesos industriales, modelos como YOLO11 pueden proporcionar información en tiempo real que impulsa la innovación. A medida que la Vision AI siga evolucionando, es probable que desempeñe un papel cada vez más importante en la forma en que interpretamos y utilizamos los datos visuales cada día.
Únete a nuestra comunidad y visita nuestro repositorio de GitHub para ver la IA en acción. Explora nuestras opciones de licencias y descubre más sobre la IA en la agricultura y la visión artificial en la fabricación en nuestras páginas de soluciones.






