Cheque verde
Enlace copiado en el portapapeles

Todo lo que necesitas saber sobre las tareas de visión artificial

Aprende cómo funcionan las tareas de visión por ordenador, como el seguimiento de objetos, la segmentación de instancias y la clasificación de imágenes, y cómo las soporta Ultralytics YOLO11 .

Gracias a las cámaras y a los avances en inteligencia artificial (IA), ahora los ordenadores y las máquinas pueden ver el mundo de forma similar a como lo ven los humanos. Por ejemplo, pueden reconocer personas, seguir objetos e incluso comprender el contexto de lo que ocurre en un vídeo.

En concreto, la visión por ordenador es la rama de la IA que permite a las máquinas comprender e interpretar la información visual del mundo que las rodea. La visión informática implica una variedad de tareas, cada una diseñada para extraer un tipo específico de información de imágenes o vídeos. Por ejemplo, la detección de objetos ayuda a identificar y localizar distintos elementos en una imagen, mientras que otras tareas como el seguimiento, la segmentación y la estimación de la postura ayudan a las máquinas a comprender el movimiento, las formas y las posiciones con mayor precisión.

La tarea de visión por ordenador utilizada para una aplicación concreta depende del tipo de información que necesites. Los modelos de visión por ordenador como Ultralytics YOLO11 admiten varias tareas de visión por ordenador, lo que lo convierte en una opción fiable para construir sistemas de IA de visión del mundo real.

En esta guía, examinaremos más de cerca las tareas de visión por ordenador que admiten modelos como YOLO11. Exploraremos cómo funciona cada tarea y cómo se utilizan en distintos sectores. Empecemos.

¿Qué son las tareas de visión artificial?

Las tareas de visión por ordenador pretenden replicar las capacidades de visión humanas de diferentes maneras. Estas tareas pueden ayudar a las máquinas a detectar objetos, seguir sus movimientos, estimar poses e incluso perfilar elementos individuales en imágenes y vídeos. Normalmente, las tareas de visión por ordenador se realizan mediante modelos que dividen los datos visuales en partes más pequeñas para poder interpretar lo que ocurre con mayor claridad. 

Los modelos de IA de visión como los modelosYOLO Ultralytics admiten múltiples tareas, como la detección, el seguimiento y la segmentación, en un solo marco. Debido a esta versatilidad, los modelos YOLO11 son fáciles de adoptar para una amplia variedad de casos de uso.

Fig. 1. Tareas de visión artificial soportadas por YOLO11.

Un buen ejemplo de ello es la analítica deportiva. YOLO11 puede utilizarse para detectar a cada jugador en el campo mediante la detección de objetos, y luego puede seguirlos durante todo el partido con el seguimiento de objetos. Mientras tanto, las capacidades de estimación de la pose de YOLO11 pueden ayudar a analizar los movimientos y técnicas de los jugadores, y la segmentación de instancias puede separar a cada jugador del fondo, añadiendo precisión al análisis. 

Juntas, estas tareas de visión por ordenador YOLO11 crean una imagen completa de lo que está ocurriendo durante el juego, proporcionando a los equipos una visión más profunda del rendimiento de los jugadores, las tácticas y la estrategia general.

Una visión general de las tareas de visión por ordenador soportadas por YOLO11

Ahora que hemos echado un vistazo a lo que son las tareas de visión por ordenador, vamos a sumergirnos en la comprensión de cada una de las que admite YOLO11 con más detalle, utilizando ejemplos del mundo real.

Soporte de YOLO11para la clasificación de imágenes

Cuando miras una foto, la mayoría de la gente puede decir fácilmente si muestra un perro, una montaña o una señal de tráfico, porque todos hemos aprendido el aspecto típico de estas cosas. La clasificación de imágenes ayuda a las máquinas a hacer lo mismo, enseñándoles a clasificar y etiquetar una imagen en función de su objeto principal, ya sea un "coche", un "plátano" o una "radiografía con fractura". Esta etiqueta ayuda a los sistemas de visión por ordenador a comprender el contenido visual para que puedan responder o tomar decisiones en consecuencia.

Una aplicación interesante de esta tarea de visión por ordenador es la vigilancia de la fauna salvaje. La clasificación de imágenes puede utilizarse para identificar distintas especies animales a partir de fotos captadas en la naturaleza. Al etiquetar automáticamente las imágenes, los investigadores pueden hacer un seguimiento de las poblaciones, controlar los patrones de migración e identificar más fácilmente las especies en peligro para apoyar los esfuerzos de conservación.

Fig. 2. Un ejemplo de utilización de YOLO11 para la clasificación de imágenes.

Capacidad de detección de objetos de YOLO11

Aunque la clasificación de imágenes es útil para hacerse una idea general de lo que contiene una imagen, sólo asigna una etiqueta a toda la imagen. En situaciones en las que se necesita información detallada, como la ubicación precisa y la identidad de varios objetos, la detección de objetos se vuelve esencial.

La detección de objetos es el proceso de identificar y localizar objetos individuales dentro de una imagen, a menudo dibujando cuadros delimitadores a su alrededor. Ultralytics YOLO11 funciona especialmente bien en la detección de objetos en tiempo real, por lo que es ideal para una amplia gama de aplicaciones.

Tomemos, por ejemplo, las soluciones de visión por ordenador que se utilizan en los comercios minoristas para reponer existencias en las estanterías. La detección de objetos puede ayudar a contar frutas, verduras y otros artículos, garantizando un inventario preciso. En los campos agrícolas, la misma tecnología puede controlar la madurez de los cultivos para ayudar a los agricultores a determinar el mejor momento para la cosecha, distinguiendo incluso entre productos maduros e inmaduros.

Fig. 3. Detección de frutas con Ultralytics YOLO11.

Utilizar YOLO11 para la segmentación de instancias

La detección de objetos utiliza cuadros delimitadores para identificar y localizar objetos en una imagen, pero no capta sus formas exactas. Ahí es donde entra en juego la segmentación de instancias. En lugar de dibujar una caja alrededor de un objeto, la segmentación de instancias traza su contorno preciso.

Puedes pensarlo así: en lugar de limitarse a indicar que "hay una manzana en esta zona", perfila y rellena cuidadosamente la forma exacta de la manzana. Este proceso detallado ayuda a los sistemas de IA a comprender claramente los límites de un objeto, sobre todo cuando los objetos están muy juntos.

La segmentación de instancias puede aplicarse a muchas aplicaciones, desde inspecciones de infraestructuras a estudios geológicos. Por ejemplo, los datos de prospecciones geológicas pueden analizarse con YOLO11 para segmentar grietas o anomalías superficiales grandes y pequeñas. Al trazar límites precisos alrededor de estas anomalías, los ingenieros pueden localizar los problemas y resolverlos antes de que comience un proyecto. 

Fig. 4. Segmentación de grietas YOLO11.

Seguimiento de objetos: Seguimiento de objetos a través de fotogramas con YOLO11

Hasta ahora, las tareas de visión por ordenador que hemos visto se centran en lo que hay en una sola imagen. Sin embargo, cuando se trata de vídeos, necesitamos conocimientos que vayan más allá de un fotograma. Para ello se puede utilizar la tarea Seguimiento de objetos.

La capacidad de seguimiento de objetos de YOLO11 puede seguir un objeto concreto, como una persona o un coche, mientras se mueve a través de una serie de fotogramas de vídeo. Aunque cambie el ángulo de la cámara o aparezcan otros objetos, el sistema continúa siguiendo al mismo objetivo. 

Esto es crucial para aplicaciones que requieren un seguimiento a lo largo del tiempo, como el seguimiento de coches en el tráfico. De hecho, YOLO11 puede rastrear vehículos con precisión, siguiendo a cada coche para ayudar a estimar su velocidad en tiempo real. Esto hace que el seguimiento de objetos sea un componente clave en sistemas como la vigilancia del tráfico.

Fig. 5. El soporte de YOLO11para el seguimiento de objetos puede utilizarse para estimar la velocidad.

Detección de cajas delimitadoras orientadas (OBB) con YOLO11

Los objetos del mundo real no siempre están perfectamente alineados: pueden estar inclinados, de lado o colocados en ángulos extraños. Por ejemplo, en las imágenes de satélite, los barcos y los edificios suelen aparecer girados. 

Los métodos tradicionales de detección de objetos utilizan cajas rectangulares fijas que no se ajustan a la orientación de un objeto, lo que dificulta la captura precisa de estas formas rotadas. La detección de cajas delimitadoras orientadas (OBB) resuelve este problema utilizando cajas que giran para ajustarse a un objeto, alineándose con su ángulo para una detección más precisa.

Con respecto a la supervisión de puertos, la compatibilidad de YOLO11con la detección de OBB puede ayudar a identificar y rastrear con precisión los barcos, independientemente de su orientación, garantizando que cada barco que entra o sale del puerto es supervisado adecuadamente. Esta detección precisa proporciona información en tiempo real sobre la posición y los movimientos de los barcos, lo que es fundamental para gestionar puertos congestionados y evitar colisiones.

Fig. 6. Detección de embarcaciones mediante detección OBB y YOLO11.

Estimación de la pose y YOLO11: Seguimiento de los puntos clave 

La estimación de la pose es una técnica de visión por ordenador que rastrea puntos clave, como articulaciones, extremidades u otros marcadores, para comprender cómo se mueve un objeto. En lugar de tratar todo un objeto o cuerpo como una unidad completa, este método lo descompone en sus partes clave. Esto permite analizar en detalle movimientos, gestos e interacciones.

Una aplicación habitual de esta tecnología es la estimación de la postura humana. Al seguir las posiciones de varias partes del cuerpo en tiempo real, proporciona una imagen clara de cómo se mueve una persona. Esta información puede utilizarse para diversos fines, desde el reconocimiento de gestos y la monitorización de la actividad hasta el análisis del rendimiento en el deporte. 

Del mismo modo, en rehabilitación física, los terapeutas pueden utilizar la estimación de la postura humana y YOLO11 para controlar los movimientos de los pacientes durante los ejercicios. Esto ayuda a asegurarse de que cada movimiento se hace correctamente, a la vez que se realiza un seguimiento del progreso a lo largo del tiempo.

Fig. 7. YOLO11 puede monitorizar un entrenamiento utilizando la estimación de la postura.

Explorando cómo YOLO11 soporta varias tareas de visión por ordenador

Ahora que hemos explorado en detalle todas las tareas de visión por ordenador que admite YOLO11 , vamos a ver cómo las admite YOLO11 . 

YOLO11 no es sólo un modelo: es un conjunto de variantes de modelos especializados, cada uno diseñado para una tarea específica de visión por ordenador. Esto convierte a YOLO11 en una herramienta versátil que puede adaptarse a una amplia gama de aplicaciones. También puedes afinar estos modelos en conjuntos de datos personalizados para afrontar los retos únicos de tus proyectos.

Aquí tienes las variantes del modeloYOLO11 preentrenadas para tareas de visión específicas:

  • YOLO11: Este modelo detecta y etiqueta múltiples objetos en tiempo real, por lo que es ideal para el reconocimiento visual de alta velocidad.

  • YOLO11: Esta variante se centra en la segmentación utilizando máscaras detalladas para separar los objetos de sus fondos.

  • YOLO11: Este modelo está diseñado para detectar objetos girados dibujando cuadros delimitadores que se alinean con la orientación de cada objeto.

  • YOLO11: Esta variante clasifica las imágenes asignando una única etiqueta de categoría basada en el contenido global.

  • YOLO11: Este modelo estima puntos clave del cuerpo para seguir la postura, la posición de las extremidades y el movimiento.

Cada variante está disponible en distintos tamaños, lo que permite a los usuarios elegir el equilibrio adecuado entre velocidad y precisión para sus necesidades específicas.

Puntos clave

Las tareas de visión por ordenador están cambiando la forma en que las máquinas comprenden el mundo e interactúan con él. Al descomponer las imágenes y los vídeos en elementos clave, estas tecnologías facilitan el análisis detallado de objetos, movimientos e interacciones. 

Desde la mejora de la seguridad del tráfico y el rendimiento deportivo hasta la racionalización de los procesos industriales, los modelos como YOLO11 pueden proporcionar información en tiempo real que impulse la innovación. A medida que la IA de Visión siga evolucionando, es probable que desempeñe un papel cada vez más importante en la forma en que interpretamos y utilizamos los datos visuales cada día.

Únete a nuestra comunidad y visita nuestro repositorio de GitHub para ver la IA en acción. Explora nuestras opciones de licencia y descubre más sobre la IA en la agricultura y la visión por ordenador en la fabricación en nuestras páginas de soluciones. 

Logotipo de LinkedInLogotipo de TwitterLogotipo de FacebookSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático