Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Configuración de cookies
Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Descubra cómo funcionan las tareas de visión por ordenador, como el seguimiento de objetos, la segmentación de instancias y la clasificación de imágenes, y cómo Ultralytics YOLO11 las soporta.
Gracias a las cámaras y a los avances de la inteligencia artificial (IA), los ordenadores y las máquinas pueden ver el mundo de forma similar a los humanos. Por ejemplo, pueden reconocer personas, seguir objetos e incluso entender el contexto de lo que ocurre en un vídeo.
En concreto, la visión por ordenador es la rama de la IA que permite a las máquinas comprender e interpretar la información visual del mundo que las rodea. La visión por computador abarca diversas tareas, cada una de ellas diseñada para extraer un tipo específico de información de imágenes o vídeos. Por ejemplo, la detección de objetos ayuda a identificar y localizar distintos elementos en una imagen, mientras que otras tareas, como el seguimiento, la segmentación y la estimación de la postura, ayudan a las máquinas a comprender el movimiento, las formas y las posiciones con mayor precisión.
La tarea de visión por ordenador utilizada para una aplicación concreta depende del tipo de información que se necesite. Los modelos de visión por ordenador como Ultralytics YOLO11 admiten varias tareas de visión por ordenador, lo que los convierte en una opción fiable para crear sistemas de IA de visión del mundo real.
En esta guía, examinaremos más de cerca las tareas de visión por ordenador que admiten modelos como YOLO11. Exploraremos cómo funciona cada tarea y cómo se utilizan en diferentes sectores. Empecemos.
¿Qué son las tareas de visión artificial?
Las tareas de visión por ordenador pretenden reproducir las capacidades de visión humanas de diferentes maneras. Estas tareas pueden ayudar a las máquinas a detectar objetos, seguir sus movimientos, estimar poses e incluso delinear elementos individuales en imágenes y vídeos. Normalmente, las tareas de visión por ordenador se realizan mediante modelos que dividen los datos visuales en partes más pequeñas para poder interpretar lo que ocurre con mayor claridad.
Los modelos de IA de visión como los modelos YOLO de Ultralytics admiten múltiples tareas, como la detección, el seguimiento y la segmentación, en un solo marco. Gracias a esta versatilidad, los modelos YOLO11 son fáciles de adoptar para una amplia variedad de casos de uso.
Fig. 1. Tareas de visión por ordenador compatibles con YOLO11.
Un buen ejemplo de ello es la analítica deportiva. YOLO11 puede utilizarse para detectar a cada jugador en el campo mediante la detección de objetos y, a continuación, seguirlos durante todo el partido con el seguimiento de objetos. Mientras tanto, las capacidades de estimación de la pose de YOLO11 pueden ayudar a analizar los movimientos y técnicas de los jugadores, y la segmentación de instancias puede separar a cada jugador del fondo, añadiendo precisión al análisis.
Juntas, estas tareas de visión por ordenador habilitadas por YOLO11 crean una imagen completa de lo que está ocurriendo durante el partido, proporcionando a los equipos una visión más profunda del rendimiento de los jugadores, las tácticas y la estrategia general.
Visión general de las tareas de visión por ordenador compatibles con YOLO11
Ahora que ya hemos echado un vistazo a lo que son las tareas de visión por ordenador, vamos a profundizar en la comprensión de cada una de las que admite YOLO11, utilizando ejemplos del mundo real.
Clasificación de imágenes en YOLO11
Cuando se mira una foto, la mayoría de la gente puede decir fácilmente si muestra un perro, una montaña o una señal de tráfico porque todos hemos aprendido qué aspecto suelen tener esas cosas. La clasificación de imágenes ayuda a las máquinas a hacer lo mismo enseñándoles a clasificar y etiquetar una imagen en función de su objeto principal, ya sea un "coche", un "plátano" o una "radiografía con fractura". Esta etiqueta ayuda a los sistemas de visión por ordenador a entender el contenido visual para que puedan responder o tomar decisiones en consecuencia.
Una aplicación interesante de esta tarea de visión por ordenador es la vigilancia de la fauna salvaje. La clasificación de imágenes puede utilizarse para identificar distintas especies animales a partir de fotos tomadas en la naturaleza. Al etiquetar automáticamente las imágenes, los investigadores pueden rastrear poblaciones, vigilar patrones migratorios e identificar especies en peligro más fácilmente para apoyar los esfuerzos de conservación.
Fig. 2. Ejemplo de utilización de YOLO11 para la clasificación de imágenes.
Capacidad de detección de objetos de YOLO11
Aunque la clasificación de imágenes es útil para hacerse una idea general de lo que contiene una imagen, sólo asigna una etiqueta a toda la imagen. En situaciones en las que se requiere información detallada, como la ubicación exacta y la identidad de varios objetos, la detección de objetos se convierte en algo esencial.
La detección de objetos es el proceso de identificar y localizar objetos individuales dentro de una imagen, a menudo dibujando cuadros delimitadores a su alrededor. Ultralytics YOLO11 funciona especialmente bien en la detección de objetos en tiempo real, por lo que es ideal para una amplia gama de aplicaciones.
Tomemos, por ejemplo, las soluciones de visión por ordenador que se utilizan en los comercios minoristas para reponer existencias en las estanterías. La detección de objetos puede ayudar a contar frutas, verduras y otros artículos, garantizando un inventario preciso. En los campos agrícolas, la misma tecnología puede supervisar la madurez de los cultivos para ayudar a los agricultores a determinar el mejor momento para la cosecha, distinguiendo incluso entre productos maduros e inmaduros.
Fig. 3. Detección de frutas con Ultralytics YOLO11.
Uso de YOLO11 para la segmentación de instancias
La detección de objetos utiliza cuadros delimitadores para identificar y localizar objetos en una imagen, pero no captura sus formas exactas. Ahí es donde entra en juego la segmentación de instancias. En lugar de dibujar un recuadro alrededor de un objeto, la segmentación de instancias traza su contorno preciso.
Puedes verlo así: en lugar de limitarse a indicar que "hay una manzana en esta zona", perfila y rellena cuidadosamente la forma exacta de la manzana. Este minucioso proceso ayuda a los sistemas de IA a entender claramente los límites de un objeto, sobre todo cuando los objetos están muy juntos.
La segmentación de instancias puede aplicarse a muchas aplicaciones, desde inspecciones de infraestructuras a estudios geológicos. Por ejemplo, los datos de estudios geológicos pueden analizarse con YOLO11 para segmentar grietas o anomalías superficiales grandes y pequeñas. Al trazar límites precisos alrededor de estas anomalías, los ingenieros pueden detectar los problemas y resolverlos antes de que comience un proyecto.
Fig. 4. Segmentación de grietas con YOLO11.
Seguimiento de objetos: Seguimiento de objetos a través de fotogramas con YOLO11
Hasta ahora, las tareas de visión por ordenador que hemos visto se centraban en lo que hay en una sola imagen. Sin embargo, cuando se trata de vídeos, necesitamos conocimientos que vayan más allá de un fotograma. Para ello se puede utilizar la tarea de seguimiento de objetos.
La capacidad de seguimiento de objetos de YOLO11 permite seguir un objeto concreto, como una persona o un coche, mientras se desplaza por una serie de fotogramas de vídeo. Aunque cambie el ángulo de la cámara o aparezcan otros objetos, el sistema continúa siguiendo al mismo objetivo.
Esto es crucial para aplicaciones que requieren un seguimiento a lo largo del tiempo, como el seguimiento de coches en el tráfico. De hecho, YOLO11 puede rastrear vehículos con precisión, siguiendo cada coche para ayudar a estimar su velocidad en tiempo real. Esto hace que el seguimiento de objetos sea un componente clave en sistemas como la vigilancia del tráfico.
Fig. 5. El soporte de YOLO11 para el seguimiento de objetos puede utilizarse para la estimación de la velocidad.
Detección de cuadros delimitadores orientados (OBB) con YOLO11
Los objetos del mundo real no siempre están perfectamente alineados: pueden estar inclinados, de lado o colocados en ángulos extraños. Por ejemplo, en las imágenes de satélite, los barcos y los edificios suelen aparecer girados.
Los métodos tradicionales de detección de objetos utilizan cajas rectangulares fijas que no se ajustan a la orientación de un objeto, lo que dificulta la captura precisa de estas formas rotadas. La detección de cajas delimitadoras orientadas (OBB ) resuelve este problema utilizando cajas que giran para ajustarse perfectamente a un objeto, alineándose con su ángulo para una detección más precisa.
En lo que respecta a la vigilancia de puertos, la compatibilidad de YOLO11 con la detección OBB puede ayudar a identificar y rastrear con precisión los buques independientemente de su orientación, garantizando que cada buque que entra o sale del puerto esté debidamente vigilado. Esta detección precisa proporciona información en tiempo real sobre la posición y los movimientos de los buques, lo que es fundamental para gestionar puertos congestionados y evitar colisiones.
Fig. 6. Detección de embarcaciones mediante detección OBB y YOLO11.
Estimación de la pose y YOLO11: Seguimiento de puntos clave
La estimación de la pose es una técnica de visión por ordenador que rastrea puntos clave, como articulaciones, extremidades u otros marcadores, para comprender cómo se mueve un objeto. En lugar de tratar todo un objeto o cuerpo como una unidad completa, este método lo descompone en sus partes clave. Esto permite analizar en detalle movimientos, gestos e interacciones.
Una aplicación habitual de esta tecnología es la estimación de la postura humana. Mediante el seguimiento en tiempo real de las posiciones de las distintas partes del cuerpo, proporciona una imagen clara de cómo se mueve una persona. Esta información puede utilizarse para diversos fines, desde el reconocimiento de gestos y el seguimiento de la actividad hasta el análisis del rendimiento en el deporte.
Del mismo modo, en rehabilitación física, los terapeutas pueden utilizar la estimación de la postura humana y YOLO11 para controlar los movimientos de los pacientes durante los ejercicios. Esto ayuda a asegurarse de que cada movimiento se hace correctamente, al tiempo que se realiza un seguimiento de los progresos a lo largo del tiempo.
Fig. 7. YOLO11 puede monitorizar un entrenamiento utilizando la estimación de la postura.
Exploración de la compatibilidad de YOLO11 con diversas tareas de visión por ordenador
Ahora que hemos explorado en detalle todas las tareas de visión por ordenador que soporta YOLO11, vamos a ver cómo las soporta YOLO11.
YOLO11 no es sólo un modelo: es un conjunto de variantes de modelos especializados, cada uno diseñado para una tarea específica de visión por ordenador. Esto convierte a YOLO11 en una herramienta versátil que puede adaptarse a una amplia gama de aplicaciones. También puede ajustar estos modelos en conjuntos de datos personalizados para hacer frente a los desafíos únicos de sus proyectos.
YOLO11: este modelo detecta y etiqueta múltiples objetos en tiempo real, por lo que es ideal para el reconocimiento visual de alta velocidad.
YOLO11-seg: Esta variante se centra en la segmentación mediante el uso de máscaras detalladas para separar los objetos de sus fondos.
YOLO11-obb: Este modelo está diseñado para detectar objetos rotados dibujando cajas delimitadoras que se alinean con la orientación de cada objeto.
YOLO11-cls: Esta variante clasifica las imágenes asignando una única etiqueta de categoría basada en el contenido global.
YOLO11-pose: este modelo estima puntos clave del cuerpo para realizar un seguimiento de la postura, la posición de las extremidades y el movimiento.
Cada variante está disponible en diferentes tamaños, lo que permite a los usuarios elegir el equilibrio adecuado entre velocidad y precisión para sus necesidades específicas.
Principales conclusiones
Las tareas de visión por ordenador están cambiando la forma en que las máquinas entienden el mundo e interactúan con él. Al descomponer las imágenes y los vídeos en elementos clave, estas tecnologías facilitan el análisis detallado de objetos, movimientos e interacciones.
Desde la mejora de la seguridad del tráfico y el rendimiento deportivo hasta la racionalización de los procesos industriales, modelos como YOLO11 pueden proporcionar información en tiempo real que impulse la innovación. A medida que Vision AI siga evolucionando, es probable que desempeñe un papel cada vez más importante en la forma en que interpretamos y utilizamos los datos visuales a diario.