Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Aprenda cómo funcionan las tareas de visión artificial, como el seguimiento de objetos, la segmentación de instancias y la clasificación de imágenes, y cómo Ultralytics YOLO11 las admite.
Gracias a las cámaras y los avances en inteligencia artificial (IA), las computadoras y las máquinas ahora pueden ver el mundo de una manera similar a como lo hacen los humanos. Por ejemplo, pueden reconocer personas, rastrear objetos e incluso comprender el contexto de lo que está sucediendo en un video.
Específicamente, la visión artificial es la rama de la IA que permite a las máquinas comprender e interpretar la información visual del mundo que les rodea. La visión artificial implica una variedad de tareas, cada una diseñada para extraer un tipo específico de información de imágenes o videos. Por ejemplo, la detección de objetos ayuda a identificar y localizar diferentes elementos en una imagen, mientras que otras tareas como el seguimiento, la segmentación y la estimación de la pose ayudan a las máquinas a comprender el movimiento, las formas y las posiciones con mayor precisión.
La tarea de visión artificial utilizada para una aplicación particular depende del tipo de información que necesite. Los modelos de visión artificial como Ultralytics YOLO11 admiten varias tareas de visión artificial, lo que lo convierte en una opción confiable para construir sistemas de Vision AI del mundo real.
En esta guía, analizaremos más de cerca las tareas de visión artificial compatibles con modelos como YOLO11. Exploraremos cómo funciona cada tarea y cómo se utilizan en diferentes industrias. ¡Empecemos!
¿Qué son las tareas de visión artificial?
Las tareas de visión artificial tienen como objetivo replicar las capacidades de la visión humana de diferentes maneras. Estas tareas pueden ayudar a las máquinas a detectar objetos, rastrear sus movimientos, estimar poses e incluso delinear elementos individuales en imágenes y vídeos. Normalmente, las tareas de visión artificial se habilitan mediante modelos que dividen los datos visuales en partes más pequeñas para que puedan interpretar lo que está sucediendo con mayor claridad.
Los modelos de IA de visión como los modelos Ultralytics YOLO admiten múltiples tareas, como la detección, el seguimiento y la segmentación, en un solo framework. Debido a esta versatilidad, los modelos YOLO11 son fáciles de adoptar para una amplia variedad de casos de uso.
Fig. 1. Tareas de visión artificial soportadas por YOLO11.
Un buen ejemplo de esto se encuentra en el análisis deportivo. YOLO11 puede utilizarse para detectar a cada jugador en el campo mediante la detección de objetos, y luego puede seguirlo durante todo el partido con el seguimiento de objetos. Mientras tanto, las capacidades de estimación de pose de YOLO11 pueden ayudar a analizar los movimientos y las técnicas de los jugadores, y la segmentación de instancias puede separar a cada jugador del fondo, lo que añade precisión al análisis.
En conjunto, estas tareas de visión artificial habilitadas por YOLO11 crean una imagen completa de lo que está sucediendo durante el juego, brindando a los equipos información más profunda sobre el rendimiento de los jugadores, las tácticas y la estrategia general.
Una visión general de las tareas de visión artificial soportadas por YOLO11
Ahora que hemos echado un vistazo a qué son las tareas de visión artificial, profundicemos en la comprensión de cada una de las compatibles con YOLO11 con más detalle, utilizando ejemplos del mundo real.
Soporte de YOLO11 para la clasificación de imágenes
Cuando vemos una foto, la mayoría de la gente puede decir fácilmente si muestra un perro, una montaña o una señal de tráfico porque todos hemos aprendido cómo suelen ser estas cosas. La clasificación de imágenes ayuda a las máquinas a hacer lo mismo, enseñándoles a clasificar y etiquetar una imagen basándose en su objeto principal, ya sea un "coche", un "plátano" o una "radiografía con fractura". Esta etiqueta ayuda a los sistemas de visión artificial a comprender el contenido visual para que puedan responder o tomar decisiones en consecuencia.
Una aplicación interesante de esta tarea de visión artificial es el monitoreo de la vida silvestre. La clasificación de imágenes se puede utilizar para identificar diferentes especies de animales a partir de fotos capturadas en la naturaleza. Al etiquetar automáticamente las imágenes, los investigadores pueden rastrear poblaciones, monitorear patrones de migración e identificar especies en peligro de extinción más fácilmente para apoyar los esfuerzos de conservación.
Fig. 2. Un ejemplo del uso de YOLO11 para la clasificación de imágenes.
Capacidades de detección de objetos de YOLO11
Si bien la clasificación de imágenes es útil para obtener una idea general de lo que contiene una imagen, solo asigna una etiqueta a toda la imagen. En situaciones en las que se requiere información detallada, como la ubicación precisa y la identidad de varios objetos, la detección de objetos se vuelve esencial.
La detección de objetos es el proceso de identificar y localizar objetos individuales dentro de una imagen, a menudo dibujando cuadros delimitadores a su alrededor. Ultralytics YOLO11 tiene un rendimiento especialmente bueno en la detección de objetos en tiempo real, lo que lo hace ideal para una amplia gama de aplicaciones.
Tomemos, por ejemplo, las soluciones de visión artificial utilizadas en las tiendas minoristas para el almacenamiento de estantes. La detección de objetos puede ayudar a contar frutas, verduras y otros artículos, garantizando un inventario preciso. En los campos agrícolas, la misma tecnología puede supervisar la madurez de los cultivos para ayudar a los agricultores a determinar el mejor momento para la cosecha, incluso distinguiendo entre los productos maduros y los no maduros.
Fig. 3. Detección de frutas utilizando Ultralytics YOLO11.
Uso de YOLO11 para la segmentación de instancias
La detección de objetos utiliza cuadros delimitadores para identificar y ubicar objetos en una imagen, pero no captura sus formas exactas. Ahí es donde entra en juego la segmentación de instancias. En lugar de dibujar un cuadro alrededor de un objeto, la segmentación de instancias traza su contorno preciso.
Puede pensarlo de esta manera: en lugar de simplemente indicar que "hay una manzana en esta área", delinea cuidadosamente y rellena la forma exacta de la manzana. Este proceso detallado ayuda a los sistemas de IA a comprender claramente los límites de un objeto, especialmente cuando los objetos están muy juntos.
La segmentación de instancias se puede aplicar a muchas aplicaciones, desde inspecciones de infraestructura hasta estudios geológicos. Por ejemplo, los datos de estudios geológicos se pueden analizar utilizando YOLO11 para segmentar grietas o anomalías superficiales, tanto grandes como pequeñas. Al dibujar límites precisos alrededor de estas anomalías, los ingenieros pueden identificar problemas y abordarlos antes de que comience un proyecto.
Fig. 4. Segmentación de grietas habilitada para YOLO11.
Seguimiento de objetos: Seguimiento de objetos a través de fotogramas con YOLO11
Hasta ahora, las tareas de visión artificial que hemos analizado se centran en lo que hay en una sola imagen. Sin embargo, cuando se trata de vídeos, necesitamos información que vaya más allá de un fotograma. La tarea, seguimiento de objetos, se puede utilizar para esto.
La capacidad de seguimiento de objetos de YOLO11 puede seguir un objeto específico, como una persona o un automóvil, a medida que se mueve a través de una serie de fotogramas de vídeo. Incluso si el ángulo de la cámara cambia o aparecen otros objetos, el sistema continúa siguiendo el mismo objetivo.
Esto es crucial para las aplicaciones que requieren supervisión a lo largo del tiempo, como el seguimiento de coches en el tráfico. De hecho, YOLO11 puede rastrear con precisión los vehículos, siguiendo cada coche para ayudar a estimar su velocidad en tiempo real. Esto hace que el seguimiento de objetos sea un componente clave en sistemas como la monitorización del tráfico.
Fig 5. El soporte de YOLO11 para el seguimiento de objetos se puede utilizar para la estimación de la velocidad.
Detección de bounding boxes orientados (OBB) utilizando YOLO11
Los objetos en el mundo real no siempre están perfectamente alineados: pueden estar inclinados, de lado o colocados en ángulos extraños. Por ejemplo, en las imágenes de satélite, los barcos y los edificios a menudo aparecen rotados.
Los métodos tradicionales de detección de objetos utilizan cajas rectangulares fijas que no se ajustan a la orientación de un objeto, lo que dificulta la captura precisa de estas formas rotadas. La detección de cajas delimitadoras orientadas (OBB) resuelve este problema mediante el uso de cajas que giran para ajustarse perfectamente alrededor de un objeto, alineándose con su ángulo para una detección más precisa.
Con respecto a la monitorización de puertos, el soporte de YOLO11 para la detección OBB puede ayudar a identificar y rastrear con precisión los buques independientemente de su orientación, asegurando que cada barco que entra o sale del puerto sea monitorizado adecuadamente. Esta detección precisa proporciona información en tiempo real sobre las posiciones y los movimientos de los buques, lo cual es fundamental para gestionar puertos concurridos y prevenir colisiones.
Fig. 6. Detección de barcos mediante la detección OBB y YOLO11.
Estimación de la pose y YOLO11: Seguimiento de puntos clave
La estimación de pose es una técnica de visión artificial que rastrea puntos clave, como articulaciones, extremidades u otros marcadores, para comprender cómo se mueve un objeto. En lugar de tratar un objeto o cuerpo entero como una unidad completa, este método lo divide en sus partes clave. Esto permite analizar los movimientos, los gestos y las interacciones en detalle.
Una aplicación común de esta tecnología es la estimación de la pose humana. Al rastrear las posiciones de varias partes del cuerpo en tiempo real, proporciona una imagen clara de cómo se mueve una persona. Esta información se puede utilizar para diversos fines, desde el reconocimiento de gestos y el monitoreo de la actividad hasta el análisis del rendimiento en los deportes.
De manera similar, en la rehabilitación física, los terapeutas pueden usar la estimación de la pose humana y YOLO11 para monitorear los movimientos de los pacientes durante los ejercicios. Esto ayuda a asegurar que cada movimiento se haga correctamente mientras se rastrea el progreso a lo largo del tiempo.
Fig 7. YOLO11 puede monitorizar un entrenamiento utilizando la estimación de pose.
Explorando cómo YOLO11 admite diversas tareas de visión artificial
Ahora que hemos explorado en detalle todas las tareas de visión artificial compatibles con YOLO11, veamos cómo YOLO11 las soporta.
YOLO11 no es solo un modelo, es un conjunto de variantes de modelos especializados, cada uno diseñado para una tarea específica de visión artificial. Esto convierte a YOLO11 en una herramienta versátil que se puede adaptar a una amplia gama de aplicaciones. También puede ajustar estos modelos en conjuntos de datos personalizados para abordar los desafíos únicos de sus proyectos.
YOLO11: Este modelo detecta y etiqueta múltiples objetos en tiempo real, lo que lo hace ideal para el reconocimiento visual de alta velocidad.
YOLO11-seg: Esta variante se centra en la segmentación mediante el uso de máscaras detalladas para separar los objetos de sus fondos.
YOLO11-obb: Este modelo está diseñado para detectar objetos rotados dibujando cuadros delimitadores que se alinean con la orientación de cada objeto.
YOLO11-cls: Esta variante clasifica las imágenes asignando una única etiqueta de categoría basada en el contenido general.
YOLO11-pose: Este modelo estima los puntos clave del cuerpo para rastrear la postura, las posiciones de las extremidades y el movimiento.
Cada variante está disponible en diferentes tamaños, lo que permite a los usuarios elegir el equilibrio adecuado entre velocidad y precisión para sus necesidades específicas.
Conclusiones clave
Las tareas de visión artificial están cambiando la forma en que las máquinas entienden e interactúan con el mundo. Al descomponer las imágenes y los vídeos en elementos clave, estas tecnologías facilitan el análisis detallado de objetos, movimientos e interacciones.
Desde mejorar la seguridad vial y el rendimiento deportivo hasta optimizar los procesos industriales, modelos como YOLO11 pueden proporcionar información en tiempo real que impulse la innovación. A medida que la IA visual continúa evolucionando, es probable que desempeñe un papel cada vez más importante en cómo interpretamos y utilizamos los datos visuales a diario.