Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Configuración de cookies
Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Sumérjase con nosotros en las aplicaciones de la visión por ordenador. También recorreremos diversas tareas de visión por ordenador, como la detección y segmentación de objetos.
En este artículo, echaremos un vistazo a los conceptos básicos de la visión por ordenador y los modelos de visión. Trataremos su funcionamiento y sus diversas aplicaciones en distintos sectores. Las innovaciones en visión por ordenador están por todas partes, moldeando silenciosamente nuestro mundo. Descubrámoslas una a una.
¿Qué es la visión por ordenador?
La inteligencia artificial (IA) es un término genérico que engloba muchas tecnologías que pretenden reproducir una parte de la inteligencia humana. Uno de estos subcampos de la IA es la visión por ordenador. La visión por ordenador se centra en dotar a las máquinas de ojos capaces de ver, observar y comprender su entorno.
Al igual que la visión humana, las soluciones de visión por ordenador pretenden distinguir objetos, calcular distancias y detectar movimientos. Sin embargo, a diferencia de los humanos, que cuentan con toda una vida de experiencias que les ayudan a ver y comprender, los ordenadores se basan en grandes cantidades de datos, cámaras de alta definición y complejos algoritmos.
Fig. 1. Comparación de la visión humana y la visión por ordenador.
Los sistemas de visión por ordenador pueden procesar y analizar datos visuales como imágenes y vídeos a velocidades y con una precisión increíbles. La capacidad de analizar con rapidez y precisión grandes cantidades de información visual hace de la visión por ordenador una potente herramienta en diversos sectores, desde la fabricación a la sanidad.
Los modelos de visión permiten realizar diversas tareas de visión por ordenador
Los modelos de visión por ordenador son el núcleo de cualquier aplicación de visión por ordenador. En esencia, son algoritmos computacionales impulsados por técnicas de aprendizaje profundo diseñados para dotar a las máquinas de la capacidad de interpretar y comprender la información visual. Los modelos de visión permiten realizar tareas cruciales de visión por ordenador que van desde la clasificación de imágenes hasta la detección de objetos. Veamos con más detalle algunas de estas tareas y sus casos de uso.
Clasificación de imágenes
La clasificación de imágenes consiste en clasificarlas y etiquetarlas en clases o categorías predefinidas. Un modelo de visión como YOLOv8 puede entrenarse con grandes conjuntos de datos de imágenes etiquetadas. Durante el entrenamiento, el modelo aprende a reconocer patrones y características asociadas a cada clase. Una vez entrenado, puede predecir la categoría de nuevas imágenes no vistas analizando sus características y comparándolas con los patrones aprendidos.
Fig. 2. Ejemplo de clasificación de imágenes. (fuente: towardsdatascience.com)
Existen distintos tipos de clasificación de imágenes. Por ejemplo, cuando se trata de imágenes médicas, se puede utilizar la clasificación binaria para dividir las imágenes en dos grupos, como sanos o enfermos. Otro tipo es la clasificación multiclase. Puede ayudar a clasificar imágenes en muchos grupos, como clasificar diferentes animales en una granja como cerdos, cabras y vacas. La clasificación jerárquica es la mejor opción para clasificar animales en grupos y subgrupos, como mamíferos y aves, y luego en especies, como leones, tigres, águilas y gorriones.
Detección de objetos
La detección de objetos es el proceso de identificación y localización de objetos en imágenes y fotogramas de vídeo mediante visión por ordenador. Consiste en dos tareas: localización de objetos, que dibuja recuadros alrededor de los objetos, y clasificación de objetos, que identifica la categoría de cada objeto. A partir de las anotaciones de los recuadros delimitadores, un modelo de visión puede aprender a reconocer patrones y características específicas de cada categoría de objetos y predecir la presencia y ubicación de estos objetos en imágenes nuevas no vistas.
Fig. 3. Detección de objetos con YOLOv8 para detectar jugadores en un campo de fútbol.
La detección de objetos tiene muchos usos en distintos sectores, desde el deporte a la biología marina. Por ejemplo, en el comercio minorista, la tecnología Just Walk Out de Amazon utiliza la detección de objetos para automatizar las cajas identificando los artículos que recogen los clientes. Una combinación de visión por ordenador y datos de sensores permite a los clientes coger sus artículos y marcharse sin esperar en la cola.
A continuación le explicamos cómo funciona:
Las cámaras instaladas en el techo captan a los clientes que se mueven por la tienda, y estas secuencias de vídeo se procesan en tiempo real mediante modelos de visión.
La detección de objetos se utiliza para detectar el producto exacto que un cliente coge y coloca en su cesta para actualizar su carrito virtual en consecuencia.
Los sensores de peso de las estanterías mejoran la precisión al detectar la retirada o sustitución de artículos.
Cuando el cliente sale de la tienda, la tecnología de detección de objetos y reconocimiento facial puede utilizarse para confirmar que se ha marchado, y sus datos de pago, como una tarjeta de crédito, pueden utilizarse para cobrarle automáticamente.
Segmentación semántica y por instancias
La segmentación semántica y la segmentación de instancias son tareas de visión por ordenador que ayudan a dividir las imágenes en segmentos significativos. La segmentación semántica clasifica los píxeles en función de su significado semántico y trata todos los objetos de una categoría como una única entidad con la misma etiqueta. Es adecuada para etiquetar objetos incontables como "el cielo" o "el océano" o grupos como "hojas" o "hierba".
Por otro lado, la segmentación por instancias permite distinguir diferentes instancias de la misma clase asignando una etiqueta única a cada objeto detectado. Puede utilizar la segmentación por instancias para segmentar objetos contables en los que el número y la independencia de los objetos son importantes. Permite una identificación y diferenciación más precisas.
Fig. 4. Ejemplo de segmentación semántica y de instancia.
Podemos entender mejor el contraste entre la segmentación semántica y la segmentación por instancias con un ejemplo relacionado con los coches autónomos. La segmentación semántica es ideal para tareas que requieren comprender el contenido de una escena y puede utilizarse en vehículos autónomos para clasificar características de la carretera, como pasos de peatones y señales de tráfico. Por su parte, la segmentación por instancias puede utilizarse en vehículos autónomos para identificar entre peatones, vehículos y obstáculos individuales.
Estimación de la pose
La estimación de la pose es una tarea de visión por ordenador centrada en la detección y el seguimiento de puntos clave de las poses de un objeto en imágenes o vídeos. Su uso más común es la estimación de la pose humana, con puntos clave que incluyen zonas como los hombros y las rodillas. Estimar la pose de un ser humano nos ayuda a comprender y reconocer acciones y movimientos que son fundamentales para diversas aplicaciones.
Fig. 5. Ejemplo de estimación de la pose con YOLOv8.
La estimación de la pose puede utilizarse en el deporte para analizar cómo se mueven los atletas. La NBA utiliza la estimación de la pose para estudiar los movimientos y las posiciones de los jugadores durante el partido. Mediante el seguimiento de puntos clave como hombros, codos, rodillas y tobillos, la estimación de la pose proporciona información detallada sobre los movimientos de los jugadores. Esta información ayuda a los entrenadores a desarrollar mejores estrategias, optimizar los programas de entrenamiento y realizar ajustes en tiempo real durante los partidos. Además, los datos pueden ayudar a controlar la fatiga del jugador y el riesgo de lesiones para mejorar la salud y el rendimiento general del jugador.
Cajas delimitadoras orientadas Detección de objetos
La detección de objetos mediante cuadros delimitadores orientados (OBB) utiliza rectángulos girados para identificar y localizar con precisión objetos en una imagen. A diferencia de los cuadros delimitadores estándar que se alinean con los ejes de la imagen, los OBB giran para adaptarse a la orientación del objeto. Esto los hace especialmente útiles para objetos que no son perfectamente horizontales o verticales. Son ideales para localizar y aislar con precisión objetos girados y evitar solapamientos en entornos abarrotados.
Fig. 6. Ejemplo de detección de cajas delimitadoras orientadas en una imagen aérea de barcos con YOLOV8.
En la vigilancia marítima, la identificación y el seguimiento de los buques son fundamentales para la seguridad y la gestión de los recursos. La detección de OBB puede utilizarse para localizar con precisión los buques, incluso cuando están densamente apiñados u orientados en diversos ángulos. Ayuda a vigilar las rutas marítimas, gestionar el tráfico marítimo y optimizar las operaciones portuarias. También puede ayudar en la respuesta a catástrofes, al identificar y evaluar rápidamente los daños sufridos por los buques y las infraestructuras tras sucesos como huracanes o vertidos de petróleo.
Seguimiento de objetos
Hasta ahora, hemos hablado de tareas de visión por ordenador que tratan con imágenes. El seguimiento de objetos es una tarea de visión por ordenador que puede rastrear un objeto a lo largo de los fotogramas de un vídeo. Comienza identificando el objeto en el primer fotograma mediante algoritmos de detección y, a continuación, sigue continuamente su posición a medida que se desplaza por el vídeo. En el seguimiento de objetos intervienen técnicas como la detección de objetos, la extracción de características y la predicción del movimiento para que el seguimiento sea preciso.
Fig. 7. Uso de YOLOv8 para rastrear peces.
Los modelos de visión como YOLOv8 pueden utilizarse para rastrear peces en biología marina. Con cámaras submarinas, los investigadores pueden seguir los movimientos y comportamientos de los peces en sus hábitats naturales. El proceso comienza detectando peces individuales en los primeros fotogramas y luego sigue sus posiciones a lo largo del vídeo. El seguimiento de los peces ayuda a los científicos a comprender las pautas migratorias, los comportamientos sociales y las interacciones con el medio ambiente. También contribuye a las prácticas pesqueras sostenibles al proporcionar información sobre la distribución y abundancia de los peces.
Una última mirada a la visión por ordenador
La visión por ordenador está cambiando activamente nuestra forma de utilizar la tecnología e interactuar con el mundo. Al utilizar modelos de aprendizaje profundo y algoritmos complejos para comprender imágenes y vídeos, la visión por ordenador ayuda a las industrias a agilizar muchos procesos. Tareas de visión por ordenador como la detección y el seguimiento de objetos están haciendo posible la creación de soluciones que no se habían imaginado antes. A medida que la tecnología de visión por ordenador siga mejorando, el futuro nos deparará muchas más aplicaciones innovadoras.