Yolo Vision Shenzhen
Shenzhen
Únete ahora

Explorando cómo funcionan las aplicaciones de la visión artificial

Abirami Vina

5 minutos de lectura

9 de agosto de 2024

Profundice con nosotros en las aplicaciones de la visión artificial. También repasaremos varias tareas de visión artificial, como la detección y la segmentación de objetos.

Cuando exploramos la historia de los modelos de visión por ordenador, vimos cómo ha evolucionado la visión por ordenador y el camino que ha llevado a los modelos de visión avanzados que tenemos hoy en día. Modelos modernos como Ultralytics YOLOv8 admiten múltiples tareas de visión por ordenador y se están utilizando en diversas aplicaciones apasionantes. 

En este artículo, echaremos un vistazo a los conceptos básicos de la visión artificial y los modelos de visión. Cubriremos cómo funcionan y sus diversas aplicaciones en diversas industrias. Las innovaciones en visión artificial están en todas partes, dando forma silenciosa a nuestro mundo. ¡Descubrámoslas una por una! 

¿Qué es la visión artificial?

La inteligencia artificial (IA) es un término general que abarca muchas tecnologías que tienen como objetivo replicar una parte de la inteligencia humana. Un subcampo de la IA es la visión artificial. La visión artificial se centra en dar a las máquinas ojos que puedan ver, observar y comprender su entorno. 

Al igual que la visión humana, las soluciones de visión por ordenador pretenden distinguir objetos, calcular distancias y detect movimientos. Sin embargo, a diferencia de los humanos, que cuentan con toda una vida de experiencias que les ayudan a ver y comprender, los ordenadores se basan en grandes cantidades de datos, cámaras de alta definición y complejos algoritmos. 

Fig 1. Comparación entre la visión humana y la visión artificial.

Los sistemas de visión artificial pueden procesar y analizar datos visuales como imágenes y videos a velocidades y con una precisión increíbles. La capacidad de analizar rápida y precisamente grandes cantidades de información visual convierte a la visión artificial en una herramienta poderosa en diversas industrias, desde la fabricación hasta la atención sanitaria.

Los modelos de visión admiten diversas tareas de visión artificial

Los modelos de visión artificial son el núcleo de cualquier aplicación de visión artificial. Son esencialmente algoritmos computacionales impulsados por técnicas de aprendizaje profundo diseñados para dar a las máquinas la capacidad de interpretar y comprender la información visual. Los modelos de visión permiten tareas cruciales de visión artificial que van desde la clasificación de imágenes hasta la detección de objetos. Analicemos con más detalle algunas de estas tareas y sus casos de uso. 

Clasificación de imágenes

La clasificación de imágenes consiste en clasificar y etiquetar imágenes en clases o categorías predefinidas. Un modelo de visión como YOLOv8 puede entrenarse con grandes conjuntos de datos de imágenes etiquetadas. Durante el entrenamiento, el modelo aprende a reconocer patrones y características asociadas a cada clase. Una vez entrenado, puede predecir la categoría de nuevas imágenes no vistas analizando sus características y comparándolas con los patrones aprendidos. 

Fig. 2. Un ejemplo de clasificación de imágenes. (fuente: towardsdatascience.com)

Existen distintos tipos de clasificación de imágenes. Por ejemplo, cuando se trata de imágenes médicas, se puede utilizar la clasificación binaria para dividir las imágenes en dos grupos, como sanos o enfermos. Otro tipo es la clasificación multiclase. Puede ayudar a classify imágenes en muchos grupos, como clasificar diferentes animales en una granja como cerdos, cabras y vacas. La clasificación jerárquica es la mejor opción para classify animales en grupos y subgrupos, como mamíferos y aves, y luego en especies, como leones, tigres, águilas y gorriones.

Detección de objetos

La detección de objetos es el proceso de identificar y localizar objetos en imágenes y fotogramas de video mediante visión artificial. Consta de dos tareas: la localización de objetos, que dibuja cuadros delimitadores alrededor de los objetos, y la clasificación de objetos, que identifica la categoría de cada objeto. Basado en anotaciones de cuadros delimitadores, un modelo de visión puede aprender a reconocer patrones y características específicas de cada categoría de objeto y predecir la presencia y ubicación de estos objetos en imágenes nuevas e invisibles. 

Fig. 3. Detección de objetos con YOLOv8 para detect jugadores en un campo de fútbol.

La detección de objetos tiene muchos casos de uso en diferentes industrias, desde deportes hasta biología marina. Por ejemplo, en el comercio minorista, la tecnología Just Walk Out de Amazon utiliza la detección de objetos para automatizar el pago mediante la identificación de los artículos que recogen los clientes. Una combinación de visión artificial y datos de sensores permite a los clientes tomar sus artículos e irse sin esperar en la fila. 

Aquí se explica con más detalle cómo funciona:

  • Las cámaras montadas en el techo capturan a los clientes moviéndose por la tienda, y este metraje de video es procesado en tiempo real por modelos de visión.
  • La detección de objetos se utiliza para detect el producto exacto que un cliente coge y coloca en su cesta para actualizar su carrito virtual en consecuencia.
  • Los sensores de peso en los estantes mejoran la precisión al detectar la retirada o la sustitución de artículos.
  • Cuando el cliente sale de la tienda, se puede utilizar la detección de objetos y la tecnología de reconocimiento facial para confirmar que el cliente se ha ido, y sus datos de pago, como una tarjeta de crédito, pueden utilizarse para cobrarle automáticamente.

Segmentación semántica y de instancias

La segmentación semántica y la segmentación de instancias son tareas de visión artificial que ayudan a particionar las imágenes en segmentos significativos. La segmentación semántica clasifica los píxeles en función de su significado semántico y trata todos los objetos dentro de una categoría como una sola entidad con la misma etiqueta. Es adecuada para etiquetar objetos incontables como "el cielo" o "el océano" o grupos como "hojas" o "hierba".

Por otro lado, la segmentación por instancias permite distinguir diferentes instancias de la misma clase asignando una etiqueta única a cada objeto detectado. Puede utilizar la segmentación por instancias para segment objetos contables en los que el número y la independencia de los objetos son importantes. Permite una identificación y diferenciación más precisas.

Fig. 4. Un ejemplo de segmentación semántica y de instancias.

Podemos entender mejor el contraste entre la segmentación semántica y la segmentación por instancias con un ejemplo relacionado con los coches autónomos. La segmentación semántica es ideal para tareas que requieren comprender el contenido de una escena y puede utilizarse en vehículos autónomos para classify características de la carretera, como pasos de peatones y señales de tráfico. Por su parte, la segmentación por instancias puede utilizarse en vehículos autónomos para identificar entre peatones, vehículos y obstáculos individuales. 

Estimación de la pose

La estimación de pose es una tarea de visión artificial centrada en detectar y rastrear los puntos clave de las poses de un objeto en imágenes o vídeos. Se utiliza más comúnmente para la estimación de la pose humana, con puntos clave que incluyen áreas como los hombros y las rodillas. Estimar la pose de un humano nos ayuda a comprender y reconocer acciones y movimientos que son críticos para diversas aplicaciones.

Fig. 5. Ejemplo de estimación de la pose con YOLOv8.

La estimación de la pose se puede utilizar en los deportes para analizar cómo se mueven los atletas. La NBA utiliza la estimación de la pose para estudiar los movimientos y las posiciones de los jugadores durante el partido. Mediante el seguimiento de puntos clave como los hombros, los codos, las rodillas y los tobillos, la estimación de la pose proporciona información detallada sobre los movimientos de los jugadores. Estos conocimientos ayudan a los entrenadores a desarrollar mejores estrategias, optimizar los programas de entrenamiento y realizar ajustes en tiempo real durante los partidos. Además, los datos pueden ayudar a controlar la fatiga de los jugadores y el riesgo de lesiones para mejorar la salud y el rendimiento general de los jugadores.

Detección de objetos con cajas delimitadoras orientadas

La Detección de Objetos con Cajas Delimitadoras Orientadas (OBB) utiliza rectángulos rotados para identificar y localizar con precisión objetos en una imagen. A diferencia de las cajas delimitadoras estándar que se alinean con los ejes de la imagen, las OBB giran para coincidir con la orientación del objeto. Esto las hace especialmente útiles para objetos que no son perfectamente horizontales o verticales. Son excelentes para señalar y aislar con precisión objetos rotados para evitar superposiciones en entornos abarrotados.

Fig. 6. Ejemplo de detección de cajas delimitadoras orientadas en una imagen aérea de barcos con YOLOV8.

En la vigilancia marítima, la identificación y el seguimiento de buques son clave para la seguridad y la gestión de recursos. La detección OBB puede utilizarse para la localización precisa de buques, incluso cuando están densamente empaquetados u orientados en varios ángulos. Ayuda a controlar las rutas marítimas, gestionar el tráfico marítimo y optimizar las operaciones portuarias. También puede ayudar en la respuesta a desastres identificando y evaluando rápidamente los daños a los buques y a la infraestructura después de eventos como huracanes o vertidos de petróleo.

Seguimiento de objetos

Hasta ahora, hemos hablado de tareas de visión por ordenador que tratan con imágenes. El seguimiento de objetos es una tarea de visión por ordenador que puede track un objeto a lo largo de los fotogramas de un vídeo. Comienza identificando el objeto en el primer fotograma mediante algoritmos de detección y, a continuación, sigue continuamente su posición a medida que se desplaza por el vídeo. En el seguimiento de objetos intervienen técnicas como la detección de objetos, la extracción de características y la predicción del movimiento para que el seguimiento sea preciso.

Fig. 7. Uso de YOLOv8 para track peces.

Los modelos de visión como YOLOv8 pueden utilizarse para track peces en biología marina. Con cámaras submarinas, los investigadores pueden seguir los movimientos y comportamientos de los peces en sus hábitats naturales. El proceso comienza detectando peces individuales en los primeros fotogramas y luego sigue sus posiciones a lo largo del vídeo. El seguimiento de los peces ayuda a los científicos a comprender las pautas migratorias, los comportamientos sociales y las interacciones con el medio ambiente. También contribuye a las prácticas pesqueras sostenibles al proporcionar información sobre la distribución y abundancia de los peces.

Una última mirada a la visión artificial

La visión artificial está cambiando activamente la forma en que usamos la tecnología e interactuamos con el mundo. Mediante el uso de modelos de aprendizaje profundo y algoritmos complejos para comprender imágenes y vídeos, la visión artificial ayuda a las industrias a optimizar muchos procesos. Las tareas de visión artificial, como la detección y el seguimiento de objetos, están haciendo posible la creación de soluciones que antes no se habían imaginado. A medida que la tecnología de visión artificial sigue mejorando, ¡el futuro depara muchas más aplicaciones innovadoras! 

¡Aprendamos y crezcamos juntos! Explore nuestro repositorio de GitHub para ver nuestras contribuciones a la IA. Vea cómo estamos redefiniendo industrias como los coches autónomos y la agricultura con la IA. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis