Conozca YOLO, un innovador modelo de detección de objetos que puede identificar objetos a través de indicaciones de texto. Explore cómo funciona YOLO y sus aplicaciones, y póngase manos a la obra con un rápido ejemplo de código.

Conozca YOLO, un innovador modelo de detección de objetos que puede identificar objetos a través de indicaciones de texto. Explore cómo funciona YOLO y sus aplicaciones, y póngase manos a la obra con un rápido ejemplo de código.

Los proyectos de visión por ordenador suelen requerir mucho tiempo para anotar datos y entrenar modelos de detección de objetos. Pero eso podría ser pronto cosa del pasado. El Laboratorio de Inteligencia Artificial de Tencent lanzó YOLO, un modelo de detección de objetos en tiempo real y de vocabulario abierto, el 31 de enero de 2024. YOLO es un modelo sin disparos, lo que significa que se pueden realizar inferencias de detección de objetos en imágenes sin tener que entrenarlo.
Los modelos de disparo cero tienen el potencial de cambiar la forma en que abordamos las aplicaciones de visión por ordenador. En este blog, exploraremos cómo funciona YOLO y sus posibles usos, y compartiremos un ejemplo de código práctico para empezar.
Puede pasar una imagen y un texto que describa los objetos que busca a través del modelo de YOLO. Por ejemplo, si quieres encontrar "una persona con una camisa roja" en una foto, YOLO toma esta información y se pone manos a la obra.
La arquitectura única del modelo combina tres elementos principales:
El detector YOLO escanea la imagen de entrada para identificar posibles objetos. El codificador de texto transforma su descripción en un formato comprensible para el modelo. A continuación, estos dos flujos de información se fusionan a través del RepVL-PAN mediante una fusión multimodal de varios niveles. Esto permite YOLO detect y localizar con precisión dentro de la imagen los objetos descritos en su solicitud.

Una de las mayores ventajas de utilizar YOLO es que no es necesario entrenar el modelo para una clase específica. Ya ha aprendido de pares de imágenes y textos, por lo que sabe cómo encontrar objetos basándose en descripciones. Puedes evitar horas de recopilación de datos, anotación de datos, entrenamiento en costosas GPU, etc.
Estas son otras ventajas de utilizar YOLO:
Los modelos YOLO pueden utilizarse para una gran variedad de aplicaciones. Exploremos algunas de ellas.
Los productos fabricados en una línea de ensamblaje se revisan visualmente para detectar defectos antes de empaquetarlos. La detección de defectos a menudo se realiza a mano, lo que lleva tiempo y puede provocar errores. Estos errores pueden causar problemas como altos costos y la necesidad de reparaciones o retiradas. Para ayudar con esto, se han creado cámaras especiales de visión artificial y sistemas de IA para realizar estas comprobaciones.
Los modelos YOLO son un gran avance en este campo. Pueden encontrar defectos en los productos incluso cuando no han sido entrenados para ese problema específico utilizando sus capacidades de disparo cero. Por ejemplo, una fábrica de botellas de agua puede distinguir fácilmente entre una botella cerrada correctamente con un tapón y una botella con un tapón omitido o defectuoso gracias a YOLO.

Los modelos YOLO permiten a los robots interactuar con entornos desconocidos. Sin estar entrenados en objetos concretos que pueda haber en una habitación, pueden identificar qué objetos están presentes. Supongamos que un robot entra en una habitación en la que nunca ha estado. Con un modelo YOLO, puede reconocer e identificar objetos como sillas, mesas o lámparas, aunque no haya sido entrenado específicamente para ello.
Además de detectar objetos, YOLO también puede determinar las condiciones de esos objetos, gracias a su función "detect para detectar". Por ejemplo, en robótica agrícola , puede utilizarse para identificar frutas maduras frente a frutas no maduras programando el robot para que las detect .
La industria del automóvil implica muchas partes móviles, y YOLO puede utilizarse para diferentes aplicaciones automovilísticas. Por ejemplo, en lo que se refiere al mantenimiento de automóviles, la capacidad de YOLO para reconocer una gran variedad de objetos sin necesidad de etiquetado manual o de un extenso entrenamiento previo resulta extremadamente útil. YOLO puede utilizarse para identificar piezas de automóvil que necesitan ser sustituidas. Incluso podría automatizar tareas como los controles de calidad, detectando defectos o piezas que faltan en los coches nuevos.
Otra aplicación es la detección de objetos con disparo cero en vehículos autónomos. Las capacidades de detección de disparo cero de YOLO pueden mejorar la capacidad de un vehículo autónomo para detect y classify objetos en la carretera, como peatones, señales de tráfico y otros vehículos, en tiempo real. De este modo, puede ayudar a detect obstáculos y evitar accidentes para un viaje más seguro.

La identificación de objetos en las estanterías de los comercios minoristas es una parte importante del seguimiento del inventario, el mantenimiento de las existencias y la automatización de los procesos. La capacidad de Ultralytics YOLO para reconocer una gran variedad de objetos sin necesidad de etiquetado manual ni de un amplio entrenamiento previo resulta extremadamente útil para la gestión de inventarios.
Por ejemplo, en la gestión de inventarios, YOLO puede detectar y clasificar rápidamente los artículos de una estantería, como las distintas marcas de bebidas energéticas. Las tiendas minoristas pueden mantener un inventario preciso, gestionar eficazmente los niveles de existencias y agilizar las operaciones de la cadena de suministro.
Todas las aplicaciones son únicas y muestran hasta qué punto se puede utilizar YOLO. A continuación, nos pondremos manos a la obra con YOLO y veremos un ejemplo de codificación.
Como hemos mencionado antes, YOLO puede utilizarse para detect distintas partes de un coche para su mantenimiento. Una aplicación de visión por ordenador que detectara las reparaciones necesarias consistiría en tomar una foto del coche, identificar las piezas, examinar cada una de ellas en busca de daños y recomendar reparaciones. Cada parte de este sistema utilizaría diferentes técnicas y enfoques de IA. Para el propósito de este código, vamos a centrarnos en la parte en la que se detectan las piezas del coche.
Con YOLO, puedes identificar diferentes partes de un coche en una imagen en menos de 5 minutos. ¡Puedes extender este código para probar diferentes aplicaciones usando YOLO también! Para empezar, necesitaremos instalar el paqueteUltralytics como se muestra a continuación.
Para más instrucciones y buenas prácticas relacionadas con el proceso de instalación, consulte nuestra Guía de instalación deUltralytics . Durante la instalación de los paquetes necesarios para YOLOv8, si encuentra alguna dificultad, consulte nuestra guía de problemas comunes para obtener soluciones y consejos.
Una vez que haya instalado el paquete necesario, podemos descargar una imagen de Internet para ejecutar nuestras inferencias. Vamos a utilizar la siguiente imagen.

Luego, importaremos el paquete necesario, inicializaremos nuestro modelo y estableceremos las clases que estamos buscando en nuestra imagen de entrada. Aquí, estamos interesados en las siguientes clases: coche, rueda, puerta de coche, espejo retrovisor y matrícula.
A continuación, utilizaremos el método de predicción, proporcionando la ruta de la imagen junto con los parámetros para el número máximo de detecciones, y los umbrales para la intersección sobre la uniónIoU) y la confianza (conf) para ejecutar una inferencia en la imagen. Por último, los objetos detectados se guardan en un archivo llamado 'result.jpg'.
La siguiente imagen de salida se guardará en sus archivos.

Si prefiere ver lo que YOLO puede hacer sin codificar, puede ir a la página de demostración de YOLO, cargar una imagen de entrada e introducir las clases personalizadas.
Lea nuestra página de documentación sobre YOLO para aprender a guardar el modelo con las clases personalizadas para poder utilizarlo directamente más tarde sin tener que introducir las clases personalizadas repetidamente.
Si vuelve a echar un vistazo a la imagen de salida, observará que no se ha detectado la clase personalizada "puerta de coche". A pesar de sus grandes logros, YOLO tiene ciertas limitaciones. Para combatir estas limitaciones y utilizar el modelo YOLO con eficacia, es importante utilizar los tipos correctos de indicaciones textuales.
Aquí hay algunas ideas al respecto:
En general, los modelos YOLO, pueden convertirse en una potente herramienta con sus avanzadas capacidades de detección de objetos Proporciona una gran eficiencia, precisión y ayuda a automatizar diferentes tareas a través de diversas aplicaciones, como el ejemplo de identificación de piezas de automóviles que prácticamente hemos discutido.
No dude en explorar nuestro repositorio de GitHub para obtener más información sobre nuestras contribuciones a la visión por ordenador y la IA. Si tiene curiosidad por saber cómo la IA está transformando sectores como la tecnología sanitaria , consulte nuestras páginas de soluciones. Las posibilidades que ofrecen innovaciones como YOLO parecen no tener fin.