Yolo Vision Shenzhen
Shenzhen
Únete ahora

Visión por ordenador de código abierto con los transformadores de HuggingFace

Nuvola Ladi

5 minutos de lectura

14 de febrero de 2024

Sumérgete en la visión por ordenador de código abierto con HuggingFace. Conozca el aprendizaje por transferencia, los transformadores y explore más de 8.000 modelos. Únase a Merve Noyan para obtener información y demostraciones prácticas que permitirán a los desarrolladores innovar en la exploración de la IA.

Mientras seguimos explorando lo más destacado del evento YOLO VISION 2023 (YV23), conozcamos a Merve Noyan, ingeniera de promoción de desarrolladores de HuggingFacela plataforma líder en PNL con modelos preentrenados para el desarrollo eficiente de aplicaciones lingüísticas. En su charla, Merve compartió algunas ideas increíbles sobre el mundo de la visión por ordenador de código abierto. 

Únase a nosotros en un viaje a través del fascinante universo del aprendizaje por transferencia, los transformers y el ecosistema de visión artificial de código abierto.

Aprendizaje por transferencia al descubierto: Un breve resumen

Merve comenzó con una breve introducción al aprendizaje por transferencia, la varita mágica que nos permite transferir conocimiento de una red neuronal a otra. Imagina entrenar un modelo sobre las características universales en las primeras capas, como bordes y esquinas, y luego ajustarlo para tareas específicas. Esta es la esencia del aprendizaje por transferencia, reduciendo las dependencias de datos y aumentando la precisión.

Merve destacó los backbones convolucionales clásicos como ResNet e Inception, preparando el escenario para el viaje transformacional que se avecina.

Entran los transformers: Un enigma desvelado

¿Qué hace que los Transformers sean especiales? Merve lo comparó con un acertijo, mostrando cómo difieren de los modelos tradicionales basados en convoluciones. El secreto reside en su capacidad para realizar un aprendizaje autosupervisado, capturando características sin necesidad de datos etiquetados. Vision Transformer, Data Efficient Transformer, CLIP y SWIM CLIP fueron algunos de los modelos basados en transformadores que presentó. 

Ultralytics ofrece soporte para un modelo de transformador diseñado para la detección de objetos. Este modelo presenta un codificador híbrido eficaz, una selección de consultas que tiene en cuenta los IOU y una velocidad de inferencia ajustable. En particular, sigue el patrón familiar de otros modelos de Ultralytics YOLOv8 con opciones de predicción, formación, validación y exportación.

Su ventanilla única

A continuación, Merve se adentró en el tesoro de la oferta de HuggingFace, con más de 8.000 modelos para tareas clásicas de visión por ordenador y 10.000 modelos para aplicaciones multimodales. El Hub de HuggingFace cuenta con la friolera de más de 3.000 conjuntos de datos, lo que lo convierte en un patio de recreo tanto para desarrolladores como para entusiastas. Merve hizo hincapié en la fluidez de la experiencia, gracias a la coherente API de HuggingFace, que ofrece modelos listos para usar en diversos casos de uso.

Magia práctica con HuggingFace

La charla dio paso a demostraciones prácticas, en las que se mostró la facilidad con la que se puede trabajar con modelos. Desde la instanciación de modelos y procesadores hasta el ajuste fino con la API Trainer, Merve dejó claro que la biblioteca HuggingFace Transformers es la mejor amiga de los desarrolladores. Incluso presentó la API Pipeline, una de sus favoritas, que simplifica el flujo de trabajo de los usuarios.

Fig. 1. Merve Noyan presenta en YV23 en el Campus Google for Startups de Madrid.

Un vistazo a las aplicaciones

Merve concluyó la charla con un vistazo a algunas aplicaciones fantásticas, como el modelo Plot para responder preguntas visuales, Blip para subtitular imágenes y el potente modelo Segment Anything para segmentar imágenes. La API Pipeline del ecosistema HuggingFace fue el centro de atención, ya que facilita el uso de modelos sin necesidad de profundizar en los aspectos técnicos.

La guinda del pastel fue la presentación de Merve sobre la creación de ilusiones ópticas con Elysian Diffusion, una experiencia cautivadora que añade un toque divertido al mundo de la IA.

¡En pocas palabras!

En conclusión, la charla de Merve nos dejó inspirados y con ganas de explorar las infinitas posibilidades de la visión por ordenador de código abierto. HuggingFace ha conseguido que la IA sea realmente accesible, divertida y emocionante, dando rienda suelta a la creatividad de los desarrolladores. Brindemos por el futuro de la comunidad de código abierto y por las increíbles innovaciones que nos depara. 

¡Vea la charla completa aquí

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis