¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Impulsando la visión artificial de código abierto con los transformadores de HuggingFace

Nuvola Ladi

5 minutos de lectura

14 de febrero de 2024

¡Sumérgete en la visión artificial de código abierto con HuggingFace! Aprende sobre el aprendizaje por transferencia, los transformadores y explora más de 8,000 modelos. Únete a Merve Noyan para obtener información y demostraciones prácticas, capacitando a los desarrolladores para innovar en la exploración de la IA.

A medida que seguimos explorando los aspectos más destacados del evento YOLO VISION 2023 (YV23), conozcamos a Merve Noyan, Ingeniera de Promoción para Desarrolladores en HuggingFace, la plataforma líder de PNL con modelos pre-entrenados para el desarrollo eficiente de aplicaciones de lenguaje. En su charla, Merve compartió algunas ideas increíbles sobre el mundo de la visión artificial de código abierto. 

Únase a nosotros en un viaje a través del fascinante universo del aprendizaje por transferencia, los transformers y el ecosistema de visión artificial de código abierto.

Aprendizaje por transferencia al descubierto: Un breve resumen

Merve comenzó con una breve introducción al aprendizaje por transferencia, la varita mágica que nos permite transferir conocimiento de una red neuronal a otra. Imagina entrenar un modelo sobre las características universales en las primeras capas, como bordes y esquinas, y luego ajustarlo para tareas específicas. Esta es la esencia del aprendizaje por transferencia, reduciendo las dependencias de datos y aumentando la precisión.

Merve destacó los backbones convolucionales clásicos como ResNet e Inception, preparando el escenario para el viaje transformacional que se avecina.

Entran los transformers: Un enigma desvelado

¿Qué hace que los Transformers sean especiales? Merve lo comparó con un acertijo, mostrando cómo difieren de los modelos tradicionales basados en convoluciones. El secreto reside en su capacidad para realizar un aprendizaje autosupervisado, capturando características sin necesidad de datos etiquetados. Vision Transformer, Data Efficient Transformer, CLIP y SWIM CLIP fueron algunos de los modelos basados en transformadores que presentó. 

Estableciendo un terreno común con Ultralytics, que brinda soporte para un modelo Transformer diseñado para la detección de objetos. Este modelo presenta un codificador híbrido eficaz, selección de consultas con reconocimiento de IOU y velocidad de inferencia ajustable. En particular, se adhiere al patrón familiar de otros modelos Ultralytics YOLOv8, presentando opciones para la predicción, el entrenamiento, la validación y la exportación.

Su ventanilla única

A continuación, Merve profundizó en el tesoro de las ofertas de HuggingFace, con más de 8.000 modelos para tareas clásicas de visión artificial y 10.000 modelos para aplicaciones multimodales. El HuggingFace Hub cuenta con más de 3.000 conjuntos de datos, lo que lo convierte en un patio de recreo para desarrolladores y entusiastas por igual. Merve hizo hincapié en la experiencia fluida, gracias a la API consistente de HuggingFace, que ofrece modelos listos para usar para varios casos de uso.

Magia práctica con HuggingFace

La charla pasó a demostraciones prácticas, mostrando lo fácil que es trabajar con modelos. Desde la creación de instancias de modelos y procesadores hasta el ajuste fino con la API Trainer, Merve dejó claro que la biblioteca HuggingFace Transformers es la mejor amiga de un desarrollador. Incluso presentó la API Pipeline, una de sus favoritas, que simplifica el flujo de trabajo para los usuarios.

Fig. 1. Merve Noyan presentando en YV23 en el Google for Startups Campus en Madrid.

Un vistazo a las aplicaciones

Merve concluyó la charla con un vistazo a algunas aplicaciones fantásticas, incluyendo el modelo Plot para responder a preguntas visuales, Blip para la descripción de imágenes y el potente modelo Segment Anything para la segmentación de imágenes. La API Pipeline del ecosistema HuggingFace fue el centro de atención, facilitando el uso de modelos sin profundizar en los tecnicismos.

La guinda del pastel fue la presentación de Merve sobre la creación de ilusiones ópticas con Elysian Diffusion, una experiencia cautivadora que añade un toque divertido al mundo de la IA.

¡En pocas palabras!

En conclusión, la charla de Merve nos dejó inspirados y ansiosos por explorar las infinitas posibilidades de la visión artificial de código abierto. HuggingFace realmente ha hecho que la IA sea accesible, divertida y emocionante, capacitando a los desarrolladores para dar rienda suelta a su creatividad. ¡Brindemos por el futuro de la comunidad de código abierto y las increíbles innovaciones que encierra! 

¡Vea la charla completa aquí

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles