Impulsando la visión artificial de código abierto con los transformers de Hugging Face
¡Sumérgete en la visión artificial de código abierto con Hugging Face! Aprende sobre aprendizaje por transferencia, transformers y explora más de 8000 modelos. Únete a Merve Noyan para obtener información y demos prácticas, permitiendo a los desarrolladores innovar en la exploración de la IA.
Mientras seguimos explorando lo más destacado del evento YOLO VISION 2023 (YV23), conozcamos a Merve Noyan, ingeniera de Developer Advocacy en Hugging Face, la plataforma líder de NLP con modelos preentrenados para el desarrollo eficiente de aplicaciones de lenguaje. En su charla, Merve compartió ideas increíbles sobre el mundo de la visión artificial de código abierto.
Únete a nosotros mientras te llevamos por un viaje a través del fascinante universo del aprendizaje por transferencia, los transformers y el ecosistema de visión artificial de código abierto.
Aprendizaje por transferencia revelado: un resumen rápido
Merve comenzó con una introducción rápida al aprendizaje por transferencia, la varita mágica que nos permite transferir conocimientos de una red neuronal a otra. Imagina entrenar un modelo sobre las características universales en las capas iniciales, como bordes y esquinas, y luego ajustarlo para tareas específicas. Esta es la esencia del aprendizaje por transferencia, que reduce la dependencia de datos y aumenta la precisión.
Merve destacó los backbones convolucionales clásicos como ResNet e Inception, preparando el terreno para el viaje transformador que nos esperaba.
Entran los transformers: un enigma resuelto
¿Qué hace especiales a los Transformers? Merve lo comparó con un acertijo, mostrando cómo se diferencian de los modelos tradicionales basados en convoluciones. El ingrediente secreto reside en su capacidad para realizar aprendizaje autoseupervisado, capturando características sin necesidad de datos etiquetados. Vision Transformer, Data Efficient Transformer, CLIP y Swin Transformer fueron parte del elenco estelar de modelos basados en transformers que presentó.
Estableciendo puntos en común con Ultralytics, que proporciona soporte para un transformer model diseñado para la detección de objetos. Este modelo cuenta con un codificador híbrido eficaz, selección de queries consciente de IOU y velocidad de inferencia ajustable. Cabe destacar que sigue el patrón familiar de otros modelos de Ultralytics YOLOv8, presentando opciones para predicción, entrenamiento, validación y exportación.
Tu solución integral
Merve profundizó en el tesoro de ofertas de Hugging Face, con más de 8.000 modelos para tareas clásicas de visión artificial y 10.000 modelos para aplicaciones multimodales. El Hugging Face Hub cuenta con la impresionante cifra de más de 3.000 datasets, lo que lo convierte en un patio de juegos para desarrolladores y entusiastas por igual. Merve destacó la experiencia fluida, gracias a la API consistente de Hugging Face, que ofrece modelos listos para usar en diversos casos de uso.
Magia práctica con Hugging Face
La charla pasó a demostraciones prácticas, mostrando lo sencillo que es trabajar con modelos. Desde la instanciación de modelos y procesadores hasta el ajuste fino con la Trainer API, Merve dejó claro que la librería Transformers de Hugging Face es la mejor amiga de un desarrollador. Incluso presentó la Pipeline API, una de sus favoritas personales, que simplifica el flujo de trabajo para los usuarios.
%2525201%2525202.png)
Fig 1. Merve Noyan presentando en YV23 en el campus de Google for Startups en Madrid.
Un vistazo a las aplicaciones
Merve concluyó la charla con un vistazo a algunas aplicaciones fantásticas, incluyendo el modelo Plot para respuesta a preguntas visuales, Blip para subtitulado de imágenes y el potente modelo Segment Anything para segmentación de imágenes. La Pipeline API del ecosistema de Hugging Face fue la protagonista, facilitando el uso de modelos sin tener que profundizar en los aspectos técnicos.
La guinda del pastel fue la demostración de Merve sobre la creación de ilusiones ópticas con Elysian Diffusion, una experiencia cautivadora que añade un toque divertido al mundo de la IA.
¡En pocas palabras!
En conclusión, la charla de Merve nos dejó inspirados y con ganas de explorar las infinitas posibilidades de la visión artificial de código abierto. Hugging Face ha hecho que la IA sea realmente accesible, divertida y emocionante, capacitando a los desarrolladores para dar rienda suelta a su creatividad. ¡Brindemos por el futuro de la comunidad de código abierto y las increíbles innovaciones que nos depara!
¡Mira la charla completa aquí!






