Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Configuración de cookies
Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Sumérgete en la visión por ordenador de código abierto con HuggingFace. Conozca el aprendizaje por transferencia, los transformadores y explore más de 8.000 modelos. Únase a Merve Noyan para obtener información y demostraciones prácticas que permitirán a los desarrolladores innovar en la exploración de la IA.
Mientras seguimos explorando lo más destacado del evento YOLO VISION 2023 (YV23), conozcamos a Merve Noyan, Developer Advocacy Engineer de HuggingFace, la plataforma líder de PLN con modelos preentrenados para el desarrollo eficiente de aplicaciones lingüísticas. En su charla, Merve compartió algunas ideas increíbles sobre el mundo de la visión por ordenador de código abierto.
El aprendizaje por transferencia al descubierto: Resumen rápido
Merve empezó con una breve introducción al aprendizaje por transferencia, la varita mágica que nos permite transferir conocimientos de una red neuronal a otra. Imaginemos que entrenamos un modelo con las características universales de las primeras capas, como bordes y esquinas, y luego lo ajustamos para tareas específicas. Esta es la esencia del aprendizaje por transferencia: reducir la dependencia de los datos y aumentar la precisión.
Merve destacó las columnas vertebrales convolucionales clásicas, como ResNet e Inception, y preparó el terreno para el viaje de transformación que nos espera.
Entra en los transformers: Un enigma desvelado
¿Qué hace especiales a los Transformers? Merve lo comparó con un acertijo, mostrando en qué se diferencian de los modelos tradicionales basados en la convolución. La salsa secreta reside en su capacidad para realizar un aprendizaje autosupervisado, capturando características sin necesidad de datos etiquetados. Vision Transformer, Data Efficient Transformer, CLIP y SWIM CLIP fueron algunos de los modelos basados en transformadores que presentó.
Ultralytics ofrece soporte para un modelo de transformador diseñado para la detección de objetos. Este modelo presenta un codificador híbrido eficaz, una selección de consultas consciente de los IOU y una velocidad de inferencia ajustable. En particular, se adhiere al patrón familiar de otros modelos YOLOv8 de Ultralytics, presentando opciones de predicción, formación, validación y exportación.
Su ventanilla única
A continuación, Merve se adentró en el tesoro de la oferta de HuggingFace, con más de 8.000 modelos para tareas clásicas de visión por ordenador y 10.000 modelos para aplicaciones multimodales. El Hub de HuggingFace cuenta con la friolera de más de 3.000 conjuntos de datos, lo que lo convierte en un patio de recreo tanto para desarrolladores como para entusiastas. Merve hizo hincapié en la fluidez de la experiencia, gracias a la coherente API de HuggingFace, que ofrece modelos listos para usar en diversos casos de uso.
Magia práctica con HuggingFace
La charla dio paso a demostraciones prácticas, en las que se mostró la facilidad con la que se puede trabajar con modelos. Desde la instanciación de modelos y procesadores hasta el ajuste fino con la API Trainer, Merve dejó claro que la biblioteca HuggingFace Transformers es la mejor amiga de los desarrolladores. Incluso presentó la API Pipeline, una de sus favoritas, que simplifica el flujo de trabajo de los usuarios.
Fig. 1. Merve Noyan presenta en YV23 en el Campus Google for Startups de Madrid.
Un vistazo a las aplicaciones
Merve concluyó la charla con un vistazo a algunas aplicaciones fantásticas, como el modelo Plot para responder preguntas visuales, Blip para subtitular imágenes y el potente modelo Segment Anything para segmentar imágenes. La API Pipeline del ecosistema HuggingFace fue el centro de atención, ya que facilita el uso de modelos sin necesidad de profundizar en los aspectos técnicos.
La guinda la puso la exhibición de Merve de creación de ilusiones ópticas con Elysian Diffusion, una experiencia cautivadora que añade un toque divertido al mundo de la IA.
En pocas palabras
En conclusión, la charla de Merve nos dejó inspirados y con ganas de explorar las infinitas posibilidades de la visión por ordenador de código abierto. HuggingFace ha conseguido que la IA sea realmente accesible, divertida y emocionante, dando rienda suelta a la creatividad de los desarrolladores. Brindemos por el futuro de la comunidad de código abierto y por las increíbles innovaciones que nos depara.