Potenciando proyectos de CV con las herramientas de código abierto de Hugging Face
Acompáñanos a revisar una charla magistral de YOLO Vision 2024 centrada en cómo las herramientas de código abierto de Hugging Face están impulsando el desarrollo de la IA.

Elegir los algoritmos correctos es solo una parte de la construcción de soluciones de visión artificial impactantes. Los ingenieros de IA a menudo trabajan con grandes conjuntos de datos, ajustan modelos para tareas específicas y optimizan los sistemas de IA para obtener un rendimiento en el mundo real. A medida que las aplicaciones de IA se adoptan con mayor rapidez, la necesidad de herramientas que simplifiquen estos procesos también está creciendo.
En YOLO Vision 2024 (YV24), el evento híbrido anual impulsado por Ultralytics, expertos en IA y entusiastas de la tecnología se reunieron para explorar las últimas innovaciones en visión artificial. El evento dio lugar a debates sobre diversos temas, como las formas de acelerar el desarrollo de aplicaciones de IA.
Un punto clave del evento fue una ponencia sobre Hugging Face, una plataforma de IA de código abierto que agiliza el entrenamiento, la optimización y el despliegue de modelos. Pavel Iakubovskii, ingeniero de aprendizaje automático en Hugging Face, compartió cómo sus herramientas mejoran los flujos de trabajo para tareas de visión artificial, como la detección de objetos en imágenes, la categorización de imágenes en diferentes grupos y la realización de predicciones sin entrenamiento previo en ejemplos específicos (aprendizaje zero-shot).
Hugging Face Hub aloja y proporciona acceso a diversos modelos de IA y visión artificial como Ultralytics YOLO11. En este artículo, repasaremos los puntos clave de la charla de Pavel y veremos cómo los desarrolladores pueden usar las herramientas de código abierto de Hugging Face para construir y desplegar modelos de IA rápidamente.

Fig 1. Pavel en el escenario en YV24.
Link to this sectionHugging Face Hub favorece un desarrollo de IA más rápido#
Pavel comenzó su charla presentando a Hugging Face como una plataforma de IA de código abierto que ofrece modelos preentrenados para una variedad de aplicaciones. Estos modelos están diseñados para diversas ramas de la IA, incluido el procesamiento de lenguaje natural (NLP), la visión artificial y la IA multimodal, lo que permite a los sistemas procesar diferentes tipos de datos, como texto, imágenes y audio.
Pavel mencionó que Hugging Face Hub ha albergado ya más de 1 millón de modelos, y los desarrolladores pueden encontrar fácilmente los que se adaptan a sus proyectos específicos. Hugging Face pretende simplificar el desarrollo de IA ofreciendo herramientas para el entrenamiento, el ajuste fino y el despliegue de modelos. Cuando los desarrolladores pueden experimentar con diferentes modelos, se simplifica el proceso de integración de la IA en aplicaciones del mundo real.
Aunque Hugging Face era conocido inicialmente por NLP, desde entonces se ha expandido a la visión artificial y la IA multimodal, permitiendo a los desarrolladores abordar una gama más amplia de tareas de IA. También cuenta con una sólida comunidad donde los desarrolladores pueden colaborar, compartir conocimientos y obtener asistencia a través de foros, Discord y GitHub.
Link to this sectionExploración de modelos de Hugging Face para aplicaciones de visión artificial#
Entrando en más detalle, Pavel explicó cómo las herramientas de Hugging Face facilitan la creación de aplicaciones de visión artificial. Los desarrolladores pueden utilizarlas para tareas como la clasificación de imágenes, la detección de objetos y aplicaciones de visión-lenguaje.
También señaló que muchas de estas tareas de visión artificial pueden manejarse con modelos preentrenados disponibles en Hugging Face Hub, lo que ahorra tiempo al reducir la necesidad de entrenar desde cero. De hecho, Hugging Face ofrece más de 13 000 modelos preentrenados para tareas de clasificación de imágenes, incluidos algunos para la clasificación de alimentos, mascotas y detección de emociones.
Subrayando la accesibilidad de estos modelos, afirmó: "Probablemente ni siquiera necesites entrenar un modelo para tu proyecto; quizás encuentres uno en el Hub que ya haya sido entrenado por alguien de la comunidad".
Link to this sectionModelos de Hugging Face para detección de objetos#
Dando otro ejemplo, Pavel explicó cómo Hugging Face puede ayudar con la detección de objetos, una función clave en la visión artificial que se utiliza para identificar y localizar objetos dentro de las imágenes. Incluso con datos etiquetados limitados, los modelos preentrenados disponibles en Hugging Face Hub pueden hacer que la detección de objetos sea más eficiente.
También ofreció un breve resumen de varios modelos creados para esta tarea que puedes encontrar en Hugging Face:
- Modelos de detección de objetos en tiempo real: para entornos dinámicos donde la velocidad es crucial, modelos como Detection Transformer (DETR) ofrecen capacidades de detección de objetos en tiempo real. DETR está entrenado en el conjunto de datos COCO y está diseñado para procesar características multiescala de manera eficiente, lo que lo hace adecuado para aplicaciones sensibles al tiempo.
- Modelos de visión-lenguaje: estos modelos combinan el procesamiento de imágenes y texto, lo que permite a los sistemas de IA relacionar imágenes con descripciones o reconocer objetos más allá de sus datos de entrenamiento. Algunos ejemplos son CLIP y SigLIP, que mejoran la búsqueda de imágenes al vincular texto con elementos visuales y permiten que las soluciones de IA identifiquen nuevos objetos comprendiendo su contexto.
- Modelos de detección de objetos zero-shot: pueden identificar objetos que no han visto antes al comprender la relación entre las imágenes y el texto. Algunos ejemplos son OwlVit, GroundingDINO y OmDet, que utilizan aprendizaje zero-shot para detectar nuevos objetos sin necesidad de datos de entrenamiento etiquetados.
Link to this sectionCómo utilizar los modelos de Hugging Face#
Pavel cambió entonces el enfoque hacia el uso práctico de los modelos de Hugging Face, explicando tres formas en las que los desarrolladores pueden aprovecharlos: explorar modelos, probarlos rápidamente y personalizarlos aún más.
Demostró cómo los desarrolladores pueden explorar modelos directamente en Hugging Face Hub sin escribir código, lo que facilita probar modelos al instante a través de una interfaz interactiva. "Puedes probarlo sin escribir ni una línea de código ni descargar el modelo en tu ordenador", añadió Pavel. Dado que algunos modelos son grandes, ejecutarlos en el Hub ayuda a evitar las limitaciones de almacenamiento y procesamiento.

Fig 2. Cómo utilizar los modelos de Hugging Face.
Además, la Inference API de Hugging Face permite a los desarrolladores ejecutar modelos de IA con simples llamadas a la API. Es excelente para pruebas rápidas, proyectos de prueba de concepto y prototipado rápido sin necesidad de una configuración compleja.
Para casos de uso más avanzados, los desarrolladores pueden utilizar el framework Transformers de Hugging Face, una herramienta de código abierto que proporciona modelos preentrenados para tareas de texto, visión y audio, a la vez que admite PyTorch y TensorFlow. Pavel explicó que, con solo dos líneas de código, los desarrolladores pueden recuperar un modelo de Hugging Face Hub y vincularlo a una herramienta de preprocesamiento, como un procesador de imágenes, para analizar datos de imágenes en aplicaciones de Vision AI.
Link to this sectionOptimización de los flujos de trabajo de IA con Hugging Face#
A continuación, Pavel explicó cómo Hugging Face puede agilizar los flujos de trabajo de IA. Uno de los temas clave que trató fue la optimización del mecanismo de atención en los Transformers, una característica central de los modelos de aprendizaje profundo que ayuda a centrarse en las partes más relevantes de los datos de entrada. Esto mejora la precisión de las tareas relacionadas con el procesamiento del lenguaje y la visión artificial. Sin embargo, puede requerir muchos recursos.
Optimizar el mecanismo de atención puede reducir significativamente el uso de memoria a la vez que mejora la velocidad. Pavel señaló: "Por ejemplo, al cambiar a una implementación de atención más eficiente, podrías obtener hasta 1,8 veces más rendimiento".
Hugging Face proporciona soporte integrado para implementaciones de atención más eficientes dentro del framework Transformers. Los desarrolladores pueden habilitar estas optimizaciones simplemente especificando una implementación de atención alternativa al cargar un modelo.
Link to this sectionOptimum y Torch Compile#
También habló sobre la cuantización, una técnica que hace que los modelos de IA sean más pequeños al reducir la precisión de los números que utilizan sin afectar demasiado al rendimiento. Esto ayuda a que los modelos utilicen menos memoria y se ejecuten más rápido, haciéndolos más adecuados para dispositivos con potencia de procesamiento limitada, como smartphones y sistemas integrados.
Para mejorar aún más la eficiencia, Pavel presentó la biblioteca Optimum de Hugging Face, un conjunto de herramientas diseñadas para optimizar y desplegar modelos. Con solo unas pocas líneas de código, los desarrolladores pueden aplicar técnicas de cuantización y convertir modelos a formatos eficientes como ONNX (Open Neural Network Exchange), lo que les permite ejecutarse sin problemas en diferentes tipos de hardware, incluidos servidores en la nube y dispositivos edge.

Fig 3. Pavel habló sobre la biblioteca Optimum y sus características.
Por último, Pavel mencionó las ventajas de Torch Compile, una función de PyTorch que optimiza la forma en que los modelos de IA procesan los datos, haciéndolos ejecutarse más rápido y de forma más eficiente. Hugging Face integra Torch Compile dentro de sus bibliotecas Transformers y Optimum, permitiendo a los desarrolladores aprovechar estas mejoras de rendimiento con cambios mínimos de código.
Al optimizar la estructura de cálculo del modelo, Torch Compile puede acelerar los tiempos de inferencia y aumentar la velocidad de fotogramas de 29 a 150 fotogramas por segundo sin comprometer la precisión o la calidad.
Link to this sectionDespliegue de modelos con herramientas de Hugging Face#
Pasando a otro tema, Pavel mencionó brevemente cómo los desarrolladores pueden ampliar y desplegar modelos de Vision AI utilizando herramientas de Hugging Face después de seleccionar el modelo correcto y elegir el mejor enfoque para el desarrollo.
Por ejemplo, los desarrolladores pueden desplegar aplicaciones de IA interactivas utilizando Gradio y Streamlit. Gradio permite a los desarrolladores crear interfaces web para modelos de aprendizaje automático, mientras que Streamlit ayuda a construir aplicaciones de datos interactivas con scripts sencillos en Python.
Pavel también señaló: "No necesitas empezar a escribir todo desde cero", refiriéndose a las guías, cuadernos de entrenamiento y scripts de ejemplo que proporciona Hugging Face. Estos recursos ayudan a los desarrolladores a empezar rápidamente sin tener que construir todo desde la base.

Fig 4. Pavel discutiendo las capacidades de Hugging Face en YV24.
Link to this sectionVentajas de Hugging Face Hub#
Para finalizar su ponencia, Pavel resumió las ventajas de usar Hugging Face Hub. Destacó cómo simplifica la gestión de modelos y la colaboración. También llamó la atención sobre la disponibilidad de guías, cuadernos y tutoriales, que pueden ayudar tanto a principiantes como a expertos a comprender e implementar modelos de IA.
"Hay muchos espacios geniales ya en el Hub. Puedes encontrar otros similares, clonar el código compartido, modificar unas pocas líneas, sustituir el modelo por el tuyo y volver a publicarlo", explicó, animando a los desarrolladores a aprovechar la flexibilidad de la plataforma.
Link to this sectionConclusiones clave#
Durante su charla en YV24, Pavel compartió cómo Hugging Face proporciona herramientas que apoyan el entrenamiento, la optimización y el despliegue de modelos de IA. Por ejemplo, innovaciones como Transformers, Optimum y Torch Compile pueden ayudar a los desarrolladores a mejorar el rendimiento de los modelos.
A medida que los modelos de IA se vuelven más eficientes, los avances en la cuantización y el despliegue edge facilitan su ejecución en dispositivos con recursos limitados. Estas mejoras, combinadas con herramientas como Hugging Face y modelos avanzados de visión artificial como Ultralytics YOLO11, son fundamentales para construir aplicaciones de Vision AI escalables y de alto rendimiento.
¡Únete a nuestra creciente comunidad! Explora nuestro repositorio de GitHub para aprender sobre IA y echa un vistazo a nuestras licencias YOLO para empezar tus proyectos de Vision AI. ¿Te interesan innovaciones como la visión artificial en el sector sanitario o la visión artificial en la agricultura? ¡Visita nuestras páginas de soluciones para descubrir más!






