Dynamiser les projets de vision par ordinateur avec les outils open-source de Hugging Face
Rejoins-nous pour redécouvrir une conférence de YOLO Vision 2024 qui explore comment les outils open-source de Hugging Face font progresser le développement de l'IA.

Choisir les bons algorithmes n'est qu'une partie de la construction de solutions de vision par ordinateur percutantes. Les ingénieurs en IA travaillent souvent avec de grands ensembles de données, affinent des modèles pour des tâches spécifiques et optimisent les systèmes d'IA pour des performances dans le monde réel. À mesure que les applications d'IA sont adoptées plus rapidement, le besoin d'outils simplifiant ces processus croît également.
Lors de YOLO Vision 2024 (YV24), l'événement hybride annuel propulsé par Ultralytics, des experts en IA et des passionnés de technologie se sont réunis pour explorer les dernières innovations en vision par ordinateur. L'événement a suscité des discussions sur divers sujets, tels que les moyens d'accélérer le développement d'applications d'IA.
Un point fort de l'événement a été une présentation sur Hugging Face, une plateforme d'IA open-source qui rationalise l'entraînement, l'optimisation et le déploiement de modèles. Pavel Iakubovskii, ingénieur en machine learning chez Hugging Face, a expliqué comment ses outils améliorent les flux de travail pour les tâches de vision par ordinateur telles que la détection d'objets dans les images, la catégorisation d'images dans différents groupes et la réalisation de prédictions sans entraînement préalable sur des exemples spécifiques (zero-shot learning).
Hugging Face Hub héberge et donne accès à divers modèles d'IA et de vision par ordinateur comme Ultralytics YOLO11. Dans cet article, nous résumerons les points clés de la présentation de Pavel et verrons comment les développeurs peuvent utiliser les outils open-source de Hugging Face pour construire et déployer rapidement des modèles d'IA.

Fig 1. Pavel sur scène à YV24.
Link to this sectionHugging Face Hub favorise un développement plus rapide de l'IA#
Pavel a commencé sa présentation en présentant Hugging Face comme une plateforme d'IA open-source offrant des modèles pré-entraînés pour diverses applications. Ces modèles sont conçus pour plusieurs branches de l'IA, notamment le traitement du langage naturel (NLP), la vision par ordinateur et l'IA multimodale, permettant aux systèmes de traiter différents types de données, comme du texte, des images et de l'audio.
Pavel a mentionné que Hugging Face Hub héberge désormais plus d'un million de modèles, et que les développeurs peuvent facilement trouver des modèles adaptés à leurs projets spécifiques. Hugging Face vise à simplifier le développement de l'IA en proposant des outils pour l'entraînement, l'affinage et le déploiement de modèles. Lorsque les développeurs peuvent expérimenter différents modèles, cela simplifie le processus d'intégration de l'IA dans des applications réelles.
Bien que Hugging Face ait été initialement connu pour le NLP, il s'est depuis étendu à la vision par ordinateur et à l'IA multimodale, permettant aux développeurs de s'attaquer à un éventail plus large de tâches d'IA. Il dispose également d'une communauté forte où les développeurs peuvent collaborer, partager des idées et obtenir du soutien via des forums, Discord et GitHub.
Link to this sectionExplorer les modèles Hugging Face pour les applications de vision par ordinateur#
En entrant dans les détails, Pavel a expliqué comment les outils de Hugging Face facilitent la construction d'applications de vision par ordinateur. Les développeurs peuvent les utiliser pour des tâches comme la classification d'images, la détection d'objets et les applications vision-langage.
Il a également souligné que bon nombre de ces tâches de vision par ordinateur peuvent être gérées avec des modèles pré-entraînés disponibles sur Hugging Face Hub, ce qui permet de gagner du temps en réduisant le besoin d'entraînement à partir de zéro. En fait, Hugging Face propose plus de 13 000 modèles pré-entraînés pour les tâches de classification d'images, y compris ceux pour la classification alimentaire, la classification d'animaux de compagnie et la détection d'émotions.
En insistant sur l'accessibilité de ces modèles, il a déclaré : « Tu n'as probablement même pas besoin d'entraîner un modèle pour ton projet - tu pourrais en trouver un sur le Hub qui est déjà entraîné par quelqu'un de la communauté. »
Link to this sectionModèles Hugging Face pour la détection d'objets#
En donnant un autre exemple, Pavel a expliqué comment Hugging Face peut aider avec la détection d'objets, une fonction clé en vision par ordinateur utilisée pour identifier et localiser des objets dans des images. Même avec des données étiquetées limitées, les modèles pré-entraînés disponibles sur Hugging Face Hub peuvent rendre la détection d'objets plus efficace.
Il a également donné un aperçu rapide de plusieurs modèles conçus pour cette tâche que tu peux trouver sur Hugging Face :
- Modèles de détection d'objets en temps réel : Pour les environnements dynamiques où la vitesse est cruciale, des modèles comme Detection Transformer (DETR) offrent des capacités de détection d'objets en temps réel. DETR est entraîné sur le jeu de données COCO et est conçu pour traiter efficacement les caractéristiques multi-échelles, le rendant adapté aux applications sensibles au temps.
- Modèles vision-langage : Ces modèles combinent le traitement d'images et de texte, permettant aux systèmes d'IA de faire correspondre des images avec des descriptions ou de reconnaître des objets au-delà de leurs données d'entraînement. Parmi les exemples, on trouve CLIP et SigLIP, qui améliorent la recherche d'images en liant le texte aux visuels et permettent aux solutions d'IA d'identifier de nouveaux objets en comprenant leur contexte.
- Modèles de détection d'objets zero-shot : Ils peuvent identifier des objets qu'ils n'ont jamais vus auparavant en comprenant la relation entre les images et le texte. Des exemples incluent OwlVit, GroundingDINO et OmDet, qui utilisent le zero-shot learning pour détecter de nouveaux objets sans avoir besoin de données d'entraînement étiquetées.
Link to this sectionComment utiliser les modèles Hugging Face#
Pavel a ensuite déplacé l'attention vers l'utilisation pratique des modèles Hugging Face, expliquant trois façons dont les développeurs peuvent en tirer parti : explorer les modèles, les tester rapidement et les personnaliser davantage.
Il a démontré comment les développeurs peuvent parcourir les modèles directement sur Hugging Face Hub sans écrire de code, facilitant ainsi le test instantané des modèles via une interface interactive. « Tu peux essayer sans écrire une seule ligne de code ni télécharger le modèle sur ton ordinateur », a ajouté Pavel. Comme certains modèles sont volumineux, les exécuter sur le Hub aide à éviter les limitations de stockage et de traitement.

Fig 2. Comment utiliser les modèles Hugging Face.
De plus, l'Inference API de Hugging Face permet aux développeurs d'exécuter des modèles d'IA avec de simples appels API. C'est idéal pour les tests rapides, les projets de preuve de concept et le prototypage rapide sans avoir besoin d'une configuration complexe.
Pour des cas d'utilisation plus avancés, les développeurs peuvent utiliser le framework Transformers de Hugging Face, un outil open-source qui fournit des modèles pré-entraînés pour les tâches de texte, de vision et d'audio, tout en prenant en charge à la fois PyTorch et TensorFlow. Pavel a expliqué qu'avec seulement deux lignes de code, les développeurs peuvent récupérer un modèle sur Hugging Face Hub et le lier à un outil de prétraitement, tel qu'un processeur d'images, pour analyser les données d'image pour les applications d'IA visuelle.
Link to this sectionOptimiser les flux de travail d'IA avec Hugging Face#
Ensuite, Pavel a expliqué comment Hugging Face peut rationaliser les flux de travail d'IA. Un sujet clé qu'il a abordé était l'optimisation du mécanisme d'attention dans les Transformers, une caractéristique essentielle des modèles de deep learning qui aide à se concentrer sur les parties les plus pertinentes des données d'entrée. Cela améliore la précision des tâches impliquant le traitement du langage et la vision par ordinateur. Cependant, cela peut être gourmand en ressources.
L'optimisation du mécanisme d'attention peut réduire considérablement l'utilisation de la mémoire tout en améliorant la vitesse. Pavel a souligné : « Par exemple, en passant à une implémentation d'attention plus efficace, tu pourrais obtenir des performances jusqu'à 1,8 fois plus rapides. »
Hugging Face fournit un support intégré pour des implémentations d'attention plus efficaces au sein du framework Transformers. Les développeurs peuvent activer ces optimisations en spécifiant simplement une autre implémentation d'attention lors du chargement d'un modèle.
Link to this sectionOptimum et Torch Compile#
Il a également parlé de la quantification, une technique qui rend les modèles d'IA plus petits en réduisant la précision des nombres qu'ils utilisent sans affecter trop les performances. Cela aide les modèles à utiliser moins de mémoire et à s'exécuter plus rapidement, les rendant plus adaptés aux appareils avec une puissance de traitement limitée, comme les smartphones et les systèmes embarqués.
Pour améliorer encore l'efficacité, Pavel a introduit la bibliothèque Optimum de Hugging Face, un ensemble d'outils conçus pour optimiser et déployer des modèles. Avec seulement quelques lignes de code, les développeurs peuvent appliquer des techniques de quantification et convertir des modèles dans des formats efficaces comme ONNX (Open Neural Network Exchange), leur permettant de fonctionner de manière fluide sur différents types de matériel, y compris les serveurs cloud et les appareils edge.

Fig 3. Pavel a parlé de la bibliothèque Optimum et de ses fonctionnalités.
Enfin, Pavel a mentionné les avantages de Torch Compile, une fonctionnalité dans PyTorch qui optimise la façon dont les modèles d'IA traitent les données, les faisant fonctionner plus rapidement et plus efficacement. Hugging Face intègre Torch Compile dans ses bibliothèques Transformers et Optimum, permettant aux développeurs de profiter de ces améliorations de performance avec un minimum de changements de code.
En optimisant la structure de calcul du modèle, Torch Compile peut accélérer les temps d'inférence et augmenter les fréquences d'images de 29 à 150 images par seconde sans compromettre la précision ou la qualité.
Link to this sectionDéployer des modèles avec les outils Hugging Face#
En passant à la suite, Pavel a brièvement abordé la façon dont les développeurs peuvent étendre et déployer des modèles d'IA visuelle en utilisant les outils Hugging Face après avoir sélectionné le bon modèle et choisi la meilleure approche pour le développement.
Par exemple, les développeurs peuvent déployer des applications d'IA interactives en utilisant Gradio et Streamlit. Gradio permet aux développeurs de créer des interfaces web pour les modèles de machine learning, tandis que Streamlit aide à construire des applications de données interactives avec des scripts Python simples.
Pavel a également souligné : « Tu n'as pas besoin de tout commencer à écrire à partir de zéro », en faisant référence aux guides, aux notebooks d'entraînement et aux scripts d'exemple fournis par Hugging Face. Ces ressources aident les développeurs à démarrer rapidement sans avoir à tout construire dès le début.

Fig 4. Pavel discutant des capacités de Hugging Face à YV24.
Link to this sectionAvantages de Hugging Face Hub#
Pour conclure sa présentation, Pavel a résumé les avantages de l'utilisation de Hugging Face Hub. Il a souligné comment cela simplifie la gestion des modèles et la collaboration. Il a également attiré l'attention sur la disponibilité de guides, de notebooks et de tutoriels, qui peuvent aider aussi bien les débutants que les experts à comprendre et à mettre en œuvre des modèles d'IA.
« Il y a déjà beaucoup d'espaces géniaux sur le Hub. Tu peux en trouver des similaires, cloner le code partagé, modifier quelques lignes, remplacer le modèle par le tien et le renvoyer », a-t-il expliqué, encourageant les développeurs à tirer parti de la flexibilité de la plateforme.
Link to this sectionPoints clés#
Lors de sa présentation à YV24, Pavel a partagé comment Hugging Face fournit des outils qui soutiennent l'entraînement, l'optimisation et le déploiement de modèles d'IA. Par exemple, des innovations comme Transformers, Optimum et Torch Compile peuvent aider les développeurs à améliorer les performances des modèles.
À mesure que les modèles d'IA deviennent plus efficaces, les avancées dans la quantification et le déploiement edge facilitent leur exécution sur des appareils aux ressources limitées. Ces améliorations, combinées à des outils comme Hugging Face et à des modèles de vision par ordinateur avancés comme Ultralytics YOLO11, sont essentielles pour construire des applications d'IA visuelle évolutives et performantes.
Rejoins notre communauté grandissante ! Explore notre dépôt GitHub pour en apprendre plus sur l'IA, et consulte nos licences YOLO pour commencer tes projets d'IA visuelle. Intéressé par des innovations comme la vision par ordinateur dans la santé ou la vision par ordinateur dans l'agriculture ? Visite nos pages de solutions pour en découvrir plus !






