Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024

Alimenter la vision par ordinateur open source avec les transformateurs de HuggingFace

Nuvola Ladi

5 min de lecture

14 février 2024

Plongez dans la vision par ordinateur open source avec HuggingFace ! Découvrez l'apprentissage par transfert, les transformateurs et explorez plus de 8 000 modèles. Rejoignez Merve Noyan pour des informations et des démonstrations pratiques, permettant aux développeurs d'innover dans l'exploration de l'IA.

Alors que nous continuons à explorer les moments forts de l'événement YOLO VISION 2023 (YV23), rencontrons Merve Noyan, ingénieure en promotion du développement chez HuggingFace, la principale plateforme de traitement du langage naturel (NLP) avec des modèles pré-entraînés pour le développement efficace d'applications linguistiques. Dans son exposé, Merve a partagé des informations incroyables sur le monde de la vision par ordinateur open source. 

Joignez-vous à nous pour un voyage à travers l’univers fascinant de l’apprentissage par transfert, des transformateurs et de l’écosystème de vision par ordinateur open source.

La découverte du transfert d'apprentissage : un bref récapitulatif

Merve a lancé les hostilités avec une introduction rapide à l'apprentissage par transfert, la baguette magique qui nous permet de transférer des connaissances d'un réseau neuronal à un autre. Imaginez que vous entraînez un modèle sur les caractéristiques universelles des premières couches, comme les arêtes et les coins, puis que vous l'affinez pour des tâches spécifiques. C'est l'essence de l'apprentissage par transfert, qui réduit les dépendances aux données et améliore la précision.

Merve a mis en évidence les architectures dorsales convolutionnelles classiques comme ResNet et Inception, préparant le terrain pour le parcours transformationnel à venir.

Voici les transformateurs : une énigme dévoilée

Quelle est la particularité des Transformers ? Merve a comparé cela à une énigme, montrant comment ils diffèrent des modèles convolutionnels traditionnels. Le secret réside dans leur capacité à effectuer un apprentissage auto-supervisé, en capturant des caractéristiques sans avoir besoin de données étiquetées. Vision Transformer, Data Efficient Transformer, CLIP et SWIM CLIP figuraient parmi les modèles basés sur les transformateurs qu'elle a présentés. 

Nous partageons des points communs avec Ultralytics qui prend en charge un modèle de transformateur conçu pour la détection d'objets. Ce modèle comprend un encodeur hybride efficace, une sélection de requêtes basée sur l'IOU et une vitesse d'inférence réglable. Notamment, il suit le schéma familier des autres modèles Ultralytics YOLOv8, offrant des options pour la prédiction, l'entraînement, la validation et l'exportation.

Votre guichet unique

Merve a ensuite plongé dans le trésor d'offres de HuggingFace, avec plus de 8 000 modèles pour les tâches classiques de vision par ordinateur et 10 000 modèles pour les applications multimodales. Le HuggingFace Hub se vante de plus de 3 000 ensembles de données, ce qui en fait un terrain de jeu pour les développeurs et les passionnés. Merve a souligné l'expérience fluide, grâce à l'API cohérente de HuggingFace, offrant des modèles prêts à l'emploi pour divers cas d'utilisation.

La magie pratique avec HuggingFace

La présentation a ensuite laissé place à des démonstrations pratiques, montrant avec quelle facilité on peut travailler avec des modèles. De l'instanciation des modèles et des processeurs au fine-tuning avec l'API Trainer, Merve a clairement indiqué que la bibliothèque HuggingFace Transformers est le meilleur ami d'un développeur. Elle a même présenté l'API Pipeline, un de ses outils préférés, simplifiant ainsi le flux de travail pour les utilisateurs.

Fig 1. Merve Noyan présentant à YV23 au Google for Startups Campus à Madrid.

Un aperçu des applications

Merve a conclu la présentation en donnant un aperçu de quelques applications fantastiques, notamment le modèle Plot pour la réponse visuelle aux questions, Blip pour la légende d'images et le puissant modèle Segment Anything pour la segmentation d'images. L'API Pipeline de l'écosystème HuggingFace a été mise en avant, ce qui facilite l'utilisation des modèles sans avoir à se plonger dans les aspects techniques.

La cerise sur le gâteau a été la présentation par Merve de la création d'illusions d'optique avec Elysian Diffusion, une expérience captivante qui ajoute une touche amusante au monde de l'IA.

En bref !

En conclusion, la présentation de Merve nous a inspirés et nous a donné envie d'explorer les possibilités infinies de la vision par ordinateur open source. HuggingFace a véritablement rendu l'IA accessible, amusante et passionnante, permettant aux développeurs de libérer leur créativité. Vive l'avenir de la communauté open source et les incroyables innovations qu'elle recèle ! 

Regardez la conférence complète ici

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers