Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Les transformateurs de HuggingFace au service de la vision par ordinateur open-source

Nuvola Ladi

5 min de lecture

14 février 2024

Plongez dans la vision informatique open-source avec HuggingFace! Découvrez l'apprentissage par transfert, les transformateurs et explorez plus de 8 000 modèles. Rejoignez Merve Noyan pour des aperçus et des démonstrations pratiques, permettant aux développeurs d'innover dans l'exploration de l'IA.

Alors que nous continuons à explorer les points forts de l'événement YOLO VISION 2023 (YV23), rencontrons Merve Noyan, ingénieur développeur et défenseur des droits chez HuggingFaceHuggingFace est la première plateforme NLP avec des modèles pré-entraînés pour le développement efficace d'applications linguistiques. Lors de son intervention, Merve a partagé des informations incroyables sur le monde de la vision par ordinateur open-source. 

Joignez-vous à nous pour un voyage à travers l’univers fascinant de l’apprentissage par transfert, des transformateurs et de l’écosystème de vision par ordinateur open source.

La découverte du transfert d'apprentissage : un bref récapitulatif

Merve a lancé les hostilités avec une introduction rapide à l'apprentissage par transfert, la baguette magique qui nous permet de transférer des connaissances d'un réseau neuronal à un autre. Imaginez que vous entraînez un modèle sur les caractéristiques universelles des premières couches, comme les arêtes et les coins, puis que vous l'affinez pour des tâches spécifiques. C'est l'essence de l'apprentissage par transfert, qui réduit les dépendances aux données et améliore la précision.

Merve a mis en évidence les architectures dorsales convolutionnelles classiques comme ResNet et Inception, préparant le terrain pour le parcours transformationnel à venir.

Voici les transformateurs : une énigme dévoilée

Quelle est la particularité des Transformers ? Merve a comparé cela à une énigme, montrant comment ils diffèrent des modèles convolutionnels traditionnels. Le secret réside dans leur capacité à effectuer un apprentissage auto-supervisé, en capturant des caractéristiques sans avoir besoin de données étiquetées. Vision Transformer, Data Efficient Transformer, CLIP et SWIM CLIP figuraient parmi les modèles basés sur les transformateurs qu'elle a présentés. 

Nous avons trouvé un terrain d'entente avec Ultralytics , qui prend en charge un modèle de transformateur conçu pour la détection d'objets. Ce modèle comporte un encodeur hybride efficace, une sélection de requêtes tenant compte de l'IOU et une vitesse d'inférence réglable. Il adhère notamment au modèle familier des autres modèles d Ultralytics YOLOv8 en présentant des options de prédiction, d'entraînement, de validation et d'exportation.

Votre guichet unique

Merve s'est ensuite penchée sur le trésor que représente l'offre de HuggingFace, avec plus de 8 000 modèles pour les tâches classiques de vision par ordinateur et 10 000 modèles pour les applications multimodales. Le HuggingFace Hub se targue d'avoir plus de 3 000 ensembles de données, ce qui en fait un terrain de jeu pour les développeurs et les passionnés. Merve a insisté sur l'expérience transparente, grâce à l'API cohérente de HuggingFace, qui offre des modèles prêts à l'emploi pour divers cas d'utilisation.

Magie pratique avec HuggingFace

L'exposé a fait place à des démonstrations pratiques, montrant à quel point il est facile de travailler avec des modèles. De l'instanciation des modèles et des processeurs à la mise au point avec l'API Trainer, Merve a clairement montré que la bibliothèque HuggingFace Transformers est le meilleur ami du développeur. Elle a même présenté l'API Pipeline, une de ses préférées, qui simplifie le flux de travail pour les utilisateurs.

Fig 1. Présentation de Merve Noyan lors de l'YV23 au Google for Startups Campus à Madrid.

Un aperçu des applications

Merve a conclu la présentation en donnant un aperçu de quelques applications fantastiques, notamment le modèle Plot pour la réponse aux questions visuelles, Blip pour le sous-titrage d'images et le puissant modèle Segment Anything pour la segmentation d'images. L'API Pipeline de l'écosystème HuggingFace a été mise à l'honneur, facilitant l'utilisation des modèles sans avoir à se plonger dans les détails techniques.

La cerise sur le gâteau a été la présentation par Merve de la création d'illusions d'optique avec Elysian Diffusion, une expérience captivante qui ajoute une touche amusante au monde de l'IA.

En bref !

En conclusion, l'intervention de Merve nous a inspirés et nous a donné envie d'explorer les possibilités infinies de la vision par ordinateur open-source. HuggingFace a vraiment rendu l'IA accessible, amusante et passionnante, permettant aux développeurs de libérer leur créativité. Vivement l'avenir de la communauté open-source et les incroyables innovations qu'elle recèle ! 

Regardez la conférence complète ici

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement