En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Plongez dans la vision par ordinateur open source avec HuggingFace ! Découvrez l'apprentissage par transfert, les transformateurs et explorez plus de 8 000 modèles. Rejoignez Merve Noyan pour des informations et des démonstrations pratiques, permettant aux développeurs d'innover dans l'exploration de l'IA.
Alors que nous continuons à explorer les moments forts de l'événement YOLO VISION 2023 (YV23), rencontrons Merve Noyan, ingénieure en promotion du développement chez HuggingFace, la principale plateforme de traitement du langage naturel (NLP) avec des modèles pré-entraînés pour le développement efficace d'applications linguistiques. Dans son exposé, Merve a partagé des informations incroyables sur le monde de la vision par ordinateur open source.
La découverte du transfert d'apprentissage : un bref récapitulatif
Merve a lancé les hostilités avec une introduction rapide à l'apprentissage par transfert, la baguette magique qui nous permet de transférer des connaissances d'un réseau neuronal à un autre. Imaginez que vous entraînez un modèle sur les caractéristiques universelles des premières couches, comme les arêtes et les coins, puis que vous l'affinez pour des tâches spécifiques. C'est l'essence de l'apprentissage par transfert, qui réduit les dépendances aux données et améliore la précision.
Merve a mis en évidence les architectures dorsales convolutionnelles classiques comme ResNet et Inception, préparant le terrain pour le parcours transformationnel à venir.
Voici les transformateurs : une énigme dévoilée
Quelle est la particularité des Transformers ? Merve a comparé cela à une énigme, montrant comment ils diffèrent des modèles convolutionnels traditionnels. Le secret réside dans leur capacité à effectuer un apprentissage auto-supervisé, en capturant des caractéristiques sans avoir besoin de données étiquetées. Vision Transformer, Data Efficient Transformer, CLIP et SWIM CLIP figuraient parmi les modèles basés sur les transformateurs qu'elle a présentés.
Nous partageons des points communs avec Ultralytics qui prend en charge un modèle de transformateur conçu pour la détection d'objets. Ce modèle comprend un encodeur hybride efficace, une sélection de requêtes basée sur l'IOU et une vitesse d'inférence réglable. Notamment, il suit le schéma familier des autres modèles Ultralytics YOLOv8, offrant des options pour la prédiction, l'entraînement, la validation et l'exportation.
Votre guichet unique
Merve a ensuite plongé dans le trésor d'offres de HuggingFace, avec plus de 8 000 modèles pour les tâches classiques de vision par ordinateur et 10 000 modèles pour les applications multimodales. Le HuggingFace Hub se vante de plus de 3 000 ensembles de données, ce qui en fait un terrain de jeu pour les développeurs et les passionnés. Merve a souligné l'expérience fluide, grâce à l'API cohérente de HuggingFace, offrant des modèles prêts à l'emploi pour divers cas d'utilisation.
La magie pratique avec HuggingFace
La présentation a ensuite laissé place à des démonstrations pratiques, montrant avec quelle facilité on peut travailler avec des modèles. De l'instanciation des modèles et des processeurs au fine-tuning avec l'API Trainer, Merve a clairement indiqué que la bibliothèque HuggingFace Transformers est le meilleur ami d'un développeur. Elle a même présenté l'API Pipeline, un de ses outils préférés, simplifiant ainsi le flux de travail pour les utilisateurs.
Fig 1. Merve Noyan présentant à YV23 au Google for Startups Campus à Madrid.
Un aperçu des applications
Merve a conclu la présentation en donnant un aperçu de quelques applications fantastiques, notamment le modèle Plot pour la réponse visuelle aux questions, Blip pour la légende d'images et le puissant modèle Segment Anything pour la segmentation d'images. L'API Pipeline de l'écosystème HuggingFace a été mise en avant, ce qui facilite l'utilisation des modèles sans avoir à se plonger dans les aspects techniques.
La cerise sur le gâteau a été la présentation par Merve de la création d'illusions d'optique avec Elysian Diffusion, une expérience captivante qui ajoute une touche amusante au monde de l'IA.
En bref !
En conclusion, la présentation de Merve nous a inspirés et nous a donné envie d'explorer les possibilités infinies de la vision par ordinateur open source. HuggingFace a véritablement rendu l'IA accessible, amusante et passionnante, permettant aux développeurs de libérer leur créativité. Vive l'avenir de la communauté open source et les incroyables innovations qu'elle recèle !