En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Plongez dans la vision informatique open-source avec HuggingFace ! Découvrez l'apprentissage par transfert, les transformateurs et explorez plus de 8 000 modèles. Rejoignez Merve Noyan pour des aperçus et des démonstrations pratiques, permettant aux développeurs d'innover dans l'exploration de l'IA.
Alors que nous continuons à explorer les temps forts de l'événement YOLO VISION 2023 (YV23), rencontrons Merve Noyan, Developer Advocacy Engineer chez HuggingFace, la principale plateforme NLP avec des modèles pré-entraînés pour le développement efficace d'applications linguistiques. Lors de son intervention, Merve a partagé des informations incroyables sur le monde de la vision par ordinateur open-source.
L'apprentissage par transfert dévoilé : Récapitulatif rapide
Merve a commencé par un rapide exposé sur l'apprentissage par transfert, la baguette magique qui nous permet de transférer des connaissances d'un réseau neuronal à un autre. Imaginez que vous entraîniez un modèle sur les caractéristiques universelles des premières couches, comme les arêtes et les coins, puis que vous l'adaptiez à des tâches spécifiques. C'est l'essence même de l'apprentissage par transfert, qui permet de réduire les dépendances entre les données et d'améliorer la précision.
Merve a mis l'accent sur les dorsales convolutives classiques telles que ResNet et Inception, préparant ainsi le terrain pour le voyage de transformation à venir.
Entrez dans les transformateurs : Une énigme dévoilée
Qu'est-ce qui fait la spécificité des transformateurs ? Merve l'a comparé à une énigme, montrant en quoi ils diffèrent des modèles traditionnels basés sur la convolution. La sauce secrète réside dans leur capacité à effectuer un apprentissage auto-supervisé, en capturant des caractéristiques sans avoir besoin de données étiquetées. Vision Transformer, Data Efficient Transformer, CLIP et SWIM CLIP figurent parmi les modèles basés sur des transformateurs qu'elle a présentés.
Nous avons trouvé un terrain d'entente avec Ultralytics, qui prend en charge un modèle de transformateur conçu pour la détection d'objets. Ce modèle dispose d'un codeur hybride efficace, d'une sélection de requêtes tenant compte de l'IOU et d'une vitesse d'inférence réglable. Il adhère notamment au modèle familier des autres modèles YOLOv8 d'Ultralytics, en présentant des options de prédiction, d'entraînement, de validation et d'exportation.
Votre guichet unique
Merve s'est ensuite penchée sur le trésor que représente l'offre de HuggingFace, avec plus de 8 000 modèles pour les tâches classiques de vision par ordinateur et 10 000 modèles pour les applications multimodales. Le HuggingFace Hub se targue d'avoir plus de 3 000 ensembles de données, ce qui en fait un terrain de jeu pour les développeurs et les passionnés. Merve a insisté sur l'expérience transparente, grâce à l'API cohérente de HuggingFace, qui offre des modèles prêts à l'emploi pour divers cas d'utilisation.
Magie pratique avec HuggingFace
L'exposé a fait place à des démonstrations pratiques, montrant à quel point il est facile de travailler avec des modèles. De l'instanciation des modèles et des processeurs à la mise au point avec l'API Trainer, Merve a clairement montré que la bibliothèque HuggingFace Transformers est le meilleur ami du développeur. Elle a même présenté l'API Pipeline, une de ses préférées, qui simplifie le flux de travail pour les utilisateurs.
Fig 1. Présentation de Merve Noyan lors de l'YV23 au Google for Startups Campus à Madrid.
Un aperçu des applications
Merve a conclu la présentation en donnant un aperçu de quelques applications fantastiques, notamment le modèle Plot pour la réponse aux questions visuelles, Blip pour le sous-titrage d'images et le puissant modèle Segment Anything pour la segmentation d'images. L'API Pipeline de l'écosystème HuggingFace a été mise à l'honneur, facilitant l'utilisation des modèles sans avoir à se plonger dans les détails techniques.
La cerise sur le gâteau a été la présentation par Merve de la création d'illusions d'optique avec Elysian Diffusion, une expérience captivante qui ajoute une touche amusante au monde de l'IA.
En bref !
En conclusion, l'intervention de Merve nous a inspirés et nous a donné envie d'explorer les possibilités infinies de la vision par ordinateur open-source. HuggingFace a vraiment rendu l'IA accessible, amusante et passionnante, permettant aux développeurs de libérer leur créativité. Vivement l'avenir de la communauté open-source et les incroyables innovations qu'elle recèle !