Propulser la vision par ordinateur open source avec les transformers de Hugging Face
Plonge dans la vision par ordinateur open source avec Hugging Face ! Apprends le transfert d'apprentissage, les transformers, et explore plus de 8 000 modèles. Rejoins Merve Noyan pour des idées et des démos pratiques, permettant aux développeurs d'innover dans l'exploration de l'IA.

Alors que nous continuons d'explorer les moments forts de l'événement YOLO VISION 2023 (YV23), rencontrons Merve Noyan, ingénieure en défense des développeurs chez Hugging Face, la plateforme NLP de premier plan proposant des modèles pré-entraînés pour le développement efficace d'applications linguistiques. Dans son exposé, Merve a partagé des aperçus incroyables sur le monde de la vision par ordinateur open-source.
Rejoins-nous pour un voyage à travers l'univers fascinant du transfert d'apprentissage, des transformers et de l'écosystème de vision par ordinateur open-source.
Link to this sectionLe transfert d'apprentissage dévoilé : un récapitulatif rapide#
Merve a commencé avec une introduction rapide au transfert d'apprentissage, la baguette magique qui nous permet de transférer des connaissances d'un réseau de neurones à un autre. Imagine entraîner un modèle sur les caractéristiques universelles des premières couches, comme les bords et les coins, puis l'affiner pour des tâches spécifiques. C'est l'essence même du transfert d'apprentissage, réduisant les dépendances aux données et augmentant la précision.
Merve a mis en lumière les backbones convolutionnels classiques comme ResNet et Inception, préparant le terrain pour le voyage transformationnel à venir.
Link to this sectionPlace aux transformers : une énigme résolue#
Qu'est-ce qui rend les Transformers spéciaux ? Merve l'a comparé à une énigme, montrant comment ils diffèrent des modèles traditionnels basés sur la convolution. Le secret réside dans leur capacité à effectuer un apprentissage auto-supervisé, capturant des caractéristiques sans avoir besoin de données étiquetées. Vision Transformer, Data Efficient Transformer, CLIP et Swin Transformer faisaient partie du casting prestigieux des modèles basés sur les transformers qu'elle a présentés.
Établissons un terrain d'entente avec Ultralytics qui offre un support pour un modèle transformer conçu pour la détection d'objets. Ce modèle dispose d'un encodeur hybride efficace, d'une sélection de requêtes sensible à l'IoU et d'une vitesse d'inférence réglable. Notamment, il adhère au schéma familier des autres modèles Ultralytics YOLOv8, offrant des options pour la prédiction, l'entraînement, la validation et l'exportation.
Link to this sectionTon guichet unique#
Merve a ensuite plongé dans le trésor des offres de Hugging Face, avec plus de 8 000 modèles pour des tâches classiques de vision par ordinateur et 10 000 modèles pour des applications multimodales. Le Hugging Face Hub compte plus de 3 000 jeux de données, ce qui en fait un terrain de jeu pour les développeurs et les passionnés. Merve a souligné l'expérience fluide, grâce à l'API cohérente de Hugging Face, offrant des modèles prêts à l'emploi pour divers cas d'usage.
Link to this sectionMagie pratique avec Hugging Face#
L'exposé a basculé vers des démonstrations pratiques, montrant avec quelle facilité on peut travailler avec les modèles. De l'instanciation des modèles et des processeurs à l'affinage avec l'API Trainer, Merve a clairement montré que la bibliothèque Hugging Face Transformers est la meilleure amie du développeur. Elle a même introduit l'API Pipeline, l'une de ses favorites, simplifiant le flux de travail pour les utilisateurs.

Fig 1. Merve Noyan présentant à YV23 au Google for Startups Campus à Madrid.
Link to this sectionUn aperçu des applications#
Merve a conclu l'exposé avec un aperçu de quelques applications fantastiques, dont le modèle Plot pour la réponse aux questions visuelles, Blip pour la légende d'images, et le puissant Segment Anything pour la segmentation d'images. L'API Pipeline de l'écosystème Hugging Face a été mise en avant, facilitant l'utilisation des modèles sans se plonger dans les complexités techniques.
La cerise sur le gâteau a été la démonstration par Merve de la création d'illusions d'optique avec Elysian Diffusion, une expérience captivante qui ajoute une touche amusante au monde de l'IA.
Link to this sectionEn résumé !#
En conclusion, l'exposé de Merve nous a inspirés et nous a donné envie d'explorer les possibilités infinies de la vision par ordinateur open-source. Hugging Face a vraiment rendu l'IA accessible, amusante et passionnante, permettant aux développeurs de libérer leur créativité. Vive l'avenir de la communauté open-source et les incroyables innovations qu'elle nous réserve !
Regarde l'intégralité de la présentation de Hugging Face sur la vision par ordinateur !






