X
Ultralytics YOLOv8.2 LibérationUltralytics YOLOv8.2 LibérationUltralytics YOLOv8.2 Flèche de déverrouillage
Contrôle vert
Lien copié dans le presse-papiers

Alimenter le système de vision par ordinateur Open Source avec HuggingFace's Transformers

Plonge dans la vision informatique open-source avec HuggingFace! Découvre l'apprentissage par transfert, les transformateurs, et explore plus de 8 000 modèles. Rejoins Merve Noyan pour des aperçus et des démonstrations pratiques, donnant aux développeurs les moyens d'innover dans l'exploration de l'IA.

Alors que nous continuons à explorer les points forts de l'événement YOLO VISION 2023 (YV23), rencontrons Merve Noyan, ingénieur de plaidoyer développeur à . HuggingFace, la plateforme NLP leader avec des modèles pré-entraînés pour le développement efficace d'applications linguistiques. Lors de son intervention, Merve a partagé des idées incroyables sur le monde de la vision informatique open-source. 

Rejoins-nous pour un voyage dans l'univers fascinant de l'apprentissage par transfert, des transformateurs et de l 'écosystème open-source de la vision par ordinateur.

L'apprentissage par transfert dévoilé : Récapitulation rapide

Merve a commencé par un rapide exposé sur l'apprentissage par transfert, la baguette magique qui nous permet de transférer des connaissances d'un réseau neuronal à un autre. Imagine que tu entraînes un modèle sur les caractéristiques universelles des premières couches, comme les bords et les coins, et que tu l'adaptes ensuite à des tâches spécifiques. C'est l'essence même de l'apprentissage par transfert, qui permet de réduire les dépendances des données et d'augmenter la précision.

Merve a mis en avant les dorsales convolutives classiques comme ResNet et Inception, en préparant le terrain pour le voyage transformationnel à venir.

Entrez dans les Transformers : Une énigme dévoilée

Qu'est-ce qui fait la particularité des Transformers ? Merve l'a comparé à une énigme, montrant en quoi ils diffèrent des modèles traditionnels basés sur la convolution. La sauce secrète réside dans leur capacité à effectuer un apprentissage auto-supervisé, en capturant des caractéristiques sans avoir besoin de données étiquetées. Vision Transformer, Data Efficient Transformer, CLIP et SWIM CLIP font partie des modèles basés sur les transformateurs qu'elle a présentés. 

Nous avons trouvé un terrain d'entente avec Ultralytics qui soutient un modèle de transformateur conçu pour la détection d'objets. Ce modèle comporte un encodeur hybride efficace, une sélection de requête consciente de l'IOU et une vitesse d'inférence réglable. Il adhère notamment au modèle familier des autres modèles, en présentant des options pour la prédiction, l'analyse et l'évaluation. Ultralytics YOLOv8 en présentant des options de prédiction, d'entraînement, de validation et d'exportation.

Ton magasin unique

Merve s'est ensuite plongée dans le trésor que représente l'offre de HuggingFace, avec plus de 8 000 modèles pour les tâches classiques de vision par ordinateur et 10 000 modèles pour les applications multimodales. Le Hub HuggingFace peut se vanter d'avoir plus de 3 000 ensembles de données, ce qui en fait un terrain de jeu pour les développeurs et les passionnés. Merve a insisté sur l'expérience transparente, grâce à l'API cohérente de HuggingFace, qui offre des modèles prêts à l'emploi pour divers cas d'utilisation.

La magie des mains avec HuggingFace

L'exposé a fait place à des démonstrations pratiques, montrant à quel point on peut travailler sans effort avec des modèles. De l'instanciation des modèles et des processeurs à la mise au point avec l'API Trainer, Merve a clairement montré que la bibliothèque HuggingFace Transformers est le meilleur ami du développeur. Elle a même présenté l'API Pipeline, une de ses préférées, qui simplifie le flux de travail pour les utilisateurs.

Fig 1. Merve Noyan fait une présentation à YV23 au campus Google for Startups à Madrid.

Un aperçu des applications

Merve a conclu l'exposé en donnant un aperçu de quelques applications fantastiques, notamment le modèle Plot pour la réponse aux questions visuelles, Blip pour le sous-titrage d'images et le puissant modèle Segment Anything pour la segmentation d'images. L'API Pipeline de l'écosystème HuggingFace a été mise à l'honneur, car elle permet d'utiliser facilement les modèles sans avoir à se plonger dans les détails techniques.

La cerise sur le gâteau a été la présentation par Merve de la création d'illusions d'optique avec Elysian Diffusion, une expérience captivante qui ajoute une touche amusante au monde de l'IA.

En bref !

En conclusion, l'exposé de Merve nous a inspirés et nous a donné envie d'explorer les possibilités infinies de la vision par ordinateur open-source. HuggingFace a vraiment rendu l'IA accessible, amusante et passionnante, en permettant aux développeurs de libérer leur créativité. Vivement l'avenir de la communauté open-source et les incroyables innovations qu'elle recèle ! 

Regarde l'intégralité du discours ici

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.