Расширение возможностей open-source компьютерного зрения с трансформерами от Hugging Face
Погрузись в open-source компьютерное зрение с Hugging Face! Узнай о трансферном обучении, трансформерах и изучи более 8000 моделей. Присоединяйся к Мерве Ноян для получения инсайтов и практических демонстраций, расширяющих возможности разработчиков для инноваций в исследовании ИИ.

Продолжая изучать ключевые моменты события YOLO VISION 2023 (YV23), давай познакомимся с Мерве Ноян, инженером по поддержке разработчиков в Hugging Face, ведущей платформе NLP с предобученными моделями для эффективной разработки языковых приложений. В своем выступлении Мерве поделилась невероятными инсайтами о мире компьютерного зрения с открытым исходным кодом.
Присоединяйся к нам, пока мы проводим тебя через захватывающую вселенную трансферного обучения, трансформеров и экосистемы компьютерного зрения с открытым исходным кодом.
Link to this sectionТрансферное обучение: краткий обзор#
Мерве начала с краткого введения в трансферное обучение — ту самую волшебную палочку, которая позволяет нам переносить знания из одной нейронной сети в другую. Представь, что ты обучаешь модель на универсальных признаках в начальных слоях, таких как края и углы, а затем дообучаешь ее для конкретных задач. В этом суть трансферного обучения: оно снижает зависимость от данных и повышает точность.
Мерве отметила классические сверточные основы, такие как ResNet и Inception, подготовив почву для предстоящего трансформационного пути.
Link to this sectionВремя трансформеров: раскрытая загадка#
Что делает трансформеры особенными? Мерве сравнила их с загадкой, показав, чем они отличаются от традиционных сверточных моделей. Секретный ингредиент заключается в их способности к самообучению (self-supervised learning), что позволяет извлекать признаки без необходимости в размеченных данных. Vision Transformer, Data Efficient Transformer, CLIP и Swin Transformer — лишь некоторые из множества моделей на базе трансформеров, о которых она рассказала.
Найдем общие точки соприкосновения с Ultralytics, которые обеспечивают поддержку transformer model, разработанной для обнаружения объектов. Эта модель оснащена эффективным гибридным энкодером, выбором запросов с учетом IOU и регулируемой скоростью вывода. Примечательно, что она следует привычному шаблону других моделей Ultralytics YOLOv8, предоставляя возможности для предсказания, обучения, валидации и экспорта.
Link to this sectionВсе в одном месте#
Затем Мерве погрузилась в сокровищницу предложений Hugging Face: более 8 000 моделей для классических задач компьютерного зрения и 10 000 моделей для мультимодальных приложений. Hugging Face Hub может похвастаться внушительным числом — более 3 000 датасетов, что делает его настоящей площадкой для разработчиков и энтузиастов. Мерве подчеркнула удобство работы благодаря последовательному API от Hugging Face, который предлагает готовые к использованию модели для самых разных задач.
Link to this sectionМагия на практике с Hugging Face#
Презентация перешла к практическим демонстрациям, показывающим, насколько легко можно работать с моделями. От создания экземпляров моделей и процессоров до дообучения с помощью Trainer API — Мерве дала понять, что библиотека Transformers от Hugging Face — лучший друг разработчика. Она даже представила Pipeline API, свою личную любимую функцию, которая упрощает рабочий процесс для пользователей.

Рис. 1. Мерве Ноян выступает на YV23 в кампусе Google for Startups в Мадриде.
Link to this sectionВзгляд на приложения#
Мерве завершила выступление кратким обзором нескольких фантастических приложений, включая модель Plot для визуальных ответов на вопросы, Blip для описания изображений и мощную модель Segment Anything для сегментации изображений. В центре внимания оказался Pipeline API экосистемы Hugging Face, благодаря которому использовать модели стало невероятно просто, не погружаясь глубоко в технические детали.
Вишенкой на торте стала демонстрация создания оптических иллюзий с помощью Elysian Diffusion — захватывающий опыт, который привносит забавный элемент в мир ИИ.
Link to this sectionВ двух словах!#
В заключение выступление Мерве вдохновило нас и пробудило желание исследовать бесконечные возможности компьютерного зрения с открытым исходным кодом. Hugging Face действительно сделал ИИ доступным, веселым и захватывающим, давая разработчикам возможность раскрыть свой творческий потенциал. За будущее сообщества с открытым исходным кодом и невероятные инновации, которые оно готовит!
Посмотри полную лекцию Hugging Face по компьютерному зрению!






