Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Работа компьютерного зрения с открытым исходным кодом с помощью трансформаторов HuggingFace

Погрузитесь в компьютерное зрение с открытым исходным кодом вместе с HuggingFace! Узнайте о трансферном обучении, трансформаторах и изучите более 8 000 моделей. Присоединяйтесь к Мерве Ноян, чтобы узнать много нового и продемонстрировать практические примеры, которые позволят разработчикам внедрять инновации в области ИИ.

Продолжая изучать основные моменты мероприятия YOLO VISION 2023 (YV23), давайте познакомимся с Мерве Ноян, инженером по продвижению разработчиков в HuggingFaceведущей платформы NLP с предварительно обученными моделями для эффективной разработки языковых приложений. В своем выступлении Мерве поделилась невероятными знаниями о мире компьютерного зрения с открытым исходным кодом. 

Присоединяйтесь к нам в путешествии по увлекательной вселенной трансферного обучения, трансформеров и экосистемы компьютерного зрения с открытым исходным кодом.

Перенос обучения: краткий обзор

Мерве начала с краткого обзора transfer learning, волшебной палочки, которая позволяет нам передавать знания от одной нейронной сети к другой. Представьте себе обучение модели на универсальных признаках в ранних слоях, таких как края и углы, а затем тонкую настройку для конкретных задач. В этом суть transfer learning, снижающая зависимость от данных и повышающая точность.

Мерве рассказала о классических сверточных архитектурах, таких как ResNet и Inception, подготовив почву для дальнейшего трансформационного пути.

Войдите в мир трансформеров: раскрытая загадка

Что особенного в Transformers? Мерве сравнила это с загадкой, показывая, чем они отличаются от традиционных моделей на основе сверток. Секрет кроется в их способности выполнять самообучение, захватывая признаки без необходимости в размеченных данных. Vision Transformer, Data Efficient Transformer, CLIP и SWIM CLIP были в числе звездных моделей на основе трансформеров, которые она представила. 

Находим общий язык с Ultralytics , которая обеспечивает поддержку модели трансформации , предназначенной для обнаружения объектов. Эта модель имеет эффективный гибридный кодировщик, выбор запросов с учетом IOU и регулируемую скорость вывода. Примечательно, что она придерживается привычной схемы, характерной для других Ultralytics YOLOv8 представляя опции для прогнозирования, обучения, проверки и экспорта.

Ваш универсальный магазин

Затем Мерве углубился в сокровищницу предложений HuggingFace: более 8 000 моделей для классических задач компьютерного зрения и 10 000 моделей для мультимодальных приложений. HuggingFace Hub может похвастаться более чем 3 000 наборов данных, что делает его игровой площадкой для разработчиков и энтузиастов. Мерве подчеркнул, что благодаря единообразному API HuggingFace, предлагающему готовые к использованию модели для различных случаев применения, работа с ними не требует особых усилий.

Практическое волшебство с HuggingFace

Доклад перешел в практическую демонстрацию, показывающую, как легко можно работать с моделями. Мерве дала понять, что библиотека HuggingFace Transformers - лучший друг разработчика: от инстанцирования моделей и процессоров до тонкой настройки с помощью API Trainer. Она даже представила Pipeline API, личный фаворит, упрощающий рабочий процесс для пользователей.

Рис. 1. Мерве Ноян выступает с докладом на YV23 в кампусе Google for Startups в Мадриде.

Краткий обзор приложений

В завершение выступления Мерве рассказал о некоторых фантастических приложениях, включая модель Plot для визуальных ответов на вопросы, Blip для создания подписей к изображениям и мощную модель Segment Anything для сегментации изображений. В центре внимания оказался Pipeline API экосистемы HuggingFace , позволяющий легко использовать модели, не погружаясь в технические тонкости.

Вишенкой на торте стала демонстрация Мерве создания оптических иллюзий с помощью Elysian Diffusion, захватывающий опыт, который добавляет забавный поворот в мир AI.

В двух словах!

В заключение хочу сказать, что выступление Мерве вдохновило нас на изучение бесконечных возможностей компьютерного зрения с открытым исходным кодом. HuggingFace действительно сделал ИИ доступным, увлекательным и захватывающим, предоставив разработчикам возможность раскрыть свой творческий потенциал. За будущее сообщества open-source и невероятные инновации, которые оно несет! 

Посмотрите полную версию доклада здесь

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно