Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Погрузитесь в компьютерное зрение с открытым исходным кодом вместе с HuggingFace! Узнайте о трансферном обучении, трансформаторах и изучите более 8 000 моделей. Присоединяйтесь к Мерве Ноян, чтобы узнать много нового и продемонстрировать практические примеры, которые позволят разработчикам внедрять инновации в области ИИ.
Продолжая изучать основные моменты мероприятия YOLO VISION 2023 (YV23), давайте познакомимся с Мерве Ноян, инженером по продвижению разработчиков в HuggingFaceведущей платформы NLP с предварительно обученными моделями для эффективной разработки языковых приложений. В своем выступлении Мерве поделилась невероятными знаниями о мире компьютерного зрения с открытым исходным кодом.
Мерве начала с краткого обзора transfer learning, волшебной палочки, которая позволяет нам передавать знания от одной нейронной сети к другой. Представьте себе обучение модели на универсальных признаках в ранних слоях, таких как края и углы, а затем тонкую настройку для конкретных задач. В этом суть transfer learning, снижающая зависимость от данных и повышающая точность.
Мерве рассказала о классических сверточных архитектурах, таких как ResNet и Inception, подготовив почву для дальнейшего трансформационного пути.
Войдите в мир трансформеров: раскрытая загадка
Что особенного в Transformers? Мерве сравнила это с загадкой, показывая, чем они отличаются от традиционных моделей на основе сверток. Секрет кроется в их способности выполнять самообучение, захватывая признаки без необходимости в размеченных данных. Vision Transformer, Data Efficient Transformer, CLIP и SWIM CLIP были в числе звездных моделей на основе трансформеров, которые она представила.
Находим общий язык с Ultralytics , которая обеспечивает поддержку модели трансформации , предназначенной для обнаружения объектов. Эта модель имеет эффективный гибридный кодировщик, выбор запросов с учетом IOU и регулируемую скорость вывода. Примечательно, что она придерживается привычной схемы, характерной для других Ultralytics YOLOv8 представляя опции для прогнозирования, обучения, проверки и экспорта.
Ваш универсальный магазин
Затем Мерве углубился в сокровищницу предложений HuggingFace: более 8 000 моделей для классических задач компьютерного зрения и 10 000 моделей для мультимодальных приложений. HuggingFace Hub может похвастаться более чем 3 000 наборов данных, что делает его игровой площадкой для разработчиков и энтузиастов. Мерве подчеркнул, что благодаря единообразному API HuggingFace, предлагающему готовые к использованию модели для различных случаев применения, работа с ними не требует особых усилий.
Практическое волшебство с HuggingFace
Доклад перешел в практическую демонстрацию, показывающую, как легко можно работать с моделями. Мерве дала понять, что библиотека HuggingFace Transformers - лучший друг разработчика: от инстанцирования моделей и процессоров до тонкой настройки с помощью API Trainer. Она даже представила Pipeline API, личный фаворит, упрощающий рабочий процесс для пользователей.
Рис. 1. Мерве Ноян выступает с докладом на YV23 в кампусе Google for Startups в Мадриде.
Краткий обзор приложений
В завершение выступления Мерве рассказал о некоторых фантастических приложениях, включая модель Plot для визуальных ответов на вопросы, Blip для создания подписей к изображениям и мощную модель Segment Anything для сегментации изображений. В центре внимания оказался Pipeline API экосистемы HuggingFace , позволяющий легко использовать модели, не погружаясь в технические тонкости.
Вишенкой на торте стала демонстрация Мерве создания оптических иллюзий с помощью Elysian Diffusion, захватывающий опыт, который добавляет забавный поворот в мир AI.
В двух словах!
В заключение хочу сказать, что выступление Мерве вдохновило нас на изучение бесконечных возможностей компьютерного зрения с открытым исходным кодом. HuggingFace действительно сделал ИИ доступным, увлекательным и захватывающим, предоставив разработчикам возможность раскрыть свой творческий потенциал. За будущее сообщества open-source и невероятные инновации, которые оно несет!