Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Мероприятия

Усиление проектов CV с помощью инструментов с открытым исходным кодом от Hugging Face

Присоединяйся к нам, чтобы вспомнить ключевое выступление с YOLO Vision 2024, посвященное тому, как инструменты с открытым исходным кодом от Hugging Face способствуют развитию ИИ.

АБАбирами Вина
5 min read
Усиление проектов CV с помощью инструментов с открытым исходным кодом от Hugging Face

Выбор правильных алгоритмов — лишь часть процесса создания эффективных решений в области компьютерного зрения. Инженеры по ИИ часто работают с большими наборами данных, дообучают модели для конкретных задач и оптимизируют ИИ-системы для работы в реальных условиях. По мере того как ИИ-приложения внедряются всё быстрее, растет и потребность в инструментах, упрощающих эти процессы.

На YOLO Vision 2024 (YV24), ежегодном гибридном мероприятии, проводимом при поддержке Ultralytics, эксперты по ИИ и энтузиасты технологий собрались вместе, чтобы изучить последние инновации в области компьютерного зрения. Событие вызвало дискуссии на различные темы, например, о способах ускорения разработки ИИ-приложений.

Одним из ключевых моментов мероприятия стала презентация Hugging Face — платформы ИИ с открытым исходным кодом, которая оптимизирует обучение, настройку и развертывание моделей. Павел Якубовский, инженер по машинному обучению в Hugging Face, рассказал, как их инструменты улучшают рабочие процессы для задач компьютерного зрения, таких как обнаружение объектов на изображениях, классификация изображений по различным группам и выполнение прогнозов без предварительного обучения на конкретных примерах (обучение с нулевым выстрелом — zero-shot learning).

Hugging Face Hub размещает и предоставляет доступ к различным моделям ИИ и компьютерного зрения, таким как Ultralytics YOLO11. В этой статье мы подведем итоги выступления Павла и разберемся, как разработчики могут использовать инструменты с открытым исходным кодом от Hugging Face для быстрой сборки и развертывания ИИ-моделей.

Павел на сцене на YV24

Рис 1. Павел на сцене YV24.

Link to this sectionHugging Face Hub способствует более быстрой разработке ИИ#

Павел начал свое выступление с представления Hugging Face как платформы ИИ с открытым исходным кодом, предлагающей предобученные модели для множества приложений. Эти модели разработаны для различных отраслей ИИ, включая обработку естественного языка (NLP), компьютерное зрение и мультимодальный ИИ, что позволяет системам обрабатывать различные типы данных, такие как текст, изображения и аудио.

Павел отметил, что на Hugging Face Hub сейчас размещено более 1 миллиона моделей, и разработчики могут легко найти те, которые подходят для их конкретных проектов. Hugging Face стремится упростить разработку ИИ, предлагая инструменты для обучения, дообучения и развертывания моделей. Когда разработчики могут экспериментировать с различными моделями, это упрощает процесс интеграции ИИ в реальные приложения.

Хотя Hugging Face изначально была известна благодаря NLP, с тех пор она расширилась до компьютерного зрения и мультимодального ИИ, позволяя разработчикам решать более широкий спектр задач. У платформы также сильное сообщество, где разработчики могут сотрудничать, делиться идеями и получать поддержку через форумы, Discord и GitHub.

Link to this sectionИзучение моделей Hugging Face для приложений компьютерного зрения#

Углубляясь в детали, Павел объяснил, как инструменты Hugging Face упрощают создание приложений компьютерного зрения. Разработчики могут использовать их для таких задач, как классификация изображений, обнаружение объектов и визуально-языковые приложения.

Он также отметил, что многие из этих задач компьютерного зрения можно решить с помощью предобученных моделей, доступных на Hugging Face Hub, что экономит время за счет уменьшения необходимости обучения с нуля. На самом деле, Hugging Face предлагает более 13 000 предобученных моделей для задач классификации изображений, включая модели для классификации еды, домашних животных и распознавания эмоций.

Подчеркивая доступность этих моделей, он сказал: «Тебе, скорее всего, даже не нужно обучать модель для своего проекта — возможно, ты найдешь на Hub уже обученную кем-то из сообщества».

Link to this sectionМодели Hugging Face для обнаружения объектов#

Приведя еще один пример, Павел рассказал, как Hugging Face может помочь с обнаружением объектов — ключевой функцией в компьютерном зрении, используемой для идентификации и локализации объектов на изображениях. Даже при ограниченном количестве размеченных данных предобученные модели на Hugging Face Hub могут сделать обнаружение объектов более эффективным.

Он также дал краткий обзор нескольких моделей, созданных для этой задачи, которые ты можешь найти на Hugging Face:

  • Модели обнаружения объектов в реальном времени: Для динамических сред, где скорость критична, такие модели, как Detection Transformer (DETR), предлагают возможности обнаружения объектов в реальном времени. DETR обучена на наборе данных COCO и спроектирована для эффективной обработки многомасштабных признаков, что делает ее подходящей для задач, чувствительных к времени.
  • Визуально-языковые модели: Эти модели объединяют обработку изображений и текста, позволяя ИИ-системам сопоставлять изображения с описаниями или распознавать объекты вне данных их обучения. Примеры включают CLIP и SigLIP, которые улучшают поиск по изображениям, связывая текст с визуальными данными, и позволяют ИИ-решениям идентифицировать новые объекты, понимая их контекст.
  • Модели обнаружения объектов с нулевым выстрелом (Zero-shot): Они могут идентифицировать объекты, которые они не видели раньше, понимая связь между изображениями и текстом. Примеры включают OwlVit, GroundingDINO и OmDet, которые используют обучение с нулевым выстрелом для обнаружения новых объектов без необходимости в размеченных данных для обучения.

Link to this sectionКак использовать модели Hugging Face#

Затем Павел переключил внимание на практическую работу с моделями Hugging Face, объяснив три способа, которыми разработчики могут их использовать: изучение моделей, быстрая проверка и дальнейшая настройка.

Он продемонстрировал, как разработчики могут просматривать модели прямо на Hugging Face Hub, не написав ни строчки кода, что облегчает мгновенное тестирование моделей через интерактивный интерфейс. «Ты можешь попробовать это, не написав даже строчки кода или не скачивая модель на свой компьютер», — добавил Павел. Поскольку некоторые модели имеют большой размер, запуск их на Hub помогает избежать ограничений по хранению и обработке данных.

Как использовать модели Hugging Face

Рис 2. Как использовать модели Hugging Face.

Также Hugging Face Inference API позволяет разработчикам запускать ИИ-модели с помощью простых API-вызовов. Это отлично подходит для быстрой проверки, проектов-доказательств концепции и оперативного прототипирования без необходимости сложной настройки.

Для более продвинутых сценариев разработчики могут использовать фреймворк Hugging Face Transformers — инструмент с открытым исходным кодом, который предоставляет предобученные модели для задач с текстом, зрением и аудио, поддерживая при этом как PyTorch, так и TensorFlow. Павел объяснил, что всего двумя строчками кода разработчики могут получить модель из Hugging Face Hub и связать ее с инструментом предобработки, таким как процессор изображений, для анализа данных изображений в приложениях Vision AI.

Link to this sectionОптимизация рабочих процессов ИИ с помощью Hugging Face#

Далее Павел объяснил, как Hugging Face может оптимизировать рабочие процессы ИИ. Одной из ключевых тем, которую он затронул, была оптимизация механизма внимания в Transformer — основной особенности моделей глубокого обучения, которая помогает фокусироваться на наиболее релевантных частях входных данных. Это повышает точность задач, связанных с обработкой языка и компьютерным зрением. Однако это может быть ресурсоемким процессом.

Оптимизация механизма внимания может значительно снизить использование памяти, одновременно увеличивая скорость. Павел отметил: «Например, перейдя на более эффективную реализацию внимания, ты можешь получить до 1,8-кратного ускорения производительности».

Hugging Face предоставляет встроенную поддержку более эффективных реализаций внимания внутри фреймворка Transformers. Разработчики могут включить эти оптимизации, просто указав альтернативную реализацию внимания при загрузке модели.

Link to this sectionOptimum и Torch Compile#

Он также рассказал о квантовании — методе, который делает ИИ-модели меньше за счет снижения точности чисел, которые они используют, не влияя при этом на производительность слишком сильно. Это помогает моделям потреблять меньше памяти и работать быстрее, делая их более подходящими для устройств с ограниченной вычислительной мощностью, таких как смартфоны и встроенные системы.

Чтобы еще больше повысить эффективность, Павел представил библиотеку Hugging Face Optimum, набор инструментов, разработанных для оптимизации и развертывания моделей. Всего несколькими строчками кода разработчики могут применить методы квантования и преобразовать модели в эффективные форматы, такие как ONNX (Open Neural Network Exchange), что позволяет им беспрепятственно работать на различных типах оборудования, включая облачные серверы и периферийные устройства.

Павел рассказывает о библиотеке Optimum и её возможностях

Рис 3. Павел рассказал о библиотеке Optimum и ее функциях.

Наконец, Павел упомянул преимущества Torch Compile — функции в PyTorch, которая оптимизирует способ обработки данных ИИ-моделями, заставляя их работать быстрее и эффективнее. Hugging Face интегрирует Torch Compile в свои библиотеки Transformers и Optimum, позволяя разработчикам воспользоваться этими улучшениями производительности с минимальными изменениями кода.

Оптимизируя структуру вычислений модели, Torch Compile может ускорить время вывода и увеличить частоту кадров с 29 до 150 кадров в секунду без ущерба для точности или качества.

Link to this sectionРазвертывание моделей с помощью инструментов Hugging Face#

Переходя дальше, Павел вкратце коснулся того, как разработчики могут расширять и развертывать модели Vision AI с помощью инструментов Hugging Face после выбора правильной модели и наилучшего подхода к разработке.

Например, разработчики могут развертывать интерактивные ИИ-приложения с помощью Gradio и Streamlit. Gradio позволяет создавать веб-интерфейсы для моделей машинного обучения, а Streamlit помогает создавать интерактивные приложения для данных с помощью простых скриптов на Python.

Павел также отметил: «Тебе не нужно начинать писать все с нуля», имея в виду руководства, обучающие блокноты и примеры скриптов, которые предоставляет Hugging Face. Эти ресурсы помогают разработчикам быстро начать работу без необходимости строить все с самого основания.

Павел обсуждает возможности Hugging Face на YV24

Рис 4. Павел обсуждает возможности Hugging Face на YV24.

Link to this sectionПреимущества Hugging Face Hub#

Завершая свое выступление, Павел резюмировал преимущества использования Hugging Face Hub. Он подчеркнул, как это упрощает управление моделями и совместную работу. Он также обратил внимание на доступность руководств, блокнотов и учебных пособий, которые могут помочь как новичкам, так и экспертам понять и внедрить ИИ-модели.

«На Hub уже есть много крутых пространств. Ты можешь найти похожие, клонировать общий код, изменить несколько строк, заменить модель на свою и отправить обратно», — пояснил он, призывая разработчиков использовать гибкость платформы.

Link to this sectionОсновные выводы#

Во время своего выступления на YV24 Павел рассказал, как Hugging Face предоставляет инструменты, поддерживающие обучение, оптимизацию и развертывание ИИ-моделей. Например, такие инновации, как Transformers, Optimum и Torch Compile, могут помочь разработчикам повысить производительность моделей.

По мере того как ИИ-модели становятся более эффективными, достижения в области квантования и периферийного развертывания облегчают их запуск на устройствах с ограниченными ресурсами. Эти улучшения, в сочетании с такими инструментами, как Hugging Face, и передовыми моделями компьютерного зрения, такими как Ultralytics YOLO11, являются ключевыми для создания масштабируемых и высокопроизводительных приложений Vision AI.

Присоединяйся к нашему растущему сообществу! Исследуй наш репозиторий на GitHub, чтобы узнать об ИИ, и ознакомься с нашими лицензиями YOLO, чтобы начать свои Vision AI проекты. Интересуют такие инновации, как компьютерное зрение в здравоохранении или компьютерное зрение в сельском хозяйстве? Посети наши страницы решений, чтобы узнать больше!

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения