Глоссарий

Эффективная точная настройка по параметрам (PEFT)

Откройте для себя функцию Parameter-Efficient Fine-Tuning (PEFT) для адаптации больших моделей ИИ с минимальными ресурсами. Экономьте расходы, предотвращайте перебор и оптимизируйте развертывание!

Эффективная тонкая настройка параметров (PEFT) - это набор методов, используемых в машинном обучении для адаптации больших предварительно обученных моделей к новым, специфическим задачам без необходимости переобучения всей модели. По мере того как базовые модели в таких областях, как обработка естественного языка (NLP) и компьютерное зрение (CV), увеличиваются до миллиардов параметров, полная тонкая настройка становится вычислительно дорогой и требует значительного объема данных для каждой новой задачи. PEFT решает эту проблему, замораживая подавляющее большинство весов предварительно обученной модели и обучая лишь небольшое количество дополнительных или существующих параметров. Такой подход значительно снижает затраты на вычисления и хранение данных, уменьшает риск катастрофического забывания (когда модель забывает свои первоначальные возможности) и делает возможной настройку одной большой модели для множества различных приложений.

Как работает PEFT?

Основной принцип PEFT заключается в целенаправленном внесении минимальных изменений в предварительно обученную модель. Вместо того чтобы обновлять каждый параметр, методы PEFT вводят небольшой набор обучаемых параметров или выбирают крошечное подмножество существующих параметров для обновления в процессе обучения. Это форма трансферного обучения, оптимизированная с точки зрения эффективности. Существует несколько популярных методов PEFT, каждый из которых имеет свою стратегию:

  • LoRA (Low-Rank Adaptation): Эта техника вводит небольшие, поддающиеся обучению матрицы с низким рангом в слои предварительно обученной модели, часто в механизм внимания. Эти матрицы-"адаптеры" значительно меньше исходных матриц весов, что делает обучение быстрым и эффективным. Более подробная техническая информация содержится в оригинальной научной статье LoRA.
  • Настройка подсказок: Вместо того чтобы изменять архитектуру модели, этот метод сохраняет модель полностью замороженной и обучает набор "мягких подсказок" или обучаемых векторов встраивания. Эти векторы добавляются к входной последовательности, чтобы направить вывод модели для конкретной задачи, как подробно описано в основополагающей статье.
  • Настройка адаптеров: Этот метод предполагает вставку небольших модулей нейронной сети с полным подключением, называемых "адаптерами", между слоями предварительно обученной модели. Обучению подвергаются только параметры этих новых адаптеров.

Эти и другие методы широко доступны с помощью таких фреймворков, как библиотека Hugging Face PEFT, что упрощает их реализацию.

PEFT в сравнении со смежными концепциями

Важно отличать PEFT от других стратегий адаптации модели:

  • Полная точная настройка: В отличие от PEFT, полная точная настройка обновляет все веса предварительно обученной модели. Это ресурсоемко, требует мощного GPU и большого объема памяти для каждой версии модели с точной настройкой.
  • Разработка подсказок: Эта техника предполагает ручную разработку эффективных текстовых подсказок для управления поведением модели. Она не предполагает обучения или обновления параметров; речь идет исключительно об изменении входных данных для получения желаемого результата от замороженной модели.
  • Дистилляция знаний: Это предполагает обучение меньшей модели "ученика", которая будет имитировать поведение большей, предварительно обученной модели "учителя". Хотя при этом создается более компактная модель, сам процесс все равно требует больших вычислительных затрат.

Применение в реальном мире

PEFT позволяет практически применять большие модели в различных областях:

  • Обработка естественного языка (NLP): Компания может использовать PEFT для адаптации модели общего назначения, например GPT-4 или BERT, для создания специализированного чат-бота для своей внутренней базы знаний. Вместо дорогостоящего полного переобучения они могут использовать такой метод, как LoRA, для обучения модели специфической для компании терминологии и процедурам, что позволит получать более точные ответы для службы поддержки клиентов или внутренних служб. Исследовательские группы, такие как Stanford NLP Group, изучают эти типы приложений.
  • Компьютерное зрение (КВ): PEFT может настраивать большие модели зрения, такие как Vision Transformers (ViT) или Ultralytics YOLO, для решения конкретных задач визуального распознавания. Например, модель, предварительно обученная на широком наборе данных COCO, может быть адаптирована с помощью PEFT для точного обнаружения объектов с уникальными дефектами при контроле качества производства, выполнения специализированной сегментации изображений для анализа медицинских изображений или идентификации определенных видов животных в фотоловушках для охраны дикой природы. Платформы, подобные Ultralytics HUB, помогут управлять этими адаптированными моделями и экспериментами.

По сути, Parameter-Efficient Fine-Tuning делает современные модели ИИ более универсальными и экономически эффективными для адаптации, демократизируя доступ к мощным возможностям ИИ для широкого спектра конкретных приложений.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена