Откройте для себя Parameter-Efficient Fine-Tuning (PEFT) для адаптации больших моделей ИИ с минимальными ресурсами. Экономьте затраты, предотвращайте переобучение и оптимизируйте развертывание!
Эффективная тонкая настройка параметров (PEFT) - это сложная стратегия в машинном обучении (ML), предназначенная для адаптации больших, предварительно обученных моделей к конкретным задачам без вычислительной нагрузки, связанной с переобучением всей сети. В качестве базовые модели в таких областях, как естественный язык обработка естественного языка и компьютерное зрение (CV), масштабируются до миллиардов параметров, традиционная тонкая настройка, при которойобновляется каждый вес в модели, стала стала непомерно дорогой для многих пользователей. PEFT решает эту проблему, замораживая большинство предварительно обученных весов модели и обновляя лишь небольшое подмножество параметров или добавляя несколько новых обучаемых слоев. Такой подход значительно снижает аппаратный барьер, позволяя исследователям и инженерам настраивать самые современные модели. исследователям и инженерам настраивать самые современные модели с помощью потребительского класса GPU, сохраняя при этом производительность сравнимой с полным обучением.
Основная концепция PEFT заключается в следующем обучение с переносом, когда модель использует знания, полученные из огромного набора данных (например, ImageNet или Common Crawl), для решения новых задач с ограниченным количеством данных. В отличие от полной тонкой настройки, PEFT изменяет архитектуру модели или процесс обучения, чтобы быть "параметрически эффективным". В результате адаптированная модель занимает мало места, часто всего несколько мегабайт, по сравнению с гигабайтами, необходимыми для полной копии модели. Такая эффективность крайне важна для предотвращения катастрофического забывания- явления, при котором модель теряет свои первоначальные общие возможности при изучении новой информации.
К распространенным техникам, входящим в зонтик PEFT, относятся:
PEFT играет важную роль в демократизации доступа к мощным инструментам искусственного интеллекта в различных отраслях.
В контексте моделей Ultralytics эффективность параметров часто достигается путем "замораживания" магистральных слоев сети во время обучения. При этом слои извлечения признаков остаются неизменными, а обновляется только голова (часть модели, отвечающая за составление окончательных прогнозов) обновляется.
Следующий пример демонстрирует, как реализовать простую форму параметрически эффективного обучения с помощью Ultralytics YOLO путем замораживания первых 10 слоев модели.
from ultralytics import YOLO
# Load the YOLO11 model (latest stable version)
model = YOLO("yolo11n.pt")
# Train the model on a specific dataset
# The 'freeze=10' argument freezes the first 10 layers (the backbone)
# This reduces the number of trainable parameters significantly
results = model.train(data="coco8.yaml", epochs=5, freeze=10)
Понимание различий между PEFT и аналогичными терминами крайне важно для выбора правильной стратегии:
Минимизируя вычислительные затраты на адаптацию, PEFT позволяет создавать узкоспециализированные модели для задач, начиная от восприятия автономных транспортных средств до анализа спутниковых снимков, делая передовой ИИ доступным для более широкого круга разработчиков.