Глоссарий

Дистилляция знаний

Узнайте, как с помощью дистилляции знаний сжимаются модели ИИ для ускорения выводов, повышения точности и эффективности развертывания пограничных устройств.

Дистилляция знаний - это метод оптимизации и сжатия моделей в машинном обучении (МОО), при котором компактная модель "ученика" обучается воспроизводить работу более крупной и сложной модели "учителя". Основная идея заключается в переносе "знаний" из мощной, но громоздкой модели учителя в меньшую, более эффективную модель ученика. Это позволяет развертывать высокоточные модели в средах с ограниченными ресурсами, например на пограничных устройствах или мобильных телефонах, без существенного снижения производительности. Этот процесс позволяет преодолеть разрыв между массивными современными исследовательскими моделями и практическим развертыванием моделей в реальном мире.

Как работает дистилляция знаний

Модель учителя, обычно представляющая собой большую нейронную сеть или ансамбль моделей, сначала обучается на большом наборе данных, чтобы достичь высокой точности. В процессе дистилляции модель ученика обучается, пытаясь подражать выводам учителя. Вместо того чтобы учиться только на истинных метках в обучающих данных, ученик также обучается на полных распределениях вероятностей учителя для каждого предсказания, которые часто называют "мягкими метками". Эти "мягкие метки" предоставляют более богатую информацию, чем "жесткие метки" (правильные ответы), поскольку они показывают, как модель учителя "думает" и обобщает. Например, модель учителя может предсказать, что изображение кошки - это "кошка" с уверенностью в 90 %, но при этом присвоить небольшие вероятности "собаке" (5 %) и "лисе" (2 %). Эта подробная информация помогает обучающейся модели учиться более эффективно, что часто приводит к лучшему обобщению, чем если бы она обучалась только на жестких метках. Эта техника является ключевой частью инструментария глубокого обучения для создания эффективных моделей.

Применение в реальном мире

Дистилляция знаний широко используется в различных областях, чтобы сделать мощный искусственный интеллект доступным.

  1. Обработка естественного языка (NLP): Большие языковые модели (LLM), такие как BERT, невероятно мощны, но слишком велики для многих приложений. DistilBERT - это известный пример "дистиллированной" версии BERT. Она на 40 % меньше и на 60 % быстрее, сохраняя при этом более 97 % производительности BERT, что делает ее подходящей для таких задач, как анализ настроения и ответы на вопросы на потребительских устройствах.
  2. Компьютерное зрение на краевых устройствах: В компьютерном зрении большая высокоточная модель для классификации изображений или обнаружения объектов может быть сведена к меньшей модели. Это позволяет выполнять сложные задачи компьютерного зрения, такие как обнаружение человека в реальном времени для интеллектуальной камеры безопасности, непосредственно на оборудовании с ограниченной вычислительной мощностью, таком как Raspberry Pi, повышая скорость и конфиденциальность данных. Модели Ultralytics YOLO, такие как YOLO11, могут быть частью таких рабочих процессов, где знания из больших моделей могут использоваться для обучения меньших, пригодных для развертывания версий.

Дистилляция знаний по сравнению с другими методами оптимизации

Дистилляция знаний связана с другими методами оптимизации моделей, но отличается от них. Понимание различий является ключом к выбору правильного подхода для вашего проекта, который может управляться и развертываться с помощью таких платформ, как Ultralytics HUB.

  • Обрезка модели: Эта техника предполагает удаление избыточных или менее важных связей (весов) из уже обученной сети, чтобы уменьшить ее размер. В отличие от этого, дистилляция обучает совершенно новую, меньшую по размеру сеть с нуля, чтобы подражать учителю.
  • Квантование модели: Квантование снижает точность весов модели (например, с 32-битных плавающих чисел до 8-битных целых чисел). Это уменьшает модель и может ускорить вычисления на совместимом оборудовании. При этом изменяется представление существующей модели, в то время как дистилляция создает новую модель. Квантование часто используется в сочетании с дистилляцией или обрезкой, а модели можно экспортировать в форматы вроде ONNX или оптимизировать с помощью движков вроде TensorRT.
  • Трансферное обучение: Это предполагает повторное использование части предварительно обученной модели (обычно это основа для извлечения признаков), а затем ее тонкую настройку на новом, меньшем наборе данных. Цель - адаптировать существующую модель к новой задаче. С другой стороны, дистилляция направлена на перенос прогностического поведения учителя в модель ученика, которая может иметь совершенно другую архитектуру.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена