Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Дистилляция знаний

Узнайте, как Knowledge Distillation сжимает модели ИИ для более быстрого вывода, повышения точности и эффективности развертывания на периферийных устройствах.

Knowledge Distillation (дистилляция знаний) — это метод оптимизации моделей и сжатия в машинном обучении (ML), при котором компактная «студенческая» модель обучается воспроизводить производительность более крупной и сложной «учительской» модели. Основная идея заключается в передаче «знаний» от мощной, но громоздкой учительской модели к меньшей и более эффективной студенческой модели. Это позволяет развертывать высокоточные модели в средах с ограниченными ресурсами, например, на периферийных устройствах или мобильных телефонах, без значительного снижения производительности. Этот процесс устраняет разрыв между массивными, современными исследовательскими моделями и практическим развертыванием моделей в реальном мире.

Как работает дистилляция знаний

Модель-учитель, обычно большая нейронная сеть или ансамбль моделей, сначала обучается на большом наборе данных для достижения высокой точности. В процессе дистилляции модель-ученик учится, пытаясь имитировать выходные данные учителя. Вместо того чтобы учиться только на истинных метках в обучающих данных, ученик также обучается на полных распределениях вероятностей учителя для каждого прогноза, часто называемых «мягкими метками». Эти мягкие метки предоставляют более богатую информацию, чем «жесткие метки» (правильные ответы), поскольку они показывают, как модель-учитель «думает» и обобщает. Например, модель-учитель может предсказать, что изображение кошки является «кошкой» с уверенностью 90%, но также присвоить небольшие вероятности «собаке» (5%) и «лисе» (2%). Эта нюансированная информация помогает модели-ученику учиться более эффективно, что часто приводит к лучшему обобщению, чем если бы она обучалась только на жестких метках. Этот метод является ключевой частью инструментария глубокого обучения для создания эффективных моделей.

Применение в реальном мире

Knowledge Distillation широко используется в различных областях, чтобы сделать мощный ИИ доступным.

  1. Обработка естественного языка (NLP): Большие языковые модели (LLM), такие как BERT, невероятно мощны, но слишком велики для многих приложений. DistilBERT — известный пример дистиллированной версии BERT. Он на 40% меньше и на 60% быстрее, сохраняя при этом более 97% производительности BERT, что делает его пригодным для таких задач, как анализ тональности и ответы на вопросы на потребительских устройствах.
  2. Компьютерное зрение на периферийных устройствах: В компьютерном зрении большая модель с высокой точностью для классификации изображений или обнаружения объектов может быть преобразована в меньшую модель. Это позволяет выполнять сложные задачи компьютерного зрения, такие как обнаружение человека в реальном времени для интеллектуальной камеры безопасности, непосредственно на оборудовании с ограниченной вычислительной мощностью, таком как Raspberry Pi, повышая скорость и конфиденциальность данных. Модели Ultralytics YOLO, такие как YOLO11, могут быть частью таких рабочих процессов, где знания из более крупных моделей могут использоваться для обучения меньших, развертываемых версий.

Knowledge Distillation в сравнении с другими методами оптимизации

Knowledge Distillation связана с другими методами оптимизации моделей, но отличается от них. Понимание различий является ключом к выбору правильного подхода для вашего проекта, которым можно управлять и развертывать с помощью таких платформ, как Ultralytics HUB.

  • Обрезание модели: Этот метод включает удаление избыточных или менее важных связей (весов) из уже обученной сети, чтобы уменьшить ее размер. В отличие от этого, дистилляция обучает совершенно новую, меньшую сеть с нуля, чтобы имитировать учителя.
  • Квантование модели: Квантование снижает числовую точность весов модели (например, с 32-битных чисел с плавающей запятой до 8-битных целых чисел). Это уменьшает размер модели и может ускорить вычисления на совместимом оборудовании. Оно изменяет существующее представление модели, тогда как дистилляция создает новую модель. Квантование часто используется в сочетании с дистилляцией или обрезкой, и модели можно экспортировать в такие форматы, как ONNX, или оптимизировать с помощью таких движков, как TensorRT.
  • Transfer Learning (Перенос обучения): Это включает в себя повторное использование частей предварительно обученной модели (обычно ее основной сети (backbone), извлекающей признаки), а затем ее тонкую настройку на новом, меньшем наборе данных. Цель состоит в том, чтобы адаптировать существующую модель к новой задаче. Дистилляция, с другой стороны, направлена на перенос прогностического поведения учителя к ученической модели, которая может иметь совершенно другую архитектуру.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена