Глоссарий

Реформер

Открой для себя модель Reformer: новаторская архитектура трансформатора, оптимизированная для длинных последовательностей с LSH-вниманием и реверсивными слоями.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Reformer - это эффективный вариант стандартной архитектуры Transformer, специально разработанный для работы с очень длинными последовательностями, которые создают значительные проблемы с вычислениями и памятью для традиционных Transformer. Представленный исследователями из Google Research, Reformer включает в себя несколько инноваций, позволяющих резко сократить потребление памяти и вычислительные затраты. Благодаря этому стало возможным обрабатывать модели "последовательность-последовательность" с сотнями тысяч или даже миллионами элементов, что намного превышает типичные пределы стандартных трансформеров, используемых во многих приложениях глубокого обучения (ГОО). Такая эффективность открывает возможности для применения трансформер-подобных моделей в задачах с обширным контекстом, таких как обработка целых книг, изображений высокого разрешения, рассматриваемых как последовательности пикселей, или длинных музыкальных произведений.

Основные концепции реформера

Реформер достигает своей эффективности в первую очередь за счет двух ключевых приемов:

  • Локально-чувствительное хэширование (LSH) внимания: Стандартные трансформеры используют механизм самовнимания, в котором каждый элемент внимателен к каждому другому элементу, что приводит к вычислительной сложности, которая квадратично растет с длиной последовательности. Реформер заменяет этот механизм на LSH Attention, который использует Locality-Sensitive Hashing (LSH) для группировки похожих элементов (векторов) вместе. Затем внимание вычисляется только внутри этих групп или близлежащих групп, приближая полный механизм внимания со значительно меньшими вычислительными затратами, близкими к линейной сложности.
  • Обратимые слои: Трансформаторы складывают несколько слоев, и во время обучения модели активации каждого слоя обычно хранятся в памяти для использования в процессе обратного распространения. Это потребляет большое количество памяти, особенно для глубоких моделей или длинных последовательностей. В Reformer используются обратимые остаточные слои, которые позволяют не хранить активации любого слоя, а пересчитывать их из активаций следующего слоя во время обратного распространения. Это значительно сокращает расход памяти, связанный с хранением выходов функций активации, что позволяет создавать более глубокие модели или длинные последовательности в рамках заданных ограничений памяти.

Реформер против стандартного трансформера

Хотя обе архитектуры основаны на механизме внимания, Reformer существенно отличается от стандартных моделей на основе трансформеров:

  • Механизм внимания: Стандартные трансформеры используют полное самовнимание, а реформеры - приблизительное внимание на основе LSH.
  • Использование памяти: Реформер резко сокращает расход памяти за счет обратимых слоев, тогда как стандартные трансформеры хранят активации для всех слоев.
  • Вычислительные затраты: Внимание LSH в Reformer значительно снижает вычислительную нагрузку по сравнению с квадратичной сложностью полного внимания, особенно для очень длинных последовательностей.
  • Компромиссы: Аппроксимация (внимание LSH) может привести к небольшому снижению точности по сравнению с полным вниманием в некоторых задачах, но выигрыш в эффективности часто перевешивает это в приложениях с очень длинными последовательностями, где стандартные трансформаторы невыполнимы. Эффективные альтернативы вроде Longformer используют различные схемы разреженного внимания для достижения аналогичных целей. Оптимизация этих компромиссов часто предполагает тщательную настройку гиперпараметров.

Приложения

Способность Reformer обрабатывать длинные последовательности делает его пригодным для решения различных задач в области искусственного интеллекта (AI) и машинного обучения (ML), в частности в области обработки естественного языка (NLP) и не только:

  • Анализ длинных документов: Резюмирование или ответы на вопросы о целых книгах, объемных научных статьях или юридических документах, где контекст охватывает тысячи или миллионы слов. Например, модель Reformer можно использовать для составления краткого резюме технического отчета, состоящего из нескольких глав.
  • Геномика: Обработка длинных последовательностей ДНК или белков для анализа и распознавания образов.
  • Обработка длинных медиафайлов: Анализ длинных аудиофайлов для распознавания речи, генерации музыки на основе протяженных композиций или анализа видео большой длительности. Примером может служить эффективная расшифровка многочасовых совещаний или лекций.
  • Генерация изображений: Некоторые подходы рассматривают изображения как последовательности пикселей, особенно это касается изображений высокого разрешения. Потенциально Reformer может обрабатывать эти очень длинные последовательности для таких задач, как генерация текста в изображение.
  • Анализ расширенных временных рядов: Моделирование очень длинных временных рядов данных, например, предсказание тенденций фондового рынка на протяжении десятилетий или анализ долгосрочных климатических данных.

В то время как такие модели, как Ultralytics YOLO нацелены на эффективное обнаружение объектов на изображениях, часто используя конволюционные нейронные сети (CNN) или гибридные архитектуры, такие как RT-DETR построенные с помощью таких фреймворков, как PyTorchНо принципы эффективности вычислений и памяти, изученные в Reformer, актуальны для всех областей DL. Понимание таких достижений помогает стимулировать инновации в направлении создания более способных и доступных моделей ИИ, включая большие языковые модели (Large Language Models, LLM). Платформы вроде Ultralytics HUB направлены на упрощение разработки ИИ и развертывания моделей. Сравнение эффективности моделей, например YOLO11 против YOLOv10, подчеркивает постоянные усилия по достижению баланса между производительностью и использованием ресурсов. За более подробными техническими деталями обращайся к оригинальной исследовательской работе Reformer.

Читать полностью