Глоссарий

Реформер

Откройте для себя модель Reformer: новаторская архитектура трансформатора, оптимизированная для длинных последовательностей с вниманием LSH и реверсивными слоями.

Reformer - это эффективный тип модели Transformer, разработанный исследователями из Google AI. Он был разработан для обработки очень длинных последовательностей данных, что является серьезной проблемой для стандартных архитектур Transformer из-за большого объема памяти и высоких вычислительных требований. Благодаря использованию новых технологий Reformer может обрабатывать контекст длиной до миллиона слов на одном ускорителе, что делает возможным работу с целыми книгами или изображениями высокого разрешения. Такая эффективность является ключевой для расширения возможностей больших языковых моделей (LLM) и других задач искусственного интеллекта (ИИ), основанных на последовательности.

Как реформатор достигает эффективности

Эффективность Reformer обусловлена двумя основными инновациями, которые устраняют узкие места в стандартном механизме внимания и распределении памяти:

  • Внимание, чувствительное к локальности хэширования (LSH): Традиционные трансформаторы вычисляют оценку внимания для каждой пары слов в последовательности, что становится вычислительно дорогостоящим при увеличении длины последовательности. Reformer заменяет полную оценку внимания на приближенную с помощью хэширования, чувствительного к локальности (LSH). Эта техника группирует похожие слова в "ведра" и вычисляет внимание только в этих небольших группах, что значительно снижает вычислительную нагрузку. Она работает по принципу, что слова, близкие по значению (или векторному пространству), скорее всего, будут хэшированы в один и тот же бакет.
  • Обратимые остаточные слои: Для экономии памяти стандартные нейронные сети хранят активации каждого слоя, чтобы использовать их в процессе обратного распространения. Это потребляет большое количество памяти, особенно в глубоких моделях. В Reformer используются обратимые слои, которые позволяют пересчитывать активации любого слоя на основе активаций последующего слоя во время обучения. Это устраняет необходимость хранить активации в памяти, значительно сокращая объем памяти и позволяя обучать гораздо более крупные модели. Эта концепция подробно описана в оригинальной научной статье о Reformer.

Приложения

Способность Reformer обрабатывать длинные последовательности делает его подходящим для различных задач машинного обучения (ML), особенно в области обработки естественного языка (NLP) и других:

  • Анализ длинных документов: Резюме или ответы на вопросы о целых книгах, объемных научных статьях или юридических документах, где контекст охватывает тысячи или миллионы слов. Например, модель Reformer может быть использована для создания краткого текстового резюме технического отчета, состоящего из нескольких глав.
  • Геномика: Обработка длинных последовательностей ДНК или белков для анализа и распознавания образов. Геномные данные могут состоять из миллиардов пар оснований, что делает Reformer идеальной архитектурой для выявления паттернов или мутаций.
  • Обработка длинных медиафайлов: Анализ длинных аудиофайлов для распознавания речи, генерации музыки на основе протяженных композиций или анализа видео большой длительности. Примером может служить эффективная расшифровка многочасовых совещаний или лекций.
  • Генерация изображений: В некоторых подходах изображения рассматриваются как последовательности пикселей, особенно для изображений высокого разрешения. Reformer потенциально может обрабатывать эти очень длинные последовательности для таких задач, как генерация текста в изображение.
  • Анализ расширенных временных рядов: Моделирование очень длинных временных рядов, например, прогнозирование тенденций на фондовом рынке на протяжении десятилетий или анализ долгосрочных климатических данных.

Хотя такие модели, как Ultralytics YOLO, нацелены на эффективное обнаружение объектов на изображениях, часто используя конволюционные нейронные сети (CNN) или гибридные архитектуры, такие как RT-DETR, построенные с помощью фреймворков, подобных PyTorch, принципы эффективности вычислений и памяти, изученные в Reformer, актуальны для всей области глубокого обучения. Понимание таких достижений помогает стимулировать инновации в направлении создания более эффективных и доступных моделей ИИ. Платформы, подобные Ultralytics HUB, призваны упростить разработку ИИ и развертывание моделей.

Сравнение с другими моделями длинных последовательностей

Reformer - одна из нескольких моделей, разработанных для преодоления ограничений стандартных трансформеров. Важно отличать ее от других:

  • Лонгформер: Как и Reformer, Longformer предназначен для длинных последовательностей. Однако он использует другую схему внимания, сочетая скользящее окно (локальное внимание) с несколькими маркерами глобального внимания. Это делает его очень эффективным для документов, где локальный контекст наиболее важен, но он менее гибок, чем подход Reformer, основанный на хэшировании, для захвата отдаленных связей.
  • Transformer-XL: Эта модель вводит рекуррентность в архитектуру Transformer, позволяя информации перетекать из одного сегмента текста в другой. Transformer-XL особенно эффективен для авторегрессивных задач, таких как языковое моделирование, но не предназначен для обработки одного, очень длинного ввода за один проход, как Reformer или Longformer.
  • Стандартный трансформер: Оригинальная модель Transformer использует полное самовнимание, что делает ее очень эффективной, но непрактичной для последовательностей длиннее нескольких тысяч токенов из-за ее квадратичной сложности. Ключевой вклад Reformer заключается в том, что он позволяет добиться производительности, подобной Transformer, для гораздо более длинных входных данных. Более подробные сравнения моделей вы можете найти в нашей документации.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена