Глоссарий

Трансформер-XL

Узнай, как Transformer-XL революционизирует моделирование последовательностей благодаря таким инновациям, как рекуррентность на уровне сегментов и работа с контекстом на дальних расстояниях.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Transformer-XL (Transformer-Extra Long) представляет собой значительное усовершенствование по сравнению с оригинальной архитектурой Transformer, предназначенное в первую очередь для более эффективной обработки дальних зависимостей в последовательных данных. Разработанная исследователями из Google AI и Университета Карнеги-Меллона, она решает проблему ограничения фрагментации контекста, присущую стандартным трансформерам при обработке очень длинных последовательностей, что крайне важно для задач в области обработки естественного языка (NLP) и не только. В отличие от ванильных трансформеров, которые обрабатывают сегменты фиксированной длины независимо друг от друга, Transformer-XL вводит механизмы повторного использования информации между сегментами, позволяя модели строить целостное понимание в гораздо более длинных контекстах.

Основные концепции трансформации-XL

Transformer-XL представляет собой две ключевые инновации, позволяющие преодолеть ограничения стандартных трансформаторов при работе с длинными последовательностями:

  1. Повторяемость на уровне сегментов: Стандартные трансформаторы обрабатывают длинные последовательности, разбивая их на сегменты фиксированного размера. Однако информация не может перетекать между этими сегментами, что приводит к фрагментации контекста. Transformer-XL вводит механизм рекурсии, при котором скрытые состояния, вычисленные для предыдущего сегмента, кэшируются и повторно используются в качестве контекста при обработке текущего сегмента. Это позволяет информации распространяться между сегментами, создавая эффективный контекст, выходящий далеко за пределы длины одного сегмента. Концептуально это похоже на то, как рекуррентные нейронные сети (RNN) сохраняют состояние, но интегрировано в рамки самовнимания трансформера.
  2. Относительные позиционные кодировки: Оригинальный трансформер использует абсолютные позиционные кодировки, чтобы сообщить модели о положении лексем внутри последовательности. При применении рекурсии на уровне сегментов повторное использование абсолютных кодировок становится проблематичным, так как один и тот же индекс позиции будет встречаться в разных сегментах, что приведет к неоднозначности. В Transformer-XL используются относительные позиционные кодировки, которые определяют позиции на основе расстояния между лексемами, а не их абсолютного расположения. Это делает позиционную информацию согласованной в разных сегментах и позволяет модели лучше обобщать информацию при различной длине последовательности во время умозаключений.

Как работает Transformer-XL

Во время обучения и умозаключений Transformer-XL обрабатывает входные последовательности сегмент за сегментом. Для каждого нового сегмента он рассчитывает оценки внимания не только на основе лексем в этом сегменте, но и используя кэшированные скрытые состояния из предыдущего сегмента (сегментов). Эта кэшированная информация обеспечивает исторический контекст. Использование относительных позиционных кодировок гарантирует, что механизм внимания правильно интерпретирует относительные позиции лексем, даже если он обращает внимание на лексемы из кэшированного предыдущего сегмента. Такой подход значительно увеличивает максимально возможную длину зависимостей, которую может захватить модель, зачастую намного большую, чем длина самого сегмента, и при этом сохраняет вычислительную эффективность по сравнению с обработкой всей последовательности сразу с помощью стандартного трансформера. Этот метод помогает предотвратить такие проблемы, как проблема исчезающего градиента при длинных зависимостях.

Трансформатор-XL против стандартного трансформатора и родственных моделей

Основное различие заключается в работе с длиной последовательности и контекстом:

  • Длина контекста: Стандартные трансформеры имеют фиксированную максимальную длину контекста, определяемую размером сегмента. Transformer-XL может захватывать зависимости длиной в тысячи лексем благодаря своему механизму рекуррентности.
  • Вычисления: Transformer-XL может быть значительно быстрее стандартных трансформаторов при оценке длинных последовательностей, так как вычисления для предыдущих сегментов используются повторно.
  • Память: Кэширование скрытых состояний требует дополнительной памяти, но позволяет избежать повторного вычисления представлений для более ранних частей последовательности.
  • Смежные модели: Хотя такие модели, как BERT и GPT (Generative Pre-trained Transformer), также основаны на архитектуре Transformer, они обычно используют стандартный подход с контекстом фиксированной длины. Transformer-XL специально нацелен на ограничение длинного контекста. Другие модели, такие как Longformer и Reformer, тоже работают с длинными последовательностями, но используют другие техники, например разреженные паттерны внимания или чувствительное к локальности хэширование.

Актуальность и применение

Способность Transformer-XL моделировать дальние зависимости делает его очень эффективным для различных последовательных задач, особенно в NLP.

  • Языковое моделирование: Она достигла передовых результатов в таких эталонных моделях моделирования языка на уровне символов и слов, как enwik8 и WikiText-103, благодаря более глубокому пониманию контекста, чем предыдущие модели. Такое улучшенное понимание структуры языка жизненно важно для создания связного и контекстуально релевантного текста.
  • Обработка длинных документов: Задачи, связанные с длинными документами, такие как резюмирование(Text Summarization), ответы на вопросы по длинным статьям или анализ целых книг или кодовых баз, значительно выигрывают от расширенного контекстного окна Transformer-XL. Например, модель Transformer-XL потенциально может генерировать вымышленные истории длиной в главу или писать обширные программные модули(Text Generation).
  • Обучение с подкреплением: Его улучшенные возможности памяти также нашли применение в задачах обучения с подкреплением, требующих долгосрочного планирования.

Хотя Transformer-XL известен прежде всего в области NLP, принципы эффективной работы с длинными последовательностями актуальны для всего машинного обучения (ML), потенциально влияя на архитектуры для анализа временных рядов или даже на аспекты компьютерного зрения (CV), работающие с видеоданными. Архитектурные инновации часто перекрестно опыляются; например, сами трансформеры вдохновили Vision Transformers (ViT), используемые в анализе изображений. Такие платформы, как Hugging Face содержат реализации и предварительно обученные модели, облегчая исследования и разработку приложений. Ты можешь ознакомиться с оригинальным исследованием в статье "Transformer-XL: Внимательные языковые модели за пределами контекста фиксированной длины". Понимание таких продвинутых архитектур помогает в разработке и тонкой настройке моделей в различных областях, включая те, которые управляются и развертываются с помощью таких платформ, как Ultralytics HUB.

Читать полностью