Глоссарий

Transformer-XL

Узнайте, как Transformer-XL революционизирует моделирование последовательностей благодаря таким инновациям, как рекуррентность на уровне сегментов и обработка контекста большой дальности.

Transformer-XL (Transformer-Extra Long) — это усовершенствованная архитектура нейронной сети, разработанная для преодоления одного из основных ограничений исходной модели Transformer: ее неспособности обрабатывать чрезвычайно длинные последовательности данных. Разработанный исследователями из Google AI и Университета Карнеги-Меллона, Transformer-XL представляет новый механизм рекуррентности, который позволяет модели изучать зависимости за пределами контекста фиксированной длины. Это позволяет ему гораздо эффективнее, чем его предшественникам, справляться с задачами, включающими длинные тексты, такие как книги или статьи, что делает его ключевым событием в области обработки естественного языка (NLP).

Инновации в архитектуре решают проблему фрагментации контекста, когда стандартный Transformer обрабатывает данные в изолированных сегментах, теряя всю контекстную информацию от одного сегмента к другому. Transformer-XL решает эту проблему путем кэширования и повторного использования скрытых состояний, вычисленных для предыдущих сегментов, создавая между ними рекуррентную связь. Это позволяет информации передаваться между сегментами, предоставляя модели форму памяти и гораздо большее эффективное окно контекста.

Как это работает

Эффективность Transformer-XL обусловлена двумя основными архитектурными улучшениями по сравнению со стандартным Transformer:

Механизм рекуррентности на уровне сегментов: Вместо независимой обработки каждого сегмента текста, Transformer-XL повторно использует скрытые состояния из ранее обработанных сегментов в качестве контекста для текущего сегмента. Этот метод, вдохновленный механикой рекуррентной нейронной сети (RNN), предотвращает фрагментацию контекста и позволяет модели построить гораздо более богатое, долгосрочное понимание данных. Это имеет решающее значение для поддержания связности при генерации длинных текстов.
Относительные позиционные вложения: Оригинальный Transformer использует абсолютные позиционные вложения для понимания порядка слов, но этот подход становится непоследовательным при повторном использовании скрытых состояний в разных сегментах. Transformer-XL представляет более сложную схему относительного позиционирования. Вместо кодирования абсолютной позиции токена он кодирует относительное расстояние между токенами в рамках механизма внимания. Это делает модель более надежной и обобщаемой при обработке новых, более длинных последовательностей.

Актуальность и применение

Способность Transformer-XL моделировать долгосрочные зависимости делает его чрезвычайно эффективным для различных последовательных задач, особенно в NLP.

Языковое моделирование: Оно достигло самых современных результатов в языковом моделировании на уровне символов и слов в таких бенчмарках, как enwik8 и WikiText-103, благодаря захвату более длинного контекста, чем предыдущие модели. Это улучшенное понимание структуры языка жизненно важно для создания связного и контекстуально релевантного текста. Например, модель на основе Transformer-XL может написать роман, в котором деталь, упомянутая в первой главе, последовательно запоминается и упоминается в последней главе.
Обработка длинных документов: Задачи, связанные с длинными документами, такие как резюмирование текста, ответы на вопросы по длинным статьям или анализ целых книг или кодовых баз, значительно выигрывают от расширенного контекстного окна. Юридический помощник с искусственным интеллектом мог бы использовать эту архитектуру для чтения многостраничного контракта и точного ответа на вопросы о взаимосвязанных пунктах, независимо от того, насколько далеко они находятся друг от друга в документе.
Обучение с подкреплением: Его улучшенные возможности памяти также нашли применение в задачах обучения с подкреплением, требующих долгосрочного планирования.

Хотя Transformer-XL в первую очередь известен в области NLP, принципы эффективной обработки длинных последовательностей применимы и в машинном обучении (ML), потенциально влияя на архитектуры для анализа временных рядов или даже на аспекты компьютерного зрения (CV), работающие с видеоданными. Архитектурные инновации часто перекрестно обогащают друг друга; например, сами Transformer вдохновили Vision Transformers (ViT), используемые в анализе изображений. Платформы, такие как Hugging Face, предоставляют реализации и предварительно обученные модели, облегчая исследования и разработку приложений. Вы можете изучить оригинальное исследование в статье "Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context". Понимание таких продвинутых архитектур помогает в разработке и тонкой настройке моделей в различных областях, включая те, которые управляются и развертываются через платформы, такие как Ultralytics HUB.

Сравнение со смежными терминами

Стандартный Transformer: Основное различие заключается в обработке контекста. Стандартный Transformer обрабатывает информацию фиксированными, изолированными блоками, что приводит к фрагментации контекста. Transformer-XL вводит механизм рекуррентности для связывания этих блоков, позволяя моделировать зависимости, которые охватывают их.
Longformer: Хотя обе модели предназначены для длинных последовательностей, Longformer использует другую схему внимания — комбинацию скользящего окна и глобальных токенов внимания — для достижения эффективности. Он часто используется для задач, требующих двунаправленного контекста для одного длинного ввода, тогда как сила Transformer-XL заключается в авторегрессивной генерации, где контекст из прошлых сегментов имеет решающее значение.
Reformer: Reformer также нацелен на длинные последовательности, но достигает эффективности за счет различных методов, а именно внимания с использованием Locality-Sensitive Hashing (LSH) и обратимых остаточных слоев. Он фокусируется на снижении использования памяти и вычислительных затрат, в то время как основное нововведение Transformer-XL заключается в преодолении фрагментации контекста посредством рекуррентности.

Transformer-XL

Обучайте модели Ultralytics YOLO для оптимизации рабочих процессов в различных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте AI-модели за секунды с Ultralytics YOLO

Как это работает

Актуальность и применение

Сравнение со смежными терминами

Читать больше в этой категории

Развертывание моделей Ultralytics YOLO с помощью интеграции ExecuTorch

Основные моменты выступления Ultralytics на конференции PyTorch 2025

Использование самоконтролируемого обучения для обесцвечивания изображений

Присоединяйтесь к сообществу Ultralytics