Глоссарий

Лонгформер

Открой для себя Longformer - модель трансформатора, оптимизированную для длинных последовательностей и предлагающую масштабируемую эффективность для NLP, геномики и видеоанализа.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Longformer - это тип модели трансформера, созданный специально для эффективной обработки очень длинных последовательностей текста. Разработанная в Институте искусственного интеллекта Аллена (AI2), она устраняет ключевое ограничение стандартных моделей трансформеров, таких как BERT и GPT, требования к вычислительным ресурсам и памяти которых растут квадратично с увеличением длины последовательности. Это делает стандартные трансформеры непрактичными для задач, включающих тысячи лексем, таких как обработка целых документов, книг или длинных разговоров. Longformer использует оптимизированный механизм внимания для работы с такими длинными последовательностями, что делает возможным применение возможностей трансформеров для более широкого спектра задач обработки естественного языка (NLP).

Как работает лонгформер

Основная инновация Longformer заключается в его эффективной схеме самоаттенции. Стандартные трансформеры используют "полный" механизм самовнушения, когда каждый токен обращается к каждому другому токену в последовательности. Хотя это и мощно, но приводит к квадратичному узкому месту сложности. Longformer заменяет его комбинацией паттернов внимания:

  1. Скользящее окно внимания: Каждый токен обращает внимание только на окно фиксированного размера, состоящее из соседних токенов вокруг него. Это эффективно отражает локальный контекст и линейно зависит от длины последовательности.
  2. Расширенное скользящее окно внимания: Чтобы увеличить рецептивное поле без дополнительных вычислений, окно может быть "расширено", то есть оно пропускает некоторые лексемы в пределах своего обзора, что позволяет ему захватывать информацию с лексем, находящихся дальше, но при этом уделять внимание только фиксированному числу.
  3. Глобальное внимание: Некоторые предварительно отобранные лексемы (например, специальные лексемы, такие как [CLS] используемые для задач классификации) могут присутствовать во всей последовательности, а вся последовательность может присутствовать в них. Это обеспечивает глобальную интеграцию информации, специфичной для конкретной задачи.

Такая комбинация позволяет Longformer строить контекстные представления, включающие как локальную, так и глобальную информацию, подобно стандартным трансформерам, но с вычислительной сложностью, которая линейно, а не квадратично, зависит от длины последовательности. Это делает возможной обработку последовательностей из десятков тысяч лексем, по сравнению с типичными ограничениями в 512 или 1024 лексем для моделей вроде BERT. Реализации легко доступны в библиотеках вроде Hugging Face Transformers.

Ключевые особенности и преимущества

  • Эффективность: Линейное масштабирование вычислений и памяти с длиной последовательности, что позволяет обрабатывать гораздо более длинные документы.
  • Масштабируемость: Может обрабатывать последовательности до длины, ограниченной в основном аппаратной памятью (например, 4096 токенов или больше, по сравнению с 512 для стандартного BERT).
  • Производительность: Поддерживает высокую производительность в различных задачах NLP, часто превосходя модели, ограниченные более короткими контекстами, когда важны дальние зависимости.
  • Гибкость: Его можно использовать как замену стандартным трансформаторным слоям во многих архитектурах глубокого обучения.
  • Предварительное обучение и тонкая настройка: Его можно предварительно обучить на больших текстовых массивах, а затем точно настроить под конкретные задачи, аналогично другим моделям трансформеров.

Применение в реальном мире

Способность Longformer работать с длинными последовательностями раскрывает возможности в различных сферах:

  • Резюме документов: Резюмирование объемных статей, научных работ или отчетов, где важная информация может быть разбросана по всему тексту. Стандартные модели могут упустить контекст из-за усечения.
  • Ответы на вопросы в длинных документах: Отвечай на вопросы, основываясь на информации, содержащейся в длинных документах, таких как юридические контракты, технические руководства или книги, без необходимости разбивать документ на более мелкие, потенциально разрушающие контекст куски. Например, юридический ИИ может использовать Longformer для поиска релевантных пунктов в 100-страничном контракте.
  • Анализ научной литературы: Обработка и понимание сложных взаимосвязей и выводов в полнометражных научных статьях для решения таких задач, как извлечение информации или построение графа знаний.
  • Диалоговые системы: Анализируй длинные истории разговоров в чат-ботах или виртуальных помощниках, чтобы поддерживать лучший контекст и согласованность в течение длительных взаимодействий.

Значимость в AI/ML

Longformer - это значительный шаг вперед в создании моделей глубокого обучения, способных понимать и рассуждать о длинных текстах. Преодолевая квадратичную сложность стандартных трансформаторов, он позволяет большим языковым моделям (LLM) более эффективно решать задачи, связанные с документами, книгами и расширенными диалогами. Эта возможность очень важна для приложений, требующих глубокого контекстного понимания, расширяя границы возможностей искусственного интеллекта (ИИ) в обработке человеческого языка, представленного в длинных форматах.

В то время как такие модели, как Ultralytics YOLO11 отлично справляются с задачами компьютерного зрения (CV), такими как обнаружение объектов и сегментация изображений, Longformer обеспечивает аналогичные достижения для работы со сложными текстовыми данными большой формы в области NLP. Такие инструменты, как Ultralytics HUB, упрощают развертывание и управление различными моделями ИИ, в том числе моделями NLP, такими как Longformer, которые были доработаны для конкретных задач с помощью таких фреймворков, как PyTorch или TensorFlow.

Сравнение с родственными терминами

  • Стандартный трансформер: Longformer - это модификация стандартной архитектуры Transformer. Ключевым отличием Longformer является эффективный механизм внимания (скользящее окно + глобальное внимание), предназначенный для длинных последовательностей, в то время как стандартные трансформеры используют полное самовнимание, что вычислительно дорого для длинных входов.
  • Reformer: Еще один эффективный вариант трансформера, Reformer, использует такие техники, как внимание к хешированию, чувствительному к локальности (LSH), и обратимые остаточные слои для уменьшения затрат памяти и вычислений. Хотя оба варианта нацелены на длинные последовательности, они используют разные технические подходы для достижения эффективности.
  • Transformer-XL: Transformer-XL вводит рекуррентные и относительные позиционные вкрапления для работы с более длинными контекстами, чем стандартные трансформеры, что особенно полезно при авторегрессивном моделировании языка. Longformer больше фокусируется на двунаправленных контекстах внутри одной длинной последовательности, используя свой особый паттерн внимания.
Читать полностью