Глоссарий

Лонгформер

Откройте для себя Longformer - модель трансформатора, оптимизированную для длинных последовательностей и обеспечивающую масштабируемую эффективность для NLP, геномики и анализа видео.

Longformer - это усовершенствованная модель на основе трансформера, предназначенная для эффективной обработки очень длинных документов. Разработанная исследователями из Института искусственного интеллекта Аллена, она отличается механизмом внимания, который линейно масштабируется с длиной последовательности, в отличие от квадратичного масштабирования стандартных моделей трансформеров, таких как BERT. Такая эффективность позволяет выполнять сложные задачи обработки естественного языка (NLP) на текстах, содержащих тысячи или даже десятки тысяч лексем, что является запредельным с точки зрения вычислений для более ранних архитектур.

Как работает лонгформер

Суть эффективности Longformer заключается в его уникальной схеме внимания, которая заменяет собой механизм самовнимания стандартного трансформера. Вместо того чтобы каждый токен обращал внимание на каждый другой токен, Longformer сочетает два типа внимания:

  • Скользящее окно (локальное) внимания: Большинство лексем обращают внимание только на фиксированное количество соседних лексем по обе стороны. Это позволяет уловить локальный контекст, подобно тому, как человек понимает слова, основываясь на словах, непосредственно окружающих их. Этот подход вдохновлен успехом конволюционных нейронных сетей (CNN) в использовании локальных шаблонов.
  • Глобальное внимание: Небольшое количество предварительно отобранных лексем наделяется глобальным вниманием, то есть они могут воспринимать все остальные лексемы во всей последовательности. Эти "глобальные" лексемы действуют как сборщики высокоуровневой информации из всего документа. Для конкретной задачи тонкая настройкаЭти глобальные токены часто выбираются стратегически, например [CLS] токен для задач классификации.

Такое сочетание обеспечивает баланс между вычислительной эффективностью и улавливанием дальних зависимостей, необходимых для понимания сложных документов. Оригинальное исследование подробно описано в статье"Longformer: The Long-Document Transformer".

Приложения в искусственном интеллекте и машинном обучении

Способность Longformer работать с длинными последовательностями открывает возможности для многих приложений, которые ранее были непрактичны.

  • Анализ длинных документов: Он может выполнять такие задачи, как резюмирование текста или ответы на вопросы по целым книгам, объемным научным статьям или сложным юридическим документам. Например, юридическая компания может использовать модель на основе Longformer для автоматического сканирования тысяч страниц документов, связанных с открытием, с целью поиска релевантных доказательств.
  • Диалоговые системы и чатботы: В контексте чатботов или виртуальных помощников Longformer может сохранять гораздо более длинную историю разговора, что позволяет более слаженно и с учетом контекста взаимодействовать в течение длительного времени.
  • Геномика и биоинформатика: Его архитектура хорошо подходит для анализа длинных последовательностей ДНК или белков, помогая исследователям выявлять закономерности и функции в обширных генетических массивах данных. Исследовательская лаборатория может использовать его для поиска определенных генных последовательностей в пределах целой хромосомы.

Предварительно обученные модели Longformer широко доступны на таких платформах, как Hugging Face, что позволяет разработчикам адаптировать их для решения различных задач.

Сравнение с родственными терминами

Longformer - одна из нескольких моделей, разработанных для преодоления ограничений стандартных трансформаторов для длинных последовательностей.

  • Стандартный трансформер: Ключевое различие заключается в механизме внимания. Эффективный паттерн внимания Longformer предназначен для длинных последовательностей, в то время как полное самовнимание в стандартных трансформерах требует слишком много памяти и вычислений для длинных вводов.
  • Reformer: Еще один эффективный трансформатор, Reformer, использует такие методы, как внимание к хешированию, чувствительному к локальности (LSH), и обратимые слои для снижения потребления ресурсов. Хотя оба они нацелены на длинные последовательности, они используют разные технические стратегии для достижения эффективности.
  • Transformer-XL: Эта модель использует рекуррентные и относительные позиционные вкрапления для работы с длинными контекстами, что делает ее особенно эффективной для авторегрессивных задач, таких как генерация текста. Longformer, напротив, предназначен для обработки одного длинного документа с двунаправленным контекстом за один проход.

Хотя эти модели NLP отличаются от моделей компьютерного зрения (CV), таких как Ultralytics YOLO, которые отлично справляются с такими задачами, как обнаружение объектов, стремление к вычислительной эффективности является общей темой. Инновации, снижающие сложность, как в Longformer, имеют решающее значение для того, чтобы сделать мощные модели глубокого обучения практичными для выводов в реальном времени и развертывания моделей на различном оборудовании. Управление такими передовыми моделями можно упростить с помощью таких платформ, как Ultralytics HUB.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена