Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Longformer

Изучи архитектуру Longformer для эффективной обработки длинных последовательностей данных. Узнай, как разреженное внимание (sparse attention) преодолевает ограничения памяти для NLP и компьютерного зрения.

Longformer — это специализированный тип архитектуры Deep Learning, предназначенный для эффективной обработки длинных последовательностей данных, что позволяет преодолеть ограничения традиционных моделей. Изначально разработанный для решения проблем стандартных Transformers, которые обычно с трудом справляются с последовательностями длиннее 512 токенов из-за ограничений памяти, Longformer использует модифицированный механизм внимания. Снижая вычислительную сложность с квадратичной до линейной, эта архитектура позволяет ИИ-системам анализировать целые документы, длинные транскрипты или сложные генетические последовательности за один проход без усечения входных данных.

Link to this sectionПроблема «узкого места» внимания#

Чтобы понять значимость Longformer, важно взглянуть на ограничения предшественников, таких как BERT и ранние модели GPT-3. Стандартные трансформеры используют операцию «self-attention», где каждый токен (слово или часть слова) взаимодействует с каждым другим токеном в последовательности. Это создает квадратичные вычислительные затраты: удвоение длины последовательности вчетверо увеличивает объем памяти, необходимой на GPU. В результате большинство стандартных моделей накладывают жесткое ограничение на размер входных данных, часто вынуждая специалистов по данным разбивать документы на мелкие, несвязанные сегменты, что приводит к потере контекста.

Longformer решает эту проблему путем внедрения разреженного внимания (Sparse Attention). Вместо полных связей «все со всеми» он использует комбинацию локального внимания в окне и глобального внимания:

  • Внимание скользящего окна (Sliding Window Attention): Каждый токен взаимодействует только со своими ближайшими соседями. Это позволяет улавливать локальный контекст и синтаксическую структуру, подобно тому как Convolutional Neural Network (CNN) обрабатывает изображения.
  • Расширенное скользящее окно (Dilated Sliding Window): Чтобы увеличить receptive field без роста вычислений, окно может включать пропуски, позволяя модели «видеть» дальше в тексте.
  • Глобальное внимание (Global Attention): Определенные заранее выбранные токены (например, классификационный токен [CLS]) взаимодействуют со всеми остальными токенами в последовательности, и все токены взаимодействуют с ними. Это гарантирует, что модель сохраняет высокоуровневое понимание всего входного текста для таких задач, как text summarization.

Link to this sectionРеальные приложения#

Способность обрабатывать тысячи токенов одновременно открывает новые возможности для Natural Language Processing (NLP) и не только.

Link to this sectionАнализ юридических и медицинских документов#

В таких отраслях, как право и здравоохранение, документы редко бывают короткими. Юридический контракт или история болезни пациента могут занимать десятки страниц. Традиционные Large Language Models (LLMs) потребовали бы фрагментации этих документов, что могло бы привести к потере важных зависимостей между условием на странице 1 и определением на странице 30. Longformer позволяет выполнять Named Entity Recognition (NER) и классификацию по всему документу целиком, гарантируя, что глобальный контекст влияет на интерпретацию конкретных терминов.

Link to this sectionОтветы на вопросы по длинным текстам (Long-Form Question Answering, QA)#

Стандартные системы Question Answering часто испытывают трудности, когда для ответа на вопрос требуется синтезировать информацию, распределенную по всей длинной статье. Удерживая полный текст в памяти, модели на базе Longformer могут выполнять многошаговые рассуждения, связывая факты из разных абзацев для формирования исчерпывающего ответа. Это критически важно для автоматизированных систем технической поддержки и инструментов научных исследований.

Link to this sectionРазграничение ключевых терминов#

  • Longformer против Transformer: Стандартный Transformer использует полное внимание $N^2$, что делает его точным, но вычислительно затратным для длинных входных данных. Longformer использует разреженное внимание $N$, жертвуя пренебрежимо малой долей теоретической емкости ради огромного прироста эффективности, что позволяет подавать на вход 4096 токенов и более.
  • Longformer против Transformer-XL: Хотя оба работают с длинными последовательностями, Transformer-XL полагается на рекуррентный механизм (кэширование предыдущих состояний) для запоминания прошлых сегментов. Longformer обрабатывает длинную последовательность целиком за один раз, что упрощает параллельное обучение на таких платформах, как Ultralytics Platform.
  • Longformer против BigBird: Это очень похожие архитектуры, разработанные примерно в одно и то же время. Оба используют механизмы разреженного внимания для достижения линейного масштабирования. BigBird дополнительно к скользящим окнам внедряет специфический компонент случайного внимания.

Link to this sectionКонцепции реализации#

Хотя Longformer — это архитектура, а не конкретная функция, понимание того, как подготавливать данные для моделей с длинным контекстом, имеет решающее значение. В современных фреймворках, таких как PyTorch, это часто включает управление embeddings, которые выходят за рамки стандартных ограничений.

Следующий пример демонстрирует создание фиктивного входного тензора для сценария с длинным контекстом, противопоставляя его типичному размеру, используемому в стандартных моделях детектирования, таких как YOLO26.

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

Link to this sectionЗначение для компьютерного зрения#

Хотя изначально Longformer был разработан для текста, принципы, лежащие в его основе, повлияли на Computer Vision. Концепция ограничения внимания локальной окрестностью аналогична локализованным операциям в визуальных задачах. Vision Transformers (ViT) сталкиваются с похожими проблемами масштабирования при работе с изображениями высокого разрешения, так как количество пикселей (или патчей) может быть огромным. Методы, производные от разреженного внимания Longformer, используются для повышения эффективности image classification и object detection, помогая таким моделям, как YOLO26, сохранять высокую скорость при обработке детализированных визуальных данных.

Для дальнейшего изучения технических особенностей архитектуры оригинальная статья о Longformer от AllenAI предоставляет подробные бенчмарки и теоретические обоснования. Кроме того, эффективное обучение таких больших моделей часто выигрывает от использования методов mixed precision и передовых optimization algorithms.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения