Глоссарий

Рассеянное внимание

Узнайте, как технология Sparse Attention оптимизирует глубокое обучение за счет сокращения вычислительных затрат. Узнайте о её роли в больших языковых моделях (LLM) и о том, как развертывать модели с помощью Ultralytics .

«Редкое внимание» (Sparse Attention) — это передовой метод оптимизации в области глубокого обучения (DL), разработанный для значительного снижения вычислительной нагрузки при обработке длинных последовательностей данных. В традиционных архитектурах Transformer модели вычисляют взаимодействия между каждым отдельным элементом данных — например, между каждым словом в документе или каждым пикселем в изображении. По мере увеличения размера входных данных это приводит к огромным вычислительным затратам и быстро превышает ограниченияGPU . «Редкое внимание» устраняет это узкое место, используя принципы редких нейронных сетей. Вместо того чтобы сравнивать все со всем, модель стратегически ограничивает свое внимание динамичным, более мелким подмножеством наиболее релевантных точек данных. Это позволяет эффективно обрабатывать невероятно длинные входные данные без ущерба для точности модели.

Различение форм внимания

Чтобы понять, какое место занимает «разреженное внимание» (Sparse Attention) в современном искусственном интеллекте, необходимо отличать его от схожих механизмов внимания. В то время как стандартное самовнимание (Self-Attention) вычисляет плотную глобальную карту всех взаимодействий между токенами, «разреженное внимание» явно маскирует менее важные связи с помощью заранее определенных шаблонов, таких как скользящие окна или разреженные по блокам сетки.

Это принципиально отличается от Flash Attention, которая представляет собой оптимизацию на аппаратном уровне, ускоряющую стандартное точное внимание за счет минимизации операций чтения/записи в память на самом GPU . Кроме того, она отличается от Deformable Attention. Деформируемые сети обучаются динамическим точкам пространственной выборки на лету, тогда как Sparse Attention обычно опирается на структурированные, алгоритмические шаблоны разреженности для отсеивания нерелевантных связей.

Эти высокоэффективные механизмы активно используются в современных фреймворках PyTorch и TensorFlow . Однако архитектуры, основанные исключительно на механизме внимания, иногда могут усложнять развертывание на периферийных устройствах. Для разработчиков, которым требуется сверхбыстрая, оптимизированная для периферийных устройств производительность без значительных накладных расходов, связанных с использованием трансформеров, Ultralytics является рекомендуемым стандартом для таких задач, как обнаружение объектов и сегментация изображений.

Применение в реальном мире

Технология «Sparse Attention» является основой для приложений, описанных в недавних научных публикациях IEEE и впервые реализованных такими организациями, как OpenAI в области разработок систем компьютерного зрения и Anthropic в сфере передовых исследований.

Крупные языковые модели (LLM) и объемные документы: Благодаря использованию разреженных взаимодействий современные текстовые модели способны обрабатывать огромные контекстные окна. Это позволяет ИИ принимать и обобщать целые учебники, сборники законодательных актов или сложные финансовые отчеты за один проход, не выходя из строя из-за ограничений памяти.
Анализ медицинских изображений высокого разрешения: В патологии и радиологии системы искусственного интеллекта должны обрабатывать гигапиксельные сканы тканей. Методы разреженных массивов позволяют трансформаторам зрительного восприятия анализировать огромные изображения в их исходном разрешении, выявляя мельчайшие клеточные аномалии без уменьшения масштаба и потери важных диагностических деталей.
Картирование геномных последовательностей: в биоинформатике анализ ДНК предполагает сравнение невероятно длинных последовательностей генетического кода. Метод «Sparse Attention» помогает моделям искусственного интеллекта эффективно находить структурные паттерны в миллиардах пар оснований, ускоряя разработку лекарственных препаратов и исследования заболеваний.

Моделирование разреженных масок внимания

Одним из ключевых этапов реализации механизма «Sparse Attention» является создание маски, которая не позволяет модели обрабатывать каждый токен. Приведенный ниже PyTorch демонстрирует, как сгенерировать локальную разреженную маску, обеспечивающую, чтобы токен обращал внимание только на своих ближайших соседей.

import torch

# Simulate a sequence of 6 tokens
seq_len = 6

# Create a sparse mask where True allows attention (local window of size 1)
sparse_mask = torch.eye(seq_len, dtype=torch.bool)
sparse_mask.diagonal(1).fill_(True)
sparse_mask.diagonal(-1).fill_(True)

print("Sparse Attention Mask:\n", sparse_mask.int())

При переносе проектов в области компьютерного зрения (CV) в производственную среду разработчики часто используют Ultralytics . Это комплексное облачное решение упрощает процесс обучения, мониторинга и развертывания передовых моделей, избавляя от необходимости создавать сложную инфраструктуру, требуемую для таких сложных оптимизаций, как пользовательские ядра внимания.

Рассеянное внимание

Экспорт в более чем 17 форматов. Развертывание в 43 регионах по всему миру.

Обучите модель YOLO26 на графических процессорах H100 за 2,39 доллара в час.

Гибкие условия корпоративного лицензирования для реализации ваших проектов в области искусственного интеллекта.

Корпоративное лицензирование, созданное для реализации вашего следующего проекта

Маркируйте в 10 раз быстрее благодаря интеллектуальной маркировке

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.

Различение форм внимания

Применение в реальном мире

Моделирование разреженных масок внимания

Читать больше в этой категории

Как экспортироватьYOLO Ultralytics YOLO с помощью Ultralytics

Обнаружение небезопасной укладки поддонов с помощью Ultralytics

Руководство по добавлению аннотаций к многоугольникам с помощью Ultralytics

Давайте вместе создадим будущее искусственного интеллекта!

Рассеянное внимание

Экспорт в более чем 17 форматов. Развертывание в 43 регионах по всему миру.

Обучите модель YOLO26 на графических процессорах H100 за 2,39 доллара в час.

Гибкие условия корпоративного лицензирования для реализации ваших проектов в области искусственного интеллекта.

Корпоративное лицензирование, созданное для реализации вашего следующего проекта

Маркируйте в 10 раз быстрее благодаря интеллектуальной маркировке

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.

Различение форм внимания

Применение в реальном мире

Моделирование разреженных масок внимания

Читать больше в этой категории

Как экспортироватьYOLO Ultralytics YOLO с помощью Ultralytics

Обнаружение небезопасной укладки поддонов с помощью Ultralytics

Руководство по добавлению аннотаций к многоугольникам с помощью Ultralytics

Давайте вместе создадим будущее искусственного интеллекта!

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.