Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Внимание: раковины

Узнайте, как механизмы поглощения внимания способствуют стабилизации LLM и VLM при генерации бесконечных последовательностей. Научитесь оптимизировать использование памяти и внедрять стабильные ИИ-решения с помощью Ultralytics .

«Поглотители внимания» — это важнейшее явление, обнаруженное в архитектуре современных крупных языковых моделей (LLM) и моделей «зрение-язык» (VLM), которое обеспечивает стабильность при непрерывной генерации длинных текстов или данных. В механизме внимания нейронные сети динамически присваивают «веса» различным частям входных данных. Исследователи заметили, что авторегрессионные модели по своей природе сбрасывают огромное количество избыточных оценок внимания на самые первые несколько токенов последовательности, независимо от их фактического семантического значения. Эти начальные токены действуют как «поглотитель внимания», обеспечивая математический якорь, который предотвращает обвал оценок внимания модели. Постоянно сохраняя эти токены-стоки в кэше KV модели, разработчики могут обеспечить генерацию бесконечных последовательностей без снижения точности или сбоев из-за ограничений памяти.

Как «поглотители внимания» стабилизируют модели

Необходимость в «поглотителях внимания» обусловлена операцией Softmax, используемой в трансформерах. Поскольку сумма оценок внимания всегда должна равняться 1, модели требуется место, куда можно было бы перенаправить избыточное внимание при обработке данных с высокой степенью локализации. Первые токены в запросе естественным образом поглощают этот избыток.

Исторически при генерации очень длинных последовательностей инженеры использовали методы оконного анализа, при которых старые токены удалялись из памяти. Однако удаление начальных токенов приводило к мгновенному падению производительности. Современные реализации, такие как StreamingLLM, явно сохраняют эти начальные токены наряду с самыми последними. Этот высокооптимизированный подход к управлению памятью активно изучается в разработках OpenAI в области компьютерного зрения и исследованияхGoogle , а также изначально поддерживается в PyTorch .

Разграничение связанных понятий внимания

Чтобы полностью понять, как модели ИИ оптимизируют контекст, полезно сравнить механизмы поглощения внимания с другими стратегиями использования памяти и аппаратных средств:

  • «Аттеншн-санкс» против «Аттеншн со скользящим окном»: «Аттеншн со скользящим окном» ограничивает внимание модели фиксированным количеством последних токенов для экономии памяти. Однако при использовании строгого скользящего окна первые токены отбрасываются, что приводит к нестабильности. «Аттеншн-санкс» исправляют эту ситуацию, закрепляя окно за счет этих важнейших первых токенов.
  • «Attention sinks» и «Flash Attention»: «Flash Attention» — это оптимизация на аппаратном уровне, которая ускоряет чтение и запись данных в памяти GPU. «Attention sinks», напротив, представляют собой архитектурное решение, определяющее, какие токены необходимо сохранять в памяти для обеспечения логической стабильности.

Применение в реальном мире

Открытие «поглотителей внимания» открыло возможности для высокоэффективной непрерывной обработки данных в различных отраслях.

  1. Агенты искусственного интеллекта и чат-боты, поддерживающие непрерывный диалог: благодаря сохранению «точек привязки» агент ИИ или бот службы поддержки может вести бесперерывный диалог в течение нескольких часов. Он выборочно «забывает» промежуточные фрагменты, сохраняя при этом начальную точку привязки и недавний контекст, что позволяет избежать ошибок, связанных с нехваткой памяти, и при этом сохранить связность разговора.
  2. Анализ видео в реальном времени: в системах интеллектуального видеонаблюдения и непрерывного мониторинга крайне важно обеспечить стабильное окно контекста. Модели способны анализировать непрерывные видеопотоки в течение нескольких дней, демонстрируя эффективность, сопоставимую с архитектурами машинного зрения, оптимизированными для периферийных устройств.

Реализация эффективного непрерывного вывода

Хотя механизмы поглощения внимания в первую очередь оптимизируют работу масштабных генеративных моделей, применение эффективных циклов инференса с оптимизацией использования памяти имеет универсальное значение в области компьютерного зрения (CV). При обработке непрерывных видеопотоков с помощью Ultralytics использование генераторов Python обеспечивает стабильность использования памяти в течение длительного времени, что сродни управлению локальным контекстным окном.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for efficient, real-time edge processing
model = YOLO("yolo26n.pt")

# Process a continuous video stream efficiently without memory overflow
results = model.predict(source="rtsp://continuous_camera_stream", stream=True)

# Iterate through the generator to maintain a stable memory footprint over time
for frame_result in results:
    print(f"Detected {len(frame_result.boxes)} objects in the current frame.")

Для масштабирования этих эффективных конвейеров непрерывного обнаружения объектов в корпоративной среде требуются надежные инструменты управления. Разработчики могут использовать Ultralytics для упрощения развертывания моделей и автоматизации управления наборами данных, что позволяет командам с легкостью создавать стабильные приложения машинного зрения, рассчитанные на длительную эксплуатацию.

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения