Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Обратите внимание

Узнайте, как Ring Attention позволяет масштабировать трансформеры до бесконечной длины последовательностей. Узнайте, как эта техника улучшает работу больших языковых моделей (LLM) и Vision Transformers при обработке огромных объемов данных.

Ring Attention — это передовой метод машинного обучения (ML), разработанный для масштабирования контекстного окна архитектур Transformer до практически бесконечной длины последовательностей. Распределяя сложные вычисления внимания по кластеру графических процессоров, соединенных по кольцевой топологии, эта технология эффективно совмещает коммуникацию с вычислениями. Этот архитектурный прорыв позволяет большим языковым моделям (LLM) и Vision Transformers (ViT) обрабатывать огромные входные данные — такие как целые книги или часы непрерывного видео — которые значительно превышают объем памяти любого отдельного аппаратного устройства.

Преодоление барьера контекстного окна

В стандартных механизмах самовнимания объем занимаемой памяти растёт пропорционально квадрату длины входной последовательности. Это создаёт серьёзное препятствие для моделей глубокого обучения (DL), пытающихся анализировать длинные данные. Чтобы узнать больше о том, как сообщество ИИ решает эту проблему, вы можете ознакомиться с работами Berkeley AI Research, посвящёнными моделям с большим контекстом.

Ring Attention устраняет это «квадратичное» узкое место, разбивая запросы, ключи и значения на более мелкие блоки. Каждый GPU распределенной сети обрабатывает один блок, а затем передает ключи и значения соседнему устройству в кольце. Такая циклическая передача продолжается до тех пор, пока не будет вычислен весь механизм внимания. Использование таких инструментов, как пакетPyTorch коммуникацииPyTorch , позволяет разработчикам создавать эти сложные конвейеры обучения с участием нескольких устройств.

Внимание к кольцу против внимания к вспышке

Хотя обе техники оптимизируют использование памяти, они работают на разных уровнях. Flash Attention — это алгоритм, учитывающий особенности аппаратного обеспечения, который минимизирует ресурсоемкие операции чтения и записи в SRAM одного GPU. Напротив, Ring Attention — это распределенный алгоритм, ориентированный на масштабирование вычислений на несколько графических процессоров. В современных рабочих процессах генеративного ИИ эти две техники часто комбинируются для достижения как локальной аппаратной эффективности, так и масштабируемости на множество устройств, как подробно описано в оригинальной исследовательской статье о Ring Attention на arXiv.

Применение в реальном мире

Возможность одновременной обработки миллионов токенов открывает широкие перспективы для современного искусственного интеллекта:

  1. Комплексный анализ документов и кодовой базы: Ring Attention позволяет моделям обрабатывать миллионы строк кода или сложные юридические библиотеки в рамках одного запроса. Это значительно улучшает работу систем, основанных на технологии RAG (Retrieval Augmented Generation), позволяя им синтезировать контекст без упущения важной информации. Эта концепция лежит в основе масштабных контекстных моделей, таких как архитектура GeminiGoogle.
  2. Расширенное понимание видео: В области компьютерного зрения (CV) обработка видеопотоков с высоким разрешением обычно требует значительного понижения разрешения. Технология Ring Attention позволяет моделям анализировать несжатые видеопотоки продолжительностью до часа. Это улучшает распознавание действий и непрерывное отслеживание объектов в системах безопасности и системах автономного вождения, обеспечивая сохранение временной ориентации на протяжении длительных периодов времени.

Обработка видеопотоков

В то время как масштабные распределенные модели с механизмом внимания обрабатывают бесконечные контексты, практические приложения, ориентированные на периферийные устройства, требуют высокооптимизированных архитектур. Для вычислений в реальном времени и обработки визуальных последовательностей Ultralytics обеспечивает лучшую в отрасли производительность без чрезмерных вычислительных затрат, характерных для трансформеров, основанных исключительно на механизме внимания.

from ultralytics import YOLO

# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")

# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)

# Iterate through the stream to process temporal tracking data
for frame_result in results:
    print(f"Tracked {len(frame_result.boxes)} objects in current frame.")

При создании и масштабировании этих сложных решений для обнаружения объектов и сегментации изображений управление оркестрацией аппаратных ресурсов имеет решающее значение. Ultralytics полностью упрощает этот процесс, предлагая инструменты для беспрепятственного обучения в облаке, автоматической аннотации наборов данных и развертывания моделей одним щелчком мыши в различных аппаратных средах. Использование этих платформ гарантирует плавный переход передовых технологий масштабирования из научно-исследовательской сферы в масштабируемые, готовые к производственному использованию ИИ-конвейеры.

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения