Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Medusa Heads

Узнай, как «головы Медузы» (Medusa heads) ускоряют декодирование LLM. Изучи, как эта многоголовая архитектура позволяет параллельно предсказывать токены для снижения задержки при ИИ-инференсе.

В современном машинном обучении, особенно в архитектуре больших языковых моделей, этот термин обозначает инновационный фреймворк декодирования, разработанный для ускорения генерации текста. Вдохновленные мифическим существом со змеями вместо волос, эти архитектуры используют несколько декодирующих голов, присоединенных к одной замороженной базовой модели. Такая структура позволяет сети предсказывать несколько последующих токенов одновременно, вместо того чтобы полагаться исключительно на пошаговую авторегрессионную генерацию. Создавая черновики нескольких будущих вариантов параллельно, системы могут значительно снизить задержку вывода без необходимости использования отдельной, меньшей модели для черновиков.

Link to this sectionПонимание архитектуры#

Традиционная генерация языка опирается на авторегрессионный процесс, где модель предсказывает следующее слово на основе последовательности предыдущих слов. Несмотря на точность, такая последовательная обработка создает узкие места в вычислительной скорости, что является проблемой, хорошо описанной в недавних исследованиях Stanford NLP Group. Фреймворк Medusa обходит это ограничение путем добавления дополнительных голов нейронной сети к последнему скрытому состоянию модели.

Каждая из этих дополнительных голов обучена предсказывать токен в разной будущей позиции. Во время генерации эти головы создают дерево вероятных последовательностей токенов. Механизм древовидного внимания затем проверяет эти последовательности одновременно. Если предсказания совпадают с ожиданиями базовой модели, несколько токенов принимаются за один прямой проход. Этот метод является высокоэффективной формой спекулятивного декодирования, а детали его фундаментальных механизмов можно изучить в современных научных статьях на arXiv.

Link to this sectionРеальные применения в ИИ#

Возможности параллельного предсказания этой архитектуры особенно ценны в сценариях, требующих быстрого вывода в реальном времени с большими объемами данных.

  • Разговорные агенты реального времени: Продвинутые боты службы поддержки, работающие на базе генеративных моделей OpenAI или фреймворка Claude от Anthropic, полагаются на низкую задержку ответов для поддержания естественного хода беседы. Предсказывая сразу несколько токенов, эти агенты могут транслировать текст пользователям значительно быстрее.
  • Инструменты автодополнения кода: Среды программирования с поддержкой ИИ используют эти многоголовые архитектуры, чтобы мгновенно предлагать целые строки или блоки кода. Поскольку код имеет высокопредсказуемые синтаксические структуры, параллельные головы могут точно подготавливать черновики замыканий функций или циклов, повышая эффективность разработчика.

Link to this sectionРазграничение похожих архитектурных терминов#

Хотя они имеют концептуальное сходство, важно отличать этот специфический для NLP термин от структурных компонентов, встречающихся в системах компьютерного зрения.

  • Детектирующая голова: В моделях зрения, таких как современные Ultralytics YOLO26, «голова» относится к последним слоям сети, отвечающим за вывод пространственных предсказаний, таких как ограничивающие рамки (bounding boxes) и вероятности классов для обнаружения объектов.
  • Голова Medusa: Напротив, этот термин применяется конкретно к обработке естественного языка и визуально-языковым моделям, где целью является предсказание последовательных токенов параллельно, чтобы обойти авторегрессионные узкие места.

Link to this sectionРеализация многоголовых структур#

Независимо от того, создаешь ли ты головы для пространственных предсказаний в компьютерном зрении или параллельные предикторы токенов для текста, многоголовые структуры имеют общие принципы реализации с использованием низкоуровневых библиотек, таких как PyTorch. Следующий фрагмент кода демонстрирует, как создать простой многоголовый модуль, который обрабатывает общее представление признаков через несколько параллельных слоев.

import torch
import torch.nn as nn


class ParallelHeads(nn.Module):
    def __init__(self, hidden_dim, num_heads):
        super().__init__()
        # Shared backbone representation
        self.base = nn.Linear(128, hidden_dim)
        # Multiple parallel heads predicting concurrent states
        self.heads = nn.ModuleList([nn.Linear(hidden_dim, 50) for _ in range(num_heads)])

    def forward(self, x):
        features = torch.relu(self.base(x))
        # Return predictions from all heads simultaneously
        return [head(features) for head in self.heads]


model = ParallelHeads(hidden_dim=64, num_heads=3)
predictions = model(torch.randn(1, 128))

Чтобы упростить разработку и развертывание сложных многослойных моделей в производственных средах, разработчики часто используют комплексные системы, такие как платформа Ultralytics. Это позволяет командам беспрепятственно управлять вариантами развертывания моделей, гарантируя, что архитектуры, оптимизированные по скорости — будь то с помощью спекулятивного декодирования или эффективных голов обнаружения в компьютерном зрении — надежно работают в реальных условиях. Для получения дополнительной информации об оптимизации рабочих процессов машинного обучения ты можешь ознакомиться с публикациями Google DeepMind или изучить материалы цифровой библиотеки ACM.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения