Глоссарий

Модели "последовательность-последовательность

Узнайте, как модели последовательности преобразуют входные данные в выходные последовательности, обеспечивая работу таких задач ИИ, как перевод, чат-боты и распознавание речи.

Модели Sequence-to-Sequence (Seq2Seq) - это класс моделей глубокого обучения, предназначенных для преобразования входной последовательности в выходную, причем длина входной и выходной последовательности может быть разной. Такая гибкость делает их исключительно мощными для широкого круга задач в области обработки естественного языка (NLP) и других. Основная идея была представлена в работах исследователей из Google и лаборатории Йошуа Бенгио, что произвело революцию в таких областях, как машинный перевод.

Принцип работы моделей Seq2Seq

Модели Seq2Seq построены на архитектуре кодер-декодер. Такая структура позволяет модели эффективно работать с последовательностями переменной длины.

  • Кодировщик: Этот компонент обрабатывает всю входную последовательность, например предложение на английском языке. Он считывает последовательность по одному элементу за раз (например, слово за словом) и сжимает информацию в числовое представление фиксированной длины, называемое контекстным вектором или "вектором мыслей". Традиционно кодировщик представляет собой рекуррентную нейронную сеть (RNN) или более продвинутый вариант, такой как длинная кратковременная память (LSTM), которая отлично справляется с захватом последовательной информации.

  • Декодер: Этот компонент получает контекстный вектор от кодера в качестве исходного входного сигнала. Его задача - генерировать выходную последовательность по одному элементу за раз. Например, в задаче перевода он будет генерировать переведенное предложение слово за словом. Выходные данные с каждого шага поступают в декодер на следующем шаге, что позволяет ему генерировать последовательность. Этот процесс продолжается до тех пор, пока не будет получена специальная лексема конца последовательности. Ключевым нововведением, значительно улучшившим производительность Seq2Seq, является механизм внимания, который позволяет декодеру просматривать различные части исходной входной последовательности во время генерации выходного сигнала.

Применение моделей Seq2Seq

Возможность сопоставления входных данных переменной длины с выходными данными переменной длины делает модели Seq2Seq очень универсальными.

  • Машинный перевод: Это квинтэссенция применения. Модель может взять предложение на одном языке (например, "Как дела?") и перевести его на другой (например, "Wie geht es Ihnen?"). Такие сервисы, как Google Translate, активно используют эти принципы.
  • Резюме текста: Модель Seq2Seq может считывать длинную статью или документ (входная последовательность) и генерировать краткое резюме (выходная последовательность). Это полезно для сжатия больших объемов текста в удобоваримые сведения.
  • Чат-боты и разговорный ИИ: модели могут быть обучены генерировать релевантный и контекстный ответ (выходная последовательность) на запрос или утверждение пользователя (входная последовательность).
  • Создание подписей к изображениям: Хотя здесь используется компьютерное зрение, принцип работы схож. CNN выступает в роли кодера, обрабатывающего изображение и создающего вектор контекста, который затем используется декодером для создания описательной текстовой последовательности. Это пример мультимодальной модели.

Seq2Seq в сравнении с другими архитектурами

Хотя модели Seq2Seq, основанные на RNN, были новаторскими, эта область развивалась:

  • Стандартные RNN: Обычно сопоставляют последовательности с последовательностями той же длины или классифицируют целые последовательности, не обладая гибкостью структуры кодер-декодер для переменной длины выходного сигнала.
  • Трансформеры: Сейчас они доминируют во многих задачах НЛП, с которыми раньше справлялись модели Seq2Seq на основе РЯ. В них вместо рекуррентности используется самовнушение и позиционное кодирование, что позволяет лучше распараллеливать и эффективнее отражать дальние зависимости. Однако базовая концепция кодера-декодера остается центральной для многих моделей на основе трансформеров. Такие модели, как RT-DETR от Baidu, поддерживаемые Ultralytics, включают компоненты Transformer для обнаружения объектов.
  • CNN: В основном используются для работы с сетчатыми данными, такими как изображения (например, в моделях Ultralytics YOLO для обнаружения и сегментации), хотя иногда адаптируются для задач, связанных с последовательностью.

Хотя Seq2Seq часто относится к структуре кодер-декодер на основе RNN, общий принцип отображения входных последовательностей в выходные с помощью промежуточного представления остается центральным для многих современных архитектур. Такие инструменты, как PyTorch и TensorFlow, предоставляют строительные блоки для реализации как традиционных, так и современных моделей последовательностей. Управление процессом обучения можно оптимизировать с помощью таких платформ, как Ultralytics HUB, которая упрощает весь конвейер развертывания модели.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена