Глоссарий

Трансформатор

Узнайте, как архитектуры Transformer революционизируют ИИ, обеспечивая прорыв в НЛП, компьютерном зрении и передовых задачах ОД.

Трансформер - это революционная архитектура нейронной сети, которая стала краеугольным камнем современного искусственного интеллекта (ИИ), особенно в области обработки естественного языка (ОЯ) и, в последнее время, компьютерного зрения (КВ). Ключевая инновация, представленная исследователями Google в работе 2017 года "Attention Is All You Need", заключается в механизме самовнимания, который позволяет модели оценивать важность различных слов или частей входной последовательности. Это позволяет ей улавливать дальние зависимости и контекстуальные связи более эффективно, чем предыдущие архитектуры. Кроме того, эта конструкция допускает массовое распараллеливание, что позволяет обучать гораздо более крупные модели на огромных наборах данных, что привело к появлению больших языковых моделей (Large Language Models, LLM).

Как работают трансформеры

В отличие от последовательных моделей, таких как рекуррентные нейронные сети (RNN), трансформеры обрабатывают сразу целые последовательности данных. Основная идея заключается в параллельной обработке всех элементов, что значительно ускоряет обучение на современном оборудовании, таком как графические процессоры.

Чтобы понять порядок последовательности без повторений, трансформеры используют технику, называемую позиционным кодированием, которая добавляет информацию о положении каждого элемента (например, слова в предложении) к его вкраплениям. Затем слои самовнимания обрабатывают эти вкрапления, позволяя каждому элементу "посмотреть" на все остальные элементы в последовательности и определить, какие из них наиболее важны для понимания его смысла. Такое глобальное понимание контекста является важным преимуществом при решении сложных задач. Такие фреймворки, как PyTorch и TensorFlow, предоставляют широкую поддержку для построения моделей на основе трансформаторов.

Применение трансформаторов

Влияние трансформеров распространяется на множество областей, способствуя прогрессу как в языковых, так и в зрительных задачах.

  1. Перевод и генерация языков: Такие сервисы, как Google Translate, используют модели на основе трансформаторов для высококачественного машинного перевода. Модель может учитывать все исходное предложение, чтобы сделать более беглый и точный перевод. Аналогичным образом модели, подобные GPT-4, отлично справляются с созданием текста, понимая контекст, что позволяет создавать связные абзацы, писать статьи или использовать продвинутые чат-боты.
  2. Компьютерное зрение: Vision Transformer (ViT) адаптирует архитектуру для задач, основанных на изображениях. Он рассматривает изображение как последовательность пятен и использует самовнимание для моделирования отношений между ними. Этот подход используется в таких моделях, как RT-DETR, для обнаружения объектов, где понимание глобального контекста сцены может помочь более точно идентифицировать объекты, особенно в загроможденном окружении. Вы можете посмотреть сравнение RT-DETR и YOLOv8, чтобы понять их архитектурные различия.

Трансформер в сравнении с другими архитектурами

Полезно отличать трансформеры от других распространенных архитектур нейронных сетей:

  • Трансформаторы против РНС: RNN обрабатывают данные последовательно, что делает их изначально медленными и подверженными проблеме исчезающего градиента, из-за чего они забывают предыдущую информацию в длинных последовательностях. Трансформаторы преодолевают эту проблему с помощью параллельной обработки и самовнимания, гораздо эффективнее улавливая дальние зависимости.
  • Трансформаторы против CNN: Конволюционные нейронные сети (CNN) очень эффективны для задач зрения, используя конволюционные фильтры для выявления локальных паттернов в данных, похожих на сетку, таких как пиксели. Они лежат в основе таких моделей, как семейство Ultralytics YOLO. Трансформаторы, напротив, выявляют глобальные взаимосвязи, но часто требуют больше данных и вычислительных ресурсов. Гибридные модели, сочетающие в себе основу CNN и слои трансформаторов, стремятся получить лучшее из двух миров.

Варианты эффективных трансформаторов

Вычислительные затраты на полное самовнушение оригинального трансформера растут квадратично с длиной последовательности, что делает его сложным для очень длинных последовательностей. Это привело к разработке более эффективных вариантов.

  • Лонгформер: Использует механизм внимания в виде скользящего окна в сочетании с глобальным вниманием к конкретным лексемам для снижения вычислительной сложности.
  • Реформатор: Использует такие техники, как чувствительное к локальности хеширование, для приближения полного внимания, что делает его более эффективным с точки зрения памяти.
  • Transformer-XL: Внедряет механизм рекуррентности, который позволяет модели изучать зависимости, выходящие за пределы фиксированной длины, что особенно полезно для авторегрессивного моделирования языка.

Эти достижения продолжают расширять возможности применения трансформеров для решения новых задач. Такие инструменты и платформы, как Hugging Face и Ultralytics HUB, облегчают разработчикам доступ и развертывание этих мощных моделей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена