Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Transformer

Узнайте, как архитектуры Transformer революционизируют искусственный интеллект, обеспечивая прорывы в NLP, компьютерном зрении и передовых задачах машинного обучения.

Transformer — это революционная архитектура нейронной сети, которая стала краеугольным камнем современного искусственного интеллекта (ИИ), особенно в обработке естественного языка (NLP) и, в последнее время, в компьютерном зрении (CV). Представленная исследователями Google в статье 2017 года "Attention Is All You Need", ее ключевым нововведением является механизм самовнимания, который позволяет модели взвешивать важность различных слов или частей входной последовательности. Это позволяет ей более эффективно захватывать долгосрочные зависимости и контекстуальные взаимосвязи, чем предыдущие архитектуры. Конструкция также позволяет осуществлять массовое распараллеливание, что позволяет обучать гораздо более крупные модели на огромных наборах данных, что приводит к появлению больших языковых моделей (LLM).

Как работают трансформеры

В отличие от последовательных моделей, таких как рекуррентные нейронные сети (RNN), Transformers обрабатывают целые последовательности данных одновременно. Основная идея заключается в параллельной обработке всех элементов, что значительно ускоряет обучение на современном оборудовании, таком как GPU.

Чтобы понять порядок последовательности без рекуррентности, Transformers используют метод, называемый позиционным кодированием, который добавляет информацию о положении каждого элемента (например, слова в предложении) в его встраивание. Затем слои само-внимания обрабатывают эти встраивания, позволяя каждому элементу «смотреть» на каждый другой элемент в последовательности и определять, какие из них наиболее важны для понимания его значения. Это глобальное понимание контекста является большим преимуществом для сложных задач. Фреймворки, такие как PyTorch и TensorFlow, обеспечивают широкую поддержку для создания моделей на основе Transformer.

Применение трансформеров

Влияние Transformers охватывает множество областей, стимулируя прогресс как в языковых, так и в визуальных задачах.

  1. Языковой перевод и генерация: Сервисы, такие как Google Translate, используют модели на основе Transformer для высококачественного машинного перевода. Модель может учитывать все исходное предложение, чтобы получить более беглый и точный перевод. Аналогично, такие модели, как GPT-4, превосходно справляются с генерацией текста, понимая контекст для создания связных абзацев, написания статей или поддержки продвинутых чат-ботов.
  2. Компьютерное зрение: Vision Transformer (ViT) адаптирует архитектуру для задач, основанных на изображениях. Он рассматривает изображение как последовательность фрагментов и использует механизм самовнимания для моделирования взаимосвязей между ними. Этот подход используется в таких моделях, как RT-DETR, для обнаружения объектов, где понимание глобального контекста сцены может помочь более точно идентифицировать объекты, особенно в загроможденной среде. Вы можете увидеть сравнение RT-DETR и YOLOv8, чтобы понять их архитектурные различия.

Transformer против других архитектур

Полезно отличать Transformers от других распространенных архитектур нейронных сетей:

  • Transformers vs. RNNs: RNN обрабатывают данные последовательно, что делает их по своей сути медленными и восприимчивыми к проблеме исчезающего градиента, что приводит к тому, что они забывают более раннюю информацию в длинных последовательностях. Transformers преодолевают это с помощью параллельной обработки и самовнимания, захватывая долгосрочные зависимости гораздо эффективнее.
  • Transformers vs. CNNs: Сверточные нейронные сети (CNN) очень эффективны для задач компьютерного зрения, используя сверточные фильтры для выявления локальных закономерностей в сетчатых данных, таких как пиксели. Они являются основой для таких моделей, как семейство Ultralytics YOLO. Transformers, напротив, захватывают глобальные взаимосвязи, но часто требуют больше данных и вычислительных ресурсов. Гибридные модели, которые объединяют основную сеть CNN со слоями Transformer, стремятся получить лучшее из обоих миров.

Эффективные варианты Transformer

Вычислительные затраты исходного механизма self-attention Transformer растут квадратично с увеличением длины последовательности, что затрудняет работу с очень длинными последовательностями. Это привело к разработке более эффективных вариантов.

  • Longformer: Использует механизм внимания скользящего окна в сочетании с глобальным вниманием к определенным токенам для снижения вычислительной сложности.
  • Reformer: Использует такие методы, как хеширование с учетом местоположения, для аппроксимации полного внимания, что делает его более эффективным с точки зрения памяти.
  • Transformer-XL: Представляет механизм рекуррентности, который позволяет модели изучать зависимости за пределами фиксированной длины, что особенно полезно для авторегрессионного языкового моделирования.

Эти достижения продолжают расширять применимость Transformers к новым задачам. Инструменты и платформы, такие как Hugging Face и Ultralytics HUB, упрощают разработчикам доступ и развертывание этих мощных моделей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена