Глоссарий

Transformer

Узнайте, как архитектуры Transformer революционизируют искусственный интеллект, обеспечивая прорывы в NLP, компьютерном зрении и передовых задачах машинного обучения.

Трансформер - это революционная архитектура нейронной сети, которая использует механизм самовнимания для параллельной обработки входных данных. параллельной обработки входных данных, что значительно революционизирует области обработки естественного языка (NLP) и компьютерного зрения (CV). Впервые она была представлена исследователями Google в основополагающей статье 2017 года "Внимание - это все, что вам нужно", трансформер отказался от последовательной обработки, используемой старыми архитектурами. Вместо этого он анализирует целые последовательности данных одновременно, что позволяет ему улавливать дальние зависимости и контекстные связи с беспрецедентной эффективностью. Эта архитектура служит основой для современного генеративного ИИ и мощных больших языковых моделей (LLM), таких как GPT-4.

Архитектура и механизм ядра

Определяющей характеристикой трансформера является его опора на механизм внимания, в частности самовнимание. В отличие от Рекуррентных нейронных сетей (РНС), которые обрабатывают данные шаг за шагом (например, слово за словом), трансформеры воспринимают весь входной сигнал сразу. Чтобы понять порядок данных, они используют позиционные кодировки, которые добавляются к входным эмбеддингам, чтобы сохранить информацию о структуре последовательности.

Архитектура обычно состоит из стеков кодеров и декодеров:

Кодировщик: Обрабатывает входные данные для создания контекстного понимания.
Декодер: Использует данные кодировщика для создания выходных данных, таких как переведенный текст или предсказанные пиксели изображения.

Эта параллельная структура обеспечивает огромную масштабируемость, позволяя исследователям обучать модели на огромных массивах данных с помощью высокопроизводительных графических процессоров.

Трансформеры в компьютерном зрении

Хотя изначально архитектура была разработана для работы с текстом, она была успешно адаптирована для решения визуальных задач с помощью Vision Transformer (ViT). В этом подходе, изображение разбивается на последовательность пятен фиксированного размера (подобно словам в предложении). Затем модель использует самовнимание для оценки важности различных патчей относительно друг друга, улавливая глобальный контекст, который традиционные Конволюционные нейронные сети (CNN) может быть упущен.

Например. Трансформатор обнаружения в реальном времени (RT-DETR) использует эту архитектуру для выполнения высокоточных операций. архитектура для высокоточного обнаружения объектов. В отличие от моделей на основе CNN, которые которые полагаются на локальные признаки, RT-DETR может понять взаимосвязь между удаленными объектами в сцене. Однако стоит стоит отметить, что в то время как трансформеры отлично справляются с глобальным контекстом, модели на основе CNN, такие как Ultralytics YOLO11 часто обеспечивают лучший баланс скорости и точности для краевых приложений в реальном времени. Модели сообществ, такие как YOLO12 пытались интегрировать слои с большим вниманием. но часто страдают от нестабильности обучения и низкой скорости вывода по сравнению с оптимизированной архитектурой CNN. YOLO11.

Применение в реальном мире

Универсальность архитектуры трансформера привела к его внедрению в различных отраслях промышленности.

Анализ медицинских изображений: В здравоохранении трансформеры помогают анализ медицинских изображений путем сопоставления характеристик на снимках высокого разрешения (например, МРТ или КТ) для detect аномалий, таких как опухоли. Их способность понимать глобального контекста, что позволяет не упустить из виду тонкие закономерности.
Автономная навигация: Самоуправляемые автомобили используют модели на основе трансформеров для обработки видеосигналов с нескольких камер. нескольких камер. Это помогает в понимание видео и предсказание траектории движения отслеживая, как динамические объекты (пешеходы, другие транспортные средства) взаимодействуют с течением времени.
Продвинутые чатботы: Виртуальные помощники и агенты поддержки клиентов полагаются на трансформеры для сохранения контекста во время длительных разговоров, что значительно повышает удобство использования по сравнению со старыми чат-ботами. чатботами.

Использование трансформаторов с Ultralytics

Вы можете экспериментировать с моделями компьютерного зрения на основе Transformer напрямую, используя ultralytics пакет. В следующем примере показано, как загрузить модель RT-DETR для обнаружения объектов.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Трансформеры в сравнении с другими архитектурами

Важно отличать трансформеры от других распространенных Архитектуры глубокого обучения (DL):

Трансформеры против РНС/ЛСТМ: RNN страдают от проблемой исчезающего градиента, из-за чего они забывают раннюю информацию в длинных последовательностях. Трансформаторы решают эту проблему с помощью самовнимания, сохраняя доступ ко всей истории последовательности.
Трансформаторы против CNN: CNN инвариантны к переводу и отлично справляются с обнаружением локальных паттернов (края, текстуры) с помощью основы, что делает их высокоэффективными эффективными для задач, связанных с изображениями. Трансформаторы изучают глобальные взаимосвязи, но обычно требуют больше данных и вычислительных мощностей для сходимости. Современные подходы часто создают гибридные модели или используют эффективные CNN, такие как YOLO11 которые превосходят чистые трансформеры в ограниченных средах.

Перспективы на будущее

Исследования постоянно улучшают эффективность трансформаторов. Такие инновации, как FlashAttention, снижают вычислительные затраты, что позволяет увеличить длительность контекстных окон. Кроме того, мультимодальные системы искусственного интеллекта объединяют трансформеры с с другими архитектурами для одновременной обработки текста, изображений и аудио. По мере развития этих технологий грядущая платформа Ultralytics Platform обеспечит единую среду для обучения, развертывания, и мониторинга этих сложных моделей наряду со стандартными задач компьютерного зрения.

Transformer

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Архитектура и механизм ядра

Трансформеры в компьютерном зрении

Применение в реальном мире

Использование трансформаторов с Ultralytics

Трансформеры в сравнении с другими архитектурами

Перспективы на будущее

Читать больше в этой категории

Будущие тенденции в области обнаружения объектов: 7 ключевых моментов, на которые следует обратить внимание

Улучшение повторной идентификации транспортных средств с помощью моделей Ultralytics YOLO

Улучшение прогнозирования столкновений с помощью моделей Ultralytics YOLO

Присоединяйтесь к сообществу Ultralytics