Узнайте, как архитектуры Transformer революционизируют искусственный интеллект, обеспечивая прорывы в NLP, компьютерном зрении и передовых задачах машинного обучения.
Трансформер - это революционная архитектура нейронной сети, которая использует механизм самовнимания для параллельной обработки входных данных. параллельной обработки входных данных, что значительно революционизирует области обработки естественного языка (NLP) и компьютерного зрения (CV). Впервые она была представлена исследователями Google в основополагающей статье 2017 года "Внимание - это все, что вам нужно", трансформер отказался от последовательной обработки, используемой старыми архитектурами. Вместо этого он анализирует целые последовательности данных одновременно, что позволяет ему улавливать дальние зависимости и контекстные связи с беспрецедентной эффективностью. Эта архитектура служит основой для современного генеративного ИИ и мощных больших языковых моделей (LLM), таких как GPT-4.
Определяющей характеристикой трансформера является его опора на механизм внимания, в частности самовнимание. В отличие от Рекуррентных нейронных сетей (РНС), которые обрабатывают данные шаг за шагом (например, слово за словом), трансформеры воспринимают весь входной сигнал сразу. Чтобы понять порядок данных, они используют позиционные кодировки, которые добавляются к входным эмбеддингам, чтобы сохранить информацию о структуре последовательности.
Архитектура обычно состоит из стеков кодеров и декодеров:
Эта параллельная структура обеспечивает огромную масштабируемость, позволяя исследователям обучать модели на огромных массивах данных с помощью высокопроизводительных графических процессоров.
Хотя изначально архитектура была разработана для работы с текстом, она была успешно адаптирована для решения визуальных задач с помощью Vision Transformer (ViT). В этом подходе, изображение разбивается на последовательность пятен фиксированного размера (подобно словам в предложении). Затем модель использует самовнимание для оценки важности различных патчей относительно друг друга, улавливая глобальный контекст, который традиционные Конволюционные нейронные сети (CNN) может быть упущен.
Например. Трансформатор обнаружения в реальном времени (RT-DETR) использует эту архитектуру для выполнения высокоточных операций. архитектура для высокоточного обнаружения объектов. В отличие от моделей на основе CNN, которые которые полагаются на локальные признаки, RT-DETR может понять взаимосвязь между удаленными объектами в сцене. Однако стоит стоит отметить, что в то время как трансформеры отлично справляются с глобальным контекстом, модели на основе CNN, такие как Ultralytics YOLO11 часто обеспечивают лучший баланс скорости и точности для краевых приложений в реальном времени. Модели сообществ, такие как YOLO12 пытались интегрировать слои с большим вниманием. но часто страдают от нестабильности обучения и низкой скорости вывода по сравнению с оптимизированной архитектурой CNN. YOLO11.
Универсальность архитектуры трансформера привела к его внедрению в различных отраслях промышленности.
Вы можете экспериментировать с моделями компьютерного зрения на основе Transformer напрямую, используя ultralytics пакет.
В следующем примере показано, как загрузить модель RT-DETR для обнаружения объектов.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Важно отличать трансформеры от других распространенных Архитектуры глубокого обучения (DL):
Исследования постоянно улучшают эффективность трансформаторов. Такие инновации, как FlashAttention, снижают вычислительные затраты, что позволяет увеличить длительность контекстных окон. Кроме того, мультимодальные системы искусственного интеллекта объединяют трансформеры с с другими архитектурами для одновременной обработки текста, изображений и аудио. По мере развития этих технологий грядущая платформа Ultralytics Platform обеспечит единую среду для обучения, развертывания, и мониторинга этих сложных моделей наряду со стандартными задач компьютерного зрения.