Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Diffusion Transformer (DiT)

Узнай, как Diffusion Transformers (DiT) объединяют трансформеры с диффузионными моделями для высококачественного синтеза. Изучи масштабирование, Sora и Ultralytics YOLO26.

Diffusion Transformer (DiT) — это продвинутая генеративная архитектура, которая объединяет вычислительную мощность transformers при последовательной обработке с возможностями высококачественного синтеза изображений diffusion models. Традиционно системы на базе диффузии сильно полагались на сверточные архитектуры U-Net для итеративного удаления шума из входных данных и генерации изображений. DiT заменяют этот бэкенд U-Net масштабируемой архитектурой трансформера, обрабатывая визуальные данные как последовательность патчей, подобно тому, как Vision Transformer (ViT) анализирует изображения. Эта смена парадигмы позволяет моделям масштабироваться более предсказуемо, используя возросшие вычислительные ресурсы для получения все более фотореалистичных и связных результатов.

Link to this sectionРазличия между DiT и традиционными диффузионными моделями#

Хотя традиционные диффузионные модели являются фундаментом современного Generative AI, их бэкенды U-Net часто сталкиваются с узкими местами при масштабировании до огромного количества параметров. Напротив, Diffusion Transformers естественным образом наследуют законы масштабирования, наблюдаемые в Large Language Models (LLMs). Устраняя смещения пространственной понижающей дискретизации и используя механизмы глобального self-attention, DiT изучает сложные пространственные взаимосвязи во всем изображении или кадре видео. Чтобы глубже погрузиться в истоки этого поведения масштабирования, ты можешь ознакомиться с оригинальной исследовательской работой по DiT, опубликованной на arXiv, которая установила эти эталоны эффективности.

Link to this sectionРеальные применения#

Гибкость и масштабируемость Diffusion Transformers вызвали значительные прорывы в различных секторах computer vision:

  1. Генерация видео высокого качества: Наиболее заметное применение архитектуры DiT встречается в моделях преобразования текста в видео, таких как модель Sora от OpenAI. Понимая временную согласованность и 3D-пространство, DiT могут синтезировать минутные гиперреалистичные видеоклипы, которые сохраняют физическую логику кадр за кадром, совершая революцию в создании цифрового контента и визуальных эффектах.

  2. Продвинутый синтез изображений: В коммерческом дизайне и генерации искусства с помощью artificial intelligence модели DiT обеспечивают беспрецедентную точность преобразования текста в изображение. Они используются креативными агентствами для создания высокоточных маркетинговых материалов, отображая сложные промпты с точной типографикой и композиционным реализмом, которого раньше трудно было добиться с помощью моделей U-Net.

Link to this sectionРеализация концепций трансформеров#

Хотя DiT в основном используются для тяжелых генеративных задач, ты можешь изучить фундаментальные механизмы self-attention, на которых они основаны, используя стандартные библиотеки deep learning. Следующий фрагмент на Python использует PyTorch, чтобы продемонстрировать, как сплющенные патчи изображений обрабатываются через слой трансформера — ключевую операцию в сети DiT.

import torch
import torch.nn as nn

# Define a standard Transformer layer acting as a DiT building block
transformer_layer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

# Simulate flattened latent image patches (Sequence Length, Batch Size, Features)
latent_patches = torch.rand(196, 1, 256)

# Apply self-attention to process and relate patches globally
output_features = transformer_layer(latent_patches)
print(f"Processed feature shape: {output_features.shape}")

Для получения исчерпывающих технических деталей о слоях внимания документация PyTorch по модулям Transformer является отличной отправной точкой.

Link to this sectionСоединяя генерацию и обнаружение#

Diffusion Transformers представляют собой передний край генерации контента, но многие корпоративные рабочие процессы требуют анализа визуальных данных в реальном времени, а не синтеза. Для задач, требующих высокоскоростного вывода, таких как object detection и image segmentation, легкие модели, оптимизированные для периферийных устройств, остаются отраслевым стандартом.

Ultralytics YOLO26 разработан именно для этих аналитических computer vision tasks. Он обеспечивает непревзойденную скорость и точность «из коробки», избегая тяжелых вычислительных затрат, необходимых для массивных генеративных трансформеров. Чтобы без усилий перейти от создания наборов данных к развертыванию корпоративного уровня, разработчики полагаются на Ultralytics Platform, комплексное решение для управления надежными конвейерами визуального ИИ. Для более широкого взгляда на сравнение генеративных и аналитических моделей ускоренный курс по машинному обучению от Google предлагает отличный базовый контекст.

Explore solutions

Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения