Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Diffusion Transformer (DiT)

Descubre cómo los Diffusion Transformers (DiT) fusionan transformadores con modelos de difusión para una síntesis de alta fidelidad. Aprende sobre el escalado, Sora y Ultralytics YOLO26.

Un Diffusion Transformer (DiT) es una arquitectura generativa avanzada que fusiona el poder de procesamiento secuencial de los transformers con las capacidades de síntesis de imágenes de alta fidelidad de los diffusion models. Tradicionalmente, los sistemas basados en difusión dependían en gran medida de arquitecturas U-Net convolucionales para eliminar el ruido de las entradas de forma iterativa y generar imágenes. Los DiT reemplazan esta base U-Net con una arquitectura de transformador escalable, tratando los datos visuales como una secuencia de parches, de manera similar a como un Vision Transformer (ViT) analiza las imágenes. Este cambio de paradigma permite que los modelos se escalen de forma más predecible, aprovechando el aumento de los recursos computacionales para producir resultados cada vez más fotorrealistas y coherentes.

Link to this sectionDiferenciación entre DiT y modelos de difusión tradicionales#

Aunque los modelos de difusión tradicionales son fundamentales para la Generative AI moderna, sus bases U-Net a menudo se enfrentan a cuellos de botella al escalar a recuentos de parámetros masivos. Por el contrario, los Diffusion Transformers heredan de forma nativa las leyes de escala observadas en los Large Language Models (LLMs). Al eliminar los sesgos de submuestreo espacial y utilizar mecanismos de autoatención global, un DiT aprende relaciones espaciales complejas en toda la imagen o fotograma de vídeo. Para profundizar en los orígenes de este comportamiento de escalado, puedes revisar el artículo de investigación original sobre DiT publicado en arXiv que estableció estos puntos de referencia de eficiencia.

Link to this sectionAplicaciones en el mundo real#

La flexibilidad y escalabilidad de los Diffusion Transformers han provocado avances significativos en varios sectores de la computer vision:

  1. Generación de vídeo de alta fidelidad: La aplicación más destacada de la arquitectura DiT se encuentra en los modelos de texto a vídeo, como el modelo Sora de OpenAI. Al comprender la consistencia temporal y el espacio 3D, los DiT pueden sintetizar clips de vídeo hiperrealistas de un minuto de duración que mantienen la lógica física fotograma a fotograma, revolucionando la creación de contenido digital y los efectos visuales.

  2. Síntesis de imágenes avanzada: En el diseño comercial y la generación de arte por artificial intelligence, los DiT proporcionan una fidelidad de texto a imagen sin precedentes. Son utilizados por agencias creativas para generar recursos de marketing altamente precisos, renderizando prompts complejos con tipografía precisa y realismo compositivo que los modelos U-Net anteriores tenían dificultades para lograr.

Link to this sectionImplementación de conceptos de Transformer#

Aunque los DiT se utilizan principalmente para tareas generativas pesadas, puedes explorar los mecanismos de autoatención fundamentales de los que dependen utilizando bibliotecas estándar de deep learning. El siguiente fragmento de código de Python utiliza PyTorch para demostrar cómo se procesan los parches de imagen aplanados a través de una capa de transformador, una operación central dentro de una red DiT.

import torch
import torch.nn as nn

# Define a standard Transformer layer acting as a DiT building block
transformer_layer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

# Simulate flattened latent image patches (Sequence Length, Batch Size, Features)
latent_patches = torch.rand(196, 1, 256)

# Apply self-attention to process and relate patches globally
output_features = transformer_layer(latent_patches)
print(f"Processed feature shape: {output_features.shape}")

Para obtener detalles técnicos completos sobre las capas de atención, la documentación de PyTorch sobre módulos Transformer ofrece un excelente punto de partida.

Link to this sectionTendiendo puentes entre la generación y la detección#

Los Diffusion Transformers representan la vanguardia de la generación de contenido, pero muchos flujos de trabajo empresariales requieren un análisis visual en tiempo real en lugar de síntesis. Para tareas que exigen una inferencia de alta velocidad, como la object detection y la image segmentation, los modelos ligeros optimizados para el borde siguen siendo el estándar de la industria.

Ultralytics YOLO26 está diseñado precisamente para estas computer vision tasks analíticas. Ofrece una velocidad y precisión inigualables de forma nativa desde el primer momento, evitando la carga computacional pesada requerida por los transformadores generativos masivos. Para pasar sin esfuerzo de la creación de conjuntos de datos a la implementación de nivel empresarial, los desarrolladores confían en la Ultralytics Platform, una solución integral para la gestión de canalizaciones de IA visual robustas. Para obtener una perspectiva más amplia sobre cómo se comparan los modelos generativos y los modelos analíticos, el Machine Learning Crash Course de Google ofrece un excelente contexto fundamental.

Explore solutions

Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático