Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Text-to-Video

Explora la IA generativa de texto a video. Aprende cómo los modelos sintetizan contenido dinámico a partir de texto y usa Ultralytics YOLO26 para analizar y rastrear video generado.

Texto a vídeo es una rama avanzada de la IA generativa que se centra en sintetizar contenido de vídeo dinámico directamente a partir de descripciones textuales. Al interpretar prompts de lenguaje natural, estos sistemas generan una secuencia coherente de imágenes que evolucionan con el tiempo, cerrando eficazmente la brecha entre la generación estática de texto a imagen y las películas con movimiento completo. Esta tecnología se basa en complejas arquitecturas de deep learning (DL) para entender no solo la semántica visual de los objetos y escenas (cómo son las cosas), sino también su dinámica temporal (cómo se mueven e interactúan físicamente dentro de un espacio tridimensional). A medida que aumenta la demanda de contenido multimedia enriquecido, Texto a vídeo se perfila como una herramienta fundamental para los creadores, automatizando el laborioso proceso de la animación y la producción de vídeo.

Link to this sectionMecanismos de generación de vídeo#

El proceso de transformar texto en vídeo implica una sinergia entre el procesamiento de lenguaje natural (NLP) y la síntesis de visión artificial. El proceso suele comenzar con un codificador de texto, a menudo basado en la arquitectura Transformer, que convierte el prompt del usuario en embeddings de alta dimensión. Estos embeddings guían a un modelo generativo, como un modelo de difusión o una red generativa adversaria (GAN), para producir fotogramas visuales.

Un desafío crítico en este proceso es mantener la consistencia temporal. A diferencia de la generación de una sola imagen, el modelo debe garantizar que los objetos no parpadeen, se deformen involuntariamente ni desaparezcan entre fotogramas. Para lograr esto, los modelos se entrenan con enormes datasets de pares de vídeo-texto, aprendiendo a predecir cómo deben desplazarse los píxeles con el paso del tiempo. Técnicas como la interpolación de fotogramas se emplean con frecuencia para suavizar el movimiento y aumentar la tasa de fotogramas, lo que a menudo requiere una potencia computacional sustancial de GPUs de gama alta.

Link to this sectionAplicaciones en el mundo real#

La tecnología de Texto a vídeo está transformando industrias al permitir una visualización y creación de contenido rápidas. Dos casos de uso destacados incluyen:

  • Marketing y publicidad: Las marcas utilizan Texto a vídeo para generar presentaciones de productos de alta calidad o contenido para redes sociales a partir de guiones sencillos. Por ejemplo, un especialista en marketing podría producir un vídeo de un "coche deportivo conduciendo a través de una ciudad cyberpunk lluviosa" para probar un concepto visual sin organizar una costosa sesión de rodaje física. Esta capacidad permite la creación de diversos datos sintéticos que también pueden utilizarse para entrenar otros modelos de IA.
  • Previsualización cinematográfica: Los directores y diseñadores de juegos utilizan herramientas como Google's DeepMind Veo para el storyboarding. En lugar de dibujar paneles estáticos, los creadores pueden generar clips de vídeo aproximados para visualizar ángulos de cámara, iluminación y ritmo al instante. Esto acelera el proceso creativo, permitiendo una iteración rápida sobre narrativas complejas antes de comprometerse con la producción final.

Link to this sectionDistinguir la generación del análisis#

Es crucial distinguir entre generar vídeo y analizar vídeo. Texto a vídeo crea nuevos píxeles desde cero basados en un prompt. Por el contrario, el video understanding implica procesar metraje existente para extraer información, como detección de objetos o reconocimiento de acciones.

Mientras que Texto a vídeo depende de modelos generativos, el análisis de vídeo depende de modelos discriminativos como el YOLO26, que está a la vanguardia de la técnica. El fragmento de código a continuación demuestra esto último: cargar un archivo de vídeo (que podría haber sido generado por IA) y analizarlo para rastrear objetos, resaltando la diferencia en el flujo de trabajo.

from ultralytics import YOLO

# Load the official YOLO26 model for analysis (not generation)
model = YOLO("yolo26n.pt")

# Process a video file to track objects across frames
# Ideally, this distinguishes real objects from generated artifacts
results = model.track(source="path/to/generated_video.mp4", show=True)

Link to this sectionConceptos relacionados y desafíos#

Para comprender completamente el alcance de Texto a vídeo, es útil compararlo con términos relacionados en el panorama de la IA:

  • Texto a imagen: Esto genera una instantánea estática. Texto a vídeo añade la dimensión temporal, lo que requiere que el modelo mantenga la coherencia del sujeto a medida que se mueve.
  • Aprendizaje multimodal: Texto a vídeo es inherentemente multimodal, traduciendo datos textuales a medios visuales. Esto es similar al texto a voz, que traduce texto a formas de onda de audio.
  • Visión artificial (CV): Generalmente se refiere a la capacidad de la máquina para "ver" y comprender imágenes. Texto a vídeo es lo inverso: la máquina "imagina" y crea contenido visual.

A pesar de los rápidos avances, siguen existiendo desafíos, incluidos los altos costes computacionales y el potencial de alucinaciones donde el vídeo desafía la física. También existen preocupaciones importantes con respecto a la ética de la IA y la proliferación de deepfakes. Sin embargo, a medida que modelos como Meta Movie Gen evolucionan, podemos esperar una mayor fidelidad y una mejor integración en los flujos de trabajo profesionales gestionados a través de la Plataforma Ultralytics.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático