Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Video Understanding

Explora cómo la comprensión de vídeo analiza las dinámicas temporales para interpretar acciones. Aprende a implementar seguimiento en tiempo real con Ultralytics YOLO26 para IA avanzada.

La comprensión de vídeo es una rama sofisticada de la visión artificial (CV) centrada en permitir que las máquinas perciban, analicen e interpreten datos visuales a lo largo del tiempo. A diferencia del reconocimiento de imágenes estándar, que procesa instantáneas estáticas de forma aislada, la comprensión de vídeo implica analizar secuencias de fotogramas para captar la dinámica temporal, el contexto y las relaciones causales. Al procesar la "cuarta dimensión" del tiempo, los sistemas de IA pueden ir más allá de la simple identificación de objetos para comprender acciones, eventos y la narrativa que se desarrolla dentro de una escena. Esta capacidad es esencial para crear sistemas inteligentes que puedan interactuar de forma segura y eficaz en entornos dinámicos del mundo real.

Link to this sectionComponentes principales del análisis de vídeo#

Para interpretar correctamente el contenido de vídeo, los modelos deben sintetizar dos tipos principales de información: características espaciales (qué hay en el fotograma) y características temporales (cómo cambian las cosas). Esto requiere una arquitectura compleja que a menudo combina múltiples estrategias de redes neuronales.

  • Redes neuronales convolucionales (CNN): Estas redes suelen servir como estructura espacial, extrayendo características visuales como formas, texturas y objetos de fotogramas individuales.
  • Redes neuronales recurrentes (RNN): Las arquitecturas como las unidades de memoria a corto y largo plazo (LSTM) se utilizan para procesar la secuencia de características extraídas por la CNN, lo que permite al modelo "recordar" fotogramas pasados y predecir estados futuros.
  • Flujo óptico: Muchos sistemas utilizan algoritmos de flujo óptico para calcular explícitamente los vectores de movimiento de los píxeles entre fotogramas, proporcionando datos críticos sobre la velocidad y la dirección independientemente de la apariencia del objeto.
  • Vision Transformers (ViT): Los enfoques modernos se basan cada vez más en mecanismos de atención para ponderar la importancia de diferentes fotogramas o regiones, lo que permite al modelo centrarse en eventos clave en un flujo de vídeo largo.

Link to this sectionAplicaciones en el mundo real#

La capacidad de comprender el contexto temporal ha abierto las puertas a una automatización avanzada en diversos sectores.

  • Vehículos autónomos: Los coches autónomos utilizan la comprensión de vídeo para predecir las trayectorias de los peatones y otros vehículos. Al analizar los patrones de movimiento, el sistema puede anticipar posibles colisiones y ejecutar maniobras complejas.
  • Reconocimiento de acciones: En el análisis deportivo y el seguimiento sanitario, los sistemas identifican actividades humanas específicas —como un jugador marcando un gol o un paciente cayendo— para proporcionar información o alertas automatizadas.
  • Comercio minorista inteligente: Las tiendas utilizan estos sistemas para la detección de anomalías con el fin de identificar robos o analizar los patrones de tráfico de clientes para una mejor optimización de la distribución.
  • Moderación de contenido: Las grandes plataformas de medios utilizan la comprensión de vídeo para marcar automáticamente contenido inapropiado o clasificar las subidas por tema, lo que reduce enormemente la necesidad de revisión manual.

Link to this sectionDistinguir conceptos relacionados#

Aunque la comprensión de vídeo abarca una amplia gama de capacidades, es distinta de varios términos relacionados en el panorama de la IA.

  • Comprensión de vídeo frente a seguimiento de objetos: El seguimiento se centra en mantener la identidad única de una instancia (como un coche específico) a medida que se mueve entre fotogramas. La comprensión de vídeo interpreta el comportamiento de ese coche, como reconocer que está "aparcando" o "excediendo la velocidad".
  • Comprensión de vídeo frente a estimación de la pose: La estimación de la pose detecta la configuración geométrica de las articulaciones del cuerpo en un solo fotograma o secuencia. La comprensión de vídeo utiliza estos datos para inferir el significado del movimiento, como "saludar con la mano".
  • Comprensión de vídeo frente a IA multimodal: Mientras que la comprensión de vídeo se centra en secuencias visuales, la IA multimodal combina el vídeo con audio, texto o datos de sensores para un análisis más holístico.

Link to this sectionImplementación del análisis de vídeo con YOLO26#

Un paso fundamental en la comprensión de vídeo es la detección y el seguimiento sólidos de objetos para establecer la continuidad temporal. El modelo Ultralytics YOLO26 ofrece un rendimiento de vanguardia para el seguimiento en tiempo real, lo que sirve como precursor para el análisis de comportamiento de nivel superior.

El siguiente ejemplo demuestra cómo realizar el seguimiento de objetos en una fuente de vídeo utilizando la API de Python:

from ultralytics import YOLO

# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Track objects in a video file with persistence to maintain IDs
# 'show=True' visualizes the tracking in real-time
results = model.track(source="path/to/video.mp4", persist=True, show=True)

Link to this sectionDesafíos y tendencias futuras#

A pesar de los importantes avances, la comprensión de vídeo sigue siendo computacionalmente costosa debido al enorme volumen de datos en los flujos de vídeo de alta definición. Calcular FLOPS para convoluciones 3D o transformadores temporales puede ser prohibitivo para dispositivos de Edge AI. Para solucionar esto, los investigadores están desarrollando arquitecturas eficientes como el Temporal Shift Module (TSM) y aprovechando herramientas de optimización como NVIDIA TensorRT para permitir la inferencia en tiempo real.

Los desarrollos futuros se encaminan hacia un aprendizaje multimodal sofisticado, donde los modelos integran señales de audio (por ejemplo, una sirena) y contexto textual para lograr una comprensión más profunda. Plataformas como la Ultralytics Platform también están evolucionando para optimizar la anotación y gestión de complejos conjuntos de datos de vídeo, facilitando el entrenamiento de modelos personalizados para tareas temporales específicas.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático