Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Inferencia en tiempo real

Descubra cómo la inferencia en tiempo real con Ultralytics YOLO permite realizar predicciones instantáneas para aplicaciones de IA como la conducción autónoma y los sistemas de seguridad.

La inferencia en tiempo real es el proceso mediante el cual un modelo de aprendizaje automático entrenado acepta datos de entrada en vivo y genera una predicción casi instantáneamente. En este contexto, «en tiempo real» implica que la velocidad de procesamiento es suficiente para seguir el ritmo del flujo de datos entrantes, lo que permite al sistema tomar decisiones inmediatas y viables . Esta capacidad es el corazón de las aplicaciones modernas de visión por ordenador, ya que permite a los dispositivos percibir su entorno y reaccionar con un retraso mínimo, que a menudo se mide en milisegundos.

El papel fundamental de la latencia

La métrica principal para evaluar el rendimiento en tiempo real es la latencia de inferencia, que representa el tiempo transcurrido entre la recepción de una entrada por parte del modelo (como un fotograma de vídeo) y la producción de una salida. Para que un sistema funcione de manera eficaz en tiempo real, esta latencia debe ser lo suficientemente baja como para cumplir con las restricciones de tiempo específicas del caso de uso. Por ejemplo, un sistema de comprensión de vídeo que analiza una transmisión a 30 fotogramas por segundo (FPS) tiene un presupuesto estricto de aproximadamente 33 milisegundos para procesar cada fotograma. Si la inferencia tarda más, se pierden fotogramas y el sistema experimenta un retraso, lo que puede comprometer la seguridad o la experiencia del usuario.

Para lograr una baja latencia, a menudo se requiere una combinación de una arquitectura de modelo eficiente y hardware especializado. Los desarrolladores suelen utilizar GPU o aceleradores de IA de borde dedicados, como la plataformaNVIDIA , para acelerar los cálculos. Además, técnicas como la cuantificación de modelos reducen la precisión de los cálculos del modelo (por ejemplo, de punto flotante a entero) para disminuir el uso de memoria y aumentar la velocidad sin sacrificar significativamente la precisión.

Inferencia en tiempo real frente a inferencia por lotes

Es importante distinguir los flujos de trabajo en tiempo real de la inferencia por lotes. Mientras que la inferencia en tiempo real procesa los puntos de datos individualmente a medida que llegan para dar prioridad a la capacidad de respuesta inmediata, la inferencia por lotes agrupa los datos en grandes bloques para procesarlos juntos más adelante.

  • Inferencia en tiempo real: se centra en la baja latencia para aplicaciones interactivas. Es esencial para tareas que requieren una respuesta instantánea, como el reconocimiento facial para desbloquear un smartphone.
  • Inferencia por lotes: se centra en el alto rendimiento y la eficiencia computacional. Es adecuada para tareas no urgentes, como analizar conjuntos de datos históricos o generar informes de inventario nocturnos.

Aplicaciones en el mundo real

La capacidad de generar predicciones instantáneas ha transformado las industrias al automatizar tareas complejas que requieren tomar decisiones en fracciones de segundo.

  • Sistemas autónomos: En el campo de la IA en automoción, que evoluciona rápidamente, los coches autónomos dependen en gran medida de la inferencia en tiempo real. Un modelo de detección de objetos debe identificar instantáneamente a los peatones, las señales de tráfico y otros vehículos para circular con seguridad. Incluso un pequeño retraso en este proceso podría provocar accidentes peligrosos, por lo que la velocidad es un requisito fundamental para la seguridad.
  • Fabricación inteligente: Las fábricas modernas utilizan la IA en la fabricación para realizar un control de calidad automatizado. Las cámaras instaladas en las líneas de producción utilizan modelos eficientes como YOLO26, el último estándar en velocidad y precisión, para inspeccionar los productos en cintas transportadoras de movimiento rápido. El sistema realiza detección de anomalías para detectar defectos al instante, activando brazos neumáticos para rechazar los artículos defectuosos antes de que lleguen al embalaje.

Implementación de inferencia en tiempo real

Para alcanzar las velocidades necesarias, los desarrolladores suelen implementar modelos utilizando motores optimizados. Marcos como TensorRT para NVIDIA o OpenVINO para Intel pueden acelerar significativamente el rendimiento. Las herramientas de Ultralytics facilitan la implementación de estos modelos en diversos dispositivos periféricos, lo que garantiza una integración perfecta desde la formación hasta la producción.

El siguiente ejemplo Python muestra cómo ejecutar la inferencia en tiempo real sobre la imagen de una cámara web utilizando la función ultralytics biblioteca. Este script utiliza un generador para procesar fotogramas de manera eficiente, evitando la acumulación de memoria durante largos periodos.

from ultralytics import YOLO

# Load the official YOLO26 nano model, optimized for high-speed inference
model = YOLO("yolo26n.pt")

# Run inference on the default webcam (source=0)
# 'stream=True' creates a generator for memory-efficient real-time processing
# 'show=True' displays the video feed with prediction overlays
results = model.predict(source="0", stream=True, show=True)

# Process the generator to keep the stream running
for result in results:
    pass

El futuro de la IA en tiempo real

A medida que se expande la conectividad 5G y el hardware se vuelve más potente, el alcance de la IA en tiempo real está creciendo. Conceptos como el Internet de las cosas (IoT) se están volviendo más inteligentes, pasando de ser simples recopiladores de datos a tomadores de decisiones activos. La transición de arquitecturas más antiguas como YOLO11 a modelos nativos de extremo a extremo como YOLO26 garantiza que las ciudades inteligentes y los dispositivos médicos avanzados puedan funcionar a la perfección en tiempo real, sacando la IA de la sala de servidores y llevándola al mundo físico .

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora