Descubra cómo la inferencia en tiempo real con Ultralytics YOLO permite realizar predicciones instantáneas para aplicaciones de IA como la conducción autónoma y los sistemas de seguridad.
La inferencia en tiempo real es el proceso en el que un modelo de modelo de aprendizaje automático entrenado y genera una predicción casi instantáneamente. En este contexto, "en tiempo real" implica que la velocidad de procesamiento es suficiente para seguir el flujo de datos entrantes, lo que permite al sistema tomar decisiones inmediatas. es suficiente para seguir el flujo de datos entrantes, lo que permite al sistema tomar decisiones inmediatas. Esta capacidad de capacidad es la piedra angular de las aplicaciones modernas de visión por ordenador percibir y reaccionar a su entorno con un retraso mínimo.
La métrica principal para evaluar el rendimiento en tiempo real es latencia de inferencia, que mide el tiempo transcurrido entre que el modelo recibe una entrada y produce una salida. Para que un sistema se considere en tiempo real, esta Para que un sistema se considere en tiempo real, esta latencia debe ser lo suficientemente baja como para cumplir las restricciones de tiempo específicas del caso de uso. Por ejemplo, un sistema de sistema de comprensión de vídeo que analiza un flujo a 30 fotogramas por segundo (FPS) tiene aproximadamente 33 milisegundos para procesar cada fotograma. Si la inferencia tarda más, los fotogramas y el sistema se retrasa.
Para alcanzar esta velocidad suele ser necesario utilizar hardware especializado como GPU o aceleradores aceleradores Edge AI, como la plataforma plataformaNVIDIA Jetson. Además, los ingenieros suelen emplear técnicas de optimización de modelos para reducir la complejidad computacional sin sacrificar significativamente la precisión.
Es importante distinguir los flujos de trabajo en tiempo real de la inferencia por lotes. Mientras que la inferencia en tiempo real procesa los puntos de datos individualmente a medida que llegan para minimizar la latencia, la inferencia por lotes agrupa los datos en grandes bloques que se procesarán juntos más adelante.
La capacidad de generar predicciones instantáneas ha transformado varios sectores al automatizar tareas complejas que requieren una toma de decisiones en fracciones de segundo. que requieren una toma de decisiones en fracciones de segundo.
Para alcanzar las velocidades necesarias para las aplicaciones en tiempo real, los desarrolladores suelen implantar modelos utilizando motores de inferencia optimizados. optimizados. Frameworks como TensorRT para hardware o OpenVINO para procesadores Intel pueden acelerar significativamente el rendimiento. Además, técnicas como cuantificación del modelo -quereduce la precisión de los pesos del modelo de valores de coma flotante a enteros- pueden reducir drásticamente la huella de memoria y mejorar la velocidad de ejecución en sistemas integrados. la velocidad de ejecución en sistemas integrados.
El siguiente ejemplo Python muestra cómo ejecutar la inferencia en tiempo real sobre la imagen de una cámara web utilizando la función
ultralytics biblioteca.
from ultralytics import YOLO
# Load the official YOLO11 nano model, optimized for speed
model = YOLO("yolo11n.pt")
# Run inference on the default webcam (source=0)
# 'stream=True' creates a generator for memory-efficient real-time processing
# 'show=True' displays the video feed with prediction overlays
results = model.predict(source="0", stream=True, show=True)
# Process the generator to keep the stream running
for result in results:
pass
A medida que la conectividad 5G se expande y el hardware se hace más potente, crece el alcance de la IA en tiempo real. Conceptos como Internet de las cosas (IoT) se están volviendo más inteligentes, pasando de simples recolectores de datos a tomadores de decisiones activos. Los desarrollos futuros, como como el próximo YOLO26, pretenden ampliar aún más estos límites ofreciendo de forma nativa modelos de extremo a extremo aún más pequeños y rápidos, garantizando que ciudades inteligentes y dispositivos médicos puedan funcionar a la perfección en tiempo real.