Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Inferencia en tiempo real

Descubra cómo la inferencia en tiempo real con Ultralytics YOLO permite realizar predicciones instantáneas para aplicaciones de IA como la conducción autónoma y los sistemas de seguridad.

La inferencia en tiempo real es el proceso en el que un modelo de modelo de aprendizaje automático entrenado y genera una predicción casi instantáneamente. En este contexto, "en tiempo real" implica que la velocidad de procesamiento es suficiente para seguir el flujo de datos entrantes, lo que permite al sistema tomar decisiones inmediatas. es suficiente para seguir el flujo de datos entrantes, lo que permite al sistema tomar decisiones inmediatas. Esta capacidad de capacidad es la piedra angular de las aplicaciones modernas de visión por ordenador percibir y reaccionar a su entorno con un retraso mínimo.

La importancia de la baja latencia

La métrica principal para evaluar el rendimiento en tiempo real es latencia de inferencia, que mide el tiempo transcurrido entre que el modelo recibe una entrada y produce una salida. Para que un sistema se considere en tiempo real, esta Para que un sistema se considere en tiempo real, esta latencia debe ser lo suficientemente baja como para cumplir las restricciones de tiempo específicas del caso de uso. Por ejemplo, un sistema de sistema de comprensión de vídeo que analiza un flujo a 30 fotogramas por segundo (FPS) tiene aproximadamente 33 milisegundos para procesar cada fotograma. Si la inferencia tarda más, los fotogramas y el sistema se retrasa.

Para alcanzar esta velocidad suele ser necesario utilizar hardware especializado como GPU o aceleradores aceleradores Edge AI, como la plataforma plataformaNVIDIA Jetson. Además, los ingenieros suelen emplear técnicas de optimización de modelos para reducir la complejidad computacional sin sacrificar significativamente la precisión.

Inferencia en tiempo real frente a inferencia por lotes

Es importante distinguir los flujos de trabajo en tiempo real de la inferencia por lotes. Mientras que la inferencia en tiempo real procesa los puntos de datos individualmente a medida que llegan para minimizar la latencia, la inferencia por lotes agrupa los datos en grandes bloques que se procesarán juntos más adelante.

  • Inferencia en tiempo real: Prioriza la velocidad y la capacidad de respuesta inmediata. Esencial para aplicaciones interactivas como vehículos autónomos o desbloqueo por reconocimiento facial.
  • Inferencia por lotes: Prioriza el alto rendimiento y la eficiencia computacional. Adecuado para tareas urgentes, como el análisis de conjuntos de datos informes nocturnos.

Aplicaciones en el mundo real

La capacidad de generar predicciones instantáneas ha transformado varios sectores al automatizar tareas complejas que requieren una toma de decisiones en fracciones de segundo. que requieren una toma de decisiones en fracciones de segundo.

  • Sistemas autónomos: En el campo de la automoción, los coches autoconducidos se basan dependen en gran medida de la inferencia en tiempo real. Un modelo de detección de objetos modelo de detección de objetos debe identificar peatones, señales de tráfico y otros vehículos para circular con seguridad. Cualquier retraso significativo en este proceso puede provocar accidentes peligrosos.
  • Fabricación inteligente: Las fábricas modernas utilizan la IA en la fabricación para realizar control de calidad. Las cámaras instaladas en las líneas de producción utilizan modelos como Ultralytics YOLO11 para inspeccionar productos en cintas cintas transportadoras. El sistema realiza detección de anomalías para detectar defectos al instante activando un mecanismo para rechazar los artículos defectuosos antes de que lleguen al embalaje.

Optimización de la velocidad

Para alcanzar las velocidades necesarias para las aplicaciones en tiempo real, los desarrolladores suelen implantar modelos utilizando motores de inferencia optimizados. optimizados. Frameworks como TensorRT para hardware o OpenVINO para procesadores Intel pueden acelerar significativamente el rendimiento. Además, técnicas como cuantificación del modelo -quereduce la precisión de los pesos del modelo de valores de coma flotante a enteros- pueden reducir drásticamente la huella de memoria y mejorar la velocidad de ejecución en sistemas integrados. la velocidad de ejecución en sistemas integrados.

El siguiente ejemplo Python muestra cómo ejecutar la inferencia en tiempo real sobre la imagen de una cámara web utilizando la función ultralytics biblioteca.

from ultralytics import YOLO

# Load the official YOLO11 nano model, optimized for speed
model = YOLO("yolo11n.pt")

# Run inference on the default webcam (source=0)
# 'stream=True' creates a generator for memory-efficient real-time processing
# 'show=True' displays the video feed with prediction overlays
results = model.predict(source="0", stream=True, show=True)

# Process the generator to keep the stream running
for result in results:
    pass

El futuro de la IA en tiempo real

A medida que la conectividad 5G se expande y el hardware se hace más potente, crece el alcance de la IA en tiempo real. Conceptos como Internet de las cosas (IoT) se están volviendo más inteligentes, pasando de simples recolectores de datos a tomadores de decisiones activos. Los desarrollos futuros, como como el próximo YOLO26, pretenden ampliar aún más estos límites ofreciendo de forma nativa modelos de extremo a extremo aún más pequeños y rápidos, garantizando que ciudades inteligentes y dispositivos médicos puedan funcionar a la perfección en tiempo real.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora