Latencia de inferencia

Optimice el rendimiento de la IA con baja latencia de inferencia. Conozca los factores clave, las aplicaciones reales y las técnicas para mejorar las respuestas en tiempo real.

La latencia de inferencia es el tiempo que tarda un modelo de aprendizaje automático (ML) entrenado en recibir una entrada y devolver una salida o predicción correspondiente. Medida en milisegundos (ms), es una métrica de rendimiento crítica en el campo de la inteligencia artificial (IA), especialmente para aplicaciones que requieren una respuesta inmediata. Una latencia baja es esencial para crear sistemas de IA eficaces y con capacidad de respuesta que puedan funcionar en entornos dinámicos del mundo real.

Por qué es importante la latencia de inferencia

La baja latencia de la inferencia es la clave para permitir la inferencia en tiempo real, donde las predicciones deben entregarse dentro de un plazo estricto para ser útiles. En muchos casos, un retraso de unos pocos milisegundos puede hacer que una aplicación resulte ineficaz o insegura. Por ejemplo, un coche autoconducido debe identificar peatones y obstáculos al instante para evitar colisiones, mientras que un asistente interactivo de IA debe responder rápidamente a las consultas del usuario para mantener un flujo de conversación natural. Conseguir una latencia baja es un reto fundamental en el despliegue de modelos, ya que afecta directamente a la experiencia del usuario y a la viabilidad de la aplicación.

Aplicaciones reales

La latencia de la inferencia es un factor decisivo en el éxito de muchas aplicaciones de visión por ordenador. He aquí dos ejemplos:

Conducción autónoma: En la industria del automóvil, el sistema de detección de objetos de un vehículo autónomo debe procesar los datos de cámaras y sensores con un retraso mínimo. Una latencia baja permite al vehículo detectar a un peatón que pisa la carretera y aplicar los frenos a tiempo, una función de seguridad crítica en la que cada milisegundo cuenta.
Diagnóstico médico: En sanidad, los modelos de IA analizan imágenes médicas para identificar enfermedades. Cuando se utiliza un modelo como Ultralytics YOLO11 para la detección de tumores en imágenes médicas, la baja latencia de inferencia permite a los radiólogos recibir los resultados analíticos casi al instante. Este rápido bucle de retroalimentación acelera el proceso de diagnóstico, lo que conduce a decisiones de tratamiento más rápidas para los pacientes.

Factores que afectan a la latencia de la inferencia

Varios factores influyen en la rapidez con la que un modelo puede realizar inferencias:

Complejidad del modelo: Las redes neuronales (NN ) más grandes y complejas requieren más cálculos, lo que se traduce en una mayor latencia. La elección de la arquitectura, desde la columna vertebral hasta la cabeza de detección, desempeña un papel importante. Puede comparar diferentes modelos, como YOLO11 frente a YOLOv10, para ver estas compensaciones.
Hardware: La potencia de procesamiento del hardware es crucial. El hardware especializado como las GPU (unidades de procesamiento gráfico), las TPU (unidades de procesamiento tensorial) o los aceleradores de IA dedicados en el borde (por ejemplo, NVIDIA Jetson o Google Coral Edge TPU) pueden reducir significativamente la latencia en comparación con las CPU (unidades centrales de procesamiento) estándar.
Optimización del software: El uso de un motor de inferencia optimizado como NVIDIA TensorRT u OpenVINO de Intel puede mejorar drásticamente el rendimiento. Frameworks como PyTorch y TensorFlow también ofrecen herramientas de optimización. La exportación de modelos a formatos eficientes como ONNX facilita el despliegue en diferentes motores.
Tamaño del lote: Aunque procesar varias entradas a la vez(procesamiento por lotes) puede mejorar el rendimiento general, a menudo aumenta la latencia de las inferencias individuales. Las aplicaciones en tiempo real suelen utilizar un tamaño de lote de 1.
Técnicas de optimización de modelos: Métodos como la cuantización de modelos (reducción de la precisión numérica) y la poda de modelos (eliminación de parámetros redundantes) reducen el tamaño del modelo y la carga computacional, disminuyendo directamente la latencia. Son componentes clave de una estrategia más amplia de optimización de modelos.

Latencia de inferencia frente a rendimiento

Aunque a menudo se discuten juntas, la latencia de inferencia y el rendimiento miden aspectos diferentes del rendimiento.

La latencia de inferencia mide la velocidad de una sola predicción (por ejemplo, lo rápido que se procesa una imagen). Es la métrica principal para aplicaciones que requieren respuestas inmediatas.
El rendimiento mide el número total de inferencias completadas durante un periodo (por ejemplo, fotogramas por segundo). Es más relevante para los sistemas de procesamiento por lotes, en los que la capacidad de procesamiento global es la principal preocupación.

La optimización de uno puede afectar negativamente al otro. Por ejemplo, aumentar el tamaño del lote suele mejorar el rendimiento, pero aumenta el tiempo que se tarda en obtener un resultado para cualquier entrada de ese lote, lo que empeora la latencia. Entender este equilibrio entre latencia y rendimiento es fundamental para diseñar sistemas de IA que cumplan requisitos operativos específicos.

La gestión de la latencia de la inferencia es un acto de equilibrio entre la precisión del modelo, el coste computacional y el tiempo de respuesta. El objetivo final es seleccionar un modelo y una estrategia de despliegue que satisfagan las necesidades de rendimiento de la aplicación, un proceso que puede gestionarse utilizando plataformas como Ultralytics HUB.

Latencia de inferencia

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

Por qué es importante la latencia de inferencia

Aplicaciones reales

Factores que afectan a la latencia de la inferencia

Latencia de inferencia frente a rendimiento

Leer más en esta categoría

El Internet industrial de las cosas (IIoT) explicado

Lo más destacado de Ultralytics en la WAIC 2025 de Shanghái

¿Cómo se elabora el té con tecnologías como Vision AI?

Únase a la comunidad Ultralytics