Optimice el rendimiento de la IA con baja latencia de inferencia. Conozca los factores clave, las aplicaciones reales y las técnicas para mejorar las respuestas en tiempo real.
La latencia de inferencia es el tiempo que tarda un modelo de aprendizaje automático (ML) entrenado en recibir una entrada y devolver una salida o predicción correspondiente. Medida en milisegundos (ms), es una métrica de rendimiento crítica en el campo de la inteligencia artificial (IA), especialmente para aplicaciones que requieren una respuesta inmediata. Una latencia baja es esencial para crear sistemas de IA eficaces y con capacidad de respuesta que puedan funcionar en entornos dinámicos del mundo real.
La baja latencia de la inferencia es la clave para permitir la inferencia en tiempo real, donde las predicciones deben entregarse dentro de un plazo estricto para ser útiles. En muchos casos, un retraso de unos pocos milisegundos puede hacer que una aplicación resulte ineficaz o insegura. Por ejemplo, un coche autoconducido debe identificar peatones y obstáculos al instante para evitar colisiones, mientras que un asistente interactivo de IA debe responder rápidamente a las consultas del usuario para mantener un flujo de conversación natural. Conseguir una latencia baja es un reto fundamental en el despliegue de modelos, ya que afecta directamente a la experiencia del usuario y a la viabilidad de la aplicación.
La latencia de la inferencia es un factor decisivo en el éxito de muchas aplicaciones de visión por ordenador. He aquí dos ejemplos:
Varios factores influyen en la rapidez con la que un modelo puede realizar inferencias:
Aunque a menudo se discuten juntas, la latencia de inferencia y el rendimiento miden aspectos diferentes del rendimiento.
La optimización de uno puede afectar negativamente al otro. Por ejemplo, aumentar el tamaño del lote suele mejorar el rendimiento, pero aumenta el tiempo que se tarda en obtener un resultado para cualquier entrada de ese lote, lo que empeora la latencia. Entender este equilibrio entre latencia y rendimiento es fundamental para diseñar sistemas de IA que cumplan requisitos operativos específicos.
La gestión de la latencia de la inferencia es un acto de equilibrio entre la precisión del modelo, el coste computacional y el tiempo de respuesta. El objetivo final es seleccionar un modelo y una estrategia de despliegue que satisfagan las necesidades de rendimiento de la aplicación, un proceso que puede gestionarse utilizando plataformas como Ultralytics HUB.