Glosario

Latencia de inferencia

Optimice el rendimiento de la IA con baja latencia de inferencia. Conozca los factores clave, las aplicaciones reales y las técnicas para mejorar las respuestas en tiempo real.

La latencia de inferencia es el tiempo que tarda un modelo de aprendizaje automático (ML) entrenado en recibir una entrada y devolver una salida o predicción correspondiente. Medida en milisegundos (ms), es una métrica de rendimiento crítica en el campo de la inteligencia artificial (IA), especialmente para aplicaciones que requieren una respuesta inmediata. Una latencia baja es esencial para crear sistemas de IA eficaces y con capacidad de respuesta que puedan funcionar en entornos dinámicos del mundo real.

Por qué es importante la latencia de inferencia

La baja latencia de la inferencia es la clave para permitir la inferencia en tiempo real, donde las predicciones deben entregarse dentro de un plazo estricto para ser útiles. En muchos casos, un retraso de unos pocos milisegundos puede hacer que una aplicación resulte ineficaz o insegura. Por ejemplo, un coche autoconducido debe identificar peatones y obstáculos al instante para evitar colisiones, mientras que un asistente interactivo de IA debe responder rápidamente a las consultas del usuario para mantener un flujo de conversación natural. Conseguir una latencia baja es un reto fundamental en el despliegue de modelos, ya que afecta directamente a la experiencia del usuario y a la viabilidad de la aplicación.

Aplicaciones reales

La latencia de la inferencia es un factor decisivo en el éxito de muchas aplicaciones de visión por ordenador. He aquí dos ejemplos:

  1. Conducción autónoma: En la industria del automóvil, el sistema de detección de objetos de un vehículo autónomo debe procesar los datos de cámaras y sensores con un retraso mínimo. Una latencia baja permite al vehículo detectar a un peatón que pisa la carretera y aplicar los frenos a tiempo, una función de seguridad crítica en la que cada milisegundo cuenta.
  2. Diagnóstico médico: En sanidad, los modelos de IA analizan imágenes médicas para identificar enfermedades. Cuando se utiliza un modelo como Ultralytics YOLO11 para la detección de tumores en imágenes médicas, la baja latencia de inferencia permite a los radiólogos recibir los resultados analíticos casi al instante. Este rápido bucle de retroalimentación acelera el proceso de diagnóstico, lo que conduce a decisiones de tratamiento más rápidas para los pacientes.

Factores que afectan a la latencia de la inferencia

Varios factores influyen en la rapidez con la que un modelo puede realizar inferencias:

Latencia de inferencia frente a rendimiento

Aunque a menudo se discuten juntas, la latencia de inferencia y el rendimiento miden aspectos diferentes del rendimiento.

  • La latencia de inferencia mide la velocidad de una sola predicción (por ejemplo, lo rápido que se procesa una imagen). Es la métrica principal para aplicaciones que requieren respuestas inmediatas.
  • El rendimiento mide el número total de inferencias completadas durante un periodo (por ejemplo, fotogramas por segundo). Es más relevante para los sistemas de procesamiento por lotes, en los que la capacidad de procesamiento global es la principal preocupación.

La optimización de uno puede afectar negativamente al otro. Por ejemplo, aumentar el tamaño del lote suele mejorar el rendimiento, pero aumenta el tiempo que se tarda en obtener un resultado para cualquier entrada de ese lote, lo que empeora la latencia. Entender este equilibrio entre latencia y rendimiento es fundamental para diseñar sistemas de IA que cumplan requisitos operativos específicos.

La gestión de la latencia de la inferencia es un acto de equilibrio entre la precisión del modelo, el coste computacional y el tiempo de respuesta. El objetivo final es seleccionar un modelo y una estrategia de despliegue que satisfagan las necesidades de rendimiento de la aplicación, un proceso que puede gestionarse utilizando plataformas como Ultralytics HUB.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles