Glosario

Latencia de inferencia

Optimice el rendimiento de la IA con baja latencia de inferencia. Conozca los factores clave, las aplicaciones reales y las técnicas para mejorar las respuestas en tiempo real.

La latencia de la inferencia es una métrica crítica en inteligencia artificial y aprendizaje automático (AM), sobre todo cuando se despliegan modelos para aplicaciones del mundo real. Se refiere al tiempo transcurrido entre el momento en que se presenta una entrada (como una imagen o una consulta de texto) a un modelo entrenado y el momento en que el modelo produce una predicción o salida. Esencialmente, mide la rapidez con la que un modelo puede procesar nuevos datos y proporcionar un resultado. Minimizar la latencia de la inferencia suele ser crucial para las aplicaciones que requieren respuestas puntuales, lo que repercute directamente en la usabilidad y eficacia de los sistemas de IA.

Relevancia de la latencia de la inferencia

Una latencia de inferencia baja es vital para una experiencia de usuario positiva y la viabilidad de muchas aplicaciones de IA. En los sistemas interactivos, como los chatbots o los servicios de traducción en tiempo real, una latencia elevada provoca retrasos notables que frustran a los usuarios. Para aplicaciones críticas como vehículos autónomos o herramientas de diagnóstico médico, incluso pequeños retrasos pueden tener consecuencias significativas, afectando a la seguridad y a la toma de decisiones. Por lo tanto, comprender, medir y optimizar la latencia de la inferencia es un aspecto clave para desplegar modelos de IA con eficacia. Es una métrica distinta del rendimiento, que mide el número de inferencias procesadas por unidad de tiempo; una aplicación puede requerir una latencia baja (respuesta individual rápida) aunque el rendimiento general no sea extremadamente alto. Puedes aprender más sobre la optimización de estos diferentes aspectos en guías como la de OpenVINO Latency vs Throughput Modes.

Aplicaciones reales

La importancia de una baja latencia de inferencia es evidente en diversos ámbitos:

  • Vehículos autónomos: Los coches autónomos dependen de la detección rápida de objetos y la comprensión de la escena para navegar con seguridad. La baja latencia garantiza que el vehículo pueda reaccionar instantáneamente ante peatones, otros coches u obstáculos inesperados, lo que es primordial para la seguridad. Los modelos YOLO de Ultralytics suelen optimizarse para estas tareas de inferencia en tiempo real.
  • IA interactiva: Aplicaciones como asistentes virtuales(Amazon Alexa, Google Assistant) o servicios de traducción necesitan procesar entradas de voz o texto y responder de forma conversacional. Una latencia elevada rompe el flujo de interacción y degrada la experiencia del usuario.
  • Automatización industrial: En la fabricación, los sistemas de visión por ordenador realizan comprobaciones de control de calidad en las cadenas de montaje. La baja latencia permite identificar y eliminar rápidamente los productos defectuosos sin ralentizar la producción. Esto suele implicar el despliegue de modelos en dispositivos periféricos.
  • Sanidad: La IA que analiza imágenes médicas (como tomografías computarizadas o radiografías) debe proporcionar resultados con rapidez para contribuir a la precisión del diagnóstico y la planificación oportuna del tratamiento. Vea cómo se utiliza YOLO para la detección de tumores.
  • Sistemas de seguridad: Los sistemas de vigilancia en tiempo real utilizan la IA para la detección de amenazas (por ejemplo, identificación de intrusos u objetos abandonados). La baja latencia permite alertas y respuestas inmediatas, como en un sistema de alarma de seguridad.

Factores que afectan a la latencia de la inferencia

Varios factores influyen en la rapidez con la que un modelo puede realizar inferencias:

  • Complejidad del modelo: Las redes neuronales (NN ) más grandes y complejas suelen requerir más capacidad de cálculo, lo que se traduce en una mayor latencia. La elección de la arquitectura desempeña un papel importante. Puedes comparar distintos modelos, como YOLOv10 frente a YOLO11, para ver las ventajas y desventajas.
  • Hardware: La capacidad de procesamiento del hardware utilizado para la inferencia es crucial. El hardware especializado como GPUs, TPUs o aceleradores de IA dedicados(Google Edge TPUs, NVIDIA Jetson) puede reducir significativamente la latencia en comparación con las CPUs estándar.
  • Optimización del software: El uso de motores de inferencia optimizados como NVIDIA TensorRT u OpenVINO de Intel puede mejorar drásticamente el rendimiento al optimizar el gráfico del modelo y aprovechar las instrucciones específicas del hardware. Frameworks como PyTorch también ofrecen herramientas de optimización. La exportación de modelos a formatos como ONNX facilita el despliegue en distintos motores.
  • Tamaño del lote: El procesamiento conjunto de varias entradas(por lotes) puede mejorar el rendimiento global, pero a menudo aumenta la latencia de las inferencias individuales. Las aplicaciones en tiempo real suelen utilizar un tamaño de lote de 1.
  • Transferencia de datos: El tiempo que se tarda en trasladar los datos de entrada al modelo y recuperar los de salida puede sumarse a la latencia general, especialmente en escenarios de computación distribuida o en la nube.
  • Cuantización y poda: Técnicas como la cuantización de modelos (reducción de la precisión numérica) y la poda de modelos (eliminación de parámetros redundantes del modelo) pueden reducir el tamaño del modelo y los requisitos computacionales, disminuyendo la latencia. Más información sobre la optimización de modelos en esta guía rápida.

Gestionar la latencia de la inferencia es un acto de equilibrio crítico entre la precisión del modelo, el coste computacional y el tiempo de respuesta, esencial para desplegar soluciones de IA eficaces gestionadas a través de plataformas como Ultralytics HUB. Entender los pasos de un proyecto de visión por ordenador incluye planificar estos requisitos de rendimiento durante el despliegue del modelo.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles