Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Latencia de Inferencia

Optimice el rendimiento de la IA con baja latencia de inferencia. Aprenda los factores clave, las aplicaciones del mundo real y las técnicas para mejorar las respuestas en tiempo real.

La latencia de inferencia es el tiempo que transcurre entre que un modelo de modelo de aprendizaje automático (ML) recibe una entrada y produce el resultado correspondiente. Esta métrica, que suele medirse en milisegundos (ms), es un factor definitivo en la capacidad de respuesta de los sistemas de inteligencia artificial (IA). Para los desarrolladores e ingenieros que trabajan en proyectos de visión por ordenador (CV), minimizar la latencia es a menudo tan crítica como maximizar la precisión, sobre todo cuando se despliegan aplicaciones que interactúan con seres humanos o maquinaria física. Una latencia alta un rendimiento lento, mientras que una latencia baja crea una experiencia de usuario fluida y permite una toma de decisiones inmediata, un concepto fundamental para los sistemas de visión modernos. un concepto fundamental para los modernos.

La importancia de la baja latencia

En el ámbito del despliegue de modelos, la velocidad a la que un sistema procesa los datos dicta su viabilidad para tareas específicas. que un sistema procesa los datos dicta su viabilidad para tareas específicas. La baja latencia de la inferencia es la piedra angular de la inferencia en tiempo real, donde las predicciones en tiempo real, donde las predicciones deben producirse en un plazo estricto para ser procesables. Por ejemplo, un retraso de unos cientos de milisegundos puede ser aceptable para un sistema de recomendación en un ordenador. aceptable para un sistema de recomendación un sitio web de compras, pero podría ser catastrófico para sistemas de seguridad crítica. Entender los requisitos latencia de un proyecto en una fase temprana del ciclo de desarrollo permite a los equipos seleccionar arquitecturas de modelos y configuraciones de hardware adecuadas para garantizar la fiabilidad.

Factores clave que influyen en la latencia

Varios componentes variables contribuyen al tiempo total necesario para una sola pasada de inferencia:

  • Arquitectura modelo: El diseño estructural de una red neuronal (NN) influye mucho en su velocidad. Los modelos profundos con muchas capas, como los transformadores, requieren intrínsecamente más computación que las redes redes neuronales convolucionales (CNN). Arquitecturas como YOLO11 están optimizadas para equilibrar profundidad y velocidad para una ejecución eficiente.
  • Aceleración por hardware: La elección de la unidad de procesamiento es fundamental. Mientras que una CPU realiza bien las tareas generales, el hardware especializado, como una GPU (unidad de procesamiento gráfico) o una TPU (Unidad de ProcesamientoTensor ) diseñado para paralelizar las operaciones matriciales que requieren los modelos de IA, lo que reduce significativamente el tiempo de cálculo. NVIDIA CUDA es un ejemplo común de software que facilita esta aceleración.
  • Resolución de entrada: Procesar imágenes o fotogramas de vídeo más grandes requiere más recursos informáticos. La reducción del tamaño de entrada (por ejemplo, de 640p a 320p) puede disminuir la latencia, aunque potencialmente a costa de la detección de objetos pequeños. objetos pequeños, un compromiso explorado en estudios de EfficientNet.
  • Optimización de modelos: Técnicas como cuantificación del modelo (conversiónde pesos de punto flotante de 32 bits a enteros de 8 bits y la y la poda de modelos eliminan los cálculos redundantes. Las herramientas como ONNX Runtime están diseñadas específicamente para reducir la latencia en el hardware de destino.

Aplicaciones en el mundo real

El impacto práctico de la latencia de inferencia se entiende mejor a través de casos de uso concretos en los que la velocidad no es negociable.

  1. Conducción autónoma: En IA en aplicaciones de automoción, los vehículos deben percibir continuamente su entorno. Un sistema de detección de objetos sistema de detección de objetos que identifique a un peatón un peatón que cruza la calle debe procesar las imágenes de las cámaras y activar los sistemas de frenado en milisegundos. Una latencia excesiva aumenta la distancia de frenado, lo que compromete directamente la seguridad. Las investigaciones sobre latencia de los vehículos autónomos pone de relieve pueden provocar situaciones peligrosas.
  2. Robótica industrial: Para IA en la fabricación, los robots de alta velocidad se basan en sistemas de visión para localizar artículos en una cinta transportadora que se mueve rápidamente. Si la Si la latencia de la inferencia supera el tiempo que el objeto está al alcance del robot, el sistema falla. La implantación de soluciones de IA de vanguardia en soluciones de IA en el borde garantiza que los datos se procesen localmente en el dispositivo, eliminando los retrasos de red asociados a la la computación en nube.

Latencia de Inferencia vs. Rendimiento

Es fundamental diferenciar la "latencia" del "rendimiento", ya que suelen estar inversamente relacionados. objetivos de optimización.

  • La latencia de inferencia se centra en el tiempo que tarda una sola predicción. Es la principal para aplicaciones interactivas de un solo usuario, como asistentes virtuales o robots autónomos.
  • El rendimiento mide cuántas predicciones puede procesar un sistema en un periodo determinado (por ejemplo, imágenes por segundo). Un alto rendimiento suele conseguirse aumentando el tamaño del lote, que procesa varias entradas simultáneamente. Sin embargo, el procesamiento por lotes suele aumentar la latencia de cada elemento individual que espera en la cola.

Este entre latencia y rendimiento requiere que los desarrolladores ajusten sus procesos de inferencia a las necesidades específicas del entorno de despliegue.

Medición de la latencia con Ultralytics

Puede evaluar el rendimiento de los modelos Ultralytics utilizando el modo de evaluación comparativa incorporado. Esta herramienta proporciona métricas detalladas sobre la velocidad de inferencia en diferentes formatos como ONNX o TorchScript.

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

Optimización de la producción

Para lograr la menor latencia posible, los desarrolladores suelen emplear un motor de inferencia adaptado a su hardware. En ejemplo, implantar un modelo en un dispositivo NVIDIA Jetson utilizando la optimización la optimizaciónTensorRT puede aumentar significativamente la velocidad en comparación con ejecutar PyTorch sin procesar. Del mismo modo, la utilización de Intel OpenVINO puede acelerar el rendimiento en arquitecturas de CPU estándar. Estas herramientas optimizan el gráfico computacional, fusionan capas y gestionan la memoria de forma más eficiente que los marcos de formación estándar. que los marcos de formación estándar.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora