Optimice el rendimiento de la IA con baja latencia de inferencia. Aprenda los factores clave, las aplicaciones del mundo real y las técnicas para mejorar las respuestas en tiempo real.
La latencia de inferencia es el tiempo que transcurre entre que un modelo de modelo de aprendizaje automático (ML) recibe una entrada y produce el resultado correspondiente. Esta métrica, que suele medirse en milisegundos (ms), es un factor definitivo en la capacidad de respuesta de los sistemas de inteligencia artificial (IA). Para los desarrolladores e ingenieros que trabajan en proyectos de visión por ordenador (CV), minimizar la latencia es a menudo tan crítica como maximizar la precisión, sobre todo cuando se despliegan aplicaciones que interactúan con seres humanos o maquinaria física. Una latencia alta un rendimiento lento, mientras que una latencia baja crea una experiencia de usuario fluida y permite una toma de decisiones inmediata, un concepto fundamental para los sistemas de visión modernos. un concepto fundamental para los modernos.
En el ámbito del despliegue de modelos, la velocidad a la que un sistema procesa los datos dicta su viabilidad para tareas específicas. que un sistema procesa los datos dicta su viabilidad para tareas específicas. La baja latencia de la inferencia es la piedra angular de la inferencia en tiempo real, donde las predicciones en tiempo real, donde las predicciones deben producirse en un plazo estricto para ser procesables. Por ejemplo, un retraso de unos cientos de milisegundos puede ser aceptable para un sistema de recomendación en un ordenador. aceptable para un sistema de recomendación un sitio web de compras, pero podría ser catastrófico para sistemas de seguridad crítica. Entender los requisitos latencia de un proyecto en una fase temprana del ciclo de desarrollo permite a los equipos seleccionar arquitecturas de modelos y configuraciones de hardware adecuadas para garantizar la fiabilidad.
Varios componentes variables contribuyen al tiempo total necesario para una sola pasada de inferencia:
El impacto práctico de la latencia de inferencia se entiende mejor a través de casos de uso concretos en los que la velocidad no es negociable.
Es fundamental diferenciar la "latencia" del "rendimiento", ya que suelen estar inversamente relacionados. objetivos de optimización.
Este entre latencia y rendimiento requiere que los desarrolladores ajusten sus procesos de inferencia a las necesidades específicas del entorno de despliegue.
Puede evaluar el rendimiento de los modelos Ultralytics utilizando el modo de evaluación comparativa incorporado. Esta herramienta proporciona métricas detalladas sobre la velocidad de inferencia en diferentes formatos como ONNX o TorchScript.
from ultralytics import YOLO
# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")
# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")
Para lograr la menor latencia posible, los desarrolladores suelen emplear un motor de inferencia adaptado a su hardware. En ejemplo, implantar un modelo en un dispositivo NVIDIA Jetson utilizando la optimización la optimizaciónTensorRT puede aumentar significativamente la velocidad en comparación con ejecutar PyTorch sin procesar. Del mismo modo, la utilización de Intel OpenVINO puede acelerar el rendimiento en arquitecturas de CPU estándar. Estas herramientas optimizan el gráfico computacional, fusionan capas y gestionan la memoria de forma más eficiente que los marcos de formación estándar. que los marcos de formación estándar.