Glossário

Latência de Inferência

Otimize o desempenho da IA com baixa latência de inferência. Aprenda os principais fatores, aplicações no mundo real e técnicas para melhorar as respostas em tempo real.

A latência de inferência é o tempo que decorre entre um modelo de modelo de aprendizagem automática (ML) que recebe um input e produzir um resultado correspondente. Esta métrica, normalmente medida em milissegundos (ms), é um fator definitivo na capacidade de resposta dos sistemas de sistemas de inteligência artificial (IA). Para os programadores e engenheiros que trabalham em projectos de projectos de visão computacional (CV), minimizar a a latência é muitas vezes tão crítica como a maximização da precisão, particularmente quando se implementam aplicações que interagem com humanos ou maquinaria física. A alta latência resulta em desempenho lento, enquanto que a baixa latência cria uma experiência de utilizador perfeita e permite uma tomada de decisão imediata, um conceito fundamental para os sistemas sistemas inteligentes modernos.

A importância da baixa latência

No domínio da implementação de modelos, a velocidade a que um que um sistema processa os dados determina a sua viabilidade para tarefas específicas. A baixa latência de inferência é a pedra angular da inferência em tempo real, onde as previsões devem previsões devem ocorrer dentro de um orçamento de tempo rigoroso para serem acionáveis. Por exemplo, um atraso de algumas centenas de milissegundos pode ser aceitável para um sistema de recomendação num num site de compras, mas pode ser catastrófico para sistemas críticos de segurança. Compreender os requisitos específicos requisitos de latência específicos de um projeto no início do ciclo de desenvolvimento permite às equipas selecionar arquitecturas de modelos e configurações de hardware adequadas para garantir a fiabilidade.

Principais factores que influenciam a latência

Vários componentes variáveis contribuem para o tempo total necessário para uma única passagem de inferência:

Arquitetura de modelos: A conceção estrutural de uma rede neural (NN) influencia fortemente a sua velocidade. Modelos profundos com muitas camadas, como grandes transformadores, requerem inerentemente mais computação do que as redes neurais convolucionais (CNNs). Arquitecturas como YOLO11 são optimizadas para equilibrar profundidade e velocidade para uma execução eficiente.
Aceleração de hardware: A escolha da unidade de processamento é fundamental. Enquanto uma unidade de processamento CPU lida bem com tarefas gerais, hardware especializado como uma GPU (Unidade de Processamento Gráfico) ou uma TPU (Unidade de ProcessamentoTensor ) é concebido para paralelizar as operações matriciais exigidas pelos modelos de IA, reduzindo significativamente o tempo de cálculo. NVIDIA CUDA é um exemplo comum de software que facilita esta aceleração.
Resolução de entrada: O processamento de imagens ou quadros de vídeo maiores requer mais recursos computacionais. Reduzir o tamanho da entrada (por exemplo, de 640p para 320p) pode diminuir a latência, embora potencialmente à custa da deteção de pequenos objectos, um compromisso explorado nos estudos estudos da EfficientNet.
Otimização de modelos: Técnicas como a quantização de modelos - conversão depesos de ponto flutuante de 32 bits para inteiros de 8 bits - e e a poda de modelos removem cálculos redundantes. Ferramentas como o tempo de execuçãoONNX são especificamente desenvolvidas para reduzir a latência no hardware alvo.

Aplicações no Mundo Real

O impacto prático da latência da inferência é melhor compreendido através de casos de utilização concretos em que a velocidade não é negociável.

Condução autónoma: Em IA em aplicações automóveis, os veículos devem perceber continuamente o que os rodeia. Um sistema de deteção de objectos que identifica um peão a atravessar a rua tem de processar as imagens da câmara e acionar os sistemas de travagem em milissegundos. Uma latência excessiva neste caso aumenta a distância de travagem, comprometendo diretamente a segurança. A investigação sobre a sobre a latência dos veículos autónomos mostra que mesmo pequenos atrasos podem conduzir a situações perigosas.
Robótica industrial: Para a IA no fabrico, os robôs de recolha e colocação de alta velocidade de alta velocidade dependem de sistemas de visão para localizar itens numa correia transportadora em movimento rápido. Se a latência da inferência exceder o tempo em que o objeto está ao alcance do robô, o sistema falha. A implementação de soluções de IA de ponta garante que os dados são processados localmente no dispositivo, eliminando os atrasos de rede associados à computação em nuvem.

Latência de Inferência vs. Throughput

É crucial diferenciar "latência" de "taxa de transferência", uma vez que estão frequentemente relacionados de forma inversa objetivos de otimização.

A latência de inferência centra-se no tempo necessário para uma única previsão. É a principal métrica para aplicações interactivas de utilizador único, como assistentes virtuais ou robôs autónomos.
A taxa de transferência mede o número de previsões que um sistema pode processar num determinado período (por exemplo, imagens por segundo). Normalmente, consegue-se um rendimento elevado aumentando o tamanho do lote, que processa várias entradas simultaneamente. No entanto, o processamento em lote aumenta frequentemente a latência de cada item individual em espera na fila.

Este compromisso entre latência e taxa de transferência exige que os programadores ajustem os seus pipelines de inferência de acordo com as necessidades específicas do ambiente de implantação.

Medição da latência com Ultralytics

Pode avaliar o desempenho dos modelos Ultralytics utilizando o modo de benchmark integrado. Esta ferramenta fornece métricas detalhadas métricas detalhadas sobre a velocidade de inferência em diferentes formatos, como ONNX ou TorchScript.

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

Otimização para produção

Para obter a menor latência possível, os programadores utilizam frequentemente um motor de inferência adequado ao seu hardware. Por exemplo, a implantação de um modelo em um dispositivo NVIDIA Jetson usando otimizaçãoTensorRT pode produzir acelerações significativas em comparação com a execução do PyTorch bruto. Da mesma forma, a utilização de Intel OpenVINO pode acelerar o desempenho em arquiteturas CPU padrão. Estas ferramentas optimizam o gráfico computacional, fundem camadas e gerem a memória de forma mais memória com mais eficiência do que as estruturas de treinamento padrão.

Latência de Inferência

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

A importância da baixa latência

Principais factores que influenciam a latência

Aplicações no Mundo Real

Latência de Inferência vs. Throughput

Medição da latência com Ultralytics

Otimização para produção

Leia mais nesta categoria

Futuras tendências na deteção de objectos: 7 aspectos fundamentais a ter em conta

Melhorar a reidentificação de veículos com modelos Ultralytics YOLO

Melhorar a previsão de colisões com os modelos Ultralytics YOLO

Junte-se à comunidade Ultralytics