Glossário

Latência de inferência

Optimize o desempenho da IA com baixa latência de inferência. Aprenda os principais factores, aplicações do mundo real e técnicas para melhorar as respostas em tempo real.

A latência de inferência é o tempo que um modelo de aprendizagem automática (ML) treinado demora a receber uma entrada e a devolver uma saída ou previsão correspondente. Medida em milissegundos (ms), é uma métrica de desempenho crítica no domínio da inteligência artificial (IA), especialmente para aplicações que requerem feedback imediato. A baixa latência é essencial para criar sistemas de IA reactivos e eficazes que possam funcionar em ambientes dinâmicos do mundo real.

Porque é que a latência da inferência é importante

A baixa latência de inferência é a chave para permitir a inferência em tempo real, onde as previsões devem ser entregues dentro de um período de tempo rigoroso para serem úteis. Em muitos cenários, um atraso de apenas alguns milissegundos pode tornar uma aplicação ineficaz ou insegura. Por exemplo, um carro autónomo tem de identificar instantaneamente peões e obstáculos para evitar colisões, enquanto um assistente de IA interativo tem de responder rapidamente às perguntas do utilizador para manter um fluxo de conversação natural. Conseguir uma baixa latência é um desafio central na implantação de modelos, afectando diretamente a experiência do utilizador e a viabilidade da aplicação.

Aplicações no mundo real

A latência da inferência é um fator decisivo para o sucesso de muitas aplicações de visão computacional. Aqui estão dois exemplos:

  1. Condução autónoma: Na indústria automóvel, o sistema de deteção de objectos de um veículo autónomo tem de processar dados de câmaras e sensores com um atraso mínimo. A baixa latência permite que o veículo detecte um peão a pisar a estrada e accione os travões a tempo, uma função de segurança crítica em que cada milissegundo conta.
  2. Diagnóstico médico: Nos cuidados de saúde, os modelos de IA analisam imagens médicas para identificar doenças. Quando um modelo como o Ultralytics YOLO11 é utilizado para a deteção de tumores em imagens médicas, a baixa latência de inferência permite que os radiologistas recebam resultados analíticos quase instantaneamente. Este ciclo de feedback rápido acelera o processo de diagnóstico, levando a decisões de tratamento mais rápidas para os pacientes.

Factores que afectam a latência da inferência

Vários factores influenciam a rapidez com que um modelo pode realizar a inferência:

Latência de inferência vs. taxa de transferência

Embora frequentemente discutidos em conjunto, a latência de inferência e o débito medem aspectos diferentes do desempenho.

  • A latência de inferência mede a velocidade de uma única previsão (por exemplo, a rapidez com que uma imagem é processada). É a principal métrica para aplicações que requerem respostas imediatas.
  • A taxa de transferência mede o número total de inferências concluídas durante um período (por exemplo, fotogramas por segundo). É mais relevante para sistemas de processamento em lote em que a capacidade de processamento global é a principal preocupação.

A otimização de um pode ter um impacto negativo no outro. Por exemplo, aumentar o tamanho do lote normalmente melhora a taxa de transferência, mas aumenta o tempo necessário para obter um resultado para qualquer entrada individual nesse lote, piorando assim a latência. Compreender este compromisso entre latência e taxa de transferência é fundamental para conceber sistemas de IA que satisfaçam requisitos operacionais específicos.

Gerir a latência da inferência é um ato de equilíbrio entre a precisão do modelo, o custo computacional e o tempo de resposta. O objetivo final é selecionar um modelo e uma estratégia de implementação que satisfaça as necessidades de desempenho da aplicação, um processo que pode ser gerido utilizando plataformas como o Ultralytics HUB.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência