Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Motor de Inferência

Descubra como os engines de inferência impulsionam a IA, fornecendo previsões em tempo real, otimizando modelos e permitindo a implantação em várias plataformas.

Um motor de inferência é um componente de software especializado concebido para executar modelos modelos de aprendizagem automática e gerar previsões a partir de novos dados. Ao contrário das estruturas de formação que se concentram na aprendizagem de padrões a partir de conjuntos de dados maciços, um motor de inferência é optimizado exclusivamente para a fase operacional, conhecida como implantação de modelos. O seu principal objetivo é executar estes modelos da forma mais eficiente possível, minimizando a latência de inferência e maximizando a taxa de transferência no hardware de destino, quer seja um poderoso servidor de nuvem ou um dispositivo de IA de dispositivo de IA de ponta.

Como funciona um motor de inferência

A transição de um modelo treinado para uma aplicação pronta a ser implementada envolve normalmente um motor de inferência que actua como o ambiente de tempo de execução. Quando um modelo é treinado numa estrutura como o PyTorch ou TensorFlowé frequentemente pesado e contém estruturas de dados estruturas de dados úteis para a aprendizagem mas desnecessárias para a previsão. Um motor de inferência elimina esta sobrecarga e aplica optimizações rigorosas ao gráfico computacional.

As principais técnicas de otimização incluem:

  • Fusão de camadas: O motor combina várias camadas (por exemplo, convolução, normalização de lote e ativação) numa única operação. Isso reduz o acesso à memória e acelera a execução.
  • Redução de precisão: Através da quantização do modelo, o motor converte os pesos do formato de vírgula flutuante de 32 bits de alta precisão (FP32) para formatos de baixa precisão como INT8 ou FP16. Isto Isto reduz drasticamente o tamanho do modelo e a utilização da largura de banda da memória sem comprometer significativamente a precisão.
  • Auto-ajuste do kernel: Motores como NVIDIA TensorRT selecionam automaticamente os algoritmos algoritmos e kernels de hardware mais eficientes para a GPU específica que está a ser utilizada.
  • Gestão da memória: Estratégias eficientes de reutilização de memória minimizam a sobrecarga de alocação e e desalocação de memória durante o tempo de execução, o que é crítico para inferência em tempo real.

Motores de inferência comuns

Os diferentes motores são adaptados a ecossistemas de hardware e objectivos de desempenho específicos:

  • NVIDIA TensorRT: Um optimizador de inferência de aprendizagem profunda de alto desempenho e tempo de execução para GPUs NVIDIA . É amplamente utilizado em centros de dados e aplicações automóveis. Pode facilmente exportar facilmente modelos Ultralytics para TensorRT para velocidade máxima.
  • Intel OpenVINO: A Open Visual Inference and Neural Network Optimization optimiza modelos para hardware Intel , incluindo CPUs e GPUs integradas. Ele permite uma abordagem "escrever uma vez, implantar em qualquer lugar" dentro do ecossistema Intel .
  • Tempo de execuçãoONNX : Um motor multiplataforma desenvolvido pela Microsoft que suporta o ONNX formato ONNX. Ele permite que modelos treinados numa estrutura sejam executados eficientemente em vários backends de hardware.
  • TensorFlow Lite: Projetado para dispositivos móveis e IoT, TensorFlow Lite permite inferência de baixa latência em Android, iOS e sistemas incorporados.

Aplicações no Mundo Real

Os motores de inferência são a espinha dorsal invisível das aplicações de IA modernas, permitindo-lhes reagir instantaneamente ao mundo.

  1. Condução autónoma: Na indústria automóvel, os veículos dependem da visão por computador para navegar em segurança. Um motor de inferência executado no computador de bordo do automóvel processa feeds de vídeo para efetuar deteção de objectos para peões, outros veículos e sinais de trânsito. Utilizando um modelo como o YOLO11, o motor assegura que estas previsões ocorrem em milissegundos, permitindo ao automóvel travar ou guiar autonomamente em tempo real. tempo real.
  2. Fabrico inteligente: As linhas de produção utilizam motores de inferência para o controlo de qualidade automatizado. As câmaras de alta velocidade captam imagens de produtos numa correia transportadora e um motor de inferência processa essas imagens para detect defeitos, como fissuras ou desalinhamentos. Este sistema de elevado rendimento impede a expedição de artigos defeituosos e reduz os custos de inspeção manual.

Motor de inferência vs. Estrutura de treino

É importante distinguir entre as ferramentas utilizadas para criar modelos e as utilizadas para os executar.

  • Estruturas de treino (por exemplo, PyTorch, Keras): Estas são concebidas para flexibilidade e experimentação. Suportam retropropagação, actualizações de gradiente e gráficos dinâmicos, que são essenciais para a aprendizagem mas mas computacionalmente dispendiosos.
  • Motores de inferência (por exemplo, TensorRT, ONNX Runtime): Estes são projetados para velocidade e eficiência. Eles tratam o modelo como um conjunto estático de operações a serem executadas o mais rápido possível. Normalmente, não suportam formação ou a aprendizagem de novos padrões.

Exportação para inferência

Para utilizar um motor de inferência específico, é frequentemente necessário exportar o modelo treinado para um formato compatível. Por exemplo, a exportação de um modelo YOLO11 para o formato ONNX permite que ele seja executado pelo ONNX Runtime ou importado para outros mecanismos.

from ultralytics import YOLO

# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to ONNX format for use with ONNX Runtime
# This creates 'yolo11n.onnx' optimized for inference
model.export(format="onnx")

Ao tirar partido de um motor de inferência, os programadores podem desbloquear todo o potencial dos seus modelos de IA, garantindo que funcionam sem problemas em ambientes de produção que vão desde clusters de nuvem até dispositivos de borda alimentados por bateria.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora