Glossário

Implantação de Modelo

Descubra o essencial da implementação de modelos, transformando modelos de ML em ferramentas do mundo real para previsões, automação e insights orientados por IA.

A implementação do modelo representa a fase crucial do ciclo de vida da aprendizagem automática em que um modelo de treinado de aprendizagem automática (ML) é integrado num num ambiente de produção para atuar sobre dados reais. Faz a ponte entre o desenvolvimento - onde os modelos são treinados e validados em ambientes controlados - e a aplicação no mundo real, onde geram valor ao fornecerem acionáveis. Sem uma implementação efectiva, mesmo a mais sofisticada mais sofisticada continua a ser um ficheiro estático, incapaz de de interagir com os utilizadores finais ou com sistemas de software externos. O principal objetivo é tornar as capacidades de previsão do modelo do modelo acessíveis, fiáveis e escaláveis para aplicações que vão desde aplicações móveis a serviços empresariais na nuvem. empresariais.

O pipeline de implantação

A transição de um modelo de um ambiente de investigação para a produção envolve normalmente um pipeline estruturado concebido para garantir o desempenho e a estabilidade.

Otimização do modelo: Antes de um modelo deixar o ambiente de treinamento, ele frequentemente passa por otimização do modelo para melhorar a velocidade de execução e reduzir o uso de memória. Técnicas como a quantização reduzem a precisão dos pesos do precisão dos pesos do modelo (por exemplo, de ponto flutuante de 32 bits para inteiro de 8 bits), reduzindo drasticamente os requisitos computacionais com um impacto mínimo na precisão.
Exportação do modelo: O modelo optimizado é convertido num formato padrão que é independente da estrutura de treinamento. Formatos como o ONNX (Troca de rede neural aberta) permitem que os modelos treinados no PyTorch sejam executados em vários mecanismos de inferência. Para aceleração específica de hardware, os desenvolvedores podem exportar para o TensorRT para GPUs NVIDIA ou OpenVINO para CPUs Intel .
Contentorização: Para garantir que o modelo seja executado de forma consistente em diferentes ambientes de computação, é é uma prática comum usar a contentorização. Ferramentas como o Docker empacotam o modelo, suas dependências e o ambiente de execução numa única unidade leve, eliminando problemas de "funciona na minha máquina".
Orquestração e dimensionamento: Em cenários de alta demanda, os contêineres implantados são gerenciados por sistemas de orquestração como o Kubernetes. Essas plataformas lidam com a escalabilidade, criando automaticamente novas instâncias de modelo para lidar com picos de tráfego e garantir alta disponibilidade.

Ambientes de Implementação

A escolha do ambiente depende em grande medida dos requisitos da aplicação relativamente latência da inferência, privacidade dos dados e conetividade.

Implantação na nuvem: Modelos de alojamento em plataformas de nuvem como AWS SageMaker ou Google Vertex AI oferece um poder computacional praticamente ilimitado e escalabilidade fácil. Isto é ideal para modelos linguísticos complexos de grande dimensão (LLMs) ou tarefas de processamento em lote em que a resposta em tempo real é menos crítica.
IA de ponta: Para aplicações que requerem inferência em tempo real sem dependência os modelos são implementados diretamente em dispositivos locais. A IA de ponta utiliza hardware compacto, como o NVIDIA Jetson ou Raspberry Pi, para processar dados na fonte. Esta abordagem minimiza a latência e melhora a privacidade dos dados ao manter informações confidenciais no dispositivo.
Baseado no navegador: Estruturas como o TensorFlow.js permitem modelos sejam executados inteiramente dentro de um navegador da Web usando o hardware do cliente. Essa abordagem de instalação zero é excelente para aplicações Web interactivas e tarefas leves de tarefas leves de visão computacional (CV).

Aplicações no Mundo Real

Controlo de qualidade de fabrico automatizado: Numa fábrica, um YOLO11 modelo de deteção de objectos é implementado num ligado a uma câmara sobre uma correia transportadora. À medida que os produtos passam, o modelo efectua a deteção de anomalias em tempo real deteção de anomalias em tempo real para identificar defeitos como fissuras ou etiquetas desalinhadas. O sistema acciona instantaneamente um braço mecânico para remover os artigos defeituosos, aumentando significativamente aumentando significativamente a eficiência em comparação com a inspeção manual. Saiba mais sobre IA no fabrico.
Análise de retalho inteligente: Os retalhistas implementam modelos de rastreio de objectos para analisar o comportamento dos clientes nas lojas. Ao processar feeds de vídeo num servidor local, o sistema gera mapas de calor de áreas de elevado tráfego áreas de tráfego intenso e monitoriza o comprimento das filas. Estes dados ajudam os gestores a otimizar a disposição das lojas e os níveis de pessoal. Ver como IA no retalho está a transformar a experiência de experiência de compra.

Conceitos relacionados: Implantação vs. Serviço vs. MLOps

É importante distinguir "Model Deployment" de termos relacionados no ecossistema:

Implantação de modelo vs. Serviço de modelo: A implantação refere-se ao processo geral de colocar um modelo em produção. O serviço de modelo é o mecanismo mecanismo ou software específico (como o Servidor de inferênciaNVIDIA Triton ou TorchServe) que escuta as solicitações de API e executa o modelo para gerar previsões. O serviço é um componente da implantação.
Implantação do modelo vs. MLOps: A implantação é uma fase única dentro da estrutura mais ampla do MLOps. MLOps (Operações de Aprendizado de Máquina) engloba todo o ciclo de vida, incluindo coleta de dados, treinamento, avaliação, implantação e monitoramento contínuo do monitorização contínua do modelo para detect problemas como desvio de dados.

Exportação de um modelo para implantação

Um primeiro passo comum na implantação é exportar um modelo treinado para um formato altamente compatível. O exemplo seguinte demonstra como exportar um modelo YOLO11 para o formato ONNX usando o comando ultralytics pacote, tornando-o pronto para ser implementado em várias plataformas.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to ONNX format for broad compatibility
# This creates 'yolo11n.onnx' which can be used in deployment environments
model.export(format="onnx")

Implantação de Modelo

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

O pipeline de implantação

Ambientes de Implementação

Aplicações no Mundo Real

Conceitos relacionados: Implantação vs. Serviço vs. MLOps

Exportação de um modelo para implantação

Leia mais nesta categoria

Futuras tendências na deteção de objectos: 7 aspectos fundamentais a ter em conta

Melhorar a reidentificação de veículos com modelos Ultralytics YOLO

Melhorar a previsão de colisões com os modelos Ultralytics YOLO

Junte-se à comunidade Ultralytics