A monitorização de modelos é o processo contínuo de acompanhamento e avaliação do desempenho dos modelos de aprendizagem automática (ML) depois de serem implementados na produção. Envolve a observação das principais métricas relacionadas com a precisão do modelo, a saúde operacional e as caraterísticas dos dados para garantir que o modelo se comporta como esperado ao longo do tempo. Esta prática é uma parte crucial do ciclo de vida das Operações de Aprendizagem Automática (MLOps), assegurando que os sistemas de Inteligência Artificial (IA) implementados permanecem fiáveis, eficazes e dignos de confiança em ambientes reais. Sem monitorização, o desempenho do modelo pode degradar-se silenciosamente, conduzindo a previsões fracas e a resultados comerciais negativos.
Porque é que a monitorização de modelos é importante?
Os modelos de ML são treinados com base em dados históricos, mas o mundo real é dinâmico. As alterações nos padrões de dados, no comportamento do utilizador ou no ambiente podem fazer com que o desempenho de um modelo diminua após a implementação. As principais razões para a monitorização incluem:
- Detetar a degradação do desempenho: Os modelos podem tornar-se menos precisos ao longo do tempo. O monitoramento ajuda a identificar quedas nas métricas de desempenho, como precisão, recuperação ou pontuação F1. Podes saber mais sobre as métricas de desempenhoYOLO no nosso guia.
- Identificar a deriva de dados: As propriedades estatísticas dos dados de entrada podem mudar, um fenómeno conhecido como desvio de dados. Isto pode acontecer quando os dados que o modelo vê na produção diferem significativamente dos dados de treino. A monitorização das caraterísticas de entrada ajuda a detetar essas mudanças.
- Detetar a deriva do conceito: A relação entre as caraterísticas de entrada e a variável-alvo pode mudar ao longo do tempo (desvio de conceito). Por exemplo, as preferências dos clientes podem evoluir, tornando obsoletos os antigos padrões de previsão. O desvio de conceito requer a reciclagem ou adaptação do modelo.
- Garante a integridade operacional: A monitorização acompanha as métricas operacionais, como a latência da inferência, o rendimento e as taxas de erro, para garantir que a infraestrutura de fornecimento de modelos(fornecimento de modelos) está a funcionar sem problemas.
- Manter a equidade e a ética: A monitorização pode ajudar a detetar e atenuar o enviesamento na IA, acompanhando o desempenho em diferentes grupos demográficos ou segmentos de dados, promovendo a ética da IA.
Que aspectos são monitorizados?
A monitorização eficaz do modelo envolve normalmente o acompanhamento de várias categorias de métricas:
- Desempenho da previsão: Métricas como a exatidão, a precisão média (mAP), a AUC e as taxas de erro, muitas vezes comparadas com os valores de referência estabelecidos durante a validação.
- Qualidade e integridade dos dados: Acompanha os valores em falta, as incompatibilidades de tipo de dados e as violações de intervalo nos dados de entrada.
- Desvio de dados de entrada: Medidas estatísticas (por exemplo, índice de estabilidade da população, teste de Kolmogorov-Smirnov) para comparar a distribuição das caraterísticas de entrada da produção com a distribuição dos dados de treino.
- Desvio de previsão/resultado: Monitoriza a distribuição das previsões do modelo para detetar mudanças significativas.
- Métricas operacionais: Métricas ao nível do sistema como CPU/GPU utilização de CPU / GPU, uso de memória, latência de solicitação e taxa de transferência. Plataformas como o Prometheus são frequentemente usadas para isso.
- Métricas de equidade e viés: Avalia as disparidades de desempenho do modelo em atributos sensíveis (por exemplo, idade, sexo, etnia) utilizando métricas como paridade demográfica ou probabilidades igualadas.
Monitorização de modelos vs. conceitos relacionados
É importante distinguir a monitorização de modelos de termos semelhantes:
- Observabilidade: Enquanto a monitorização se concentra no acompanhamento de métricas predefinidas para avaliar modos de falha conhecidos, a observabilidade fornece as ferramentas (registos, métricas, traços) para explorar e compreender estados e comportamentos desconhecidos do sistema. A observabilidade permite uma investigação mais profunda quando a monitorização detecta uma anomalia.
- MLOps: O MLOps é um conjunto mais vasto de práticas que abrange todo o ciclo de vida do ML, incluindo a gestão de dados, a formação de modelos, a implementação, a governação e a monitorização. A monitorização de modelos é uma componente crítica no âmbito da estrutura MLOps, centrando-se especificamente na saúde do modelo pós-implementação.
- Avaliação do modelo: A avaliação é normalmente efectuada antes da implementação, utilizando dados de validação estática ou dados de teste para avaliar a qualidade de um modelo. A monitorização é um processo contínuo realizado em dados de produção em tempo real após a implementação. Encontra aqui informações sobre a avaliação e o aperfeiçoamento do modelo.
Aplicações no mundo real
- Sistemas de recomendação para comércio eletrónico: Uma plataforma de comércio eletrónico utiliza um modelo de ML para recomendações de produtos(sistema de recomendação). A monitorização do modelo acompanha as taxas de cliques (CTR) e as taxas de conversão dos itens recomendados. Se a monitorização detetar uma queda súbita na CTR (degradação do desempenho) ou uma mudança nos tipos de produtos que estão a ser comprados (desvio de conceito devido a uma nova tendência), são acionados alertas. Isto leva a uma investigação e, potencialmente, a um novo treino do modelo com dados de interação mais recentes. O Amazon Personalize inclui funcionalidades para monitorizar a eficácia das recomendações.
- Perceção de veículos autónomos: Os carros autónomos dependem fortemente de modelos de visão por computador como Ultralytics YOLO da Ultralytics para a deteção de objectos. A monitorização do modelo acompanha continuamente a precisão da deteçãoYOLO métrica de desempenhoYOLO ) e as pontuações de confiança para objectos como peões, ciclistas e outros veículos. Também monitoriza as caraterísticas dos dados de entrada (por exemplo, brilho da imagem, condições meteorológicas) para detetar desvios. Se o desempenho do modelo se degradar significativamente em condições específicas (por exemplo, chuva forte, pouca luz), o sistema pode mudar para um modo operacional mais seguro ou assinalar a necessidade de actualizações do modelo treinadas com dados mais diversificados(aumento de dados). Empresas como a Waymo investem fortemente na monitorização dos seus sistemas de perceção.