Dados de teste
Descubra a importância dos dados de teste na IA, o seu papel na avaliação do desempenho do modelo, na deteção de sobreajustes e na garantia de fiabilidade no mundo real.
Na aprendizagem automática, os dados de teste são uma parte separada e independente de um conjunto de dados que é utilizada para a avaliação final de um modelo depois de este ter sido totalmente treinado e afinado. Este conjunto de dados actua como um "exame final" para o modelo, fornecendo uma avaliação imparcial do seu desempenho em dados novos e não vistos. O princípio fundamental é que o modelo nunca deve aprender ou ser influenciado pelos dados de teste durante o seu desenvolvimento. Esta separação rigorosa garante que as métricas de desempenho calculadas no conjunto de teste, como a exatidão ou a precisão média média (mAP), são um verdadeiro reflexo da capacidade do modelo para generalizar para cenários do mundo real. O teste rigoroso do modelo é uma etapa crítica antes da implantação do modelo.
O papel dos dados de teste no ciclo de vida do ML
Num projeto típico de Aprendizagem Automática (AM), os dados são cuidadosamente divididos para servir diferentes objectivos. Compreender a distinção entre estas partições é fundamental.
- Dados de treino: Este é o maior subconjunto de dados, utilizado para ensinar o modelo. O modelo aprende iterativamente padrões, caraterísticas e relações, ajustando os seus pesos internos com base nos exemplos do conjunto de treino. A criação eficaz de modelos depende de dados de treinamento de alta qualidade e do cumprimento de práticas recomendadas, como as apresentadas neste guia de dicas de treinamento de modelos.
- Dados de validação: Trata-se de um conjunto de dados separado utilizado durante o processo de formação. O seu objetivo é fornecer feedback sobre o desempenho do modelo em dados não vistos, o que ajuda na afinação de hiperparâmetros (por exemplo, ajustar a taxa de aprendizagem) e evitar o sobreajuste. É como um teste prático que ajuda a orientar a estratégia de aprendizagem. A avaliação é frequentemente efectuada utilizando um modo de validação dedicado.
- Dados de teste: Este conjunto de dados é mantido completamente isolado até que toda a formação e validação estejam concluídas. É utilizado apenas uma vez para fornecer um relatório final e imparcial sobre o desempenho do modelo. A utilização dos dados de teste para efetuar quaisquer outros ajustes ao modelo invalidaria os resultados, um erro por vezes referido como "fuga de dados" ou "ensinar para o teste". Esta avaliação final é essencial para compreender o desempenho de um modelo, como o modelo YOLO do Ultralytics, após a implementação. Ferramentas como o Ultralytics HUB podem ajudar a gerir estes conjuntos de dados ao longo do ciclo de vida do projeto.
Embora um conjunto de dados de referência possa servir como um conjunto de teste, a sua função principal é atuar como um padrão público para comparar diferentes modelos, frequentemente utilizado em desafios académicos como o ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Pode ver exemplos disto nas páginas de comparação de modelos.
Aplicações no mundo real
- IA no sector automóvel: Um programador cria um modelo de deteção de objectos para um veículo autónomo utilizando milhares de horas de filmagens de condução para treino e validação. Antes de implementar este modelo numa frota, é avaliado em relação a um conjunto de dados de teste. Este conjunto de teste incluiria cenários desafiantes e nunca antes vistos, tais como conduzir à noite sob chuva intensa, navegar através de uma tempestade de neve ou detetar peões parcialmente ocultos por outros objectos. O desempenho do modelo neste conjunto de testes, muitas vezes utilizando dados de benchmarks como o nuScenes, determina se este cumpre as rigorosas normas de segurança e fiabilidade exigidas para a IA em aplicações automóveis.
- Análise de imagens médicas: Um modelo de visão por computador (CV) é treinado para detetar sinais de pneumonia a partir de imagens de raios X do tórax provenientes de um hospital. Para garantir a sua utilidade clínica, o modelo deve ser testado num conjunto de dados de imagens de um sistema hospitalar diferente. Estes dados de teste devem incluir imagens captadas com equipamento diferente, de uma população de doentes diversa e interpretadas por diferentes radiologistas. A avaliação do desempenho do modelo neste conjunto de testes externo é crucial para obter a aprovação regulamentar, como a da FDA, e confirmar a sua utilidade para a IA nos cuidados de saúde. Este processo ajuda a garantir que o modelo evita o enviesamento do conjunto de dados e tem um desempenho fiável em novos contextos clínicos.