Dados de Teste
Descubra a importância dos dados de teste em IA, seu papel na avaliação do desempenho do modelo, na detecção de overfitting e na garantia da confiabilidade no mundo real.
Na aprendizagem automática, os dados de teste são uma parte separada e independente de um conjunto de dados utilizado para a avaliação final
avaliação final de um modelo depois de este ter sido totalmente treinado e afinado. Este conjunto de dados actua como um "exame final" para o modelo
modelo, fornecendo uma avaliação imparcial do seu desempenho em dados novos e não vistos. O princípio fundamental é que o modelo
nunca deve aprender com os dados de teste ou ser influenciado por eles durante o seu desenvolvimento. Esta separação rigorosa garante que
os indicadores de desempenho calculados no conjunto de teste, tais como
exatidão ou
precisão ou precisão média média (mAP), são um verdadeiro
verdadeiro reflexo da capacidade do modelo de
generalizar para cenários do mundo real. O teste rigoroso
rigoroso do modelo é um passo crítico antes
implantação do modelo.
O Papel dos Dados de Teste no Ciclo de Vida de ML
Num projeto típico de Aprendizagem Automática (AM),
os dados são cuidadosamente divididos para servir diferentes objectivos. Compreender a distinção entre estas partições é
fundamental para construir modelos fiáveis.
-
Dados de treino: Este é o maior subconjunto
subconjunto de dados, utilizado para ensinar o modelo. O modelo aprende iterativamente padrões, caraterísticas e relações
ajustando os pesos internos do modelo com base nos
exemplos no conjunto de treino. A criação eficaz de modelos assenta em dados de formação de elevada qualidade e no seguimento das melhores
práticas recomendadas como as deste
guia de dicas de treinamento de modelos.
-
Dados de validação: Trata-se de um
conjunto de dados separado utilizado durante o processo de formação. O seu objetivo é fornecer feedback sobre o desempenho do modelo
desempenho do modelo em dados não vistos, o que ajuda na
ajuda na afinação de hiperparâmetros (por exemplo, ajustando a
taxa de aprendizagem) e a evitar
sobreajuste. É como um teste prático que ajuda a
a orientar a estratégia de aprendizagem. A avaliação é frequentemente efectuada utilizando um modo de validação
modo de validação.
-
Dados de teste: Este conjunto de dados é mantido completamente isolado até que toda a formação e validação estejam concluídas.
É utilizado apenas uma vez para fornecer um relatório final e imparcial sobre o desempenho do modelo. A utilização dos dados de teste para efetuar
Os dados de teste para efetuar quaisquer outros ajustes ao modelo invalidariam os resultados, um erro por vezes referido como
"fuga de dados" ou "ensinar ao
teste". Esta avaliação final é essencial para compreender como um modelo, tal como um
Ultralytics YOLO11 terá um bom desempenho após a implantação.
Após a formação, pode utilizar o val na sua divisão de teste para gerar métricas de desempenho finais.
from ultralytics import YOLO
# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")
# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map) # Print mAP score
Embora um conjunto de dados de referência possa servir como um conjunto de teste
o seu papel principal é atuar como um padrão público para comparar diferentes modelos, frequentemente utilizado em desafios académicos
académicos, como o
Desafio de reconhecimento visual em grande escalaImageNet (ILSVRC). Pode
pode ver exemplos disso nas páginas de comparação de modelos.
Aplicações no Mundo Real
-
IA no sector automóvel: Um programador cria um modelo de
modelo de deteção de objectos para um
veículo autónomo utilizando milhares de horas
de filmagens de condução para treino e validação. Antes de implementar este modelo numa frota, ele é avaliado em relação a um
conjunto de dados de teste. Este conjunto de testes incluiria cenários desafiantes e nunca antes vistos, como conduzir à noite sob chuva intensa, navegar numa tempestade de neve ou detetar objectos
chuva, navegar através de uma tempestade de neve ou detetar peões parcialmente ocultos por outros objectos. O desempenho do modelo
O desempenho do modelo neste conjunto de testes, muitas vezes utilizando dados de referências como
nuScenes, determina se o modelo cumpre as rigorosas
normas de segurança e fiabilidade exigidas para a
IA em aplicações automóveis.
-
Análise de imagens médicas: A
modelo de visão computacional (CV) é treinado para
detect sinais de pneumonia a partir de imagens de raios X do tórax provenientes de um hospital. Para garantir a sua utilidade clínica, o modelo
modelo deve ser testado num conjunto de dados de imagens de um sistema hospitalar diferente. Estes dados de teste devem incluir imagens
imagens captadas com equipamento diferente, de uma população de doentes diversa e interpretadas por diferentes radiologistas.
A avaliação do desempenho do modelo neste conjunto de testes externos é crucial para obter aprovação regulamentar, como por exemplo
da
FDA, e confirmar a sua utilidade para a
IA nos cuidados de saúde. Este processo ajuda a garantir que o modelo
modelo evita o enviesamento do conjunto de dados e tem um desempenho fiável em
novos contextos clínicos. Pode encontrar conjuntos de dados públicos de imagiologia médica em recursos como
O Arquivo de Imagiologia do Cancro (TCIA).
Melhores práticas para a gestão de dados de teste
Para garantir a integridade da sua avaliação, considere estas boas práticas:
-
Amostragem aleatória: Ao criar as suas divisões de dados, certifique-se de que o conjunto de teste é uma
representativo do espaço geral do problema. Ferramentas como
scikit-learn's train_test_split
do scikit-learn podem ajudar a automatizar esse particionamento aleatório.
-
Evitar a fuga de dados: Assegurar que não existe sobreposição entre os conjuntos de treino e de teste. Mesmo uma fuga subtil,
como a presença de fotogramas do mesmo clip de vídeo em ambos os conjuntos, pode aumentar artificialmente as pontuações de desempenho.
-
Distribuição representativa: Para tarefas como a
classificação, verifique se a distribuição de classes no
conjunto de teste reflecte a distribuição do mundo real que se espera encontrar.
-
Métricas de avaliação: Escolha métricas que estejam alinhadas com os seus objectivos comerciais. Por exemplo, numa aplicação de segurança
de segurança, uma elevada recuperação pode ser mais importante do que
precisão para garantir que nenhuma ameaça seja perdida.
Ao respeitar rigorosamente estes princípios, pode utilizar com confiança os dados de teste para certificar que os seus modelos
modelosUltralytics estão prontos para ambientes de produção.