Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Dados de Teste

Descubra a importância dos dados de teste em IA, seu papel na avaliação do desempenho do modelo, na detecção de overfitting e na garantia da confiabilidade no mundo real.

Na aprendizagem automática, os dados de teste são uma parte separada e independente de um conjunto de dados utilizado para a avaliação final avaliação final de um modelo depois de este ter sido totalmente treinado e afinado. Este conjunto de dados actua como um "exame final" para o modelo modelo, fornecendo uma avaliação imparcial do seu desempenho em dados novos e não vistos. O princípio fundamental é que o modelo nunca deve aprender com os dados de teste ou ser influenciado por eles durante o seu desenvolvimento. Esta separação rigorosa garante que os indicadores de desempenho calculados no conjunto de teste, tais como exatidão ou precisão ou precisão média média (mAP), são um verdadeiro verdadeiro reflexo da capacidade do modelo de generalizar para cenários do mundo real. O teste rigoroso rigoroso do modelo é um passo crítico antes implantação do modelo.

O Papel dos Dados de Teste no Ciclo de Vida de ML

Num projeto típico de Aprendizagem Automática (AM), os dados são cuidadosamente divididos para servir diferentes objectivos. Compreender a distinção entre estas partições é fundamental para construir modelos fiáveis.

  • Dados de treino: Este é o maior subconjunto subconjunto de dados, utilizado para ensinar o modelo. O modelo aprende iterativamente padrões, caraterísticas e relações ajustando os pesos internos do modelo com base nos exemplos no conjunto de treino. A criação eficaz de modelos assenta em dados de formação de elevada qualidade e no seguimento das melhores práticas recomendadas como as deste guia de dicas de treinamento de modelos.
  • Dados de validação: Trata-se de um conjunto de dados separado utilizado durante o processo de formação. O seu objetivo é fornecer feedback sobre o desempenho do modelo desempenho do modelo em dados não vistos, o que ajuda na ajuda na afinação de hiperparâmetros (por exemplo, ajustando a taxa de aprendizagem) e a evitar sobreajuste. É como um teste prático que ajuda a a orientar a estratégia de aprendizagem. A avaliação é frequentemente efectuada utilizando um modo de validação modo de validação.
  • Dados de teste: Este conjunto de dados é mantido completamente isolado até que toda a formação e validação estejam concluídas. É utilizado apenas uma vez para fornecer um relatório final e imparcial sobre o desempenho do modelo. A utilização dos dados de teste para efetuar Os dados de teste para efetuar quaisquer outros ajustes ao modelo invalidariam os resultados, um erro por vezes referido como "fuga de dados" ou "ensinar ao teste". Esta avaliação final é essencial para compreender como um modelo, tal como um Ultralytics YOLO11 terá um bom desempenho após a implantação.

Após a formação, pode utilizar o val na sua divisão de teste para gerar métricas de desempenho finais.

from ultralytics import YOLO

# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")

# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map)  # Print mAP score

Embora um conjunto de dados de referência possa servir como um conjunto de teste o seu papel principal é atuar como um padrão público para comparar diferentes modelos, frequentemente utilizado em desafios académicos académicos, como o Desafio de reconhecimento visual em grande escalaImageNet (ILSVRC). Pode pode ver exemplos disso nas páginas de comparação de modelos.

Aplicações no Mundo Real

  1. IA no sector automóvel: Um programador cria um modelo de modelo de deteção de objectos para um veículo autónomo utilizando milhares de horas de filmagens de condução para treino e validação. Antes de implementar este modelo numa frota, ele é avaliado em relação a um conjunto de dados de teste. Este conjunto de testes incluiria cenários desafiantes e nunca antes vistos, como conduzir à noite sob chuva intensa, navegar numa tempestade de neve ou detetar objectos chuva, navegar através de uma tempestade de neve ou detetar peões parcialmente ocultos por outros objectos. O desempenho do modelo O desempenho do modelo neste conjunto de testes, muitas vezes utilizando dados de referências como nuScenes, determina se o modelo cumpre as rigorosas normas de segurança e fiabilidade exigidas para a IA em aplicações automóveis.
  2. Análise de imagens médicas: A modelo de visão computacional (CV) é treinado para detect sinais de pneumonia a partir de imagens de raios X do tórax provenientes de um hospital. Para garantir a sua utilidade clínica, o modelo modelo deve ser testado num conjunto de dados de imagens de um sistema hospitalar diferente. Estes dados de teste devem incluir imagens imagens captadas com equipamento diferente, de uma população de doentes diversa e interpretadas por diferentes radiologistas. A avaliação do desempenho do modelo neste conjunto de testes externos é crucial para obter aprovação regulamentar, como por exemplo da FDA, e confirmar a sua utilidade para a IA nos cuidados de saúde. Este processo ajuda a garantir que o modelo modelo evita o enviesamento do conjunto de dados e tem um desempenho fiável em novos contextos clínicos. Pode encontrar conjuntos de dados públicos de imagiologia médica em recursos como O Arquivo de Imagiologia do Cancro (TCIA).

Melhores práticas para a gestão de dados de teste

Para garantir a integridade da sua avaliação, considere estas boas práticas:

  • Amostragem aleatória: Ao criar as suas divisões de dados, certifique-se de que o conjunto de teste é uma representativo do espaço geral do problema. Ferramentas como scikit-learn's train_test_split do scikit-learn podem ajudar a automatizar esse particionamento aleatório.
  • Evitar a fuga de dados: Assegurar que não existe sobreposição entre os conjuntos de treino e de teste. Mesmo uma fuga subtil, como a presença de fotogramas do mesmo clip de vídeo em ambos os conjuntos, pode aumentar artificialmente as pontuações de desempenho.
  • Distribuição representativa: Para tarefas como a classificação, verifique se a distribuição de classes no conjunto de teste reflecte a distribuição do mundo real que se espera encontrar.
  • Métricas de avaliação: Escolha métricas que estejam alinhadas com os seus objectivos comerciais. Por exemplo, numa aplicação de segurança de segurança, uma elevada recuperação pode ser mais importante do que precisão para garantir que nenhuma ameaça seja perdida.

Ao respeitar rigorosamente estes princípios, pode utilizar com confiança os dados de teste para certificar que os seus modelos modelosUltralytics estão prontos para ambientes de produção.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora