Dados de treino
Descubra a importância dos dados de formação na IA. Saiba como os conjuntos de dados de qualidade potenciam modelos de aprendizagem automática precisos e robustos para tarefas do mundo real.
Os dados de treino são o conjunto de dados fundamental utilizado para ensinar um modelo de aprendizagem automática (ML) a fazer previsões ou tomar decisões exactas. Na aprendizagem supervisionada, estes dados consistem em amostras de entrada emparelhadas com as saídas corretas correspondentes, frequentemente designadas por rótulos ou anotações. O modelo aprende iterativamente com estes exemplos, ajustando os pesos do seu modelo interno para minimizar a diferença entre as suas previsões e as etiquetas reais. A qualidade, quantidade e diversidade dos dados de treino são os factores mais críticos que influenciam o desempenho de um modelo e a sua capacidade de generalização a dados novos e não vistos.
A importância de dados de formação de elevada qualidade
O princípio de "lixo dentro, lixo fora" é especialmente verdadeiro para a formação de modelos de ML. Os dados de elevada qualidade são essenciais para a criação de sistemas robustos e fiáveis. As principais caraterísticas incluem:
- Relevância: Os dados devem refletir com precisão o problema que o modelo se destina a resolver.
- Diversidade: Deve abranger uma vasta gama de cenários, casos extremos e variações que o modelo irá encontrar no mundo real para evitar o sobreajuste.
- Rotulagem exacta: As anotações devem ser corretas e consistentes. O processo de rotulagem de dados é frequentemente a parte mais demorada de um projeto de visão por computador.
- Volume suficiente: Normalmente, é necessária uma grande quantidade de dados para que o modelo aprenda padrões significativos. Técnicas como o aumento de dados podem ajudar a expandir artificialmente o conjunto de dados.
- Baixo enviesamento: Os dados devem ser equilibrados e representativos para evitar o enviesamento do conjunto de dados, que pode levar a um comportamento injusto ou incorreto do modelo. Compreender o enviesamento algorítmico é um aspeto fundamental do desenvolvimento responsável da IA.
Plataformas como o Ultralytics HUB fornecem ferramentas para gerir conjuntos de dados ao longo do ciclo de vida de desenvolvimento do modelo, enquanto ferramentas de código aberto como o CVAT são populares para tarefas de anotação.
Exemplos do mundo real
- Veículos autónomos: Para treinar um modelo de deteção de objectos para veículos autónomos, os programadores utilizam grandes quantidades de dados de treino de câmaras e sensores. Estes dados consistem em imagens e vídeos em que cada fotograma é meticulosamente identificado. Os peões, ciclistas, outros carros e sinais de trânsito são colocados em caixas delimitadoras. Ao treinar em conjuntos de dados como o Argoverse ou o nuScenes, a IA do veículo aprende a percecionar e a navegar no seu ambiente em segurança.
- Análise de imagens médicas: No sector da saúde, os dados de formação para a análise de imagens médicas podem consistir em milhares de exames de ressonância magnética ou de tomografia computorizada. Os radiologistas anotam estas imagens para realçar tumores, fracturas ou outras patologias. Um modelo de ML, como um construído com o Ultralytics YOLO, pode ser treinado num conjunto de dados de tumores cerebrais para aprender a identificar estas anomalias, actuando como uma ferramenta poderosa para ajudar os médicos a fazer diagnósticos mais rápidos e mais precisos. Recursos como o The Cancer Imaging Archive (TCIA) fornecem acesso público a esses dados para investigação.
Dados de treino vs. dados de validação e teste
Num projeto típico de ML, os dados são divididos em três conjuntos distintos:
Manter uma separação rigorosa entre estes conjuntos de dados é essencial para desenvolver modelos fiáveis. Os modelos mais avançados são frequentemente pré-treinados em grandes conjuntos de dados de referência, como o COCO ou o ImageNet, que servem como dados de treino extensivos. Pode encontrar mais conjuntos de dados em plataformas como o Google Dataset Search e o Kaggle Datasets.