Glossário

Pré-processamento de dados

Pré-processamento de dados principais para aprendizagem automática. Aprenda técnicas como limpeza, dimensionamento e codificação para aumentar a precisão e o desempenho do modelo.

O pré-processamento de dados é um passo crucial no pipeline de aprendizagem automática (ML) que envolve a limpeza, transformação e organização de dados em bruto para os tornar adequados para a formação e construção de modelos. Os dados em bruto do mundo real são frequentemente incompletos, inconsistentes e podem conter erros. O pré-processamento converte estes dados confusos num formato limpo e bem estruturado, o que é essencial para que um modelo aprenda eficazmente. A qualidade das previsões de um modelo depende em grande medida da qualidade dos dados com que é treinado, o que faz do pré-processamento de dados uma prática fundamental para alcançar uma elevada precisão e um desempenho fiável nos sistemas de IA.

Tarefas-chave no pré-processamento de dados

O pré-processamento de dados é um termo abrangente que engloba uma variedade de técnicas de preparação de dados. Os passos específicos dependem do conjunto de dados e da tarefa de ML, mas as tarefas comuns incluem:

  • Limpeza de dados: É o processo de identificação e correção ou remoção de erros, inconsistências e valores em falta de um conjunto de dados. Isto pode envolver o preenchimento de dados em falta utilizando métodos estatísticos ou a remoção de registos duplicados. Os dados limpos são a pedra angular de qualquer modelo fiável.
  • Transformação de dados: Trata-se de alterar a escala ou a distribuição dos dados. Uma técnica comum é a normalizaçãoque dimensiona as caraterísticas numéricas para um intervalo padrão (por exemplo, 0 a 1) para evitar que as caraterísticas com escalas maiores dominem o processo de aprendizagem. Pode obter mais informações sobre vários métodos de escala na documentação de pré-processamento do scikit-learn.
  • Engenharia de caraterísticas: Este é o processo criativo de criar novas caraterísticas a partir das existentes para melhorar o desempenho do modelo. Isto pode envolver a combinação de caraterísticas, a sua decomposição ou a utilização de conhecimentos do domínio para extrair informações mais significativas. Um conceito relacionado é a extração de caraterísticasque reduz automaticamente a dimensionalidade dos dados.
  • Codificação de dados categóricos: Muitos algoritmos de ML requerem dados numéricos. O pré-processamento envolve frequentemente a conversão de dados categóricos (como rótulos de texto) num formato numérico através de técnicas como a codificação de uma só vez.
  • Redimensionamento e aumento: Na visão computacional (CV), o pré-processamento inclui o redimensionamento de imagens para uma dimensão uniforme. Também pode ser seguido por aumento de dadosque expande artificialmente o conjunto de dados através da criação de versões modificadas de imagens.

Aplicações IA/ML do mundo real

O pré-processamento de dados é um requisito universal em todos os domínios da IA. A sua aplicação é fundamental para o sucesso tanto em tarefas simples como complexas.

  1. Análise de imagens médicas: Antes que um modelo YOLO possa ser treinado para detetar tumores em exames de ressonância magnética de um conjunto de dados como o Brain Tumor, as imagens devem ser pré-processadas. Isto envolve a normalização dos valores de intensidade dos pixels para ter em conta as diferenças no equipamento de digitalização, o redimensionamento de todas as imagens para um tamanho de entrada consistente exigido pela espinha dorsal do modelo e a limpeza do conjunto de dados para remover ficheiros corrompidos ou exemplos mal rotulados. Isto assegura que a rede neural convolucional (CNN) aprende as verdadeiras caraterísticas patológicas de um modelo e não as variações nas imagens. Pode ver mais sobre isto no nosso blogue sobre a utilização do YOLO para a deteção de tumores.
  2. Previsão de retalho com base em IA: Para um modelo que prevê a procura do cliente no retalho, os dados brutos de vendas contêm frequentemente registos de transacções em falta, nomes de produtos inconsistentes e caraterísticas em escalas muito diferentes (por exemplo, "preço do artigo" vs. "número de artigos vendidos"). Neste caso, o pré-processamento envolve a imputação dos valores de vendas em falta, a normalização dos nomes dos produtos e a normalização das caraterísticas numéricas para que o algoritmo de modelação preditiva possa ponderar eficazmente a importância de cada fator. Uma visão geral do pré-processamento para empresas destaca estas etapas.

Pré-processamento de dados vs. conceitos relacionados

É útil distinguir o pré-processamento de dados de outros termos relacionados com a gestão de dados.

  • Limpeza de dados: Como mencionado, a limpeza de dados é um subconjunto do pré-processamento de dados. Enquanto o pré-processamento é o processo completo de preparação dos dados para um modelo, a limpeza centra-se especificamente na correção de erros, no tratamento de valores em falta e na remoção de inconsistências no conjunto de dados em bruto.
  • Aumento de dados: O aumento de dados é uma técnica utilizada para aumentar artificialmente o tamanho dos dados de treino. Embora faça parte da preparação dos dados para treino, é normalmente aplicada após os passos iniciais de pré-processamento, como a limpeza e o redimensionamento, já terem sido concluídos no conjunto de dados original. O objetivo do aumento é melhorar a generalização do modelo, enquanto o pré-processamento visa tornar os dados originais utilizáveis.
  • Análise de dados: A análise de dados é um campo muito mais vasto que envolve o exame de conjuntos de dados para tirar conclusões e apoiar a tomada de decisões. O pré-processamento de dados é o primeiro passo fundamental num fluxo de trabalho de análise de dados, que também inclui a análise exploratória de dados (EDA), a modelação e a visualização de dados.

Plataformas como o Ultralytics HUB podem ajudar a gerir conjuntos de dados e simplificar o ciclo de vida do ML, desde a preparação dos dados até à implementação do modelo. O guia sobre o pré-processamento de dados anotados fornece mais informações práticas.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência