Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Pré-processamento de dados

Domine o pré-processamento de dados para machine learning. Aprenda técnicas como limpeza, escalonamento e codificação para aumentar a precisão e o desempenho do modelo.

O pré-processamento de dados é uma etapa crucial no pipeline de aprendizado de máquina (ML) que envolve a limpeza, transformação e organização de dados brutos para torná-los adequados para treinamento e construção de modelos. Os dados brutos do mundo real são frequentemente incompletos, inconsistentes e podem conter erros. O pré-processamento converte esses dados confusos em um formato limpo e bem estruturado, o que é essencial para que um modelo aprenda de forma eficaz. A qualidade das previsões de um modelo depende muito da qualidade dos dados nos quais ele é treinado, tornando o pré-processamento de dados uma prática fundamental para alcançar alta precisão e desempenho confiável em sistemas de IA.

Tarefas Essenciais no Pré-processamento de Dados

O pré-processamento de dados é um termo amplo que engloba uma variedade de técnicas para preparar os dados. As etapas específicas dependem do conjunto de dados e da tarefa de ML, mas as tarefas comuns incluem:

  • Limpeza de Dados: Este é o processo de identificar e corrigir ou remover erros, inconsistências e valores em falta de um conjunto de dados. Isto pode envolver o preenchimento de dados em falta usando métodos estatísticos ou a remoção de entradas duplicadas. Dados limpos são a pedra angular de qualquer modelo fiável.
  • Transformação de Dados: Isto envolve alterar a escala ou distribuição dos dados. Uma técnica comum é a normalização, que escala as características numéricas para um intervalo padrão (por exemplo, 0 a 1) para evitar que as características com escalas maiores dominem o processo de aprendizagem. Pode saber mais sobre vários métodos de escalonamento na documentação de pré-processamento do scikit-learn.
  • Feature Engineering: Este é o processo criativo de criar novas características a partir das existentes para melhorar o desempenho do modelo. Isso pode envolver a combinação de características, a decomposição delas ou o uso do conhecimento do domínio para extrair informações mais significativas. Um conceito relacionado é a extração de características, que reduz automaticamente a dimensionalidade dos dados.
  • Codificação de Dados Categóricos: Muitos algoritmos de ML exigem entrada numérica. O pré-processamento geralmente envolve a conversão de dados categóricos (como rótulos de texto) em um formato numérico por meio de técnicas como codificação one-hot.
  • Redimensionamento e Aumento: Em visão computacional (VC), o pré-processamento inclui redimensionar imagens para uma dimensão uniforme. Também pode ser seguido por aumento de dados, que expande artificialmente o conjunto de dados, criando versões modificadas das imagens.

Aplicações de IA/ML no Mundo Real

O pré-processamento de dados é um requisito universal em todos os domínios de IA. Sua aplicação é fundamental para o sucesso em tarefas simples e complexas.

  1. Análise de Imagens Médicas: Antes que um modelo YOLO possa ser treinado para detectar tumores em exames de ressonância magnética de um conjunto de dados como o conjunto de dados de Tumor Cerebral, as imagens devem ser pré-processadas. Isso envolve normalizar os valores de intensidade de pixel para levar em conta as diferenças nos equipamentos de digitalização, redimensionar todas as imagens para um tamanho de entrada consistente exigido pelo backbone do modelo e limpar o conjunto de dados para remover arquivos corrompidos ou exemplos rotulados incorretamente. Isso garante que a rede neural convolucional (CNN) aprenda as verdadeiras características patológicas de um modelo, em vez de variações na imagem. Você pode ver mais sobre isso em nosso blog sobre como usar o YOLO para detecção de tumores.
  2. Previsão de varejo com tecnologia de IA: Para um modelo que prevê a demanda do cliente no varejo, os dados brutos de vendas geralmente contêm registros de transações ausentes, nomes de produtos inconsistentes e recursos em escalas muito diferentes (por exemplo, 'preço do item' vs. 'número de itens vendidos'). O pré-processamento aqui envolve a imputação de valores de vendas ausentes, a padronização dos nomes dos produtos e a normalização dos recursos numéricos para que o algoritmo de modelagem preditiva possa ponderar efetivamente a importância de cada fator. Uma visão geral do pré-processamento para negócios destaca essas etapas.

Pré-processamento de Dados vs. Conceitos Relacionados

É útil diferenciar o pré-processamento de dados de outros termos relacionados ao gerenciamento de dados.

  • Limpeza de Dados: Como mencionado, a limpeza de dados é um subconjunto do pré-processamento de dados. Enquanto o pré-processamento é todo o processo de preparação de dados para um modelo, a limpeza foca-se especificamente em corrigir erros, lidar com valores em falta e remover inconsistências dentro do conjunto de dados bruto.
  • Aumento de Dados: O aumento de dados é uma técnica usada para aumentar artificialmente o tamanho dos dados de treino. Embora faça parte da preparação dos dados para o treino, é normalmente aplicado após as etapas iniciais de pré-processamento, como limpeza e redimensionamento, já terem sido concluídas no conjunto de dados original. O objetivo do aumento é melhorar a generalização do modelo, enquanto o pré-processamento visa tornar os dados originais utilizáveis.
  • Análise de Dados: A análise de dados é um campo muito mais amplo que envolve o exame de conjuntos de dados para tirar conclusões e apoiar a tomada de decisões. O pré-processamento de dados é o primeiro passo fundamental dentro de um fluxo de trabalho de análise de dados, que também inclui análise exploratória de dados (EDA), modelagem e visualização de dados.

Plataformas como o Ultralytics HUB podem ajudar a gerenciar conjuntos de dados e otimizar o ciclo de vida do ML, desde a preparação dos dados até a implantação do modelo. O guia sobre o pré-processamento de dados anotados fornece insights práticos adicionais.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência