Limpeza de dados
Limpeza de dados principais para projectos de IA e ML. Aprenda técnicas para corrigir erros, melhorar a qualidade dos dados e aumentar o desempenho do modelo de forma eficaz!
A limpeza de dados é o processo de identificação e correção ou remoção de dados corrompidos, inexactos, incompletos ou inconsistentes de um conjunto de dados. É um primeiro passo fundamental em qualquer fluxo de trabalho de aprendizagem automática (ML), uma vez que a qualidade dos dados de treino determina diretamente o desempenho e a fiabilidade do modelo resultante. Seguindo o princípio "garbage in, garbage out", a limpeza de dados garante que modelos como o Ultralytics YOLO sejam treinados com informações precisas e consistentes, levando a uma melhor precisão e a previsões mais confiáveis. Sem uma limpeza adequada, os problemas subjacentes nos dados podem levar a resultados distorcidos e a uma fraca generalização do modelo.
Principais tarefas de limpeza de dados
O processo de limpeza de dados envolve várias tarefas distintas destinadas a resolver diferentes tipos de problemas de qualidade dos dados. Estas tarefas são frequentemente iterativas e podem exigir conhecimentos específicos do domínio.
- Tratamento de valores em falta: Os conjuntos de dados contêm frequentemente entradas em falta, que podem ser tratadas removendo os registos incompletos ou imputando (preenchendo) os valores em falta utilizando métodos estatísticos como a média, a mediana ou modelos preditivos mais avançados. Um guia sobre o tratamento de dados em falta pode fornecer mais informações.
- Correção de dados incorrectos: Isto inclui a correção de erros tipográficos, inconsistências de medição (por exemplo, lbs vs. kg) e informação factualmente incorrecta. As regras de validação de dados são frequentemente aplicadas para assinalar estes erros.
- Remoção de duplicados: Os registos duplicados podem introduzir preconceitos num modelo, dando um peso indevido a determinados pontos de dados. Identificar e remover estes registos redundantes é um passo normal.
- Gerir os valores atípicos: Os outliers são pontos de dados que se desviam significativamente de outras observações. Dependendo da sua causa, podem ser removidos, corrigidos ou transformados para evitar que tenham um impacto negativo no processo de formação do modelo. As técnicas de deteção de outliers são amplamente utilizadas para este efeito.
- Normalização dos dados: Trata-se de garantir que os dados estejam em conformidade com um formato consistente. Os exemplos incluem a normalização dos formatos de data, a caixa do texto (por exemplo, a conversão de todo o texto em minúsculas) e as conversões de unidades. Os padrões de qualidade de dados consistentes são cruciais para o sucesso.
Aplicações IA/ML do mundo real
- Análise de imagens médicas: Ao treinar um modelo de deteção de objectos num conjunto de dados como o conjunto de dados de tumores cerebrais, a limpeza dos dados é vital. O processo envolveria a remoção de ficheiros de imagem corrompidos ou de baixa qualidade, a normalização de todas as imagens para uma resolução e formato consistentes e a verificação de que as etiquetas e anotações dos pacientes estão corretas. Isto garante que o modelo aprende a partir de informações claras e fiáveis, o que é essencial para desenvolver ferramentas de diagnóstico fiáveis em IA nos cuidados de saúde. O National Institute of Biomedical Imaging and Bioengineering (NIBIB) destaca a importância da qualidade dos dados na investigação médica.
- IA para a gestão do inventário de retalho: No retalho orientado para a IA, os modelos de visão por computador monitorizam o stock das prateleiras através de imagens de câmaras. A limpeza de dados é necessária para filtrar imagens desfocadas, remover quadros em que os produtos são ocultados por compradores e desduplicar contagens de produtos a partir de vários ângulos de câmara. A correção destes problemas garante que o sistema de inventário tem uma visão precisa dos níveis de stock, permitindo um reabastecimento mais inteligente e reduzindo o desperdício. Empresas como a Google Cloud fornecem soluções de análise em que a qualidade dos dados é fundamental.
Limpeza de dados vs. conceitos relacionados
É importante distinguir a limpeza de dados das etapas de preparação de dados relacionadas:
- Pré-processamento de dados: Este é um termo mais abrangente que engloba a limpeza de dados, mas também inclui outras transformações para preparar os dados para modelos de ML, como a normalização (dimensionamento de caraterísticas numéricas), codificação de variáveis categóricas e extração de caraterísticas. Enquanto a limpeza se centra na correção de erros, o pré-processamento centra-se na formatação de dados para algoritmos. Para mais informações, consulte o guia Ultralytics sobre o pré-processamento de dados anotados.
- Rotulagem de dados: Este é o processo de adicionar etiquetas informativas ou anotações (rótulos) a dados em bruto, como desenhar caixas delimitadoras à volta de objectos em imagens para aprendizagem supervisionada. A limpeza de dados pode envolver a correção de etiquetas incorrectas identificadas durante as verificações de qualidade, mas é distinta do ato inicial de etiquetagem. O guia de Recolha e Anotação de Dados fornece informações sobre rotulagem.
- Aumento de dados: Esta técnica aumenta artificialmente a dimensão e a diversidade do conjunto de dados de treino, criando cópias modificadas dos dados existentes (por exemplo, rodando imagens, alterando o brilho). O aumento de dados tem como objetivo melhorar a generalização e a robustez do modelo, enquanto a limpeza de dados se concentra em melhorar a qualidade dos dados originais. Saiba mais em O guia definitivo para aumento de dados.
A limpeza de dados é uma prática fundamental, muitas vezes iterativa, que aumenta significativamente a fiabilidade e o desempenho dos sistemas de IA, garantindo que os dados subjacentes são sólidos. Ferramentas como a biblioteca Pandas são normalmente utilizadas para tarefas de manipulação e limpeza de dados em fluxos de trabalho de ML baseados em Python. Garantir a qualidade dos dados através de uma limpeza rigorosa é vital para desenvolver uma IA fiável, especialmente quando se trabalha com tarefas complexas de visão computacional (CV) ou conjuntos de dados de referência em grande escala como o COCO ou o ImageNet. Plataformas como o Ultralytics HUB podem ajudar a gerenciar e manter conjuntos de dados de alta qualidade durante todo o ciclo de vida do projeto.