Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Pré-processamento de dados

Domine o pré-processamento de dados para machine learning. Aprenda técnicas como limpeza, escalonamento e codificação para aumentar a precisão e o desempenho do modelo.

O pré-processamento de dados é a fase inicial crítica no pipeline de aprendizagem automática, em que os dados em bruto são transformados num formato formato limpo e compreensível para os algoritmos. Os dados do mundo real são frequentemente incompletos, inconsistentes e repletos de erros ou valores atípicos. Se um modelo for treinado com base nestes dados incorrectos, a modelação preditiva resultante produzirá provavelmente resultados imprecisos, um fenómeno frequentemente referido como "garbage in, garbage out". Ao abordar sistematicamente sistematicamente estas questões, o pré-processamento garante que que os dados de treino são de alta qualidade, o que é essencial para obter uma óptima precisão e estabilidade do modelo.

Técnicas principais no pré-processamento

Os passos específicos envolvidos no pré-processamento variam consoante o tipo de dados - seja texto, imagens ou dados tabulares - mas mas geralmente incluem várias tarefas fundamentais.

  • Limpeza de dados: Isto envolve tratamento de valores em falta, correção de dados com ruído e resolução de inconsistências. As técnicas podem incluir a imputação de entradas em falta com meios estatísticos ou a remoção total de registos corrompidos utilizando ferramentas como Pandas.
  • Normalização e escalonamento: Os algoritmos têm frequentemente um desempenho fraco quando as caraterísticas têm escalas muito diferentes (por exemplo, idade vs. rendimento). A normalização ajusta as colunas numéricas a uma escala comum, como 0 a 1, evitando que valores maiores dominem o processo de descida do gradiente. processo de descida de gradiente. Pode ler mais sobre estratégias de escala na documentação do documentação do Scikit-learn.
  • Codificação: Os modelos de aprendizagem automática requerem normalmente dados numéricos. Os dados categóricos (como "Vermelho", "Verde", "Azul") devem ser convertidos em números utilizando métodos como codificação de um ponto ou codificação de etiquetas codificação.
  • Redução da dimensionalidade: Técnicas como Análise de componentes principais (PCA) reduzem o número de variáveis de entrada, retendo apenas a informação mais essencial para evitar para evitar o sobreajuste e acelerar a formação.
  • Redimensionamento de imagens: Em visão computacional (CV), as imagens têm frequentemente de ser redimensionadas para uma dimensão fixa (por exemplo, 640x640 pixéis) para corresponder à camada de entrada de uma Rede Neural Convolucional (CNN).

Aplicações no Mundo Real

O pré-processamento de dados é omnipresente em todas as indústrias, servindo de espinha dorsal para sistemas de IA fiáveis.

  1. Análise de imagens médicas: Ao detetar anomalias em exames de ressonância magnética ou tomografia computadorizada, o pré-processamento é vital. Os exames em bruto variam em termos de contraste e resolução dependendo da máquina utilizada. O pré-processamento normaliza a intensidade dos píxeis e redimensiona as imagens para garantir que o agente de IA se concentre nas caraterísticas patológicas em vez de artefactos técnicos. Por exemplo, veja como os investigadores estão a a utilizar YOLO11 para a deteção de tumores para melhorar a precisão do diagnóstico.
  2. Deteção de fraudes financeiras: No sector bancário, os registos de transacções são frequentemente confusos e desequilibrados. O pré-processamento envolve a limpeza de erros de carimbo de data/hora e a normalização dos montantes das transacções. Crucialmente, também envolve equilibrar o conjunto de dados - uma vez que a fraude é rara - utilizando técnicas de amostragem para garantir que o modelo de deteção de anomalias identifique efetivamente atividade suspeita. A IBM fornece informações sobre como a preparação de dados suporta estas análises críticas para o negócio.

Pré-processamento com Ultralytics YOLO

As estruturas modernas automatizam frequentemente partes significativas do pipeline de pré-processamento. Ao usar YOLO11tarefas como redimensionamento de imagens, escala de valores de pixel e formatação de rótulos são tratadas internamente durante o processo de treinamento. Isto permite que os programadores se concentrem em tarefas de nível superior como avaliação e implantação de modelos.

O exemplo a seguir demonstra como YOLO11 lida automaticamente com o redimensionamento de imagens através do imgsz argumento durante a formação:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)

Diferenciação de conceitos relacionados

É útil distinguir o pré-processamento de dados de termos semelhantes no fluxo de trabalho da aprendizagem automática:

  • vs. Aumento de dados: Enquanto o enquanto o pré-processamento formata os dados para serem utilizáveis (por exemplo, redimensionamento), o aumento envolve a criação de novas variações sintéticas de dados existentes (por exemplo, rodar, inverter) para aumentar a diversidade e a robustez do conjunto de dados. robustez. Pode saber mais no nosso guia para aumento de dados.
  • vs. Engenharia de caraterísticas: O pré-processamento centra-se na limpeza e formatação de dados em bruto. A engenharia de caraterísticas é um passo mais criativo que envolve que envolve a derivação de variáveis novas e significativas a partir desses dados (por exemplo, calcular o "preço por pé quadrado" a partir de "preço" e "área") para melhorar o desempenho do modelo.
  • vs. Etiquetagem de dados: A etiquetagem é o processo processo manual ou automatizado de anotação de dados (como desenhar caixas delimitadoras) para criar a verdade básica. O pré-processamento prepara essas imagens rotuladas e anotações para a rede neural.

Ao dominarem o pré-processamento de dados, os engenheiros estabelecem as bases para projectos de projectos de IA bem sucedidos, garantindo que modelos sofisticados como o YOLO11 e o futuro YOLO26 podem funcionar com todo o seu potencial. Para gerir conjuntos de dados e automatizar estes fluxos de trabalho, a Ultralytics Platform fornece um ambiente unificado para simplificar a jornada dos dados brutos até o modelo implantado.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora