Glossário

Viés do conjunto de dados

Saiba como identificar e mitigar o viés do conjunto de dados na IA para garantir modelos de aprendizagem automática justos, precisos e fiáveis para aplicações do mundo real.

O enviesamento do conjunto de dados ocorre quando os dados utilizados para o treino do modelo não representam corretamente o ambiente real em que o modelo será implementado. Este desequilíbrio ou representação enviesada é uma questão crítica na aprendizagem automática (ML) porque os modelos aprendem os padrões e as falhas presentes nos seus dados de treino. Se os dados forem enviesados, o sistema de IA resultante herdará e, muitas vezes, amplificará esse enviesamento, conduzindo a resultados imprecisos, pouco fiáveis e injustos. Abordar o enviesamento do conjunto de dados é uma pedra angular do desenvolvimento de uma IA responsável e da defesa da ética da IA.

Fontes comuns de enviesamento de conjuntos de dados

O enviesamento pode ser introduzido em várias fases da cadeia de dados, desde a recolha até ao processamento. Alguns tipos comuns incluem:

  • Enviesamento de seleção: ocorre quando os dados não são amostrados aleatoriamente a partir da população-alvo. Por exemplo, a recolha de dados para um modelo de análise de retalho apenas em bairros com rendimentos elevados criaria um enviesamento de seleção, conduzindo a um modelo que não compreende o comportamento de outros grupos de clientes.
  • Viés de representação: acontece quando determinados subgrupos estão sub ou sobre-representados no conjunto de dados. Um conjunto de dados de referência para monitorização do tráfego com imagens maioritariamente diurnas fará com que um modelo tenha um desempenho fraco na deteção de veículos à noite.
  • Enviesamento de medição: resulta de erros sistemáticos durante a recolha de dados ou das próprias ferramentas de medição. Por exemplo, a utilização de câmaras de alta resolução para uma demografia e de câmaras de baixa resolução para outra introduz um viés de medição num conjunto de dados de visão por computador.
  • Viés de anotação: resulta dos julgamentos subjectivos dos anotadores humanos durante o processo de rotulagem dos dados. As noções pré-concebidas podem influenciar a forma como as etiquetas são aplicadas, especialmente em tarefas que envolvem interpretação subjectiva, o que pode afetar a aprendizagem do modelo.

Exemplos do mundo real

  1. Sistemas de reconhecimento facial: Os primeiros sistemas comerciais de reconhecimento facial eram notoriamente menos exactos para mulheres e pessoas de cor. A investigação, como o projeto Gender Shades, revelou que isto se devia em grande parte ao facto de os conjuntos de dados de treino serem compostos na sua esmagadora maioria por imagens de homens brancos. Os modelos treinados com base nestes dados distorcidos não conseguiam generalizar-se a diferentes grupos demográficos.
  2. Diagnóstico médico: Um modelo de IA concebido para a análise de imagens médicas, como a deteção de tumores em radiografias, pode ser treinado com dados de um único hospital. Este modelo pode aprender caraterísticas específicas do equipamento de imagiologia desse hospital. Quando implementado noutro hospital com máquinas diferentes, o seu desempenho pode cair significativamente devido ao desvio de dados. Este facto realça a necessidade de fontes de dados diversificadas na IA nos cuidados de saúde.

Enviesamento do conjunto de dados vs. Enviesamento do algoritmo

É importante distinguir entre o enviesamento do conjunto de dados e o enviesamento algorítmico.

  • O viés do conjunto de dados tem origem nos próprios dados. Os dados são defeituosos antes mesmo de o modelo os ver, o que os torna um problema fundamental.
  • O enviesamento algorítmico pode resultar da arquitetura de um modelo ou do processo de otimização, que pode favorecer sistematicamente determinados resultados em detrimento de outros, mesmo com dados perfeitamente equilibrados.

No entanto, os dois estão profundamente ligados. O enviesamento do conjunto de dados é uma das causas mais comuns de enviesamento algorítmico. Um modelo treinado com dados enviesados fará quase de certeza previsões enviesadas, criando um algoritmo enviesado. Por conseguinte, garantir a equidade na IA deve começar por abordar a parcialidade dos dados.

Estratégias de atenuação

A atenuação do enviesamento do conjunto de dados é um processo contínuo que requer um planeamento e execução cuidadosos ao longo do ciclo de vida das operações de aprendizagem automática (MLOps).

  • Recolha de dados ponderada: Procurar obter fontes de dados diversificadas e representativas que reflictam o mundo real. É essencial seguir um guia estruturado para a recolha e anotação de dados. A documentação dos conjuntos de dados utilizando estruturas como as Folhas de Dados para Conjuntos de Dados promove a transparência.
  • Aumento e síntese de dados: Utilize técnicas como a sobreamostragem de grupos sub-representados, a aplicação de um aumento de dados direcionado ou a geração de dados sintéticos para equilibrar o conjunto de dados. Os modelos Ultralytics suportam nativamente uma variedade de métodos poderosos de aumento de dados.
  • Ferramentas de auditoria de enviesamento: Utilize ferramentas como a What-If Tool da Google e bibliotecas de código aberto como a Fairlearn para inspecionar conjuntos de dados e modelos para detetar potenciais enviesamentos.
  • Avaliação rigorosa do modelo: Para além da métrica de precisão geral, avaliar o desempenho do modelo em diferentes subgrupos demográficos ou ambientais. É uma boa prática documentar os resultados utilizando métodos como as cartas de modelo para manter a transparência.
  • Aproveite as plataformas modernas: Plataformas como o Ultralytics HUB oferecem ferramentas integradas para gerenciamento de conjuntos de dados, visualização e modelos de treinamento como o Ultralytics YOLO11. Isso ajuda os desenvolvedores a criar sistemas mais equitativos, simplificando o processo de criação e avaliação de modelos em dados diversos.

Ao abordar proactivamente o enviesamento do conjunto de dados, os programadores podem criar sistemas de IA mais robustos, fiáveis e éticos, um tópico frequentemente discutido em conferências importantes como a Conferência ACM sobre Equidade, Responsabilidade e Transparência (FAccT).

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência