Glossário

Etiquetagem de dados

Descubra o papel fundamental da etiquetagem de dados na aprendizagem automática, o seu processo, desafios e aplicações reais no desenvolvimento da IA.

A etiquetagem de dados é o processo de identificação de dados em bruto (como imagens, ficheiros de texto ou vídeos) e a adição de uma ou mais etiquetas ou anotações informativas para fornecer contexto, permitindo que um modelo de aprendizagem automática aprenda com eles. Este processo é fundamental para a aprendizagem supervisionada, em que o conjunto de dados rotulados actua como a "verdade fundamental" que o algoritmo utiliza para se treinar a fazer previsões precisas sobre dados novos e não rotulados. A etiquetagem de dados de alta qualidade é um dos passos mais críticos e demorados na construção de um modelo de IA robusto, uma vez que o desempenho do modelo depende diretamente da qualidade e da precisão das etiquetas com que aprende.

Porque é que a rotulagem de dados é importante?

A etiquetagem de dados constitui a base necessária para os modelos compreenderem e interpretarem o mundo. Na visão computacional (CV), as etiquetas ensinam um modelo a reconhecer o que é um objeto e a sua localização numa imagem. Sem etiquetas exactas, um modelo não pode aprender os padrões necessários para realizar a sua tarefa, o que leva a uma fraca precisão e falta de fiabilidade. A qualidade dos dados de treino, que é criada através da etiquetagem, determina diretamente a qualidade da IA resultante. Este princípio é frequentemente resumido como "lixo dentro, lixo fora". Conjuntos de dados de referência bem rotulados, como o COCO e o ImageNet, têm sido fundamentais para o avanço do estado da arte na visão computacional.

Tipos de rotulagem de dados na visão computacional

Diferentes tarefas de CV requerem diferentes tipos de anotação. Os métodos mais comuns incluem:

  • Classificação de imagens: A forma mais simples, em que um único rótulo é atribuído a uma imagem inteira para descrever o seu conteúdo (por exemplo, "gato", "cão"). Pode explorar conjuntos de dados para esta tarefa, como o CIFAR-100.
  • Deteção de objectos: Envolve o desenho de uma caixa delimitadora em torno de cada objeto de interesse numa imagem e a atribuição de uma etiqueta de classe ao mesmo. Isto indica ao modelo o que é o objeto e onde se encontra.
  • Segmentação de imagens: Um método mais granular que envolve o delineamento da forma exacta de um objeto ao nível do pixel. Este método pode ainda ser dividido em segmentação semântica, em que todos os objectos da mesma classe partilham uma máscara, e segmentação de instâncias, em que cada instância de objeto individual é segmentada separadamente.
  • Estimativa de pose: Esta técnica identifica a posição e a orientação dos objectos através da anotação de pontos-chave. Por exemplo, na estimativa da pose humana, os pontos-chave marcariam articulações como cotovelos, joelhos e pulsos. O conjunto de dados COCO Keypoints é um recurso popular para esta tarefa.

Aplicações no mundo real

  1. Veículos autónomos: A etiquetagem de dados é essencial para treinar os sistemas de perceção dos carros autónomos. Anotadores humanos rotulam meticulosamente milhões de imagens e quadros de vídeo, desenhando caixas delimitadoras em torno de carros, pedestres e ciclistas, segmentando marcações de pista e classificando sinais de trânsito. Estes dados ricos e etiquetados permitem que modelos como o Ultralytics YOLO11 aprendam a navegar em segurança em ambientes urbanos complexos. O trabalho efectuado por empresas como a Waymo depende em grande medida de conjuntos de dados vastos e rotulados com precisão. Pode saber mais sobre este campo na nossa página de soluções de IA no sector automóvel.
  2. Análise de imagens médicas: Na IA nos cuidados de saúde, os radiologistas e peritos médicos rotulam exames como ressonâncias magnéticas, tomografias computorizadas e radiografias para identificar tumores, lesões e outras anomalias. Por exemplo, num conjunto de dados de tumores cerebrais, os especialistas delineariam os limites exactos de um tumor. Estes dados rotulados são utilizados para treinar modelos que podem ajudar no diagnóstico precoce, reduzindo potencialmente a carga de trabalho dos profissionais médicos e melhorando os resultados para os doentes. A Sociedade Radiológica da América do Norte (RSNA) explora ativamente o papel da IA no diagnóstico médico.

Etiquetagem de dados vs. conceitos relacionados

A etiquetagem de dados é frequentemente efectuada juntamente com outras tarefas de preparação de dados, mas é importante distinguir entre elas:

  • Aumento de dados: Esta técnica expande artificialmente o conjunto de dados de treino através da criação de versões modificadas de dados já rotulados (por exemplo, rodar, inverter ou alterar o brilho de uma imagem). O aumento aumenta a diversidade dos dados, mas depende de um conjunto inicial de dados rotulados. Uma visão geral do aumento de dados fornece mais pormenores.
  • Limpeza de dados: Este processo envolve a identificação e correção ou remoção de erros, inconsistências e imprecisões num conjunto de dados. Embora isto possa incluir a correção de etiquetas incorrectas, a limpeza de dados é um passo de garantia de qualidade, enquanto a etiquetagem de dados é o ato inicial de criação das anotações. A limpeza de dados na Wikipédia oferece mais contexto.
  • Pré-processamento de dados: Este é um termo mais abrangente que engloba a rotulagem de dados, a limpeza e outras transformações como a normalização ou o redimensionamento de imagens para as preparar para um modelo. A rotulagem é um passo específico e crucial dentro do pipeline de pré-processamento mais alargado.

Desafios e soluções

Apesar da sua importância, a etiquetagem de dados está repleta de desafios, incluindo custos elevados, um investimento de tempo significativo e a possibilidade de erro humano ou subjetividade. Garantir a qualidade e a consistência das etiquetas em grandes equipas de anotadores é um grande obstáculo logístico.

Para simplificar este processo, as equipas utilizam frequentemente ferramentas de anotação especializadas como o CVAT ou plataformas como o Ultralytics HUB, que proporcionam um ambiente de colaboração para gerir conjuntos de dados e fluxos de trabalho de rotulagem. Além disso, técnicas avançadas como a Aprendizagem Ativa podem ajudar, selecionando de forma inteligente os pontos de dados mais informativos a rotular, optimizando a utilização do tempo e do esforço dos anotadores humanos. Tal como descrito num artigo do Stanford AI Lab, a qualidade dos dados é fundamental para o êxito da IA.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência