Glossário

IA centrada nos dados

Descubra a IA centrada nos dados, a abordagem de melhorar a qualidade do conjunto de dados para aumentar o desempenho do modelo. Saiba porque é que melhores dados, e não apenas um melhor modelo, são a chave para uma IA robusta.

A IA centrada nos dados é uma abordagem à construção de sistemas de inteligência artificial que dá prioridade à melhoria da qualidade e consistência do conjunto de dados em detrimento da iteração na arquitetura do modelo. Neste paradigma, o modelo, como uma arquitetura avançada de deteção de objectos como o Ultralytics YOLO, é considerado um componente fixo, enquanto o foco principal é a engenharia sistemática dos dados para melhorar o desempenho. A ideia central, popularizada pelo líder de IA Andrew Ng, é que, para muitas aplicações práticas, a qualidade dos dados de treino é o fator mais significativo do sucesso de um modelo. Isto envolve processos como a limpeza de dados, a rotulagem precisa de dados e o fornecimento estratégico de dados para criar uma IA robusta e fiável.

A importância de dados de alta qualidade

Na aprendizagem automática (ML), o princípio "garbage in, garbage out" é verdadeiro. Uma rede neural (NN) sofisticada treinada com dados ruidosos, inconsistentes ou mal rotulados produzirá inevitavelmente resultados pouco fiáveis. Uma abordagem centrada nos dados resolve este problema, centrando-se em vários aspectos fundamentais da qualidade dos dados. Isto inclui garantir a consistência das etiquetas, corrigir exemplos com etiquetas incorrectas, remover dados ruidosos ou irrelevantes e enriquecer o conjunto de dados para cobrir casos extremos. Técnicas como o aumento de dados são ferramentas essenciais neste processo, permitindo aos programadores expandir artificialmente a diversidade do conjunto de dados. Ao dar prioridade a conjuntos de dados de visão computacional de alta qualidade, as equipas podem melhorar significativamente a precisão e a robustez do modelo com menos esforço do que redesenhos de modelos complexos.

Aplicações no mundo real

Uma filosofia de IA centrada nos dados é altamente eficaz em vários cenários práticos em que a qualidade dos dados é fundamental.

  1. IA no fabrico: Considere-se um sistema de inspeção visual numa linha de produção concebido para detetar defeitos em componentes electrónicos. Em vez de experimentar constantemente novas arquitecturas de modelos, uma equipa centrada nos dados centrar-se-ia no conjunto de dados. Recolheria sistematicamente mais imagens de defeitos raros, asseguraria que todos os defeitos fossem rotulados com caixas delimitadoras precisas e utilizaria o aumento para simular variações na iluminação e nos ângulos da câmara. Plataformas como o Ultralytics HUB podem ajudar a gerenciar esses conjuntos de dados e agilizar o treinamento de modelos personalizados. Este refinamento iterativo dos dados conduz a um sistema mais fiável que pode detetar falhas subtis, afectando diretamente a qualidade da produção. Para ler mais, veja como o Google Cloud está a aplicar a IA aos desafios de fabrico.
  2. IA nos cuidados de saúde: Na análise de imagens médicas, um modelo pode ser treinado para identificar tumores em exames cerebrais. Uma estratégia centrada nos dados implicaria trabalhar em estreita colaboração com radiologistas para resolver rótulos ambíguos em conjuntos de dados como o conjunto de dados de tumores cerebrais. A equipa procuraria ativamente e acrescentaria exemplos de tipos de tumores sub-representados e asseguraria que os dados reflectem a demografia diversificada dos doentes para evitar enviesamentos do conjunto de dados. Este enfoque na seleção de um conjunto de dados representativo e de alta qualidade é fundamental para a criação de ferramentas de diagnóstico fiáveis em que os médicos possam confiar. O National Institutes of Health (NIH) fornece recursos sobre o papel da IA na investigação biomédica.

Distinção de termos relacionados

  • IA centrada no modelo: Esta é a abordagem tradicional em que o conjunto de dados é mantido constante enquanto os programadores se concentram em melhorar o modelo. As actividades incluem a conceção de novas arquitecturas de redes neurais, a afinação extensiva de hiperparâmetros e a implementação de diferentes algoritmos de otimização. Embora importante, um foco centrado no modelo pode produzir retornos decrescentes se os dados subjacentes tiverem falhas. Um projeto como o Concurso de IA centrado nos dados da Universidade de Stanford mostra o poder da concentração nos dados em vez do modelo.
  • Grandes volumes de dados: Big Data refere-se à gestão e análise de conjuntos de dados extremamente grandes e complexos. Embora a IA centrada nos dados possa ser aplicada aos grandes volumes de dados, o seu princípio fundamental é a qualidade dos dados e não apenas a quantidade. Um conjunto de dados mais pequeno e meticulosamente selecionado produz frequentemente melhores resultados do que um conjunto massivo e ruidoso. O objetivo é criar dados melhores, não necessariamente mais dados.
  • Análise Exploratória de Dados (AED): A EDA é o processo de análise de conjuntos de dados para resumir as suas principais caraterísticas, muitas vezes com métodos visuais. Embora a EDA seja uma etapa crucial no fluxo de trabalho da IA centrada em dados para identificar inconsistências e áreas de melhoria, a IA centrada em dados é a filosofia mais ampla de engenharia sistemática de todo o conjunto de dados para melhorar o desempenho da IA. Ferramentas como o Ultralytics Dataset Explorer podem facilitar esse processo.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência