Glossário

Dados sintéticos

Liberte o poder dos dados sintéticos para IA/ML! Ultrapasse a escassez de dados, os problemas de privacidade e os custos, ao mesmo tempo que aumenta a formação e a inovação dos modelos.

Os dados sintéticos são informações geradas artificialmente, criadas para imitar os dados do mundo real. Nos domínios da inteligência artificial (IA) e da aprendizagem automática (ML), servem como uma alternativa ou um complemento poderoso aos dados do mundo real para treinar modelos de IA. A recolha de conjuntos de dados do mundo real extensos, de alta qualidade e corretamente rotulados pode ser dispendiosa, demorada e, por vezes, impraticável devido a regulamentos de privacidade ou à raridade de determinados eventos. Os dados sintéticos fornecem uma solução ao permitir que os programadores gerem grandes quantidades de dados perfeitamente rotulados a pedido, abordando estas limitações e acelerando o desenvolvimento de sistemas robustos de visão por computador (CV).

Como são gerados os dados sintéticos?

Os dados sintéticos podem ser criados utilizando várias técnicas avançadas, cada uma delas adequada a diferentes aplicações. Estes métodos permitem um controlo preciso das caraterísticas dos dados gerados, como a iluminação, a colocação de objectos e as condições ambientais.

  • Modelação e simulação 3D: Os programadores utilizam computação gráfica e ambientes de simulação para criar mundos virtuais fotorrealistas. Esta abordagem é comum na robótica e nos sistemas autónomos, onde os motores físicos podem simular a física do mundo real. Plataformas como o NVIDIA DRIVE Sim são usadas para gerar dados para treinar carros autónomos.
  • Modelos generativos: Técnicas como as Redes Adversárias Generativas (GAN) e, mais recentemente, os modelos de difusão são uma componente essencial da IA generativa. Estes modelos aprendem os padrões subjacentes a partir de dados reais para criar amostras inteiramente novas e realistas. Isto é particularmente útil para gerar diversos rostos humanos ou cenas complexas.
  • Geração de procedimentos: Este método utiliza algoritmos e regras para criar dados automaticamente. É muito utilizado no desenvolvimento de jogos de vídeo para gerar ambientes em grande escala e pode ser adaptado para produzir dados de formação variados com um esforço manual mínimo.
  • Randomização de domínio: Uma técnica em que os parâmetros de uma simulação (como iluminação, textura e posições de objectos) são intencionalmente variados. Isto ajuda o modelo treinado a generalizar melhor dos ambientes simulados para o mundo real, forçando-o a concentrar-se nas caraterísticas essenciais. Um artigo seminal de Tobin et al. demonstrou a sua eficácia na manipulação robótica.

Aplicações no mundo real

A utilização de dados sintéticos está a expandir-se em muitas indústrias, permitindo descobertas onde os dados do mundo real são um obstáculo.

  1. Veículos autónomos: O treino de veículos autónomos requer dados de milhões de quilómetros de condução, incluindo cenários raros e perigosos como acidentes ou condições meteorológicas extremas. Não é seguro e não é prático recolher estes dados no mundo real. Os dados sintéticos permitem aos programadores simular estes casos extremos num ambiente seguro e controlado, melhorando a robustez dos sistemas de deteção de objectos e de navegação. Empresas como a Waymo dependem fortemente da simulação para testes e validação.
  2. IA nos cuidados de saúde: Na análise de imagens médicas, os dados dos doentes são altamente sensíveis e estão protegidos por leis de privacidade rigorosas, como a HIPAA. Além disso, os dados relativos a doenças raras são escassos. Os dados sintéticos podem ser utilizados para gerar exames médicos realistas (por exemplo, TAC ou RMN) sem comprometer a privacidade dos dados. Isto ajuda a criar conjuntos de dados maiores e mais equilibrados, reduzindo o enviesamento da IA e melhorando a precisão dos modelos de diagnóstico para doenças como a deteção do cancro da pele.

Dados sintéticos vs. aumento de dados

Embora tanto os dados sintéticos como o aumento de dados tenham como objetivo melhorar os conjuntos de dados, funcionam de forma diferente.

  • Aumento de dados: Esta técnica envolve a aplicação de transformações como a rotação, o corte ou a mudança de cor a imagens existentes no mundo real. Aumenta a diversidade do conjunto de treino ao criar versões modificadas dos dados originais. Pode saber mais sobre as ampliações utilizadas nos modelos Ultralytics YOLO.
  • Dados sintéticos: Trata-se de criar dados inteiramente novos a partir do zero, utilizando simulações ou modelos generativos. Não são derivados de pontos de dados existentes e podem representar cenários completamente ausentes do conjunto de dados original.

Em resumo, o aumento de dados varia os dados existentes, enquanto os dados sintéticos criam novos dados. Ambas são técnicas poderosas e podem ser combinadas para criar modelos de aprendizagem profunda altamente robustos e precisos geridos através de plataformas como o Ultralytics HUB.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência