O que são dados sintéticos na visão por computador? Uma visão geral

Abirami Vina

5 min. de leitura

4 de julho de 2025

Explore a forma como os dados sintéticos para treino de modelos de IA são utilizados em aplicações de visão por computador numa série de sectores, como os cuidados de saúde e a robótica.

Os dados sempre foram um fator determinante em domínios como a análise e a inteligência artificial (IA). De facto, a forma como recolhemos, geramos e utilizamos os dados está a moldar o futuro dos sistemas inteligentes. Por exemplo, os carros autónomos dependem de milhões de imagens rotuladas e leituras de sensores, desde sinais de trânsito a movimentos de peões, para aprenderem a navegar nas estradas em segurança.

Um dos tipos de dados mais vitais para este progresso, especialmente em áreas como os veículos autónomos e a segurança, são os dados visuais, como imagens e vídeos. 

Em particular, o domínio da IA que permite às máquinas interpretar esta informação visual é designado por visão por computador. Ajuda os sistemas a compreender e a analisar os dados visuais de forma muito semelhante à dos humanos, apoiando tarefas como o reconhecimento facial, a deteção de sinais de trânsito e a análise de imagens médicas. 

No entanto, a recolha de conjuntos de dados visuais em grande escala e de alta qualidade a partir do mundo real pode ser morosa, dispendiosa e, muitas vezes, suscita preocupações de privacidade. É por isso que os investigadores estão a explorar ativamente o conceito de utilização de dados sintéticos. 

Os dados sintéticos referem-se a imagens geradas artificialmente que imitam de perto imagens e vídeos do mundo real. São criados utilizando técnicas como a modelação 3D, simulações informáticas e métodos de IA generativa, como as redes adversariais generativas (GAN), que aprendem padrões a partir de dados reais para produzir novos exemplos realistas.

Espera-se que os dados sintéticos desempenhem um papel crítico no desenvolvimento da IA em breve - com a Gartner a prever que, até 2030, se tornarão mais essenciais do que os dados do mundo real. Neste artigo, vamos explorar o que são dados sintéticos no contexto da visão por computador, como são gerados e onde estão a ser aplicados em cenários do mundo real. Vamos começar!

O que são dados sintéticos na visão computacional?

Suponhamos que quer treinar um modelo de IA de visão para detetar objectos em diversos ambientes e condições. Confiar apenas em dados do mundo real pode ser difícil e, por vezes, parecer limitativo. 

Entretanto, os dados sintéticos podem ser utilizados para criar o conjunto de dados correto, contendo objectos em várias condições criadas artificialmente. Utilizando ferramentas como modelação 3D e simulações, os programadores podem gerar imagens com controlo preciso sobre factores como a iluminação, os ângulos e a colocação de objectos. Isto, por sua vez, oferece mais flexibilidade para a formação de modelos do que os dados do mundo real.

Os dados sintéticos são especialmente úteis quando a recolha de dados do mundo real é difícil ou impossível. Por exemplo, o treino de um modelo para reconhecer pessoas numa vasta gama de poses, como correr, agachar-se ou deitar-se, exigiria a captura de milhares de fotografias em muitos cenários, ângulos e condições de iluminação diferentes. 

Por outro lado, com dados sintéticos, os programadores podem facilmente gerar estas variações com etiquetas exactas, poupando tempo e esforço e melhorando o desempenho do modelo.

Fig. 1. Um conjunto de dados sintéticos com diferentes poses humanas e variações de iluminação(fonte).

Dados sintéticos vs. dados reais na IA

De seguida, vamos analisar mais detalhadamente as diferenças entre dados sintéticos e dados reais. Ambos têm os seus prós e contras quando se trata de treinar modelos de IA

Por exemplo, os dados sintéticos são úteis quando é difícil recolher dados reais, mas podem não captar todos os pormenores da vida real. Ao mesmo tempo, os dados reais são mais autênticos, mas podem ser difíceis de obter, demorados a rotular e podem não abranger todas as situações.

Ao combinar dados sintéticos e reais, os programadores podem obter o melhor dos dois mundos. Este equilíbrio ajuda os modelos de IA a aprender com mais precisão, a generalizar melhor em diferentes cenários e a reduzir o enviesamento.

Fig. 2. Dados sintéticos vs. dados reais em IA. Imagem do autor.

Um olhar sobre a geração de dados para modelos de visão computacional

Desde a construção de mundos virtuais com ferramentas 3D até à geração de imagens utilizando IA generativa, eis alguns métodos comuns utilizados para criar dados de formação sintéticos para modelos de visão por computador:

  • Modelação 3D: Os programadores utilizam software 3D para criar objectos e cenas digitais. Isto permite um controlo total sobre aspectos como a iluminação, os ângulos da câmara e a colocação de objectos, sendo útil para gerar imagens realistas de pessoas, veículos e ambientes.

  • Simulações: Estas recriam situações do mundo real, como o tráfego ou ambientes fabris, utilizando motores baseados na física. As simulações são úteis para gerar dados de formação com segurança em domínios como a robótica e os automóveis autónomos.

  • Redes adversárias generativas: As GAN são um tipo de modelo de aprendizagem profunda composto por duas redes: uma que cria imagens e outra que as avalia. Em conjunto, geram imagens altamente realistas, como rostos humanos ou vistas de ruas, aprendendo com exemplos reais.

  • Geração de procedimentos: Esta técnica utiliza regras predefinidas ou modelos matemáticos para gerar automaticamente estruturas visuais complexas, como terrenos, edifícios ou texturas. É frequentemente utilizada em plataformas de jogos e simulação e pode produzir conjuntos de dados diversificados e em grande escala com um mínimo de intervenção humana.

  • Randomização de domínio: Pode alterar aleatoriamente coisas como iluminação, cores e formas de objectos em cenas sintéticas. O objetivo por detrás desta técnica é ajudar os modelos a concentrarem-se no que realmente importa, tornando-os mais adaptáveis a ambientes do mundo real.
Fig. 3. Exemplos de dados: (a) modelos 3D, (b) cenas sintéticas de múltiplos objectos e (c) imagens de conjuntos de dados reais(fonte).

Formação de modelos de IA de visão com dados sintéticos

Agora que já discutimos alguns dos diferentes métodos utilizados para criar dados sintéticos, vamos ver como são utilizados para treinar modelos de IA. 

Uma vez gerados, os dados sintéticos podem normalmente ser integrados diretamente no pipeline de formação da mesma forma que os dados do mundo real. Normalmente, incluem as anotações necessárias, como etiquetas de objectos, caixas delimitadoras ou máscaras de segmentação, o que significa que podem ser utilizados para tarefas de aprendizagem supervisionada, em que os modelos aprendem a partir de pares de entrada-saída etiquetados, sem necessidade de etiquetagem manual.

Durante o treino, o modelo processa imagens sintéticas para aprender a detetar caraterísticas, reconhecer padrões e classificar objectos. Estes dados podem ser utilizados para construir uma versão inicial do modelo a partir do zero ou para enriquecer um conjunto de dados existente, ajudando a melhorar o desempenho do modelo.

Em muitos fluxos de trabalho, os dados sintéticos também são utilizados para pré-treino, dando aos modelos uma ampla compreensão fundamental antes de serem ajustados com exemplos do mundo real. Da mesma forma, são utilizados para aumentar os conjuntos de dados, introduzindo variações controladas, como diferentes condições de iluminação, ângulos ou classes de objectos raros, para melhorar a generalização e reduzir o sobreajuste. 

Combinando dados sintéticos e reais, as equipas podem treinar modelos mais robustos que apresentam um bom desempenho numa vasta gama de condições, ao mesmo tempo que reduzem a dependência de esforços de recolha manual de dados morosos e dispendiosos.

Aplicações do mundo real de dados sintéticos em visão computacional

À medida que os dados sintéticos se tornam mais práticos e acessíveis, estamos a começar a vê-los adoptados numa variedade de casos de utilização de IA de visão no mundo real. Vamos explorar algumas das aplicações de maior impacto na visão computacional onde estão a ser utilizados.

Utilização de dados sintéticos para a deteção de objectos em veículos autónomos

Para ensinar os automóveis autónomos a conduzir em segurança é necessário treinar modelos numa vasta gama de cenários, incluindo situações raras ou perigosas. No entanto, a recolha de dados do mundo real para estes casos extremos pode ser um desafio e, por vezes, insegura. Os dados sintéticos podem ajudar a criar cenários onde os modelos podem aprender a detetar objectos em situações difíceis. Podem também imitar diferentes configurações de sensores, o que é útil porque nem todos os veículos de condução autónoma utilizam o mesmo hardware.

A plataforma DRIVE Sim da NVIDIA é um ótimo exemplo disto. Cria dados sintéticos de alta qualidade utilizando modelos 3D fotorrealistas, ambientes virtuais e simulações de sensores. Também pode gerar imagens de vários ângulos de condução a partir de uma única imagem. A utilização de dados sintéticos como estes ajuda a reduzir a necessidade de testes dispendiosos no mundo real, ao mesmo tempo que dá ao modelo a variedade de que necessita para aprender eficazmente.

Fig. 4. Criação de várias vistas de condução a partir de uma imagem(fonte).

Reduzir o enviesamento na IA de imagiologia médica com dados sintéticos

Os modelos de visão por computador, como o Ultralytics YOLO11, que suportam tarefas como a deteção de objectos e a segmentação de instâncias, podem ser treinados à medida para aplicações de imagiologia médica. No entanto, os dados de treino do mundo real contêm frequentemente enviesamentos, uma vez que podem não representar adequadamente pacientes de todos os grupos demográficos.

Por exemplo, o cancro da pele é menos frequentemente diagnosticado em indivíduos com tons de pele mais escuros, o que leva a que os dados relativos a essas populações sejam limitados. Este desequilíbrio pode contribuir para diagnósticos incorrectos e resultados desiguais em termos de cuidados de saúde, especialmente em domínios como a histopatologia, as radiografias torácicas e a dermatologia.

As imagens sintéticas podem contribuir para colmatar esta lacuna nos dados. Ao gerar exemplos adicionais e diversificados, tais como anomalias de tecidos variados, uma vasta gama de doenças pulmonares e tons de pele com diferentes tipos de lesões, os dados sintéticos podem ajudar a melhorar o desempenho do modelo em grupos sub-representados. 

Os investigadores estão atualmente a trabalhar no desenvolvimento e validação de conjuntos de dados sintéticos para apoiar estes objectivos. Estão também a explorar a forma como os dados sintéticos podem ser utilizados para testar ferramentas médicas e estratégias de tratamento sem depender de registos de pacientes reais, ajudando a acelerar a investigação ao mesmo tempo que protegem a privacidade dos pacientes. Através deste trabalho, os dados sintéticos estão a preparar o caminho para sistemas de IA médica mais inclusivos, precisos e éticos.

Avançar a IA agrícola com dados sintéticos para a agricultura de precisão

A criação de sistemas de IA de visão para aplicações agrícolas depende do acesso a grandes quantidades de dados etiquetados. No entanto, a recolha e rotulagem de imagens de culturas, doenças e condições de campo é lenta, dispendiosa e frequentemente limitada por factores como o clima, as épocas de crescimento ou a dificuldade de acesso a determinadas áreas. 

Estes desafios dificultam a formação de modelos de visão computacional para lidar com tarefas como a deteção de doenças das plantas, a monitorização de culturas ou a previsão de rendimentos. É aqui que os dados sintéticos podem ajudar - imitando diferentes ambientes agrícolas para gerar exemplos de treino úteis.

Fig. 5. Utilização de imagens sintéticas para melhorar a deteção de doenças(fonte).

Principais conclusões

A utilização de dados sintéticos representa um importante passo em frente no treino de modelos de IA, especialmente para sistemas de visão por computador em áreas onde os dados do mundo real são limitados ou difíceis de obter. Em vez de depender apenas de fotografias ou vídeos reais, que podem ser dispendiosos, demorados ou suscitar preocupações com a privacidade, os dados sintéticos permitem-nos gerar imagens realistas e rotuladas a pedido. 

Torna mais fácil treinar modelos de IA de visão para tarefas como a condução autónoma, a deteção de doenças ou a monitorização de culturas. À medida que a IA continua a evoluir, os dados sintéticos deverão desempenhar um papel ainda maior na aceleração da inovação e na melhoria da acessibilidade em todos os sectores.

Saiba mais sobre a IA no nosso repositório GitHub e junte-se à nossa comunidade em crescimento. Descubra o impacto de aplicações como a IA em veículos autónomos e a visão computacional na agricultura. Explore as nossas opções de licenciamento e dê vida aos seus projectos de IA de visão.

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência