Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Explorando os melhores conjuntos de dados de visão computacional em 2025

Abirami Vina

Leitura de 5 minutos

21 de fevereiro de 2025

Junte-se a nós enquanto analisamos mais de perto os melhores conjuntos de dados de visão computacional de 2025. Saiba como conjuntos de dados diversos e de alta qualidade impulsionam soluções de Visão de IA mais inteligentes.

Você sabia que os dados desempenham um papel em quase tudo o que você faz diariamente? Assistir a um vídeo, tirar uma foto ou verificar o Google Maps contribui para o fluxo constante de informações capturadas por mais de 75 bilhões de dispositivos conectados. Esses dados formam a base da inteligência artificial (IA). De fato, modelos avançados de visão computacional como o Ultralytics YOLO11 dependem de dados visuais para identificar padrões, interpretar imagens e dar sentido ao mundo ao nosso redor.

Curiosamente, o valor dos dados não se resume apenas à quantidade. É mais importante o quão bem estão organizados e preparados. Se um conjunto de dados for confuso ou incompleto, pode levar a erros. No entanto, quando os conjuntos de dados são limpos e diversos, ajudam os modelos de visão computacional a terem um melhor desempenho, quer se trate de reconhecer objetos numa multidão ou de analisar elementos visuais complexos. Os conjuntos de dados de alta qualidade fazem toda a diferença.

Neste artigo, exploraremos os melhores conjuntos de dados de visão computacional de 2025 e veremos como eles contribuem para a construção de modelos de visão computacional mais precisos e eficientes. Vamos começar!

O que são conjuntos de dados de visão computacional?

Um conjunto de dados de visão computacional é uma coleção de imagens ou vídeos que ajudam os sistemas de visão computacional a aprender a entender e reconhecer informações visuais. Esses conjuntos de dados vêm com rótulos ou anotações que ajudam os modelos a reconhecer objetos, pessoas, cenas e padrões dentro dos dados.

Eles podem ser usados para treinar modelos de visão computacional, ajudando-os a aprimorar tarefas como identificar rostos, detectar objetos ou analisar cenas. Quanto melhor o conjunto de dados (bem organizado, diversificado e preciso), melhor o modelo de Visão de IA funciona, levando a uma tecnologia mais inteligente e útil no dia a dia.

Como construir um conjunto de dados de visão computacional

Construir um conjunto de dados de visão computacional é como preparar notas de estudo para ensinar alguém a ver e entender o mundo. Tudo começa com a coleta de imagens e vídeos que correspondam à aplicação específica que você está desenvolvendo. 

Um conjunto de dados ideal inclui exemplos diversos dos objetos de interesse, capturados de diferentes ângulos, sob várias condições de iluminação e em múltiplos fundos e ambientes. Essa variedade garante que o modelo de visão computacional aprenda a reconhecer padrões com precisão e tenha um desempenho confiável em cenários do mundo real.

__wf_reserved_inherit
Fig 1. Construindo o dataset de visão perfeito. Imagem do autor.

Após coletar imagens e vídeos relevantes, o próximo passo é a rotulagem de dados. Este processo envolve adicionar tags, anotações ou descrições aos dados para que a IA possa entender o que cada imagem ou vídeo contém. 

Os rótulos podem incluir nomes de objetos, localizações, limites ou outros detalhes relevantes que ajudam a treinar o modelo para reconhecer e interpretar informações visuais com precisão. A rotulagem de dados transforma uma simples coleção de imagens em um conjunto de dados estruturado que pode ser usado para treinar um modelo de visão computacional.

O treinamento de modelos requer dados de alta qualidade

Você pode estar se perguntando o que torna um conjunto de dados de alta qualidade. Existem muitos fatores envolvidos, como rotulagem precisa, diversidade e consistência. Por exemplo, se vários anotadores estiverem rotulando um conjunto de dados de detecção de objetos para identificar orelhas de gato, um pode rotulá-las como parte da cabeça, enquanto outro as rotula separadamente como orelhas. Essa inconsistência pode confundir o modelo e afetar sua capacidade de aprender corretamente.

Aqui está uma visão geral rápida das qualidades de um conjunto de dados de visão computacional ideal:

  • Rótulos claros: Cada imagem é anotada com precisão com rótulos consistentes e precisos.
  • Dados diversos: O conjunto de dados inclui diferentes objetos, fundos, condições de iluminação e ângulos para ajudar o modelo a funcionar bem em várias situações.
  • Imagens de alta resolução: Imagens nítidas e detalhadas facilitam o aprendizado e o reconhecimento de recursos pelo modelo.

A Ultralytics oferece suporte a vários conjuntos de dados

Os modelos Ultralytics YOLO, como o YOLO11, são construídos para funcionar com conjuntos de dados em um formato de arquivo YOLO específico. Embora seja fácil converter seus próprios dados para este formato, também oferecemos uma opção descomplicada para aqueles que desejam começar a experimentar imediatamente. 

O pacote Ultralytics Python oferece suporte a uma ampla variedade de conjuntos de dados de visão computacional, permitindo que você mergulhe em projetos usando tarefas como detecção de objetos, segmentação de instâncias ou estimativa de pose sem nenhuma configuração extra.  

Os usuários podem acessar facilmente conjuntos de dados prontos para uso, como COCO, DOTA-v2.0, Open Images V7 e ImageNet, especificando o nome do conjunto de dados como um dos parâmetros na função de treinamento. Ao fazer isso, o conjunto de dados é baixado e pré-configurado automaticamente, para que você possa se concentrar na construção e no aprimoramento de seus modelos.

Os 5 principais conjuntos de dados de visão computacional em 2025

Os avanços na Visão de IA dependem de conjuntos de dados diversificados e em larga escala que impulsionam a inovação e permitem avanços. Vamos dar uma olhada em alguns dos conjuntos de dados mais importantes, com suporte da Ultralytics, que estão influenciando os modelos de visão computacional.

Conjunto de dados ImageNet 

ImageNet, criado por Fei-Fei Li e sua equipe na Universidade de Princeton em 2007 e introduzido em 2009, é um grande conjunto de dados com mais de 14 milhões de imagens rotuladas. É amplamente utilizado para treinar sistemas para reconhecer e categorizar diferentes objetos. Seu design estruturado o torna particularmente útil para ensinar modelos a classificar imagens com precisão. Embora bem documentado, ele se concentra principalmente na classificação de imagens e carece de anotações detalhadas para tarefas como detecção de objetos. 

Aqui está uma olhada em alguns dos principais pontos fortes do ImageNet:

  • Diversidade: Com imagens abrangendo mais de 20.000 categorias, o ImageNet oferece um conjunto de dados vasto e variado que aprimora o treinamento e a generalização do modelo.
  • Organização estruturada: As imagens são meticulosamente categorizadas utilizando a hierarquia WordNet, facilitando a recuperação eficiente de dados e o treino sistemático do modelo. 
  • Documentação abrangente: A extensa pesquisa e anos de estudo tornam o ImageNet acessível tanto para iniciantes quanto para especialistas, fornecendo informações e orientações valiosas para projetos de visão computacional.

No entanto, como qualquer conjunto de dados, ele tem suas limitações. Aqui estão alguns dos desafios a serem considerados:

  • Demandas computacionais: Seu tamanho massivo pode representar desafios para equipes menores com recursos computacionais limitados.
  • Falta de dados temporais: Como contém apenas imagens estáticas, pode não atender às necessidades de aplicações que exigem vídeo ou dados baseados no tempo.
  • Imagens desatualizadas: Algumas imagens no conjunto de dados são mais antigas e podem não refletir objetos, estilos ou ambientes atuais, reduzindo potencialmente a relevância para aplicações modernas.

Conjunto de dados DOTA-v2.0

O conjunto de dados DOTA-v2.0, onde DOTA significa Dataset for Object Detection in Aerial Images (Conjunto de Dados para Deteção de Objetos em Imagens Aéreas), é uma extensa coleção de imagens aéreas criadas especialmente para a deteção de objetos com caixas delimitadoras orientadas (OBB). Na deteção OBB, são utilizadas caixas delimitadoras rotacionadas para se alinharem com maior precisão com a orientação real dos objetos na imagem. Este método funciona especialmente bem para imagens aéreas, onde os objetos aparecem frequentemente em vários ângulos, levando a uma localização mais precisa e a uma melhor deteção geral.

Este conjunto de dados consiste em mais de 11.000 imagens e mais de 1,7 milhão de caixas delimitadoras orientadas em 18 categorias de objetos. As imagens variam de 800×800 a 20.000×20.000 pixels e incluem objetos como aviões, navios e edifícios. 

__wf_reserved_inherit
Fig. 2. Exemplos de imagens e anotações do conjunto de dados DOTA-v2.0. Imagem do autor.

Devido às suas anotações detalhadas, o DOTA-v2.0 se tornou uma escolha popular para projetos de sensoriamento remoto e vigilância aérea. Aqui estão algumas das principais características do DOTA-v2.0:

  • Diversas categorias de objetos: Ele cobre muitos tipos de objetos diferentes, como veículos, portos e tanques de armazenamento, dando aos modelos exposição a vários objetos do mundo real.
  • Anotações de alta qualidade: Anotadores especializados forneceram caixas delimitadoras precisamente orientadas que mostram claramente as formas e direções dos objetos.
  • Imagens multiescala: O conjunto de dados inclui imagens de diferentes tamanhos, ajudando os modelos a aprender como detectar objetos em escalas pequenas e grandes.

Embora o DOTA-v2 tenha muitos pontos fortes, aqui estão algumas limitações que os usuários devem ter em mente:

  • Etapas extras de download: Devido à forma como o conjunto de dados DOTA é mantido, o DOTA-v2.0 requer uma etapa de configuração extra. Primeiro, você precisa baixar as imagens do DOTA-v1.0 e, em seguida, adicionar as imagens extras e as anotações atualizadas para o DOTA-v2.0 para completar o conjunto de dados.
  • Anotações complexas: As bounding boxes orientadas podem exigir um esforço extra para lidar durante o treino do modelo.
  • Âmbito limitado: O DOTA-v2 foi projetado para imagens aéreas, o que o torna menos útil para tarefas gerais de deteção de objetos fora deste domínio.

Conjunto de dados Roboflow 100 

O conjunto de dados Roboflow 100 (RF100) foi criado pela Roboflow com o apoio da Intel. Ele pode ser usado para testar e avaliar o desempenho dos modelos de detecção de objetos. Este conjunto de dados de benchmark inclui 100 conjuntos de dados diferentes escolhidos entre mais de 90.000 conjuntos de dados públicos. Ele tem mais de 224.000 imagens e 800 classes de objetos de áreas como saúde, vistas aéreas e jogos. 

Aqui estão algumas das principais vantagens de usar o RF100:

  • Ampla cobertura de domínio: Inclui conjuntos de dados de sete campos, como imagens médicas, vistas aéreas e exploração subaquática.
  • Incentiva a melhoria do modelo: A variabilidade e os desafios específicos do domínio em RF100 revelam lacunas nos modelos atuais, impulsionando a pesquisa em direção a soluções de deteção de objetos mais adaptáveis e robustas.
  • Formato de imagem consistente: Todas as imagens são redimensionadas para 640x640 pixels. Isso ajuda os usuários a treinar modelos sem precisar ajustar os tamanhos das imagens.

Apesar dos seus pontos fortes, o RF100 também tem algumas desvantagens a ter em conta:

  • Limitado em termos de tarefas: O RF100 foi projetado para deteção de objetos, portanto, não pode acomodar tarefas como segmentação ou classificação.
  • Foco centrado em benchmarks: O RF100 é projetado principalmente como uma ferramenta de benchmarking, em vez de para treinar modelos para aplicações do mundo real, portanto, seus resultados podem não se traduzir totalmente em cenários de implantação práticos.
  • Variabilidade da anotação: Como o RF100 agrega conjuntos de dados de crowdsourcing, pode haver inconsistências na qualidade da anotação e nas práticas de rotulagem, o que pode impactar a avaliação e o ajuste fino do modelo.

Conjunto de dados COCO (Objetos comuns em contexto)

O conjunto de dados COCO é um dos conjuntos de dados de visão computacional mais utilizados, oferecendo mais de 330.000 imagens com anotações de imagem detalhadas. Foi concebido para a deteção de objetos, segmentação e legendagem de imagens, o que o torna um recurso valioso para muitos projetos. As suas etiquetas detalhadas, incluindo caixas delimitadoras e máscaras de segmentação, ajudam os sistemas a aprender a analisar imagens com precisão.

Este conjunto de dados é conhecido por sua flexibilidade e é útil para várias tarefas, desde projetos simples até complexos. Ele se tornou um padrão no campo da Visão de IA, frequentemente usado em desafios e competições para avaliar o desempenho do modelo.

Alguns de seus pontos fortes incluem:

  • Dados diversos e realistas: O conjunto de dados inclui imagens de cenários do mundo real com vários objetos, oclusões e condições de iluminação variadas.
  • Forte adoção pela comunidade e pela investigação: Utilizado nas principais competições e investigações de machine learning, o conjunto de dados COCO possui documentação extensa, modelos pré-treinados e suporte ativo da comunidade.
  • Anotações ricas e detalhadas: O conjunto de dados COCO fornece anotações altamente detalhadas, incluindo segmentação de objetos, pontos-chave e legendas, tornando-o ideal para projetos que exigem compreensão visual precisa.

Aqui estão alguns fatores limitantes a serem observados também:

  • Altos requisitos computacionais: Devido ao seu tamanho e complexidade, o treinamento de modelos no COCO pode exigir recursos computacionais significativos, tornando-o um desafio para equipes com hardware limitado.
  • Desequilíbrio de dados: Algumas categorias de objetos têm significativamente mais imagens do que outras, o que pode levar a um viés no treinamento do modelo.
  • Estrutura de anotação complexa: As anotações detalhadas do conjunto de dados, embora valiosas, podem ser opressivas para iniciantes ou equipas menores que não têm experiência em trabalhar com conjuntos de dados estruturados de Visão de IA.

Conjunto de dados Open Images V7

Open Images V7 é um enorme conjunto de dados de código aberto com curadoria do Google, apresentando mais de 9 milhões de imagens com anotações para 600 categorias de objetos. Inclui uma variedade de tipos de anotação e é ideal para lidar com tarefas complexas de visão computacional. A sua escala e profundidade fornecem um recurso abrangente para treinar e testar modelos de visão computacional.

__wf_reserved_inherit
Fig. 3. Um vislumbre do conjunto de dados Open Images V7. Imagem do autor.

Além disso, a popularidade do conjunto de dados Open Images V7 na pesquisa fornece muitos recursos e exemplos para os usuários aprenderem. No entanto, seu tamanho massivo pode tornar o download e o processamento demorados, especialmente para equipes menores. Outro problema é que algumas anotações podem ser inconsistentes, exigindo esforço extra para limpar os dados, e a integração nem sempre é perfeita, o que significa que pode ser necessário um preparo adicional. 

Escolhendo o conjunto de dados certo 

Escolher o conjunto de dados certo é uma parte importante para configurar seu projeto de visão computacional para o sucesso. A melhor escolha depende da sua tarefa específica - encontrar uma boa correspondência ajuda seu modelo a aprender as habilidades certas. Ele também deve se integrar facilmente com suas ferramentas, para que você possa se concentrar mais na construção do seu modelo e menos na solução de problemas.

__wf_reserved_inherit
Fig 4. Fatores para escolher o dataset certo. Imagem do autor.

Principais conclusões

Conjuntos de dados de alta qualidade são a espinha dorsal de qualquer modelo de visão computacional, ajudando os sistemas a aprender a interpretar imagens com precisão. Conjuntos de dados diversos e bem anotados são especialmente importantes, pois permitem que os modelos tenham um desempenho confiável em cenários do mundo real e reduzam erros causados por dados limitados ou de baixa qualidade.

A Ultralytics simplifica o processo de acesso e trabalho com conjuntos de dados de visão computacional, facilitando a localização dos dados certos para o seu projeto. Escolher o conjunto de dados certo é um passo crucial na construção de um modelo de alto desempenho, levando a resultados mais precisos e impactantes.

Junte-se à nossa comunidade e explore nosso repositório GitHub para saber mais sobre IA. Descubra avanços como visão computacional para a área da saúde e IA em carros autônomos em nossas páginas de soluções. Confira nossas opções de licenciamento e dê o primeiro passo para começar com visão computacional hoje mesmo!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência