Melhores conjuntos de dados de visão computacional 2025

Sabia que os dados desempenham um papel em quase tudo o que faz diariamente? Ver um vídeo, tirar uma fotografia ou consultar Google Maps contribui para o fluxo constante de informações captadas por mais de 75 mil milhões de dispositivos ligados. Estes dados constituem a base da inteligência artificial (IA). De facto, modelos avançados de visão computacional como o Ultralytics YOLO11 dependem de dados visuais para identificar padrões, interpretar imagens e dar sentido ao mundo que nos rodeia.

Curiosamente, o valor dos dados não se resume apenas à quantidade. É mais importante o quão bem estão organizados e preparados. Se um conjunto de dados for confuso ou incompleto, pode levar a erros. No entanto, quando os conjuntos de dados são limpos e diversos, ajudam os modelos de visão computacional a terem um melhor desempenho, quer se trate de reconhecer objetos numa multidão ou de analisar elementos visuais complexos. Os conjuntos de dados de alta qualidade fazem toda a diferença.

Neste artigo, exploraremos os melhores conjuntos de dados de visão computacional de 2025 e veremos como eles contribuem para a construção de modelos de visão computacional mais precisos e eficientes. Vamos começar!

O que são conjuntos de dados de visão computacional?

Um conjunto de dados de visão computacional é uma coleção de imagens ou vídeos que ajudam os sistemas de visão computacional a aprender a entender e reconhecer informações visuais. Esses conjuntos de dados vêm com rótulos ou anotações que ajudam os modelos a reconhecer objetos, pessoas, cenas e padrões dentro dos dados.

Eles podem ser usados para treinar modelos de visão computacional, ajudando-os a aprimorar tarefas como identificar rostos, detectar objetos ou analisar cenas. Quanto melhor o conjunto de dados (bem organizado, diversificado e preciso), melhor o modelo de Visão de IA funciona, levando a uma tecnologia mais inteligente e útil no dia a dia.

Como construir um conjunto de dados de visão computacional

Construir um conjunto de dados de visão computacional é como preparar notas de estudo para ensinar alguém a ver e entender o mundo. Tudo começa com a coleta de imagens e vídeos que correspondam à aplicação específica que você está desenvolvendo.

Um conjunto de dados ideal inclui exemplos diversos dos objetos de interesse, capturados de diferentes ângulos, sob várias condições de iluminação e em múltiplos fundos e ambientes. Essa variedade garante que o modelo de visão computacional aprenda a reconhecer padrões com precisão e tenha um desempenho confiável em cenários do mundo real.

__wf_reserved_inherit — Fig 1. Construindo o dataset de visão perfeito. Imagem do autor.

‍

Após coletar imagens e vídeos relevantes, o próximo passo é a rotulagem de dados. Este processo envolve adicionar tags, anotações ou descrições aos dados para que a IA possa entender o que cada imagem ou vídeo contém.

Os rótulos podem incluir nomes de objetos, localizações, limites ou outros detalhes relevantes que ajudam a treinar o modelo para reconhecer e interpretar informações visuais com precisão. A rotulagem de dados transforma uma simples coleção de imagens em um conjunto de dados estruturado que pode ser usado para treinar um modelo de visão computacional.

O treinamento de modelos requer dados de alta qualidade

Você pode estar se perguntando o que torna um conjunto de dados de alta qualidade. Existem muitos fatores envolvidos, como rotulagem precisa, diversidade e consistência. Por exemplo, se vários anotadores estiverem rotulando um conjunto de dados de detecção de objetos para identificar orelhas de gato, um pode rotulá-las como parte da cabeça, enquanto outro as rotula separadamente como orelhas. Essa inconsistência pode confundir o modelo e afetar sua capacidade de aprender corretamente.

Aqui está uma visão geral rápida das qualidades de um conjunto de dados de visão computacional ideal:

Rótulos claros: Cada imagem é anotada com precisão com rótulos consistentes e precisos.
‍
Dados diversos: O conjunto de dados inclui diferentes objetos, fundos, condições de iluminação e ângulos para ajudar o modelo a funcionar bem em várias situações.
‍
Imagens de alta resolução: Imagens nítidas e detalhadas facilitam o aprendizado e o reconhecimento de recursos pelo modelo.

Ultralytics suporta vários conjuntos de dados

Os modelosYOLO Ultralytics , como o YOLO11, foram criados para trabalhar com conjuntos de dados num formato de ficheiro YOLO específico. Embora seja fácil converter os seus próprios dados para este formato, também fornecemos uma opção sem complicações para aqueles que querem começar a experimentar de imediato.

O pacoteUltralytics Python suporta uma vasta gama de conjuntos de dados de visão computacional, permitindo-lhe mergulhar em projectos que utilizam tarefas como a deteção de objectos, a segmentação de instâncias ou a estimativa de pose sem qualquer configuração adicional.

Os utilizadores podem aceder facilmente a conjuntos de dados prontos a utilizar, como COCO, DOTA-v2.0, Open Images V7 e ImageNet , especificando o nome do conjunto de dados como um dos parâmetros na função de formação. Ao fazê-lo, o conjunto de dados é automaticamente descarregado e pré-configurado, para que o utilizador se possa concentrar na criação e aperfeiçoamento dos seus modelos.

Os 5 principais conjuntos de dados de visão computacional em 2025

Os avanços na IA de visão dependem de conjuntos de dados diversos e em grande escala que impulsionam a inovação e permitem avanços. Vejamos alguns dos conjuntos de dados mais importantes, apoiados pela Ultralytics, que estão a influenciar os modelos de visão computacional.

Conjunto de dados ImageNet

ImageNetcriado por Fei-Fei Li e a sua equipa na Universidade de Princeton em 2007 e apresentado em 2009, é um grande conjunto de dados com mais de 14 milhões de imagens marcadas. É amplamente utilizado para treinar sistemas de reconhecimento e categorização de diferentes objectos. O seu design estruturado torna-o particularmente útil para ensinar modelos a classify imagens com precisão. Embora bem documentado, centra-se principalmente na classificação de imagens e carece de anotações detalhadas para tarefas como a deteção de objectos.

Eis um resumo de alguns dos principais pontos fortes do ImageNet:

Diversidade: Com imagens que abrangem mais de 20.000 categorias, ImageNet oferece um conjunto de dados vasto e variado que melhora o treinamento e a generalização do modelo.
‍
Organização estruturada: As imagens são meticulosamente categorizadas utilizando a hierarquia WordNet, facilitando a recuperação eficiente de dados e o treino sistemático do modelo.
‍
Documentação abrangente: A investigação extensiva e os anos de estudo tornam ImageNet acessível tanto a principiantes como a especialistas, fornecendo informações e orientações valiosas para projectos de visão computacional.

No entanto, como qualquer conjunto de dados, ele tem suas limitações. Aqui estão alguns dos desafios a serem considerados:

Demandas computacionais: Seu tamanho massivo pode representar desafios para equipes menores com recursos computacionais limitados.
‍
Falta de dados temporais: Como contém apenas imagens estáticas, pode não atender às necessidades de aplicações que exigem vídeo ou dados baseados no tempo.
‍
Imagens desatualizadas: Algumas imagens no conjunto de dados são mais antigas e podem não refletir objetos, estilos ou ambientes atuais, reduzindo potencialmente a relevância para aplicações modernas.

Conjunto de dados DOTA-v2.0

O conjunto de dados DOTA-v2.0, onde DOTA significa Dataset for Object Detection in Aerial Images (Conjunto de Dados para Deteção de Objetos em Imagens Aéreas), é uma extensa coleção de imagens aéreas criadas especialmente para a deteção de objetos com caixas delimitadoras orientadas (OBB). Na deteção OBB, são utilizadas caixas delimitadoras rotacionadas para se alinharem com maior precisão com a orientação real dos objetos na imagem. Este método funciona especialmente bem para imagens aéreas, onde os objetos aparecem frequentemente em vários ângulos, levando a uma localização mais precisa e a uma melhor deteção geral.

Este conjunto de dados consiste em mais de 11.000 imagens e mais de 1,7 milhão de caixas delimitadoras orientadas em 18 categorias de objetos. As imagens variam de 800×800 a 20.000×20.000 pixels e incluem objetos como aviões, navios e edifícios.

‍

Devido às suas anotações detalhadas, o DOTA-v2.0 se tornou uma escolha popular para projetos de sensoriamento remoto e vigilância aérea. Aqui estão algumas das principais características do DOTA-v2.0:

Diversas categorias de objetos: Ele cobre muitos tipos de objetos diferentes, como veículos, portos e tanques de armazenamento, dando aos modelos exposição a vários objetos do mundo real.
‍
Anotações de alta qualidade: Anotadores especializados forneceram caixas delimitadoras precisamente orientadas que mostram claramente as formas e direções dos objetos.
‍
Imagens multiescala: O conjunto de dados inclui imagens de diferentes tamanhos, ajudando os modelos a aprender a detect objectos tanto em pequena como em grande escala.

Embora o DOTA-v2 tenha muitos pontos fortes, aqui estão algumas limitações que os usuários devem ter em mente:

Etapas extras de download: Devido à forma como o conjunto de dados DOTA é mantido, o DOTA-v2.0 requer uma etapa de configuração extra. Primeiro, você precisa baixar as imagens do DOTA-v1.0 e, em seguida, adicionar as imagens extras e as anotações atualizadas para o DOTA-v2.0 para completar o conjunto de dados.
‍
Anotações complexas: As bounding boxes orientadas podem exigir um esforço extra para lidar durante o treino do modelo.
‍
Âmbito limitado: O DOTA-v2 foi projetado para imagens aéreas, o que o torna menos útil para tarefas gerais de deteção de objetos fora deste domínio.

Conjunto de dados Roboflow 100

O conjunto de dados Roboflow 100 (RF100) foi criado pela Roboflow com o apoio da Intel. Pode ser utilizado para testar e avaliar a eficácia dos modelos de deteção de objectos. Este conjunto de dados de referência inclui 100 conjuntos de dados diferentes selecionados entre mais de 90 000 conjuntos de dados públicos. Tem mais de 224.000 imagens e 800 classes de objectos de áreas como os cuidados de saúde, vistas aéreas e jogos.

Aqui estão algumas das principais vantagens de usar o RF100:

Ampla cobertura de domínio: Inclui conjuntos de dados de sete campos, como imagens médicas, vistas aéreas e exploração subaquática.
‍
Incentiva a melhoria do modelo: A variabilidade e os desafios específicos do domínio em RF100 revelam lacunas nos modelos atuais, impulsionando a pesquisa em direção a soluções de deteção de objetos mais adaptáveis e robustas.
‍
Formato de imagem consistente: Todas as imagens são redimensionadas para 640x640 pixels. Isso ajuda os usuários a treinar modelos sem precisar ajustar os tamanhos das imagens.

Apesar dos seus pontos fortes, o RF100 também tem algumas desvantagens a ter em conta:

Limitado em termos de tarefas: O RF100 foi projetado para deteção de objetos, portanto, não pode acomodar tarefas como segmentação ou classificação.
‍
Foco centrado em benchmarks: O RF100 é projetado principalmente como uma ferramenta de benchmarking, em vez de para treinar modelos para aplicações do mundo real, portanto, seus resultados podem não se traduzir totalmente em cenários de implantação práticos.
‍
Variabilidade da anotação: Como o RF100 agrega conjuntos de dados de crowdsourcing, pode haver inconsistências na qualidade da anotação e nas práticas de rotulagem, o que pode impactar a avaliação e o ajuste fino do modelo.

Conjunto de dados COCO (Objectos comuns em contexto)

O conjunto de dadosCOCO é um dos conjuntos de dados de visão computacional mais utilizados, oferecendo mais de 330.000 imagens com anotações de imagem detalhadas. Foi concebido para deteção de objectos, segmentação e legendagem de imagens, o que o torna um recurso valioso para muitos projectos. As suas etiquetas detalhadas, incluindo caixas delimitadoras e máscaras de segmentação, ajudam os sistemas a aprender a analisar imagens com precisão.

Este conjunto de dados é conhecido por sua flexibilidade e é útil para várias tarefas, desde projetos simples até complexos. Ele se tornou um padrão no campo da Visão de IA, frequentemente usado em desafios e competições para avaliar o desempenho do modelo.

Alguns de seus pontos fortes incluem:

Dados diversos e realistas: O conjunto de dados inclui imagens de cenários do mundo real com vários objetos, oclusões e condições de iluminação variadas.
‍
Forte adoção pela comunidade e pela investigação: Utilizado nas principais competições e pesquisas de aprendizado de máquina, o conjunto de dados COCO possui documentação extensa, modelos pré-treinados e suporte ativo da comunidade.
‍
Anotações ricas e detalhadas: O conjunto de dados COCO fornece anotações altamente detalhadas, incluindo segmentação de objectos, pontos-chave e legendas, tornando-o ideal para projectos que requerem uma compreensão visual precisa.

Aqui estão alguns fatores limitantes a serem observados também:

Elevados requisitos computacionais: Devido ao seu tamanho e complexidade, os modelos de treino no COCO podem exigir recursos computacionais significativos, tornando-o um desafio para as equipas com hardware limitado.
‍
Desequilíbrio de dados: Algumas categorias de objetos têm significativamente mais imagens do que outras, o que pode levar a um viés no treinamento do modelo.
‍
Estrutura de anotação complexa: As anotações detalhadas do conjunto de dados, embora valiosas, podem ser opressivas para iniciantes ou equipas menores que não têm experiência em trabalhar com conjuntos de dados estruturados de Visão de IA.

Conjunto de dados Open Images V7

O Open Images V7 é um enorme conjunto de dados de código aberto com curadoria da Google, que inclui mais de 9 milhões de imagens com anotações para 600 categorias de objectos. Inclui uma grande variedade de tipos de anotações e é ideal para tarefas complexas de visão computacional. A sua escala e profundidade fornecem um recurso abrangente para treinar e testar modelos de visão computacional.

‍

Além disso, a popularidade do conjunto de dados Open Images V7 na pesquisa fornece muitos recursos e exemplos para os usuários aprenderem. No entanto, seu tamanho massivo pode tornar o download e o processamento demorados, especialmente para equipes menores. Outro problema é que algumas anotações podem ser inconsistentes, exigindo esforço extra para limpar os dados, e a integração nem sempre é perfeita, o que significa que pode ser necessário um preparo adicional.

Escolhendo o conjunto de dados certo

Escolher o conjunto de dados certo é uma parte importante para configurar seu projeto de visão computacional para o sucesso. A melhor escolha depende da sua tarefa específica - encontrar uma boa correspondência ajuda seu modelo a aprender as habilidades certas. Ele também deve se integrar facilmente com suas ferramentas, para que você possa se concentrar mais na construção do seu modelo e menos na solução de problemas.

‍

Principais conclusões

Conjuntos de dados de alta qualidade são a espinha dorsal de qualquer modelo de visão computacional, ajudando os sistemas a aprender a interpretar imagens com precisão. Conjuntos de dados diversos e bem anotados são especialmente importantes, pois permitem que os modelos tenham um desempenho confiável em cenários do mundo real e reduzam erros causados por dados limitados ou de baixa qualidade.

Ultralytics simplifica o processo de acesso e trabalho com conjuntos de dados de visão computacional, facilitando a procura dos dados certos para o seu projeto. A escolha do conjunto de dados correto é um passo crucial na construção de um modelo de elevado desempenho, conduzindo a resultados mais precisos e impactantes.

Junte-se à nossa comunidade e explore nosso repositório GitHub para saber mais sobre IA. Descubra avanços como visão computacional para a área da saúde e IA em carros autônomos em nossas páginas de soluções. Confira nossas opções de licenciamento e dê o primeiro passo para começar com visão computacional hoje mesmo!

Explorando os melhores conjuntos de dados de visão computacional em 2025

O que são conjuntos de dados de visão computacional?

Como construir um conjunto de dados de visão computacional

O treinamento de modelos requer dados de alta qualidade

Ultralytics suporta vários conjuntos de dados