Plataforma Ultralytics

Gerenciamento inteligente de conjuntos de dados em visão computacional com a Ultralytics Platform

Explora como podes usar a Ultralytics Platform para um melhor gerenciamento de conjuntos de dados nos teus projetos de visão computacional. Rastreia, compara e melhora os teus conjuntos de dados com facilidade.

ABAbirami Vina6 min readMarch 31, 2026

Gerenciamento inteligente de conjuntos de dados em visão computacional com a Ultralytics Platform

A IA de visão, ou visão computacional, percorreu um longo caminho desde os seus primeiros dias, evoluindo de uma pesquisa experimental para uma tecnologia chave que impulsiona aplicações no mundo real. Hoje, entusiastas de IA podem construir modelos poderosos para tarefas como detecção de objetos e segmentação de instâncias usando ferramentas e frameworks acessíveis.

No entanto, à medida que estas aplicações passam da experimentação para a produção, a gestão de datasets continua a ser um desafio crítico e muitas vezes negligenciado. À medida que os datasets de visão computacional crescem em tamanho e complexidade, as equipas lutam frequentemente para manter anotações consistentes, rastrear alterações entre versões e garantir a qualidade geral dos dados.

Mesmo modelos de ponta podem ter um desempenho inferior em ambientes reais se os dados nos quais são treinados estiverem incompletos, desequilibrados ou mal geridos. Esta lacuna crescente entre o desempenho no desenvolvimento e a fiabilidade no mundo real é a razão pela qual é necessária uma abordagem mais estruturada para a gestão de datasets.

Outra limitação comum é que a recolha, anotação e treinamento de dados são frequentemente tratados usando ferramentas separadas. Um fluxo de trabalho fragmentado torna mais difícil gerir datasets de forma eficiente, aumenta o risco de inconsistências e retarda a iteração.

Para resolver os gargalos da IA de visão, como a gestão de datasets e fluxos de trabalho fragmentados, lançamos recentemente a Ultralytics Platform. É um espaço de trabalho de ponta a ponta que reúne gestão de datasets, anotação, treinamento, implementação e monitorização num único fluxo de trabalho unificado.

Ao conectar cada fase do ciclo de vida da visão computacional, torna-se mais fácil rastrear alterações nos datasets, comparar o desempenho entre versões e refinar continuamente os teus dados para obter melhores resultados.

Visualizando imagens do conjunto de dados na Ultralytics Platform

Fig 1. Um exemplo de visualização das imagens do teu dataset na Ultralytics Platform (Fonte)

Neste artigo, vamos aprofundar como a Ultralytics Platform te ajuda a rastrear, comparar e melhorar os teus datasets para construir modelos de visão computacional mais fiáveis. Vamos começar!

Link to this sectionA importância da gestão de datasets em visão computacional#

O desempenho de um modelo de visão computacional está intimamente ligado aos dados em que é treinado. A precisão do modelo, quão frequentemente as previsões estão corretas, depende não apenas do algoritmo, mas de quão bem o dataset representa as condições do mundo real.

Simplificando, um modelo aprende padrões diretamente dos dados, portanto, quaisquer lacunas, vieses ou inconsistências no dataset podem influenciar a forma como ele faz previsões. Por outras palavras, dados de má qualidade, anotações incorretas ou cobertura limitada de variações do mundo real em imagens, tais como diferentes condições de iluminação, ângulos de objetos, fundos ou níveis de oclusão, podem reduzir significativamente a precisão, mesmo que a arquitetura do modelo em si seja forte.

Isto também se aplica ao fazer fine-tuning de um modelo, onde um modelo pré-treinado é treinado adicionalmente em dados novos ou atualizados para melhor adaptá-lo a um caso de uso ou ambiente específico. Uma vez que a precisão do modelo depende tanto dos dados, gerir esses dados adequadamente torna-se essencial.

A gestão de datasets inclui organizar, rotular e atualizar continuamente os dados para que permaneçam precisos e relevantes. Isto torna mais fácil melhorar o desempenho ao longo do tempo, especialmente ao treinar novamente ou fazer fine-tuning de modelos em novos dados.

Link to this sectionComo a qualidade do dataset afeta a fiabilidade no mundo real#

Casos de uso de visão computacional, como sistemas de monitorização de segurança, são um ótimo exemplo de por que a gestão adequada de dados é vital. Estes sistemas precisam de funcionar de forma fiável numa gama de condições do mundo real, incluindo diferentes ambientes de iluminação, ângulos de câmara, níveis de aglomeração e oclusões parciais.

Se os dados de treinamento não cobrirem estas variações ou carecerem de diversidade na forma como os objetos aparecem em diferentes cenas e condições, o modelo pode ter dificuldade em detectar objetos com precisão. Por exemplo, um modelo treinado principalmente em cenas bem iluminadas e organizadas pode ter um desempenho fraco em ambientes com pouca luz ou cenas movimentadas. Em sistemas de segurança, isto pode levar a eventos perdidos ou alertas falsos.

Para evitar isto, é importante manter datasets que não sejam apenas limpos e rotulados com precisão, mas também bem equilibrados e continuamente atualizados. Isto significa identificar lacunas nos dados, adicionar novos exemplos à medida que as condições mudam e garantir que diferentes classes e ambientes sejam representados de forma uniforme.

Com um dataset mais completo e estruturado, os modelos estão melhor equipados para lidar com a variabilidade do mundo real e produzir previsões mais fiáveis.

Link to this sectionAspetos chave da gestão de datasets#

Então, como é que a gestão de datasets se parece na prática? Envolve organizar, rotular e manter os dados para que possam ser usados de forma eficaz durante todo o processo de desenvolvimento do modelo.

Organizar dados, por exemplo, inclui estruturar o dataset e dividi-lo em conjuntos de treinamento, validação e teste. O conjunto de treinamento é usado para ensinar o modelo, o conjunto de validação é usado para monitorizar o desempenho e orientar ajustes durante o desenvolvimento, e o conjunto de teste é usado para avaliar o quão bem o modelo final funciona em dados completamente inéditos.

Entretanto, rotular envolve anotar imagens com detalhes como etiquetas de classe, caixas delimitadoras ou máscaras de segmentação. Uma vez que o modelo aprende com estas anotações, a precisão e a consistência são cruciais para ajudá-lo a aprender padrões significativos e fazer previsões fiáveis.

Além disso, manter o dataset envolve rever e atualizar os dados ao longo do tempo. Isto pode incluir corrigir erros de anotação, remover dados de baixa qualidade ou duplicados e adicionar novos exemplos para cobrir casos omissos ou condições em mudança.

De um modo mais geral, a gestão de datasets é um processo contínuo. À medida que os modelos são avaliados e novos dados são recolhidos, os datasets precisam de ser atualizados para refletir as condições do mundo real e casos extremos. Rastrear estas atualizações e comparar diferentes versões ajuda as equipas a entender o que está a melhorar o desempenho e onde são necessárias mais alterações.

Link to this sectionGerir datasets com a Ultralytics Platform#

A Ultralytics Platform fornece um fluxo de trabalho estruturado para gerir datasets num único ambiente, cobrindo tudo, desde a preparação de dados até à exportação. Foi concebida para apoiar tanto programadores individuais como equipas, facilitando a gestão consistente de datasets, independentemente de estares a trabalhar de forma independente ou a colaborar em projetos.

Cada etapa é concebida para simplificar a forma como os datasets são organizados, processados e usados durante todo o ciclo de vida de desenvolvimento do modelo. Ao trazer estes passos para um só lugar, a plataforma reduz a fragmentação e torna mais simples manter a consistência entre os fluxos de trabalho.

A seguir, vamos percorrer os principais passos envolvidos e como a plataforma apoia cada um deles.

Link to this sectionCarregar datasets para a Ultralytics Platform#

Começar com datasets na plataforma é flexível, com múltiplas formas de trazer ou reutilizar dados. Podes carregar os teus próprios dados ou começar mais rapidamente usando datasets públicos disponíveis na plataforma. Também podes clonar datasets existentes partilhados pela comunidade e construir a partir deles.

As funcionalidades comunitárias da plataforma tornam fácil explorar e reutilizar o trabalho existente. Com acesso a datasets criados por outros utilizadores, incluindo milhões de imagens e anotações, podes começar rapidamente sem ter de recolher e rotular tudo tu mesmo. Clonar um dataset cria uma cópia no teu espaço de trabalho, permitindo-te modificá-lo e estendê-lo enquanto preservas o original.

Para carregamentos, a plataforma suporta imagens individuais, vídeos e arquivos de dataset como ficheiros ZIP, TAR ou GZ. Também suporta formatos de dataset amplamente usados como YOLO e COCO, facilitando a importação de datasets e anotações existentes sem conversão adicional. Além disto, podes carregar um dataset usando um ficheiro NDJSON exportado da plataforma, tornando a recriação ou reutilização de datasets entre projetos muito simples.

Uma vez carregados, a plataforma processa os dados através de um pipeline estruturado. Isto inclui validar formatos e tamanhos de ficheiros, redimensionar imagens quando necessário, analisar anotações e gerar estatísticas do dataset.

Por exemplo, vídeos são convertidos em fotogramas para que possam ser usados para treinamento, enquanto imagens são otimizadas e preparadas para facilitar a navegação e a análise. Após o processamento, os datasets estão prontos para serem usados para anotação, análise e treinamento de modelos dentro da plataforma.

Link to this sectionAnotação de dados na Ultralytics Platform#

Uma vez carregados, os datasets podem ser revistos e anotados diretamente dentro da plataforma. A plataforma inclui ferramentas de anotação de imagem integradas para uma gama de tarefas de visão computacional, tais como detecção de objetos, segmentação de instâncias, estimativa de pose, detecção de caixa delimitadora orientada (OBB) e classificação de imagem.

Usando a Ultralytics Platform para rotulagem de dados

Fig 2. Usar a Ultralytics Platform para rotulagem de dados (Fonte)

As anotações podem ser criadas manualmente usando estas ferramentas ou aceleradas com funcionalidades assistidas por IA, como a anotação inteligente com tecnologia SAM. Com o SAM, podes gerar máscaras, caixas delimitadoras ou caixas orientadas ao interagir com a imagem, ajudando a acelerar o processo de rotulagem enquanto manténs a precisão.

Link to this sectionAnalisar a qualidade do dataset através da Ultralytics Platform#

Além de preparar e anotar dados, entender a qualidade do dataset é essencial para construir modelos de visão computacional fiáveis. Sem uma visibilidade clara de fatores como a distribuição de classes, qualidade da anotação, divisões do dataset e como os dados são representados em diferentes condições, pode ser difícil identificar problemas que impactam o desempenho do modelo.

A Ultralytics Platform inclui funcionalidades integradas para ajudar a analisar datasets de forma mais eficaz. Estes insights estão disponíveis diretamente na interface do dataset, através de abas como Imagens, Classes e Gráficos.

Na aba Gráficos, podes visualizar estatísticas ao nível do dataset, tais como distribuição de divisão (treinamento, validação e teste), frequência de classe e mapas de calor de anotação que mostram onde os objetos aparecem dentro das imagens.

A aba Classes fornece um detalhamento das contagens de anotação por classe, tornando mais fácil identificar o desequilíbrio de classes. Enquanto isso, a aba Imagens mostra detalhes ao nível da imagem, tais como dimensões, contagens de anotações e como as etiquetas estão distribuídas por imagens individuais.

Estes insights facilitam a identificação de problemas como desequilíbrio de classes, cenários ausentes ou distribuição irregular de dados. Por exemplo, podes notar que certas classes têm poucos exemplos ou que a maioria das anotações está concentrada em áreas específicas de uma imagem.

Além da análise de dados, a plataforma suporta a curadoria e aumento de dataset, o que significa refinar datasets corrigindo ou removendo dados problemáticos e criando variações de dados existentes para melhorar o desempenho do modelo. Estas melhorias podem ser feitas diretamente dentro da plataforma, atualizando anotações, adicionando novos dados ou reorganizando as divisões do dataset com base nos insights da análise.

Link to this sectionExportar datasets da Ultralytics Platform#

Uma vez que um dataset é preparado e validado, pode ser exportado para uso em diferentes ambientes. Isto dá-te a flexibilidade de usar os teus dados de visão computacional onde preferires, seja treinando modelos localmente, na nuvem ou em outras ferramentas e fluxos de trabalho.

A Ultralytics Platform suporta múltiplos formatos de exportação, incluindo YOLO, COCO e NDJSON, facilitando a integração de datasets em diferentes fluxos de trabalho e ferramentas de treinamento.

Exportando um conjunto de dados da Ultralytics Platform

Fig 3. Exportar um dataset da Ultralytics Platform (Fonte)

Exportar um dataset cria um instantâneo fixo dos dados num momento específico, incluindo as suas imagens, anotações e estrutura. Isto é útil porque os datasets mudam frequentemente à medida que novos dados são adicionados, anotações são atualizadas ou divisões são ajustadas. Ao exportar um instantâneo, podes preservar a versão exata do dataset usada para uma determinada execução de treinamento.

Isto torna mais simples reproduzir resultados mais tarde, uma vez que podes treinar um modelo na mesma configuração de dados novamente e comparar o desempenho entre diferentes versões de dataset. Por exemplo, podes avaliar se adicionar novas imagens ou corrigir anotações realmente melhora a precisão do modelo, em vez de adivinhar o que mudou.

As exportações são geridas de forma assíncrona e, uma vez prontas, os datasets podem ser descarregados e usados em ambientes de treinamento locais, na nuvem ou offline.

Link to this sectionMelhorar a qualidade do dataset através de iterações na Ultralytics Platform#

Em fluxos de trabalho de machine learning e deep learning, a gestão de datasets continua mesmo após a implementação, porque os dados do mundo real diferem frequentemente dos dados usados durante o treinamento.

À medida que os modelos encontram novos inputs, lacunas no dataset, tais como condições ausentes (ambientes com pouca luz, diferentes ângulos de câmara, oclusões ou cenas movimentadas), bem como erros de anotação, tornam-se mais aparentes, tornando necessário refinar os dados ao longo do tempo.

Existem várias formas de melhorar um dataset. Podes adicionar novas imagens ou vídeos para cobrir condições ausentes, tais como ambientes com pouca luz, diferentes ângulos de câmara, oclusões ou cenas movimentadas, ajudando a reduzir os pontos cegos nos dados.

Ao mesmo tempo, garantir que as anotações são precisas e consistentes, tais como objetos corretamente rotulados e caixas delimitadoras ou máscaras precisas, ajuda o modelo a aprender padrões mais fiáveis.

Isto segue normalmente um ciclo simples: treinar o modelo, avaliar os resultados, identificar erros, melhorar o dataset e treinar novamente. Cada passo ajuda a destacar problemas como anotações incorretas, dados em falta ou casos sub-representados.

Digamos que estás a trabalhar num sistema de monitorização de prateleiras de retalho em tempo real usado para detectar produtos em lojas. Versões iniciais do dataset podem não incluir certos tipos de produtos, condições de iluminação ou arranjos de prateleiras lotadas. Durante a avaliação, podes notar que o modelo tem dificuldade em detectar itens nestas situações.

Para melhorar o desempenho, podes recolher novas imagens que cubram estes cenários ausentes e atualizar as anotações onde for necessário. Com o tempo, repetir este processo ajuda o modelo a tornar-se mais preciso e fiável nas condições do mundo real.

A Ultralytics Platform apoia este fluxo de trabalho ao conectar atualizações de datasets com treinamento e avaliação. Com rastreamento de experimentos e métricas de desempenho integrados, torna-se mais fácil monitorizar o progresso e melhorar continuamente os datasets ao longo do tempo.

Link to this sectionRastrear alterações de datasets usando a Ultralytics Platform#

Discutimos brevemente como os datasets evoluem ao longo do tempo como parte do processo de desenvolvimento do modelo. À medida que novos dados são adicionados, anotações são refinadas e classes são atualizadas, manter o controlo destas alterações torna-se chave para manter a qualidade dos dados e garantir um desempenho consistente do modelo.

Aqui estão algumas das principais funcionalidades da Ultralytics Platform que apoiam o rastreamento de datasets e controlo de versões:

Versionamento de dataset: Podes criar versões de dataset fixas como instantâneos NDJSON. Cada versão captura detalhes chave como contagem de imagens, contagem de classes, contagem de anotações e tamanho do dataset num ponto específico no tempo. Estas versões são armazenadas e podem ser descarregadas mais tarde, tornando mais fácil reproduzir experimentos e comparar resultados entre diferentes estados de dataset.
Aba Versões: Todas as versões do dataset são organizadas na aba Versões, onde podes ver o histórico de versões, adicionar descrições às alterações e rastrear como o dataset evolui ao longo do tempo.
Link com modelos: A aba Modelos mostra todos os modelos treinados num dataset, incluindo métricas como mAP e detalhes de treinamento. As versões de dataset estão ligadas às execuções de treinamento, ajudando-te a entender como as alterações nos dados impactam o desempenho do modelo.
Aba Erros: A aba Erros destaca ficheiros que falharam durante o processamento, juntamente com detalhes de erro e sugestões. Isto permite-te identificar e corrigir problemas como ficheiros corrompidos ou formatos não suportados antes do treinamento.
Interface de dataset (abas Imagens e Classes): Estas vistas permitem-te navegar pelas imagens, rever anotações, gerir etiquetas de classe e analisar a distribuição de classes. Funcionalidades como filtrar, ordenar e identificar imagens não anotadas tornam mais simples monitorizar a qualidade do dataset ao longo do tempo.
Estatísticas e gráficos: Visualizações de dados integradas, tais como distribuição de divisão, frequência de classe e mapas de calor de anotação, ajudam a rastrear alterações na distribuição de dados e identificar desequilíbrios à medida que o dataset evolui.

Analisando a distribuição de classes de um conjunto de dados na Ultralytics Platform

Fig 4. Uma visão sobre a análise da distribuição de classes de um dataset na Ultralytics Platform (Fonte)

Link to this sectionConectar datasets ao treinamento e implementação dentro da Ultralytics Platform#

A Ultralytics Platform conecta diferentes etapas do desenvolvimento de modelos de IA num único pipeline. Isto simplifica o processo de ir de dados brutos a aplicações de IA de visão prontas para produção.

Uma vez que os datasets são preparados e anotados, podem ser usados para treinar modelos de visão computacional, como o Ultralytics YOLO26, diretamente dentro da plataforma. Durante o treinamento, podes monitorizar métricas de desempenho, rastrear experimentos e avaliar quão bem o modelo está a aprender usando dashboards integrados.

Visualizando métricas de treinamento de modelo na Ultralytics Platform

Fig 5. Um vislumbre da visualização das métricas de treinamento de modelo na Ultralytics Platform (Fonte)

Após o treinamento, os modelos podem ser testados em novas imagens diretamente no navegador para avaliar previsões e identificar áreas de melhoria antes da implementação. Quando o modelo tem um bom desempenho, pode ser implementado em produção.

A plataforma suporta a exportação de modelos para múltiplos formatos ou a implementação através de serviços de inferência e endpoints dedicados, permitindo que funcionem em diferentes ambientes.

Uma vez implementados, ferramentas de monitorização integradas ajudam a rastrear o desempenho do sistema ao longo do tempo, incluindo métricas relacionadas com o uso e comportamento do modelo. Isto torna mais simples manter e melhorar os sistemas de IA de visão em aplicações do mundo real.

Link to this sectionMelhores práticas para gestão de datasets com a Ultralytics Platform#

Aqui estão alguns fatores chave a ter em mente ao gerir os teus datasets usando a Ultralytics Platform:

Usa filtros para encontrar lacunas: Identifica dados não rotulados ou sub-representados usando ferramentas de filtragem, tornando mais simples completar anotações e melhorar a cobertura.
Corrige erros precocemente: Usa a aba Erros para controlo de qualidade para detetar carregamentos falhados, ficheiros corrompidos ou formatos não suportados antes do treinamento.
Atualiza datasets continuamente: Adiciona novos dados, corrige anotações e inclui casos extremos à medida que aparecem. Isto ajuda a melhorar a cobertura e garante que os modelos funcionem de forma fiável em cenários do mundo real.
Gere divisões de dataset cuidadosamente: Garante um bom equilíbrio entre conjuntos de treinamento, validação e teste. Podes reorganizar divisões manualmente ou usar a redistribuição automática quando necessário.

Para saber mais sobre a Ultralytics Platform, consulta a documentação oficial da Ultralytics.

Link to this sectionPrincipais pontos#

À medida que os projetos de visão computacional escalam, gerir datasets de forma eficaz torna-se tão importante quanto o desenvolvimento do modelo. Uma abordagem estruturada para a gestão de datasets ajuda a melhorar a qualidade dos dados, simplificar fluxos de trabalho e apoiar um melhor desempenho do modelo ao longo do tempo.

A Ultralytics Platform simplifica este processo ao trazer a gestão de datasets, treinamento e implementação para um único fluxo de trabalho. Ao adotar uma abordagem estruturada para a gestão de datasets, as equipas podem reduzir a complexidade, melhorar a eficiência e construir sistemas de visão computacional mais escaláveis e fiáveis.

Junta-te à nossa comunidade em crescimento e explora o nosso repositório GitHub para recursos de IA. Para construir com IA de visão hoje, consulta as nossas opções de licenciamento. Aprende como a IA na agricultura está a transformar a agricultura e como a IA de visão na saúde está a moldar o futuro visitando as nossas páginas de soluções.

Gerenciamento inteligente de conjuntos de dados em visão computacional com a Ultralytics Platform

Link to this sectionA importância da gestão de datasets em visão computacional#

Link to this sectionComo a qualidade do dataset afeta a fiabilidade no mundo real#

Link to this sectionAspetos chave da gestão de datasets#

Link to this sectionGerir datasets com a Ultralytics Platform#

Link to this sectionCarregar datasets para a Ultralytics Platform#

Link to this sectionAnotação de dados na Ultralytics Platform#

Link to this sectionAnalisar a qualidade do dataset através da Ultralytics Platform#

Link to this sectionExportar datasets da Ultralytics Platform#

Link to this sectionMelhorar a qualidade do dataset através de iterações na Ultralytics Platform#

Link to this sectionRastrear alterações de datasets usando a Ultralytics Platform#

Link to this sectionConectar datasets ao treinamento e implementação dentro da Ultralytics Platform#

Link to this sectionMelhores práticas para gestão de datasets com a Ultralytics Platform#

Link to this sectionPrincipais pontos#

Explore solutions

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

Vamos construir o futuro da IA juntos!