Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Veja como os dados anotados por humanos melhoram a precisão dos modelos de visão computacional e por que a experiência humana ainda é essencial para sistemas confiáveis de IA de visão.
Há vinte anos, se alguém dissesse que estava a pensar em comprar um robô para ajudar nas tarefas domésticas, isso teria parecido algo realmente improvável. No entanto, estamos no meio do boom da IA, e os robôs estão a ser testados em cenários semelhantes.
Um campo fundamental da IA que impulsiona esse progresso é a visão computacional, que dá às máquinas a capacidade de compreender imagens e vídeos. Em outras palavras, modelos de visão computacional como o Ultralytics YOLO11 e o futuro Ultralytics podem ser treinados em conjuntos de dados que consistem em dados visuais e anotações.
Essas anotações ajudam o modelo a compreender os dados visuais. Por exemplo, conjuntos de dados de deteção de objetos usam caixas delimitadoras para desenhar retângulos em torno de objetos de interesse. Isso permite que o modelo detect localize esses objetos em novas imagens, mesmo quando a cena está desorganizada ou o objeto está parcialmente oculto.
Outras tarefas de visão computacional dependem de diferentes tipos de anotações. Os conjuntos de dados de segmentação rotulam o contorno exato de um objeto ao nível do pixel, enquanto os conjuntos de dados de pontos-chave marcam pontos de referência específicos, como as articulações de uma pessoa.
No entanto, em todos esses formatos, um fator crucial é a qualidade e a consistência dos rótulos. Os modelos aprendem diretamente com os dados com os quais são treinados, portanto, se os rótulos forem inconsistentes ou errados, o modelo frequentemente transportará esses erros para as suas previsões.
Mesmo com a automação, os conjuntos de dados anotados por humanos ainda são cruciais, especialmente em áreas de alto risco, como imagens médicas. Pequenos erros de rotulagem, como um limite impreciso do tumor ou uma anomalia não detectada, podem ensinar ao modelo o padrão errado e levar a previsões inseguras posteriormente. Os especialistas humanos fornecem a verdade fundamental e o julgamento precisos que essas aplicações exigem.
Fig. 1. Há necessidade de conjuntos de dados anotados por humanos. Imagem do autor.
Neste artigo, vamos analisar mais detalhadamente por que os dados anotados por humanos são essenciais, mesmo com o avanço contínuo da IA.
A necessidade de anotação de imagens e vídeos
Os modelos de visão computacional aprendem de forma muito semelhante à nossa, observando muitos exemplos. A diferença é que eles aprendem através do treino em grandes conjuntos de dados de imagens e vídeos que os humanos rotulam antecipadamente. Essas rotulagens funcionam como referência, ensinando ao modelo coisas como «isto é um peão», «aqui está o limite de um tumor» ou «esse objeto é um carro».
As imagens do mundo real raramente são nítidas ou consistentes. A iluminação pode mudar e fazer com que o mesmo objeto pareça diferente. Pessoas e veículos podem se sobrepor ou ficar parcialmente ocultos. Os fundos podem ser confusos e causar distração. Quando os conjuntos de dados incluem rótulos cuidadosos e consistentes para todas essas situações, os modelos ficam muito mais bem preparados para o que encontrarão fora de ambientes controlados.
A anotação de dados também é mais do que apenas desenhar caixas ou traçar contornos. Envolve aplicar diretrizes e tomar decisões práticas sobre o que conta como objeto, onde deve estar o seu limite e o que fazer quando algo não está claro. Esse julgamento humano mantém os dados precisos e utilizáveis.
No final das contas, um sistema de visão computacional tem um desempenho tão bom quanto os dados rotulados com os quais aprende. Em aplicações de alto impacto, como a deteção de cancro em exames ou a deteção de perigos na estrada para carros autônomos, rótulos precisos feitos por pessoas qualificadas fazem uma diferença real em termos de precisão e segurança.
O aumento da automação na anotação de dados
À medida que a visão computacional se expande e os conjuntos de dados crescem, a automação está a tornar-se uma forma comum de acelerar a anotação. Em vez de rotular tudo manualmente, as equipas utilizam modelos de IA para produzir uma primeira versão das etiquetas.
Em seguida, os seres humanos analisam os resultados, corrigem erros e tratam dos casos que o modelo não consegue classificar com confiança. Essa abordagem acelera a anotação, mantendo a alta qualidade.
Aqui estão algumas maneiras pelas quais a automação normalmente ajuda na anotação de dados:
Segmentação automática: os modelos podem sugerir automaticamente contornos de objetos ou máscaras em nível de pixel, o que reduz a quantidade de traçado manual que os anotadores precisam fazer.
Rastreamento de fluxo ótico: quando se trata de vídeos, os métodos de rastreamento podem acompanhar um objeto em movimento através dos fotogramas e transportar a sua etiqueta para a frente, ajudando a manter as anotações consistentes ao longo do tempo.
Interpolação de fotogramas: as ferramentas podem preencher rótulos para os fotogramas entre dois fotogramas rotulados usando pistas de movimento e rastreamento, para que os anotadores não precisem rotular cada fotograma individualmente.
Aprendizagem ativa: os pipelines de formação podem identificar exemplos que o modelo considera incertos ou incomuns e enviá-los primeiro para humanos, de modo que o esforço manual seja direcionado para os dados que mais melhoram o desempenho.
Por que a anotação de dados por humanos ainda é tão importante
Embora a automação possa acelerar a rotulagem, os modelos de IA ainda precisam do julgamento humano para se manterem precisos e confiáveis.
Aqui estão algumas áreas importantes em que a experiência humana tem impacto na anotação de dados:
Compreensão do contexto: imagens e vídeos reais costumam ser confusos. Sombras, reflexos, desfoque de movimento e objetos sobrepostos podem confundir as ferramentas automatizadas. Os anotadores humanos podem interpretar o que realmente está a acontecer, tornando as etiquetas mais precisas.
Manter a consistência das etiquetas: à medida que os conjuntos de dados crescem, as etiquetas automatizadas podem sofrer alterações ou variar entre os lotes. Os seres humanos podem auditar, corrigir e alinhar as etiquetas para que o conjunto de dados permaneça consistente do início ao fim.
Reduzir preconceitos e danos: as pessoas são melhores a identificar conteúdos sensíveis, nuances culturais e padrões que podem introduzir preconceitos. A sua supervisão ajuda a tornar os conjuntos de dados mais justos e evita danos indesejados.
Aplicando conhecimentos especializados: algumas tarefas exigem conhecimento específico, como identificar anomalias médicas ou defeitos industriais. Os especialistas podem fornecer rótulos precisos e resolver casos ambíguos para que o modelo aprenda os detalhes corretos.
Uma visão geral da anotação com intervenção humana
Ferramentas e plataformas de anotação como Roboflow automação para acelerar a rotulagem, muitas vezes usando modelos básicos como o Segment Anything Model 3 ou SAM3. O SAM3 é o modelo básico de segmentação promptable da Meta AI.
Ele pode detect, segment e track em imagens e vídeos a partir de comandos simples, como cliques, caixas delimitadoras ou frases curtas de texto, produzindo máscaras de segmentação para objetos correspondentes sem a necessidade de treinamento específico para cada nova categoria.
Mesmo com essas abordagens de ponta, ainda são necessários especialistas humanos para revisar e finalizar as anotações. Quando ferramentas automatizadas produzem um primeiro rascunho e os humanos o verificam, corrigem e refinam, o fluxo de trabalho é conhecido como anotação human-in-the-loop. Isso mantém a anotação rápida, garantindo que os rótulos finais sejam precisos e consistentes o suficiente para treinar modelos confiáveis.
Fig. 2. Uma visão geral da anotação com intervenção humana. (Fonte)
Quando a automação para anotação funciona e quando não funciona
A anotação automatizada funciona melhor para dados provenientes de locais controlados. As imagens recolhidas em fábricas, armazéns ou corredores de lojas de retalho geralmente têm iluminação constante e vistas nítidas dos objetos, de modo que as ferramentas automatizadas podem rotulá-las com precisão e ajudar as equipas a escalar mais rapidamente com menos trabalho manual.
Os dados de locais menos controlados são mais complexos. As imagens externas mudam com a hora do dia e o clima, e as cenas das ruas ou casas geralmente incluem desordem, desfoque de movimento, objetos que se bloqueiam mutuamente e muitas sobreposições. Objetos pequenos, limites finos ou situações raras aumentam ainda mais a margem para erros. Um modelo que tem bom desempenho em dados internos limpos ainda pode ter dificuldades com imagens confusas do mundo real.
É por isso que a intervenção humana ainda é importante. As pessoas podem intervir quando o modelo é incerto, interpretar contextos complexos e corrigir erros antes que eles cheguem ao conjunto de dados final. A anotação com intervenção humana ajuda a automação a permanecer fundamentada nas condições do mundo real e mantém os modelos confiáveis após a implementação.
Onde a anotação com intervenção humana pode fazer a diferença?
Agora que vimos onde a automação funciona bem e onde ela deixa a desejar, vamos explorar algumas aplicações em que a anotação humana no circuito desempenha um papel importante.
Detecção de defeitos na produção
Considere uma correia transportadora de fábrica onde centenas de peças passam por uma câmara a cada minuto. A maioria dos defeitos é óbvia, mas, de vez em quando, uma fissura fina aparece num ângulo estranho ou sob o brilho de uma luz. Um sistema automatizado pode não perceber isso ou classificá-lo como textura superficial inofensiva, mas um revisor humano pode detectar a falha, corrigir a anotação e garantir que o modelo aprenda a diferença.
Esse é o papel da anotação humana na inspeção industrial. A automação pode pré-rotular tipos comuns de defeitos e acelerar o processamento de grandes volumes de imagens, mas os humanos ainda precisam verificar os resultados, restringir os limites e lidar com falhas raras que não aparecem com frequência no treinamento.
Veículos autónomos e transporte inteligente
Da mesma forma, veículos autónomos usam visão computacional para detectar pedestres, ler sinais e navegar no trânsito, mas as estradas reais são imprevisíveis. Por exemplo, um pedestre que sai de trás de um carro estacionado à noite pode ficar parcialmente escondido e difícil de ver sob o brilho dos faróis.
Fig. 3. Um exemplo da utilização da visão computacional para analisar o tráfego. (Fonte)
Os anotadores humanos podem rotular esses casos extremos raros e críticos para a segurança durante o treinamento, para que os modelos aprendam a resposta correta, não apenas em condições normais, mas nos momentos mais importantes. Essa etapa com intervenção humana é fundamental para ensinar os sistemas a lidar com eventos de baixa frequência que são difíceis de capturar apenas com automação.
O caminho a seguir para conjuntos de dados anotados por humanos
A anotação humana em loop está a tornar-se mais colaborativa à medida que a tecnologia avança. Curiosamente, os modelos de linguagem visual (VLMs), que aprendem tanto com imagens como com texto, estão agora a ser usados para criar uma primeira versão de rótulos e sugerir correções a partir de prompts simples.
Assim, em vez de digitalizar manualmente cada imagem para decidir o que rotular, um anotador pode solicitar ao VLM uma frase como «rotular todos os peões, carros e semáforos» ousegment os defeitos nesta parte» e obter um conjunto preliminar de anotações para revisão.
Fig. 4. Modelos multimodais de grande porte podem trabalhar com anotadores humanos (Fonte)
Isso reduz o tempo de anotação, pois o modelo pode lidar com muitos casos simples antecipadamente, permitindo que os humanos se concentrem em revisar os resultados, corrigir exemplos complicados e manter a consistência do conjunto de dados. Modelos multimodais de grande porte também estão a começar a orientar os anotadores para as amostras mais incertas, tornando o esforço humano mais direcionado e melhorando a qualidade geral do conjunto de dados.
Principais conclusões
A visão computacional ajuda as máquinas a interpretar e reagir ao que veem, mas funciona melhor com a experiência humana no circuito. Os dados anotados por humanos mantêm os modelos baseados em condições do mundo real e melhoram a fiabilidade do seu desempenho. Com a automação e o julgamento humano a trabalhar lado a lado, as equipas podem construir sistemas de visão impactantes.