Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

Entendendo por que a anotação human-in-the-loop é fundamental

Vê como os dados anotados por humanos melhoram a precisão dos modelos de visão computacional e por que a experiência humana ainda é essencial para sistemas de Vision AI fiáveis.

ABAbirami Vina
4 min read
Anotação human-in-the-loop para visão computacional

Há vinte anos, se alguém dissesse que estava pensando em ter um robô para ajudar em casa, teria soado muito improvável. No entanto, estamos no meio do boom da IA, e robôs estão sendo testados em cenários semelhantes.

Um campo chave da IA que impulsiona esse progresso é a computer vision, que dá às máquinas a capacidade de entender imagens e vídeos. Em outras palavras, modelos de computer vision como o Ultralytics YOLO11 e o futuro Ultralytics YOLO26 podem ser treinados em datasets que consistem em dados visuais e anotações.

Essas anotações ajudam o modelo a entender os dados visuais. Por exemplo, datasets de detecção de objetos usam bounding boxes para desenhar retângulos ao redor de objetos de interesse. Isso permite que o modelo detecte e localize esses objetos em novas imagens, mesmo quando a cena está desordenada ou o objeto está parcialmente oculto.

Outras tarefas de computer vision dependem de diferentes tipos de anotações. Datasets de segmentação rotulam o contorno exato de um objeto em nível de pixel, enquanto datasets de keypoint marcam marcos específicos, como articulações em uma pessoa.

No entanto, em todos esses formatos, um fator crucial é a qualidade e a consistência dos rótulos. Os modelos aprendem diretamente com os dados em que são treinados, portanto, se os rótulos forem inconsistentes ou incorretos, o modelo frequentemente levará esses erros para suas previsões.

Mesmo com automação, datasets anotados por humanos ainda são cruciais, especialmente em áreas de alto risco como medical imaging. Pequenos erros de rotulagem, como um limite impreciso de um tumor ou uma anormalidade perdida, podem ensinar ao modelo o padrão errado e levar a previsões inseguras posteriormente. Especialistas humanos fornecem o ground truth preciso e o julgamento que essas aplicações exigem.

Existe uma necessidade de conjuntos de dados anotados por humanos

Fig 1. Existe uma necessidade de datasets anotados por humanos. Imagem do autor.

Neste artigo, analisaremos mais de perto por que dados anotados por humanos são essenciais, mesmo com o contínuo avanço da IA.

Link to this sectionA necessidade de anotação de imagem e vídeo#

Modelos de computer vision aprendem muito como nós, vendo muitos exemplos. A diferença é que eles aprendem por meio de treinamento em grandes datasets of images e vídeos que humanos rotulam com antecedência. Esses rótulos atuam como ground truth, ensinando ao modelo coisas como: isto é um pedestre, aqui está o limite de um tumor, ou aquele objeto é um carro.

Visuais do mundo real raramente são limpos ou consistentes. A iluminação pode mudar e fazer o mesmo objeto parecer diferente. Pessoas e veículos podem se sobrepor ou estar parcialmente ocultos. Fundos podem ser movimentados e distrativos. Quando os datasets incluem rótulos cuidadosos e consistentes nessas situações, os modelos ficam muito mais bem preparados para o que enfrentarão fora de ambientes controlados.

Data annotation também é mais do que apenas desenhar caixas ou traçar contornos. Envolve aplicar diretrizes e tomar decisões práticas sobre o que conta como objeto, onde seu limite deve ser, e o que fazer quando algo não está claro. Esse julgamento humano mantém os dados precisos e utilizáveis.

No final, um sistema de computer vision tem um desempenho tão bom quanto os dados rotulados com os quais ele aprende. Em aplicações de alto impacto, como identificar câncer em exames ou detectar perigos na estrada para carros autônomos, rótulos precisos de pessoas qualificadas fazem uma diferença real na precisão e segurança.

Link to this sectionA ascensão da automação na anotação de dados#

À medida que a computer vision escala e os datasets crescem, a automação está se tornando uma maneira comum de acelerar a anotação. Em vez de rotular tudo manualmente, as equipes usam modelos de IA para produzir uma primeira rodada de rótulos.

Os humanos então revisam os resultados, corrigem erros e lidam com casos que o modelo não consegue rotular com confiança. Essa abordagem acelera a anotação enquanto mantém a alta qualidade.

Aqui estão algumas maneiras pelas quais a automação geralmente ajuda na anotação de dados:

  • Auto segmentation: Modelos podem sugerir automaticamente contornos de objetos ou máscaras em nível de pixel, o que reduz a quantidade de rastreamento manual que os anotadores precisam fazer.
  • Optical flow tracking: Quando se trata de vídeos, métodos de rastreamento podem seguir um objeto em movimento através dos quadros e levar seu rótulo adiante, ajudando a manter as anotações consistentes ao longo do tempo.
  • Frame interpolation: Ferramentas podem preencher rótulos para os quadros entre dois quadros rotulados usando pistas de movimento e rastreamento, para que os anotadores não precisem rotular cada quadro individualmente.
  • Active learning: Pipelines de treinamento podem identificar exemplos que o modelo considera incertos ou incomuns e enviá-los aos humanos primeiro, para que o esforço manual seja direcionado aos dados que mais melhoram o desempenho.

Link to this sectionPor que a anotação de dados humana ainda é tão crucial#

Embora a automação possa acelerar a rotulagem, os modelos de IA ainda precisam do julgamento humano para permanecerem precisos e confiáveis.

Aqui estão algumas áreas chave onde a experiência humana causa impacto na anotação de dados:

  • Understanding context: Imagens e vídeos reais são frequentemente confusos. Sombras, reflexos, desfoque de movimento e objetos sobrepostos podem confundir ferramentas automatizadas. Anotadores humanos podem interpretar o que está realmente acontecendo, para que os rótulos sejam mais precisos.
  • Keeping labels consistent: À medida que os datasets crescem, rótulos automatizados podem derivar ou variar entre lotes. Humanos podem auditar, corrigir e alinhar rótulos para que o dataset permaneça consistente do início ao fim.
  • Reducing bias and harm: As pessoas são melhores em detectar conteúdo sensível, nuances culturais e padrões que podem introduzir viés. Sua supervisão ajuda a tornar os datasets mais justos e evita danos não intencionais.
  • Applying subject-matter expertise: Algumas tarefas precisam de conhecimento de domínio, como identificar anormalidades médicas ou defeitos industriais. Especialistas podem fornecer rótulos precisos e resolver casos ambíguos para que o modelo aprenda os detalhes corretos.

Link to this sectionUma visão geral da anotação human-in-the-loop#

Ferramentas de anotação e plataformas como Roboflow integram automação para acelerar a rotulagem, muitas vezes usando modelos de fundação como o Segment Anything Model 3 ou SAM3. O SAM3 é o modelo de fundação de segmentação promptable da Meta AI.

Ele pode detectar, segmentar e rastrear objetos em imagens e vídeos a partir de prompts simples como cliques, bounding boxes ou frases de texto curtas, produzindo máscaras de segmentação para objetos correspondentes sem a necessidade de treinamento específico de tarefa para cada nova categoria.

Mesmo com essas abordagens de ponta, especialistas humanos ainda são necessários para revisar e finalizar as anotações. Quando ferramentas automatizadas produzem um primeiro rascunho, e os humanos verificam, corrigem e refinam, o fluxo de trabalho é conhecido como anotação human-in-the-loop. Isso mantém a anotação rápida enquanto garante que os rótulos finais sejam precisos e consistentes o suficiente para treinar modelos confiáveis.

Um olhar sobre a anotação human-in-the-loop

Fig 2. Um olhar sobre a anotação human-in-the-loop. (Source)

Link to this sectionQuando a automação para anotação funciona e quando não funciona#

A anotação automatizada funciona melhor para dados que vêm de locais controlados. Imagens coletadas em fábricas, armazéns ou corredores de varejo geralmente têm iluminação estável e visões claras dos objetos, então as ferramentas automatizadas podem rotulá-las com precisão e ajudar as equipes a escalar mais rápido com menos trabalho manual.

Dados de locais menos controlados são mais complexos. Filmagens externas mudam com a hora do dia e o clima, e cenas de ruas ou casas frequentemente incluem desordem, desfoque de movimento, objetos bloqueando uns aos outros e muita sobreposição. Objetos pequenos, limites finos ou situações raras adicionam ainda mais margem para erro. Um modelo que funciona bem em dados internos limpos ainda pode ter dificuldade com visuais bagunçados do mundo real.

É por isso que a entrada humana ainda importa. As pessoas podem intervir quando o modelo está incerto, interpretar contextos complicados e corrigir erros antes que eles acabem no dataset final. A anotação human-in-the-loop ajuda a automação a permanecer fundamentada em condições do mundo real e mantém os modelos confiáveis após a implantação.

Link to this sectionOnde a anotação human-in-the-loop pode fazer a diferença?#

Agora que vimos onde a automação funciona bem e onde ela falha, vamos explorar algumas aplicações onde a anotação human-in-the-loop desempenha um papel importante.

Link to this sectionDetecção de defeitos na manufatura#

Considere uma esteira de fábrica onde centenas de peças passam sob uma câmera a cada minuto. A maioria dos defeitos é óbvia, mas de vez em quando, uma rachadura capilar aparece em um ângulo estranho ou sob o brilho de uma luz. Um sistema automatizado pode ignorá-la ou rotulá-la como textura de superfície inofensiva, mas um revisor humano pode detectar a falha, corrigir a anotação e garantir que o modelo aprenda a diferença.

Esse é o papel da anotação human-in-the-loop na inspeção industrial. A automação pode pré-rotular tipos de defeito comuns e acelerar grandes volumes de imagens, mas os humanos ainda precisam verificar os resultados, ajustar limites e lidar com falhas raras que não aparecem frequentemente no treinamento.

Link to this sectionVeículos autônomos e transporte inteligente#

Da mesma forma, veículos autônomos usam computer vision para identificar pedestres, ler placas e navegar no tráfego, mas as estradas reais são imprevisíveis. Por exemplo, um pedestre saindo de trás de um carro estacionado à noite pode estar parcialmente oculto e difícil de ver sob o brilho.

Usando visão computacional para analisar o tráfego

Fig 3. Um exemplo de uso de computer vision para analisar o tráfego. (Source)

Anotadores humanos podem rotular esses casos de borda raros e críticos para a segurança durante o treinamento, para que os modelos aprendam a resposta correta, não apenas em condições normais, mas nos momentos que mais importam. Essa etapa de human-in-the-loop é fundamental para ensinar sistemas a lidar com eventos de baixa frequência que são difíceis de capturar apenas com automação.

Link to this sectionO caminho a seguir para datasets anotados por humanos#

A anotação human-in-the-loop está se tornando mais colaborativa à medida que a tecnologia avança. Curiosamente, vision language models (VLMs), que aprendem com imagens e texto, agora estão sendo usados para criar uma primeira rodada de rótulos e sugerir correções a partir de prompts simples.

Então, em vez de escanear manualmente cada imagem para decidir o que rotular, um anotador pode solicitar a um VLM com uma frase como “rotule todos os pedestres, carros e semáforos” ou “segmente todos os defeitos nesta peça” e obter um conjunto de rascunho de anotações para revisar.

Grandes modelos multimodais trabalhando com anotadores humanos

Fig 4. Grandes modelos multimodais podem trabalhar com anotadores humanos (Source)

Isso reduz o tempo de anotação porque o modelo pode lidar com muitos casos diretos antecipadamente, para que os humanos possam focar na revisão dos resultados, correção de exemplos complicados e manter o dataset consistente. Grandes modelos multimodais também estão começando a guiar os anotadores em direção às amostras mais incertas, tornando o esforço humano mais direcionado e melhorando a qualidade geral do dataset.

Link to this sectionPrincipais pontos#

A computer vision ajuda máquinas a interpretar e reagir ao que veem, mas funciona melhor com a experiência humana no loop. Dados anotados por humanos mantêm os modelos fundamentados em condições do mundo real e melhoram a confiabilidade de seu desempenho. Com a automação e o julgamento humano trabalhando lado a lado, as equipes podem construir sistemas de visão impactantes.

Junte-se à nossa community ativa e explore inovações como AI in logistics e Vision AI in robotics. Visite nosso GitHub repository para descobrir mais. Para começar com computer vision hoje, confira nossas licensing options.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática