Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Tudo o que você precisa saber sobre tarefas de visão computacional

Abirami Vina

4 min de leitura

16 de abril de 2025

Aprenda como tarefas de visão computacional, como rastreamento de objetos, segmentação de instâncias e classificação de imagens funcionam e como o Ultralytics YOLO11 as suporta.

Graças às câmeras e aos avanços na inteligência artificial (IA), computadores e máquinas agora são capazes de ver o mundo de uma forma semelhante à forma como os humanos o fazem. Por exemplo, eles podem reconhecer pessoas, rastrear objetos e até mesmo entender o contexto do que está acontecendo em um vídeo.

Especificamente, a visão computacional é o ramo da IA que permite que as máquinas entendam e interpretem informações visuais do mundo ao seu redor. A visão computacional envolve uma variedade de tarefas, cada uma projetada para extrair um tipo específico de insight de imagens ou vídeos. Por exemplo, a detecção de objetos ajuda a identificar e localizar diferentes itens em uma imagem, enquanto outras tarefas como rastreamento, segmentação e estimativa de pose ajudam as máquinas a entender o movimento, as formas e as posições com mais precisão.

A tarefa de visão computacional usada para uma aplicação específica depende do tipo de insights que você precisa. Modelos de visão computacional como o Ultralytics YOLO11 suportam várias tarefas de visão computacional, tornando-o uma escolha confiável para a construção de sistemas de Visão de IA no mundo real.

Neste guia, vamos dar uma olhada mais de perto nas tarefas de visão computacional suportadas por modelos como o YOLO11. Vamos explorar como cada tarefa funciona e como elas estão sendo usadas em diferentes setores. Vamos começar!

O que são tarefas de visão computacional?

As tarefas de visão computacional visam replicar as habilidades da visão humana de diferentes maneiras. Essas tarefas podem ajudar as máquinas a detectar objetos, rastrear seus movimentos, estimar poses e até mesmo delinear elementos individuais em imagens e vídeos. Normalmente, as tarefas de visão computacional são habilitadas por modelos que dividem os dados visuais em partes menores para que possam interpretar o que está acontecendo com mais clareza. 

Os modelos de IA de visão, como os modelos YOLO da Ultralytics, suportam várias tarefas, como detecção, rastreamento e segmentação, em uma única estrutura. Devido a essa versatilidade, os modelos YOLO11 são fáceis de adotar para uma ampla variedade de casos de uso.

__wf_reserved_inherit
Fig. 1. Tarefas de visão computacional suportadas pelo YOLO11.

Um bom exemplo disso é na análise esportiva. O YOLO11 pode ser usado para detectar cada jogador em campo usando a detecção de objetos e, em seguida, pode segui-los durante toda a partida com o rastreamento de objetos. Enquanto isso, os recursos de estimativa de pose do YOLO11 podem ajudar a analisar os movimentos e técnicas dos jogadores, e a segmentação de instâncias pode separar cada jogador do fundo, adicionando precisão à análise. 

Juntas, essas tarefas de visão computacional habilitadas pelo YOLO11 criam uma imagem completa do que está acontecendo durante o jogo, dando às equipes insights mais profundos sobre o desempenho dos jogadores, táticas e estratégia geral.

Uma visão geral das tarefas de visão computacional suportadas pelo YOLO11

Agora que demos uma olhada no que são as tarefas de visão computacional, vamos mergulhar na compreensão de cada uma suportada pelo YOLO11 em mais detalhes, usando exemplos do mundo real.

Suporte do YOLO11 para classificação de imagens

Quando você olha para uma foto, a maioria das pessoas pode facilmente dizer se ela mostra um cachorro, uma montanha ou uma placa de trânsito porque todos nós aprendemos como essas coisas normalmente se parecem. A classificação de imagens ajuda as máquinas a fazer o mesmo, ensinando-as a classificar e rotular uma imagem com base em seu objeto principal - seja um "carro", "banana" ou um "raio-x com fratura". Este rótulo ajuda os sistemas de visão computacional a entender o conteúdo visual para que possam responder ou tomar decisões de acordo.

Uma aplicação interessante desta tarefa de visão computacional é o monitoramento da vida selvagem. A classificação de imagens pode ser usada para identificar diferentes espécies de animais a partir de fotos capturadas na natureza. Ao rotular automaticamente as imagens, os pesquisadores podem rastrear populações, monitorar padrões de migração e identificar espécies ameaçadas de extinção mais facilmente para apoiar os esforços de conservação.

__wf_reserved_inherit
Fig. 2. Um exemplo de uso do YOLO11 para classificação de imagens.

Recursos de detecção de objetos do YOLO11

Embora a classificação de imagens seja útil para obter uma ideia geral do que uma imagem contém, ela atribui apenas um rótulo a toda a imagem. Em situações onde informações detalhadas, como a localização precisa e a identidade de vários objetos, são necessárias, a detecção de objetos torna-se essencial.

A detecção de objetos é o processo de identificar e localizar objetos individuais dentro de uma imagem, geralmente desenhando caixas delimitadoras ao redor deles. O Ultralytics YOLO11 tem um desempenho especialmente bom na detecção de objetos em tempo real, tornando-o ideal para uma ampla gama de aplicações.

Tomemos, por exemplo, as soluções de visão computacional usadas em lojas de varejo para estocar prateleiras. A detecção de objetos pode ajudar a contar frutas, legumes e outros itens, garantindo um inventário preciso. Em campos agrícolas, a mesma tecnologia pode monitorar a maturação das colheitas para ajudar os agricultores a determinar o melhor momento para a colheita, distinguindo até mesmo entre produtos maduros e não maduros.

__wf_reserved_inherit
Fig. 3. Detecção de frutas usando Ultralytics YOLO11.

Usando o YOLO11 para segmentação de instâncias

A detecção de objetos usa caixas delimitadoras para identificar e localizar objetos em uma imagem, mas não captura suas formas exatas. É aí que entra a segmentação de instâncias. Em vez de desenhar uma caixa ao redor de um objeto, a segmentação de instâncias traça seu contorno preciso.

Você pode pensar assim: em vez de simplesmente indicar que "há uma maçã nesta área", ela cuidadosamente delineia e preenche a forma exata da maçã. Este processo detalhado ajuda os sistemas de IA a entender claramente as fronteiras de um objeto, especialmente quando os objetos estão próximos uns dos outros.

A segmentação de instâncias pode ser aplicada a muitas aplicações, desde inspeções de infraestrutura até levantamentos geológicos. Por exemplo, os dados de levantamentos geológicos podem ser analisados usando o YOLO11 para segmentar rachaduras ou anormalidades de superfície, tanto grandes quanto pequenas. Ao desenhar limites precisos ao redor dessas anomalias, os engenheiros podem identificar problemas e resolvê-los antes que um projeto comece. 

__wf_reserved_inherit
Fig. 4. Segmentação de rachaduras habilitada pelo YOLO11.

Rastreamento de objetos: Seguindo objetos através de frames com YOLO11

Até agora, as tarefas de visão computacional que analisamos se concentram no que está em uma única imagem. No entanto, quando se trata de vídeos, precisamos de insights que vão além de um frame. A tarefa, rastreamento de objetos, pode ser usada para isso.

A capacidade de rastreamento de objetos do YOLO11 pode seguir um objeto específico, como uma pessoa ou um carro, enquanto ele se move através de uma série de frames de vídeo. Mesmo que o ângulo da câmera mude ou outros objetos apareçam, o sistema continua a seguir o mesmo alvo. 

Isso é crucial para aplicações que exigem monitoramento ao longo do tempo, como rastrear carros no trânsito. De fato, o YOLO11 pode rastrear veículos com precisão, seguindo cada carro para ajudar a estimar sua velocidade em tempo real. Isso torna o rastreamento de objetos um componente chave em sistemas como o monitoramento de tráfego.

__wf_reserved_inherit
Fig 5. O suporte do YOLO11 ao rastreamento de objetos pode ser usado para estimativa de velocidade.

Detecção de caixas delimitadoras orientadas (OBB) usando YOLO11

Os objetos no mundo real nem sempre estão perfeitamente alinhados - eles podem estar inclinados, de lado ou posicionados em ângulos estranhos. Por exemplo, em imagens de satélite, navios e edifícios geralmente aparecem rotacionados. 

Os métodos tradicionais de detecção de objetos usam caixas retangulares fixas que não se ajustam à orientação de um objeto, dificultando a captura precisa dessas formas rotacionadas. A detecção de caixas delimitadoras orientadas (OBB) resolve este problema usando caixas que giram para se ajustarem perfeitamente ao redor de um objeto, alinhando-se com seu ângulo para uma detecção mais precisa.

Com relação ao monitoramento portuário, o suporte do YOLO11 para detecção de OBB pode ajudar a identificar e rastrear embarcações com precisão, independentemente de sua orientação, garantindo que cada navio que entra ou sai do porto seja devidamente monitorado. Essa detecção precisa fornece informações em tempo real sobre as posições e movimentos das embarcações, o que é fundamental para gerenciar portos movimentados e evitar colisões.

__wf_reserved_inherit
Fig 6. Detecção de barcos usando detecção de OBB e YOLO11.

Estimativa de pose e YOLO11: Rastreamento de pontos-chave 

A estimativa de pose é uma técnica de visão computacional que rastreia pontos-chave, como articulações, membros ou outros marcadores, para entender como um objeto se move. Em vez de tratar um objeto ou corpo inteiro como uma unidade completa, este método o divide em suas partes principais. Isso possibilita analisar movimentos, gestos e interações em detalhes.

Uma aplicação comum desta tecnologia é a estimativa de pose humana. Ao rastrear as posições de várias partes do corpo em tempo real, ela fornece uma imagem clara de como uma pessoa está se movendo. Esta informação pode ser usada para uma variedade de propósitos, desde reconhecimento de gestos e monitoramento de atividades até análise de desempenho em esportes. 

Da mesma forma, na reabilitação física, os terapeutas podem usar a estimativa de pose humana e o YOLO11 para monitorar os movimentos dos pacientes durante os exercícios. Isso ajuda a garantir que cada movimento seja feito corretamente, enquanto acompanha o progresso ao longo do tempo.

__wf_reserved_inherit
Fig 7. O YOLO11 pode monitorar um treino usando estimativa de pose.

Explorando como o YOLO11 suporta várias tarefas de visão computacional

Agora que exploramos todas as tarefas de visão computacional suportadas pelo YOLO11 em detalhes, vamos percorrer como o YOLO11 as suporta. 

O YOLO11 não é apenas um modelo - é um conjunto de variantes de modelo especializadas, cada uma projetada para uma tarefa de visão computacional específica. Isso torna o YOLO11 uma ferramenta versátil que pode ser adaptada a uma ampla gama de aplicações. Você também pode ajustar esses modelos em conjuntos de dados personalizados para enfrentar os desafios únicos de seus projetos.

Aqui estão as variantes do modelo YOLO11 pré-treinadas para tarefas de visão específicas:

  • YOLO11: Este modelo detecta e rotula vários objetos em tempo real, tornando-o ideal para reconhecimento visual de alta velocidade.

  • YOLO11-seg: Esta variante se concentra na segmentação usando máscaras detalhadas para separar objetos de seus fundos.

  • YOLO11-obb: Este modelo é projetado para detectar objetos rotacionados, desenhando caixas delimitadoras que se alinham com a orientação de cada objeto.

  • YOLO11-cls: Esta variante classifica imagens atribuindo um único rótulo de categoria com base no conteúdo geral.

  • YOLO11-pose: Este modelo estima pontos-chave no corpo para rastrear a postura, posições dos membros e movimento.

Cada variante está disponível em diferentes tamanhos, permitindo que os usuários escolham o equilíbrio certo entre velocidade e precisão para suas necessidades específicas.

Principais conclusões

As tarefas de visão computacional estão mudando a maneira como as máquinas entendem e interagem com o mundo. Ao decompor imagens e vídeos em elementos-chave, essas tecnologias facilitam a análise detalhada de objetos, movimentos e interações. 

Desde a melhoria da segurança no trânsito e do desempenho esportivo até a otimização de processos industriais, modelos como o YOLO11 podem fornecer insights em tempo real que impulsionam a inovação. À medida que a Visão de IA continua a evoluir, provavelmente desempenhará um papel cada vez mais importante na forma como interpretamos e usamos os dados visuais todos os dias.

Junte-se à nossa comunidade e visite nosso repositório no GitHub para ver a IA em ação. Explore nossas opções de licenciamento e descubra mais sobre IA na agricultura e visão computacional na manufatura em nossas páginas de soluções. 

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência