Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Tudo o que você precisa saber sobre tarefas de visão computacional

Abirami Vina

4 min de leitura

16 de abril de 2025

Saiba como funcionam as tarefas de visão por computador, como o seguimento de objectos, a segmentação de instâncias e a classificação de imagens, e como Ultralytics YOLO11 as suporta.

Graças às câmaras e aos avanços na inteligência artificial (IA), os computadores e as máquinas são agora capazes de ver o mundo de uma forma semelhante à dos humanos. Por exemplo, podem reconhecer pessoas, track objectos e até compreender o contexto do que está a acontecer num vídeo.

Especificamente, a visão computacional é o ramo da IA que permite que as máquinas entendam e interpretem informações visuais do mundo ao seu redor. A visão computacional envolve uma variedade de tarefas, cada uma projetada para extrair um tipo específico de insight de imagens ou vídeos. Por exemplo, a detecção de objetos ajuda a identificar e localizar diferentes itens em uma imagem, enquanto outras tarefas como rastreamento, segmentação e estimativa de pose ajudam as máquinas a entender o movimento, as formas e as posições com mais precisão.

A tarefa de visão por computador utilizada para uma determinada aplicação depende do tipo de conhecimentos de que necessita. Modelos de visão por computador como o Ultralytics YOLO11 suportam várias tarefas de visão computacional, tornando-os uma escolha fiável para a criação de sistemas de IA de visão no mundo real.

Neste guia, vamos analisar mais detalhadamente as tarefas de visão por computador suportadas por modelos como o YOLO11. Vamos explorar como cada tarefa funciona e como estão a ser utilizadas em diferentes indústrias. Vamos começar!

O que são tarefas de visão computacional?

As tarefas de visão computacional têm como objetivo reproduzir as capacidades de visão humana de diferentes formas. Estas tarefas podem ajudar as máquinas a detect objectos, track os seus movimentos, estimar poses e até delinear elementos individuais em imagens e vídeos. Normalmente, as tarefas de visão computacional são possibilitadas por modelos que dividem os dados visuais em partes mais pequenas para que possam interpretar mais claramente o que está a acontecer. 

Os modelos de IA de visão, como os modelos Ultralytics YOLO , suportam várias tarefas, como a deteção, o seguimento e a segmentação, numa única estrutura. Devido a esta versatilidade, os modelos YOLO11 são fáceis de adotar para uma grande variedade de casos de utilização.

__wf_reserved_inherit
Fig. 1. Tarefas de visão por computador suportadas pelo YOLO11.

Um bom exemplo disto é a análise desportiva. YOLO11 pode ser utilizado para detect cada jogador em campo utilizando a deteção de objectos e, em seguida, pode segui-los ao longo do jogo com o seguimento de objectos. Entretanto, as capacidades de estimativa de pose do YOLO11 podem ajudar a analisar os movimentos e as técnicas dos jogadores, e a segmentação de instâncias pode separar cada jogador do fundo, acrescentando precisão à análise. 

Em conjunto, estas tarefas de visão por computador YOLO11 criam uma imagem completa do que está a acontecer durante o jogo, dando às equipas uma visão mais profunda do desempenho dos jogadores, das tácticas e da estratégia global.

Uma panorâmica das tarefas de visão computacional suportadas pelo YOLO11

Agora que já vimos o que são as tarefas de visão por computador, vamos analisar mais pormenorizadamente cada uma das tarefas suportadas pelo YOLO11 , utilizando exemplos do mundo real.

Suporte do YOLO11para classificação de imagens

Quando se olha para uma fotografia, a maioria das pessoas consegue facilmente dizer se esta mostra um cão, uma montanha ou um sinal de trânsito, porque todos nós aprendemos o aspeto típico destas coisas. A classificação de imagens ajuda as máquinas a fazer o mesmo, ensinando-as a classify e rotular uma imagem com base no seu objeto principal - quer seja um "carro", uma "banana" ou uma "radiografia com fratura". Este rótulo ajuda os sistemas de visão por computador a compreender o conteúdo visual para que possam responder ou tomar decisões em conformidade.

Uma aplicação interessante desta tarefa de visão computacional é a monitorização da vida selvagem. A classificação de imagens pode ser utilizada para identificar diferentes espécies animais a partir de fotografias capturadas na natureza. Ao rotular automaticamente as imagens, os investigadores podem track as populações, monitorizar os padrões de migração e identificar mais facilmente as espécies ameaçadas para apoiar os esforços de conservação.

__wf_reserved_inherit
Fig. 2. Um exemplo de utilização do YOLO11 para a classificação de imagens.

Capacidades de deteção de objectos do YOLO11

Embora a classificação de imagens seja útil para obter uma ideia geral do que uma imagem contém, ela atribui apenas um rótulo a toda a imagem. Em situações onde informações detalhadas, como a localização precisa e a identidade de vários objetos, são necessárias, a detecção de objetos torna-se essencial.

A deteção de objectos é o processo de identificação e localização de objectos individuais numa imagem, muitas vezes desenhando caixas delimitadoras à sua volta. Ultralytics YOLO11 tem um desempenho especialmente bom na deteção de objectos em tempo real, o que o torna ideal para uma vasta gama de aplicações.

Tomemos, por exemplo, as soluções de visão computacional usadas em lojas de varejo para estocar prateleiras. A detecção de objetos pode ajudar a contar frutas, legumes e outros itens, garantindo um inventário preciso. Em campos agrícolas, a mesma tecnologia pode monitorar a maturação das colheitas para ajudar os agricultores a determinar o melhor momento para a colheita, distinguindo até mesmo entre produtos maduros e não maduros.

__wf_reserved_inherit
Fig. 3. Deteção de frutos utilizando o Ultralytics YOLO11.

Utilização do YOLO11 para segmentação de instâncias

A detecção de objetos usa caixas delimitadoras para identificar e localizar objetos em uma imagem, mas não captura suas formas exatas. É aí que entra a segmentação de instâncias. Em vez de desenhar uma caixa ao redor de um objeto, a segmentação de instâncias traça seu contorno preciso.

Você pode pensar assim: em vez de simplesmente indicar que "há uma maçã nesta área", ela cuidadosamente delineia e preenche a forma exata da maçã. Este processo detalhado ajuda os sistemas de IA a entender claramente as fronteiras de um objeto, especialmente quando os objetos estão próximos uns dos outros.

A segmentação de instâncias pode ser aplicada a muitas aplicações, desde inspecções de infra-estruturas a levantamentos geológicos. Por exemplo, os dados de levantamentos geológicos podem ser analisados utilizando o YOLO11 para segment fissuras ou anomalias de superfície grandes e pequenas. Ao traçar limites precisos em torno destas anomalias, os engenheiros podem identificar problemas e resolvê-los antes do início de um projeto. 

__wf_reserved_inherit
Fig. 4. Segmentação de fissuras YOLO11.

Seguimento de objectos: Seguir objectos através de fotogramas com YOLO11

Até agora, as tarefas de visão computacional que analisamos se concentram no que está em uma única imagem. No entanto, quando se trata de vídeos, precisamos de insights que vão além de um frame. A tarefa, rastreamento de objetos, pode ser usada para isso.

A capacidade de seguimento de objectos do YOLO11 pode seguir um objeto específico, como uma pessoa ou um carro, à medida que este se move numa série de fotogramas de vídeo. Mesmo que o ângulo da câmara mude ou apareçam outros objectos, o sistema continua a seguir o mesmo alvo. 

Isto é crucial para aplicações que requerem monitorização ao longo do tempo, como o seguimento de carros no trânsito. De facto, YOLO11 consegue track veículos com precisão, seguindo cada carro para ajudar a estimar a sua velocidade em tempo real. Isto torna o seguimento de objectos um componente essencial em sistemas como a monitorização do tráfego.

__wf_reserved_inherit
Fig. 5. O suporte do YOLO11para o seguimento de objectos pode ser utilizado para estimar a velocidade.

Deteção de caixas delimitadoras orientadas (OBB) utilizando YOLO11

Os objetos no mundo real nem sempre estão perfeitamente alinhados - eles podem estar inclinados, de lado ou posicionados em ângulos estranhos. Por exemplo, em imagens de satélite, navios e edifícios geralmente aparecem rotacionados. 

Os métodos tradicionais de detecção de objetos usam caixas retangulares fixas que não se ajustam à orientação de um objeto, dificultando a captura precisa dessas formas rotacionadas. A detecção de caixas delimitadoras orientadas (OBB) resolve este problema usando caixas que giram para se ajustarem perfeitamente ao redor de um objeto, alinhando-se com seu ângulo para uma detecção mais precisa.

No que diz respeito à monitorização do porto, o suporte do YOLO11para a deteção de OBB pode ajudar a identificar e track com precisão os navios, independentemente da sua orientação, garantindo que cada navio que entra ou sai do porto é devidamente monitorizado. Esta deteção precisa fornece informações em tempo real sobre as posições e movimentos dos navios, o que é fundamental para gerir portos movimentados e evitar colisões.

__wf_reserved_inherit
Fig. 6. Deteção de barcos utilizando a deteção OBB e YOLO11.

Estimativa da pose e YOLO11: Seguimento de pontos-chave 

A estimativa de pose é uma técnica de visão computacional que rastreia pontos-chave, como articulações, membros ou outros marcadores, para entender como um objeto se move. Em vez de tratar um objeto ou corpo inteiro como uma unidade completa, este método o divide em suas partes principais. Isso possibilita analisar movimentos, gestos e interações em detalhes.

Uma aplicação comum desta tecnologia é a estimativa de pose humana. Ao rastrear as posições de várias partes do corpo em tempo real, ela fornece uma imagem clara de como uma pessoa está se movendo. Esta informação pode ser usada para uma variedade de propósitos, desde reconhecimento de gestos e monitoramento de atividades até análise de desempenho em esportes. 

Do mesmo modo, na reabilitação física, os terapeutas podem utilizar a estimativa da pose humana e o YOLO11 para monitorizar os movimentos dos doentes durante os exercícios. Isto ajuda a garantir que cada movimento é feito corretamente, ao mesmo tempo que acompanha o progresso ao longo do tempo.

__wf_reserved_inherit
Fig. 7. YOLO11 pode monitorizar um exercício físico utilizando a estimativa de pose.

Explorar a forma como YOLO11 suporta várias tarefas de visão computacional

Agora que já explorámos em pormenor todas as tarefas de visão por computador suportadas pelo YOLO11 , vamos ver como YOLO11 as suporta. 

YOLO11 não é apenas um modelo - é um conjunto de variantes de modelos especializados, cada um concebido para uma tarefa específica de visão por computador. Isto faz do YOLO11 uma ferramenta versátil que pode ser adaptada a uma vasta gama de aplicações. Também pode afinar estes modelos em conjuntos de dados personalizados para enfrentar os desafios únicos dos seus projectos.

Aqui estão as variantes do modeloYOLO11 pré-treinadas para tarefas de visão específicas:

  • YOLO11: Este modelo detecta e etiqueta vários objectos em tempo real, o que o torna ideal para o reconhecimento visual a alta velocidade.

  • YOLO11: Esta variante centra-se na segmentação, utilizando máscaras detalhadas para separar os objectos dos seus fundos.

  • obb: Este modelo foi concebido para detect objectos rodados, desenhando caixas delimitadoras que se alinham com a orientação de cada objeto.

  • YOLO11: Esta variante classifica as imagens atribuindo uma única etiqueta de categoria com base no conteúdo geral.

  • YOLO11: Este modelo estima os pontos-chave do corpo para track a postura, as posições dos membros e o movimento.

Cada variante está disponível em diferentes tamanhos, permitindo que os usuários escolham o equilíbrio certo entre velocidade e precisão para suas necessidades específicas.

Principais conclusões

As tarefas de visão computacional estão mudando a maneira como as máquinas entendem e interagem com o mundo. Ao decompor imagens e vídeos em elementos-chave, essas tecnologias facilitam a análise detalhada de objetos, movimentos e interações. 

Desde a melhoria da segurança no trânsito e do desempenho desportivo até à simplificação dos processos industriais, modelos como o YOLO11 podem fornecer informações em tempo real que impulsionam a inovação. À medida que a IA de visão continua a evoluir, é provável que venha a desempenhar um papel cada vez mais importante na forma como interpretamos e utilizamos os dados visuais todos os dias.

Junte-se à nossa comunidade e visite nosso repositório no GitHub para ver a IA em ação. Explore nossas opções de licenciamento e descubra mais sobre IA na agricultura e visão computacional na manufatura em nossas páginas de soluções. 

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente