Tudo o que precisa de saber sobre tarefas de visão computacional

Abirami Vina

4 min ler

16 de abril de 2025

Saiba como funcionam as tarefas de visão por computador, como o seguimento de objectos, a segmentação de instâncias e a classificação de imagens, e como o Ultralytics YOLO11 as suporta.

Graças às câmaras e aos avanços na inteligência artificial (IA), os computadores e as máquinas são agora capazes de ver o mundo de uma forma semelhante à dos humanos. Por exemplo, podem reconhecer pessoas, localizar objectos e até compreender o contexto do que está a acontecer num vídeo.

Mais concretamente, a visão computacional é o ramo da IA que permite às máquinas compreender e interpretar a informação visual do mundo que as rodeia. A visão computacional envolve uma variedade de tarefas, cada uma concebida para extrair um tipo específico de informação de imagens ou vídeos. Por exemplo, a deteção de objectos ajuda a identificar e localizar diferentes itens numa imagem, enquanto outras tarefas, como o seguimento, a segmentação e a estimativa de pose, ajudam as máquinas a compreender o movimento, as formas e as posições com maior precisão.

A tarefa de visão por computador utilizada para uma determinada aplicação depende do tipo de conhecimentos de que necessita. Os modelos de visão computacional como o Ultralytics YOLO11 suportam várias tarefas de visão computacional, tornando-o uma escolha fiável para a construção de sistemas de IA de visão no mundo real.

Neste guia, vamos analisar mais detalhadamente as tarefas de visão por computador suportadas por modelos como o YOLO11. Vamos explorar como cada tarefa funciona e como estão a ser utilizadas em diferentes indústrias. Vamos começar!

O que são tarefas de visão computacional?

As tarefas de visão computacional têm como objetivo reproduzir as capacidades de visão humana de diferentes formas. Estas tarefas podem ajudar as máquinas a detetar objectos, seguir os seus movimentos, estimar poses e até delinear elementos individuais em imagens e vídeos. Normalmente, as tarefas de visão computacional são possibilitadas por modelos que dividem os dados visuais em partes mais pequenas para que possam interpretar mais claramente o que está a acontecer. 

Os modelos de IA de visão, como os modelos Ultralytics YOLO, suportam várias tarefas, como a deteção, o seguimento e a segmentação, numa única estrutura. Devido a esta versatilidade, os modelos YOLO11 são fáceis de adotar para uma grande variedade de casos de utilização.

__wf_reserved_inherit
Fig. 1. Tarefas de visão por computador suportadas pelo YOLO11.

Um bom exemplo disto é a análise desportiva. O YOLO11 pode ser utilizado para detetar cada jogador em campo utilizando a deteção de objectos e, em seguida, pode segui-los ao longo do jogo com o seguimento de objectos. Entretanto, as capacidades de estimativa de pose do YOLO11 podem ajudar a analisar os movimentos e as técnicas dos jogadores, e a segmentação de instâncias pode separar cada jogador do fundo, acrescentando precisão à análise. 

Em conjunto, estas tarefas de visão computacional com o YOLO11 criam uma imagem completa do que está a acontecer durante o jogo, dando às equipas uma visão mais profunda do desempenho dos jogadores, das tácticas e da estratégia global.

Uma panorâmica das tarefas de visão computacional suportadas pelo YOLO11

Agora que já vimos o que são as tarefas de visão por computador, vamos analisar mais pormenorizadamente cada uma das tarefas suportadas pelo YOLO11, utilizando exemplos do mundo real.

Suporte do YOLO11 para classificação de imagens

Quando se olha para uma fotografia, a maioria das pessoas consegue facilmente dizer se esta mostra um cão, uma montanha ou um sinal de trânsito, porque todos nós aprendemos o aspeto típico destas coisas. A classificação de imagens ajuda as máquinas a fazer o mesmo, ensinando-as a classificar e rotular uma imagem com base no seu objeto principal - quer seja um "carro", uma "banana" ou uma "radiografia com fratura". Este rótulo ajuda os sistemas de visão por computador a compreender o conteúdo visual para que possam responder ou tomar decisões em conformidade.

Uma aplicação interessante desta tarefa de visão computacional é a monitorização da vida selvagem. A classificação de imagens pode ser utilizada para identificar diferentes espécies animais a partir de fotografias capturadas na natureza. Ao rotular automaticamente as imagens, os investigadores podem seguir populações, monitorizar padrões de migração e identificar mais facilmente espécies ameaçadas para apoiar os esforços de conservação.

__wf_reserved_inherit
Fig. 2. Um exemplo de utilização do YOLO11 para a classificação de imagens.

Capacidades de deteção de objectos do YOLO11

Embora a classificação de imagens seja útil para obter uma ideia geral do que uma imagem contém, apenas atribui uma etiqueta a toda a imagem. Em situações em que é necessária informação detalhada, como a localização precisa e a identidade de vários objectos, a deteção de objectos torna-se essencial.

A deteção de objectos é o processo de identificação e localização de objectos individuais numa imagem, muitas vezes desenhando caixas delimitadoras à sua volta. O Ultralytics YOLO11 tem um desempenho especialmente bom na deteção de objectos em tempo real, o que o torna ideal para uma vasta gama de aplicações.

Tomemos, por exemplo, as soluções de visão por computador utilizadas em lojas de retalho para abastecer as prateleiras. A deteção de objectos pode ajudar a contar frutas, vegetais e outros artigos, assegurando um inventário preciso. Nos campos agrícolas, a mesma tecnologia pode monitorizar a maturidade das culturas para ajudar os agricultores a determinar a melhor altura para a colheita, distinguindo mesmo entre produtos maduros e não maduros.

__wf_reserved_inherit
Fig. 3. Deteção de frutos utilizando o Ultralytics YOLO11.

Utilização do YOLO11 para segmentação de instâncias

A deteção de objectos utiliza caixas delimitadoras para identificar e localizar objectos numa imagem, mas não capta as suas formas exactas. É aí que entra a segmentação de instâncias. Em vez de desenhar uma caixa à volta de um objeto, a segmentação de instâncias traça o seu contorno exato.

Pode pensar-se da seguinte forma: em vez de simplesmente indicar que "há uma maçã nesta área", delineia e preenche cuidadosamente a forma exacta da maçã. Este processo detalhado ajuda os sistemas de IA a compreender claramente os limites de um objeto, especialmente quando os objectos estão próximos uns dos outros.

A segmentação de instâncias pode ser aplicada a muitas aplicações, desde inspecções de infra-estruturas a levantamentos geológicos. Por exemplo, os dados de levantamentos geológicos podem ser analisados utilizando o YOLO11 para segmentar fissuras ou anomalias de superfície grandes e pequenas. Ao traçar limites precisos em torno destas anomalias, os engenheiros podem identificar problemas e resolvê-los antes do início de um projeto. 

__wf_reserved_inherit
Fig. 4. Segmentação de fissuras com YOLO11.

Seguimento de objectos: Seguir objectos através de fotogramas com YOLO11

Até agora, as tarefas de visão por computador que analisámos centram-se no que está numa única imagem. No entanto, quando se trata de vídeos, precisamos de conhecimentos que vão para além de um fotograma. A tarefa, rastreio de objectos, pode ser utilizada para isso.

A capacidade de seguimento de objectos do YOLO11 pode seguir um objeto específico, como uma pessoa ou um carro, à medida que se move ao longo de uma série de fotogramas de vídeo. Mesmo que o ângulo da câmara mude ou apareçam outros objectos, o sistema continua a seguir o mesmo alvo. 

Isto é crucial para aplicações que requerem monitorização ao longo do tempo, como o seguimento de carros no trânsito. De facto, o YOLO11 consegue localizar veículos com precisão, seguindo cada carro para ajudar a estimar a sua velocidade em tempo real. Isto torna o seguimento de objectos um componente essencial em sistemas como a monitorização do tráfego.

__wf_reserved_inherit
Fig. 5. O suporte do YOLO11 para o seguimento de objectos pode ser utilizado para estimar a velocidade.

Deteção de caixas delimitadoras orientadas (OBB) utilizando YOLO11

Os objectos no mundo real nem sempre estão perfeitamente alinhados - podem estar inclinados, de lado ou posicionados em ângulos estranhos. Por exemplo, nas imagens de satélite, os navios e os edifícios aparecem frequentemente rodados. 

Os métodos tradicionais de deteção de objectos utilizam caixas rectangulares fixas que não se ajustam à orientação de um objeto, o que dificulta a captura precisa destas formas rodadas. A deteção de caixas delimitadoras orientadas (OBB) resolve este problema através da utilização de caixas que rodam para se ajustarem perfeitamente a um objeto, alinhando-se com o seu ângulo para uma deteção mais precisa.

No que diz respeito à monitorização do porto, o suporte do YOLO11 para a deteção de OBB pode ajudar a identificar e seguir com precisão os navios, independentemente da sua orientação, garantindo que cada navio que entra ou sai do porto é devidamente monitorizado. Esta deteção precisa fornece informações em tempo real sobre as posições e movimentos dos navios, o que é fundamental para gerir portos movimentados e evitar colisões.

__wf_reserved_inherit
Fig. 6. Deteção de barcos utilizando a deteção OBB e YOLO11.

Estimativa da pose e YOLO11: Seguimento de pontos-chave 

A estimativa de pose é uma técnica de visão por computador que rastreia pontos-chave, como articulações, membros ou outros marcadores, para compreender como um objeto se move. Em vez de tratar um objeto ou corpo inteiro como uma unidade completa, este método divide-o nas suas partes principais. Isto torna possível analisar movimentos, gestos e interações em pormenor.

Uma aplicação comum desta tecnologia é a estimativa da pose humana. Ao seguir as posições de várias partes do corpo em tempo real, fornece uma imagem clara da forma como uma pessoa se está a mover. Esta informação pode ser utilizada para uma variedade de fins, desde o reconhecimento de gestos e a monitorização de actividades até à análise do desempenho em desportos. 

Do mesmo modo, na reabilitação física, os terapeutas podem utilizar a estimativa da pose humana e o YOLO11 para monitorizar os movimentos dos doentes durante os exercícios. Isto ajuda a garantir que cada movimento é feito corretamente, ao mesmo tempo que acompanha o progresso ao longo do tempo.

__wf_reserved_inherit
Fig. 7. O YOLO11 pode monitorizar um exercício físico utilizando a estimativa de pose.

Explorar a forma como o YOLO11 suporta várias tarefas de visão computacional

Agora que já explorámos em pormenor todas as tarefas de visão por computador suportadas pelo YOLO11, vamos ver como o YOLO11 as suporta. 

O YOLO11 não é apenas um modelo - é um conjunto de variantes de modelos especializados, cada um concebido para uma tarefa específica de visão por computador. Isto faz do YOLO11 uma ferramenta versátil que pode ser adaptada a uma vasta gama de aplicações. Também pode afinar estes modelos em conjuntos de dados personalizados para enfrentar os desafios únicos dos seus projectos.

Aqui estão as variantes do modelo YOLO11 pré-treinadas para tarefas de visão específicas:

  • YOLO11: Este modelo detecta e rotula vários objectos em tempo real, o que o torna ideal para o reconhecimento visual de alta velocidade.

  • YOLO11-seg: Esta variante centra-se na segmentação, utilizando máscaras detalhadas para separar os objectos dos seus fundos.

  • YOLO11-obb: Este modelo foi concebido para detetar objectos rodados, desenhando caixas delimitadoras que se alinham com a orientação de cada objeto.

  • YOLO11-cls: Esta variante classifica as imagens atribuindo uma única etiqueta de categoria com base no conteúdo geral.

  • YOLO11-pose: Este modelo estima os pontos-chave do corpo para registar a postura, as posições dos membros e o movimento.

Cada variante está disponível em diferentes tamanhos, permitindo aos utilizadores escolher o equilíbrio certo entre velocidade e precisão para as suas necessidades específicas.

Principais conclusões

As tarefas de visão por computador estão a mudar a forma como as máquinas compreendem e interagem com o mundo. Ao decompor imagens e vídeos em elementos-chave, estas tecnologias facilitam a análise detalhada de objectos, movimentos e interações. 

Desde a melhoria da segurança no trânsito e do desempenho desportivo até à simplificação dos processos industriais, modelos como o YOLO11 podem fornecer informações em tempo real que impulsionam a inovação. À medida que a IA de visão continua a evoluir, é provável que venha a desempenhar um papel cada vez mais importante na forma como interpretamos e utilizamos os dados visuais todos os dias.

Junte-se à nossa comunidade e visite o nosso repositório GitHub para ver a IA em ação. Explore as nossas opções de licenciamento e descubra mais sobre a IA na agricultura e a visão computacional no fabrico nas nossas páginas de soluções. 

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência