Verificação verde
Link copiado para a área de transferência

Tudo o que precisas de saber sobre tarefas de visão computacional

Aprende como funcionam as tarefas de visão por computador, como o seguimento de objectos, a segmentação de instâncias e a classificação de imagens, e como Ultralytics YOLO11 as suporta.

Graças às câmaras e aos avanços na inteligência artificial (IA), os computadores e as máquinas são agora capazes de ver o mundo de uma forma semelhante à dos humanos. Por exemplo, podem reconhecer pessoas, localizar objectos e até compreender o contexto do que está a acontecer num vídeo.

Especificamente, a visão computacional é o ramo da IA que permite às máquinas compreender e interpretar a informação visual do mundo que as rodeia. A visão computacional envolve uma variedade de tarefas, cada uma concebida para extrair um tipo específico de informação de imagens ou vídeos. Por exemplo, a deteção de objectos ajuda a identificar e localizar diferentes itens numa imagem, enquanto outras tarefas, como o seguimento, a segmentação e a estimativa de pose, ajudam as máquinas a compreender o movimento, as formas e as posições com maior precisão.

A tarefa de visão por computador utilizada para uma determinada aplicação depende do tipo de conhecimentos de que necessitas. Modelos de visão por computador como o Ultralytics YOLO11 suportam várias tarefas de visão por computador, tornando-os uma escolha fiável para a criação de sistemas de IA de visão no mundo real.

Neste guia, vamos analisar mais de perto as tarefas de visão por computador suportadas por modelos como o YOLO11. Exploraremos como cada tarefa funciona e como estão a ser utilizadas em diferentes indústrias. Toca a começar!

O que são tarefas de visão computacional?

As tarefas de visão computacional têm como objetivo reproduzir as capacidades de visão humana de diferentes formas. Estas tarefas podem ajudar as máquinas a detetar objectos, seguir os seus movimentos, estimar poses e até delinear elementos individuais em imagens e vídeos. Normalmente, as tarefas de visão por computador são possibilitadas por modelos que dividem os dados visuais em partes mais pequenas para que possam interpretar mais claramente o que está a acontecer. 

Os modelos de IA de visão, como os modelos Ultralytics YOLO , suportam várias tarefas, como a deteção, o seguimento e a segmentação, numa única estrutura. Devido a esta versatilidade, os modelos YOLO11 são fáceis de adotar para uma grande variedade de casos de utilização.

Fig. 1. Tarefas de visão por computador suportadas pelo YOLO11.

Um bom exemplo disto é a análise desportiva. YOLO11 pode ser utilizado para detetar cada jogador em campo utilizando a deteção de objectos e, em seguida, pode segui-los ao longo do jogo com o rastreio de objectos. Entretanto, as capacidades de estimativa de pose do YOLO11 podem ajudar a analisar os movimentos e as técnicas dos jogadores, e a segmentação de instâncias pode separar cada jogador do fundo, acrescentando precisão à análise. 

Em conjunto, estas tarefas de visão por computador YOLO11 criam uma imagem completa do que está a acontecer durante o jogo, dando às equipas uma visão mais profunda do desempenho dos jogadores, das tácticas e da estratégia geral.

Uma visão geral das tarefas de visão por computador suportadas pelo YOLO11

Agora que já vimos o que são as tarefas de visão por computador, vamos começar a perceber cada uma delas suportada pelo YOLO11 com mais pormenor, utilizando exemplos do mundo real.

Suporte do YOLO11para classificação de imagens

Quando olhas para uma fotografia, a maior parte das pessoas sabe facilmente se esta mostra um cão, uma montanha ou um sinal de trânsito, porque todos nós aprendemos o aspeto típico destas coisas. A classificação de imagens ajuda as máquinas a fazer o mesmo, ensinando-as a classificar e rotular uma imagem com base no seu objeto principal - quer seja um "carro", uma "banana" ou uma "radiografia com fratura". Este rótulo ajuda os sistemas de visão por computador a compreender o conteúdo visual para que possam responder ou tomar decisões em conformidade.

Uma aplicação interessante desta tarefa de visão computacional é a monitorização da vida selvagem. A classificação de imagens pode ser utilizada para identificar diferentes espécies animais a partir de fotografias capturadas na natureza. Ao rotular automaticamente as imagens, os investigadores podem seguir populações, monitorizar padrões de migração e identificar mais facilmente espécies ameaçadas para apoiar os esforços de conservação.

Fig. 2. Um exemplo de utilização do YOLO11 para a classificação de imagens.

Capacidades de deteção de objectos do YOLO11

Embora a classificação de imagens seja útil para obter uma ideia geral do conteúdo de uma imagem, atribui apenas uma etiqueta a toda a imagem. Em situações em que é necessária informação detalhada, como a localização precisa e a identidade de vários objectos, a deteção de objectos torna-se essencial.

A deteção de objectos é o processo de identificação e localização de objectos individuais numa imagem, muitas vezes desenhando caixas delimitadoras à sua volta. Ultralytics YOLO11 tem um desempenho especialmente bom na deteção de objectos em tempo real, o que o torna ideal para uma vasta gama de aplicações.

Considera, por exemplo, as soluções de visão por computador utilizadas em lojas de retalho para abastecer as prateleiras. A deteção de objetos pode ajudar a contar frutas, vegetais e outros itens, garantindo um inventário preciso. Nos campos agrícolas, a mesma tecnologia pode monitorizar a maturidade das culturas para ajudar os agricultores a determinar a melhor altura para a colheita, distinguindo mesmo entre produtos maduros e não maduros.

Fig. 3. Deteção de frutos utilizando o Ultralytics YOLO11.

Utilizar YOLO11 para segmentação de instâncias

A deteção de objectos utiliza caixas delimitadoras para identificar e localizar objectos numa imagem, mas não capta as suas formas exactas. É aí que entra a segmentação de instâncias. Em vez de desenhar uma caixa à volta de um objeto, a segmentação de instâncias traça o seu contorno exato.

Podes pensar da seguinte forma: em vez de simplesmente indicar que "há uma maçã nesta área", delineia e preenche cuidadosamente a forma exacta da maçã. Este processo detalhado ajuda os sistemas de IA a compreender claramente os limites de um objeto, especialmente quando os objectos estão próximos uns dos outros.

A segmentação de instâncias pode ser aplicada a muitas aplicações, desde inspecções de infra-estruturas a levantamentos geológicos. Por exemplo, os dados de levantamentos geológicos podem ser analisados utilizando YOLO11 para segmentar fissuras ou anomalias de superfície grandes e pequenas. Ao traçar limites precisos em torno destas anomalias, os engenheiros podem identificar problemas e resolvê-los antes do início de um projeto. 

Fig. 4. Segmentação de fissuras YOLO11.

Seguimento de objectos: Segue objectos através de fotogramas com o YOLO11

Até agora, as tarefas de visão por computador que analisámos centram-se no que está numa única imagem. No entanto, quando se trata de vídeos, precisamos de conhecimentos que vão para além de um fotograma. A tarefa, rastreio de objectos, pode ser usada para isso.

A capacidade de seguimento de objectos do YOLO11 pode seguir um objeto específico, como uma pessoa ou um carro, à medida que este se move numa série de fotogramas de vídeo. Mesmo que o ângulo da câmara mude ou apareçam outros objectos, o sistema continua a seguir o mesmo alvo. 

Isto é crucial para aplicações que requerem monitorização ao longo do tempo, como o seguimento de carros no trânsito. De facto, YOLO11 consegue localizar veículos com precisão, seguindo cada carro para ajudar a estimar a sua velocidade em tempo real. Isto torna o seguimento de objectos um componente chave em sistemas como a monitorização de tráfego.

Figura 5. O suporte do YOLO11para o seguimento de objectos pode ser utilizado para estimar a velocidade.

Deteção de caixas delimitadoras orientadas (OBB) utilizando YOLO11

Os objectos no mundo real nem sempre estão perfeitamente alinhados - podem estar inclinados, de lado ou posicionados em ângulos estranhos. Por exemplo, nas imagens de satélite, os navios e os edifícios aparecem frequentemente rodados. 

Os métodos tradicionais de deteção de objectos utilizam caixas rectangulares fixas que não se ajustam à orientação de um objeto, o que dificulta a captura precisa destas formas rodadas. A deteção de caixa delimitadora orientada (OBB) resolve este problema utilizando caixas que rodam para se ajustarem perfeitamente a um objeto, alinhando-se com o seu ângulo para uma deteção mais precisa.

No que diz respeito à monitorização do porto, o suporte do YOLO11para a deteção de OBB pode ajudar a identificar e seguir com precisão os navios, independentemente da sua orientação, garantindo que cada navio que entra ou sai do porto é devidamente monitorizado. Esta deteção precisa fornece informações em tempo real sobre as posições e movimentos dos navios, o que é fundamental para gerir portos movimentados e evitar colisões.

Fig. 6. Deteção de barcos utilizando a deteção OBB e YOLO11.

Estimativa da pose e YOLO11: Seguimento de pontos-chave 

A estimativa de pose é uma técnica de visão por computador que rastreia pontos-chave, como articulações, membros ou outros marcadores, para compreender como um objeto se move. Em vez de tratar um objeto ou corpo inteiro como uma unidade completa, este método divide-o nas suas partes principais. Isto torna possível analisar movimentos, gestos e interações em pormenor.

Uma aplicação comum desta tecnologia é a estimativa da pose humana. Ao seguir as posições de várias partes do corpo em tempo real, fornece uma imagem clara da forma como uma pessoa se está a mover. Esta informação pode ser utilizada para uma variedade de fins, desde o reconhecimento de gestos e a monitorização de actividades até à análise do desempenho em desportos. 

Do mesmo modo, na reabilitação física, os terapeutas podem utilizar a estimativa da pose humana e YOLO11 para monitorizar os movimentos dos pacientes durante os exercícios. Isto ajuda a garantir que cada movimento é feito corretamente, ao mesmo tempo que acompanha o progresso ao longo do tempo.

Fig. 7. YOLO11 pode monitorizar um exercício físico utilizando a estimativa de pose.

Explora a forma como YOLO11 suporta várias tarefas de visão computacional

Agora que explorámos em pormenor todas as tarefas de visão por computador suportadas pelo YOLO11 , vamos ver como YOLO11 as suporta. 

YOLO11 não é apenas um modelo - é um conjunto de variantes de modelos especializados, cada um concebido para uma tarefa específica de visão por computador. Isso faz do YOLO11 uma ferramenta versátil que pode ser adaptada a uma ampla gama de aplicações. Também podes afinar estes modelos em conjuntos de dados personalizados para enfrentar os desafios únicos dos teus projectos.

Aqui estão as variantes do modeloYOLO11 pré-treinadas para tarefas de visão específicas:

  • YOLO11: Este modelo detecta e etiqueta vários objectos em tempo real, o que o torna ideal para o reconhecimento visual a alta velocidade.

  • YOLO11: Esta variante centra-se na segmentação, utilizando máscaras detalhadas para separar os objectos dos seus fundos.

  • YOLO11: Este modelo foi concebido para detetar objectos rodados desenhando caixas delimitadoras que se alinham com a orientação de cada objeto.

  • YOLO11: Esta variante classifica as imagens atribuindo uma única etiqueta de categoria com base no conteúdo geral.

  • YOLO11: Este modelo estima os pontos-chave do corpo para seguir a postura, as posições dos membros e o movimento.

Cada variante está disponível em diferentes tamanhos, permitindo aos utilizadores escolher o equilíbrio certo entre velocidade e precisão para as suas necessidades específicas.

Principais conclusões

As tarefas de visão por computador estão a mudar a forma como as máquinas compreendem e interagem com o mundo. Ao decompor imagens e vídeos em elementos-chave, estas tecnologias facilitam a análise detalhada de objectos, movimentos e interações. 

Desde a melhoria da segurança no trânsito e do desempenho desportivo até à otimização dos processos industriais, modelos como o YOLO11 podem fornecer informações em tempo real que impulsionam a inovação. À medida que a IA de visão continua a evoluir, é provável que venha a desempenhar um papel cada vez mais importante na forma como interpretamos e utilizamos os dados visuais todos os dias.

Junta-te à nossa comunidade e visita o nosso repositório GitHub para veres a IA em ação. Explora as nossas opções de licenciamento e descobre mais sobre a IA na agricultura e a visão computacional no fabrico nas nossas páginas de soluções. 

Logótipo do LinkedInLogótipo do TwitterLogótipo do FacebookSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática