Aprende como funcionam as tarefas de visão por computador, como o seguimento de objectos, a segmentação de instâncias e a classificação de imagens, e como Ultralytics YOLO11 as suporta.
Graças às câmaras e aos avanços na inteligência artificial (IA), os computadores e as máquinas são agora capazes de ver o mundo de uma forma semelhante à dos humanos. Por exemplo, podem reconhecer pessoas, localizar objectos e até compreender o contexto do que está a acontecer num vídeo.
Especificamente, a visão computacional é o ramo da IA que permite às máquinas compreender e interpretar a informação visual do mundo que as rodeia. A visão computacional envolve uma variedade de tarefas, cada uma concebida para extrair um tipo específico de informação de imagens ou vídeos. Por exemplo, a deteção de objectos ajuda a identificar e localizar diferentes itens numa imagem, enquanto outras tarefas, como o seguimento, a segmentação e a estimativa de pose, ajudam as máquinas a compreender o movimento, as formas e as posições com maior precisão.
A tarefa de visão por computador utilizada para uma determinada aplicação depende do tipo de conhecimentos de que necessitas. Modelos de visão por computador como o Ultralytics YOLO11 suportam várias tarefas de visão por computador, tornando-os uma escolha fiável para a criação de sistemas de IA de visão no mundo real.
Neste guia, vamos analisar mais de perto as tarefas de visão por computador suportadas por modelos como o YOLO11. Exploraremos como cada tarefa funciona e como estão a ser utilizadas em diferentes indústrias. Toca a começar!
As tarefas de visão computacional têm como objetivo reproduzir as capacidades de visão humana de diferentes formas. Estas tarefas podem ajudar as máquinas a detetar objectos, seguir os seus movimentos, estimar poses e até delinear elementos individuais em imagens e vídeos. Normalmente, as tarefas de visão por computador são possibilitadas por modelos que dividem os dados visuais em partes mais pequenas para que possam interpretar mais claramente o que está a acontecer.
Os modelos de IA de visão, como os modelos Ultralytics YOLO , suportam várias tarefas, como a deteção, o seguimento e a segmentação, numa única estrutura. Devido a esta versatilidade, os modelos YOLO11 são fáceis de adotar para uma grande variedade de casos de utilização.
Um bom exemplo disto é a análise desportiva. YOLO11 pode ser utilizado para detetar cada jogador em campo utilizando a deteção de objectos e, em seguida, pode segui-los ao longo do jogo com o rastreio de objectos. Entretanto, as capacidades de estimativa de pose do YOLO11 podem ajudar a analisar os movimentos e as técnicas dos jogadores, e a segmentação de instâncias pode separar cada jogador do fundo, acrescentando precisão à análise.
Em conjunto, estas tarefas de visão por computador YOLO11 criam uma imagem completa do que está a acontecer durante o jogo, dando às equipas uma visão mais profunda do desempenho dos jogadores, das tácticas e da estratégia geral.
Agora que já vimos o que são as tarefas de visão por computador, vamos começar a perceber cada uma delas suportada pelo YOLO11 com mais pormenor, utilizando exemplos do mundo real.
Quando olhas para uma fotografia, a maior parte das pessoas sabe facilmente se esta mostra um cão, uma montanha ou um sinal de trânsito, porque todos nós aprendemos o aspeto típico destas coisas. A classificação de imagens ajuda as máquinas a fazer o mesmo, ensinando-as a classificar e rotular uma imagem com base no seu objeto principal - quer seja um "carro", uma "banana" ou uma "radiografia com fratura". Este rótulo ajuda os sistemas de visão por computador a compreender o conteúdo visual para que possam responder ou tomar decisões em conformidade.
Uma aplicação interessante desta tarefa de visão computacional é a monitorização da vida selvagem. A classificação de imagens pode ser utilizada para identificar diferentes espécies animais a partir de fotografias capturadas na natureza. Ao rotular automaticamente as imagens, os investigadores podem seguir populações, monitorizar padrões de migração e identificar mais facilmente espécies ameaçadas para apoiar os esforços de conservação.
Embora a classificação de imagens seja útil para obter uma ideia geral do conteúdo de uma imagem, atribui apenas uma etiqueta a toda a imagem. Em situações em que é necessária informação detalhada, como a localização precisa e a identidade de vários objectos, a deteção de objectos torna-se essencial.
A deteção de objectos é o processo de identificação e localização de objectos individuais numa imagem, muitas vezes desenhando caixas delimitadoras à sua volta. Ultralytics YOLO11 tem um desempenho especialmente bom na deteção de objectos em tempo real, o que o torna ideal para uma vasta gama de aplicações.
Considera, por exemplo, as soluções de visão por computador utilizadas em lojas de retalho para abastecer as prateleiras. A deteção de objetos pode ajudar a contar frutas, vegetais e outros itens, garantindo um inventário preciso. Nos campos agrícolas, a mesma tecnologia pode monitorizar a maturidade das culturas para ajudar os agricultores a determinar a melhor altura para a colheita, distinguindo mesmo entre produtos maduros e não maduros.
A deteção de objectos utiliza caixas delimitadoras para identificar e localizar objectos numa imagem, mas não capta as suas formas exactas. É aí que entra a segmentação de instâncias. Em vez de desenhar uma caixa à volta de um objeto, a segmentação de instâncias traça o seu contorno exato.
Podes pensar da seguinte forma: em vez de simplesmente indicar que "há uma maçã nesta área", delineia e preenche cuidadosamente a forma exacta da maçã. Este processo detalhado ajuda os sistemas de IA a compreender claramente os limites de um objeto, especialmente quando os objectos estão próximos uns dos outros.
A segmentação de instâncias pode ser aplicada a muitas aplicações, desde inspecções de infra-estruturas a levantamentos geológicos. Por exemplo, os dados de levantamentos geológicos podem ser analisados utilizando YOLO11 para segmentar fissuras ou anomalias de superfície grandes e pequenas. Ao traçar limites precisos em torno destas anomalias, os engenheiros podem identificar problemas e resolvê-los antes do início de um projeto.
Até agora, as tarefas de visão por computador que analisámos centram-se no que está numa única imagem. No entanto, quando se trata de vídeos, precisamos de conhecimentos que vão para além de um fotograma. A tarefa, rastreio de objectos, pode ser usada para isso.
A capacidade de seguimento de objectos do YOLO11 pode seguir um objeto específico, como uma pessoa ou um carro, à medida que este se move numa série de fotogramas de vídeo. Mesmo que o ângulo da câmara mude ou apareçam outros objectos, o sistema continua a seguir o mesmo alvo.
Isto é crucial para aplicações que requerem monitorização ao longo do tempo, como o seguimento de carros no trânsito. De facto, YOLO11 consegue localizar veículos com precisão, seguindo cada carro para ajudar a estimar a sua velocidade em tempo real. Isto torna o seguimento de objectos um componente chave em sistemas como a monitorização de tráfego.
Os objectos no mundo real nem sempre estão perfeitamente alinhados - podem estar inclinados, de lado ou posicionados em ângulos estranhos. Por exemplo, nas imagens de satélite, os navios e os edifícios aparecem frequentemente rodados.
Os métodos tradicionais de deteção de objectos utilizam caixas rectangulares fixas que não se ajustam à orientação de um objeto, o que dificulta a captura precisa destas formas rodadas. A deteção de caixa delimitadora orientada (OBB) resolve este problema utilizando caixas que rodam para se ajustarem perfeitamente a um objeto, alinhando-se com o seu ângulo para uma deteção mais precisa.
No que diz respeito à monitorização do porto, o suporte do YOLO11para a deteção de OBB pode ajudar a identificar e seguir com precisão os navios, independentemente da sua orientação, garantindo que cada navio que entra ou sai do porto é devidamente monitorizado. Esta deteção precisa fornece informações em tempo real sobre as posições e movimentos dos navios, o que é fundamental para gerir portos movimentados e evitar colisões.
A estimativa de pose é uma técnica de visão por computador que rastreia pontos-chave, como articulações, membros ou outros marcadores, para compreender como um objeto se move. Em vez de tratar um objeto ou corpo inteiro como uma unidade completa, este método divide-o nas suas partes principais. Isto torna possível analisar movimentos, gestos e interações em pormenor.
Uma aplicação comum desta tecnologia é a estimativa da pose humana. Ao seguir as posições de várias partes do corpo em tempo real, fornece uma imagem clara da forma como uma pessoa se está a mover. Esta informação pode ser utilizada para uma variedade de fins, desde o reconhecimento de gestos e a monitorização de actividades até à análise do desempenho em desportos.
Do mesmo modo, na reabilitação física, os terapeutas podem utilizar a estimativa da pose humana e YOLO11 para monitorizar os movimentos dos pacientes durante os exercícios. Isto ajuda a garantir que cada movimento é feito corretamente, ao mesmo tempo que acompanha o progresso ao longo do tempo.
Agora que explorámos em pormenor todas as tarefas de visão por computador suportadas pelo YOLO11 , vamos ver como YOLO11 as suporta.
YOLO11 não é apenas um modelo - é um conjunto de variantes de modelos especializados, cada um concebido para uma tarefa específica de visão por computador. Isso faz do YOLO11 uma ferramenta versátil que pode ser adaptada a uma ampla gama de aplicações. Também podes afinar estes modelos em conjuntos de dados personalizados para enfrentar os desafios únicos dos teus projectos.
Aqui estão as variantes do modeloYOLO11 pré-treinadas para tarefas de visão específicas:
Cada variante está disponível em diferentes tamanhos, permitindo aos utilizadores escolher o equilíbrio certo entre velocidade e precisão para as suas necessidades específicas.
As tarefas de visão por computador estão a mudar a forma como as máquinas compreendem e interagem com o mundo. Ao decompor imagens e vídeos em elementos-chave, estas tecnologias facilitam a análise detalhada de objectos, movimentos e interações.
Desde a melhoria da segurança no trânsito e do desempenho desportivo até à otimização dos processos industriais, modelos como o YOLO11 podem fornecer informações em tempo real que impulsionam a inovação. À medida que a IA de visão continua a evoluir, é provável que venha a desempenhar um papel cada vez mais importante na forma como interpretamos e utilizamos os dados visuais todos os dias.
Junta-te à nossa comunidade e visita o nosso repositório GitHub para veres a IA em ação. Explora as nossas opções de licenciamento e descobre mais sobre a IA na agricultura e a visão computacional no fabrico nas nossas páginas de soluções.
Começa a tua viagem com o futuro da aprendizagem automática