Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Tudo o que você precisa saber sobre Visão Computacional em 2025

Abirami Vina

Leitura de 5 minutos

15 de janeiro de 2025

Descubra como a visão computacional está transformando setores com tarefas baseadas em IA, como detecção de objetos, classificação de imagens e estimativa de pose.

Vinte anos atrás, a ideia de máquinas e computadores serem capazes de ver e entender o mundo era apenas ficção científica. Hoje, graças aos avanços na inteligência artificial (IA), esse conceito se tornou realidade. Em particular, a visão computacional (VC), um ramo da IA, permite que as máquinas entendam e analisem imagens e vídeos. Seja identificando objetos em tempo real, aprimorando sistemas de segurança ou automatizando tarefas complexas, seu potencial está ultrapassando os limites do que é possível. 

A visão computacional está moldando rapidamente o futuro da tecnologia, à medida que vários setores exploram diferentes maneiras de adotar suas capacidades únicas. O tamanho do mercado global de visão computacional atingiu US$ 19,83 bilhões em 2024 e está projetado para crescer 19,8% anualmente nos próximos anos.

__wf_reserved_inherit
Fig 1. Tamanho do mercado global de visão computacional.

Neste artigo, vamos dar uma olhada mais de perto na visão computacional, abordando o que é, como evoluiu e como funciona hoje. Também exploraremos algumas de suas aplicações mais interessantes. Vamos começar!

O que é visão computacional?

Visão computacional é um subcampo da IA que utiliza aprendizado de máquina e redes neurais para ensinar computadores a entender o conteúdo de dados visuais, como imagens ou arquivos de vídeo. Os insights coletados a partir de imagens processadas podem ser usados para tomar decisões melhores. Por exemplo, a visão computacional pode ser usada no varejo para rastrear os níveis de estoque analisando imagens de prateleiras ou aprimorando a experiência de compra com sistemas de checkout automatizados. Muitas empresas já estão usando a tecnologia de visão computacional para diferentes aplicações que variam de tarefas como adicionar filtros a fotos de smartphones ao controle de qualidade na fabricação. 

Você pode estar se perguntando: por que existe tanta necessidade de soluções de visão computacional? Tarefas que exigem atenção constante, como identificar defeitos ou reconhecer padrões, podem ser difíceis para os humanos. Os olhos podem se cansar e os detalhes podem ser perdidos, especialmente em ambientes complexos ou de ritmo acelerado. 

Embora as pessoas sejam boas em reconhecer objetos em diferentes tamanhos, cores, iluminação ou ângulos, elas geralmente lutam para manter a consistência sob pressão. As soluções de visão computacional, por outro lado, funcionam sem parar, processando de forma rápida e precisa grandes quantidades de dados visuais. Por exemplo, ela pode analisar o tráfego em tempo real para detectar congestionamentos, otimizar o tempo dos sinais ou até mesmo identificar acidentes mais rápido do que um observador humano poderia.

Entendendo a história da visão computacional

Ao longo dos anos, a visão computacional evoluiu de um conceito teórico para uma tecnologia confiável que impulsiona a inovação em todos os setores. Vamos dar uma olhada em alguns dos principais marcos que definiram seu desenvolvimento:

  • Décadas de 1950 - 1960: Os pesquisadores começaram a desenvolver algoritmos para processar e analisar dados visuais, mas o progresso foi lento devido ao poder computacional limitado.
  • Década de 1970: Esta década testemunhou grandes melhorias em algoritmos, como a Transformada de Hough, que melhorou a detecção de linhas e formas geométricas em imagens. O Reconhecimento Óptico de Caracteres (OCR) também surgiu, tornando possível para as máquinas lerem textos impressos.
  • Décadas de 1980 - 1990: O aprendizado de máquina começou a desempenhar um papel na visão computacional, abrindo caminho para capacidades mais avançadas e futuros avanços.
  • Décadas de 2000 - 2010: O aprendizado profundo trouxe uma nova dimensão à visão computacional, equipando as máquinas para interpretar dados visuais de forma mais eficaz. Ele aprimorou capacidades como identificação de objetos, análise de movimento e execução de tarefas complexas.

Atualmente, a visão computacional está avançando rapidamente e transformando a forma como resolvemos problemas em áreas como saúde, veículos autônomos e cidades inteligentes. Os modelos Ultralytics YOLO (You Only Look Once), projetados para tarefas de visão computacional em tempo real, facilitam a implementação da Visão de IA de forma eficaz e precisa em vários setores. À medida que a IA e o hardware continuam a melhorar, esses modelos estão ajudando as empresas a tomar decisões mais inteligentes e otimizar as operações usando análise avançada de dados visuais.

Analisando como a visão computacional funciona

Os sistemas de visão computacional funcionam usando redes neurais, que são algoritmos inspirados em como o cérebro humano funciona, para analisar imagens. Um tipo específico, chamado Redes Neurais Convolucionais (CNNs), é especialmente bom para reconhecer padrões, como bordas e formas em imagens. 

Para simplificar os dados visuais, técnicas como o pooling se concentram nas partes mais importantes de uma imagem, enquanto camadas adicionais processam essas informações para realizar tarefas como identificar recursos ou detectar objetos. Modelos avançados como o Ultralytics YOLO11, projetados para velocidade e precisão, tornam possível o processamento de imagens em tempo real.

__wf_reserved_inherit
Fig 2. Um exemplo de uso do Ultralytics YOLO11 para deteção de objetos.

Uma aplicação típica de visão computacional envolve várias etapas para transformar imagens brutas em insights úteis. Aqui estão os quatro estágios principais:

  • Aquisição de imagem: Os dados visuais são coletados usando câmeras ou sensores, e a qualidade das imagens depende do tipo de sensor utilizado.
  • Processamento de imagem: Os dados coletados são então aprimorados por meio de técnicas de pré-processamento, como redução de ruído e realce de bordas, para facilitar a análise.
  • Extração de características: Detalhes importantes, como formas e texturas, são selecionados, concentrando-se nas partes da imagem que mais importam.  
  • Reconhecimento de padrões: As características identificadas são analisadas usando aprendizado de máquina para concluir tarefas como detecção de objetos, rastreamento de movimento ou reconhecimento de padrões.

Explorando as tarefas de visão computacional

Você deve ter notado que, ao falar sobre como a visão computacional funciona, mencionamos as tarefas de visão computacional. Modelos como o Ultralytics YOLO11 são construídos para suportar essas tarefas, oferecendo soluções rápidas e precisas para aplicações do mundo real. Desde a detecção de objetos até o rastreamento de seus movimentos, o YOLO11 lida com essas tarefas de forma eficiente. Vamos explorar algumas das principais tarefas de visão computacional que ele suporta e como elas funcionam.

Detecção de objetos

A detecção de objetos é uma tarefa fundamental da visão computacional e é usada para identificar objetos de interesse em uma imagem. O resultado de uma tarefa de detecção de objetos é um conjunto de bounding boxes (retângulos desenhados ao redor dos objetos detectados em uma imagem), juntamente com rótulos de classe (a categoria ou tipo de cada objeto, como "carro" ou "pessoa") e scores de confiança (um valor numérico que indica o quão certo o modelo está sobre cada detecção). Por exemplo, a detecção de objetos pode ser usada para identificar e localizar um pedestre em uma rua ou um carro no trânsito.

__wf_reserved_inherit
Fig 3. YOLO11 sendo usado para detectar objetos.

Classificação de imagens

O principal objetivo da classificação de imagens é atribuir um rótulo ou categoria predefinida a uma imagem de entrada com base em seu conteúdo geral. Esta tarefa normalmente envolve a identificação do objeto ou característica dominante dentro da imagem. Por exemplo, a classificação de imagens pode ser usada para determinar se uma imagem contém um gato ou um cachorro. Modelos de visão computacional como o YOLO11 podem até ser treinados sob medida para classificar raças individuais de gatos ou cachorros, como mostrado abaixo.

__wf_reserved_inherit
Fig 4. Classificando diferentes raças de gatos usando YOLO11.

Segmentação de instâncias

A segmentação de instâncias é outra tarefa crucial de visão computacional usada em várias aplicações. Envolve dividir uma imagem em segmentos e identificar cada objeto individual, mesmo que haja vários objetos do mesmo tipo. Ao contrário da detecção de objetos, a segmentação de instâncias vai um passo além, delineando os limites precisos de cada objeto. Por exemplo, na fabricação e reparo automotivo, a segmentação de instâncias pode ajudar a identificar e rotular cada peça do carro separadamente, tornando o processo mais preciso e eficiente.

__wf_reserved_inherit
Fig 5. Segmentação de peças de carro usando YOLO11.

Estimativa de pose

O objetivo da estimativa de pose é determinar a posição e orientação de uma pessoa ou objeto, prevendo a localização de pontos-chave, como mãos, cabeça e cotovelos. Isso é particularmente útil em aplicações onde a compreensão das ações físicas em tempo real é importante. A estimativa de pose humana é comumente usada em áreas como análise esportiva, monitoramento do comportamento animal e robótica.

__wf_reserved_inherit
Fig 6. YOLO11 pode ajudar na estimativa de pose humana.

Para explorar as outras tarefas de visão computacional suportadas pelo YOLO11, você pode consultar a documentação oficial do Ultralytics. Ela fornece informações detalhadas sobre como o YOLO11 lida com tarefas como rastreamento de objetos e detecção de objetos com bounding box orientado (OBB).

Modelos populares de visão computacional hoje

Apesar de existirem muitos modelos de visão computacional, a série Ultralytics YOLO se destaca por seu forte desempenho e versatilidade. Ao longo do tempo, os modelos Ultralytics YOLO melhoraram, tornando-se mais rápidos, mais precisos e capazes de lidar com mais tarefas. Quando o Ultralytics YOLOv5 foi introduzido, a implantação de modelos tornou-se mais fácil com frameworks de Visão de IA como o PyTorch. Ele permitiu que uma gama mais ampla de usuários trabalhasse com Visão de IA avançada, combinando alta precisão com facilidade de uso.

Em seguida, o Ultralytics YOLOv8 foi além, adicionando novas habilidades como segmentação de instâncias, estimativa de pose e classificação de imagens. Enquanto isso, a versão mais recente, YOLO11, oferece o melhor desempenho em várias tarefas de visão computacional. Com 22% menos parâmetros do que o YOLOv8m, o YOLO11m atinge uma precisão média (mAP) mais alta no conjunto de dados COCO, o que significa que ele pode detectar objetos com mais precisão e eficiência. Seja você um desenvolvedor experiente ou novo em IA, o YOLO11 oferece uma solução poderosa para suas necessidades de visão computacional.

O papel da visão computacional na vida cotidiana

Anteriormente, discutimos como modelos de visão computacional como o YOLO11 podem ser aplicados em uma ampla gama de setores. Agora, vamos explorar mais casos de uso que estão mudando nosso dia a dia.

Visão de IA na área da saúde

Existe uma ampla gama de aplicações para a visão computacional na área da saúde. Tarefas como detecção e classificação de objetos são usadas em imagens médicas para tornar a detecção de doenças mais rápida e precisa. Na análise de raios-X, a visão computacional pode identificar padrões que podem ser muito sutis para o olho humano. 

Também é usada na detecção de câncer para comparar células cancerosas com células saudáveis. Da mesma forma, com relação a tomografias computadorizadas e ressonâncias magnéticas, a visão computacional pode ser usada para analisar imagens com precisão quase humana. Ajuda os médicos a tomar melhores decisões e, finalmente, salva mais vidas.

__wf_reserved_inherit
Fig 7. YOLO11 sendo usado para analisar exames médicos.

IA na indústria automotiva

A visão computacional é fundamental para carros autônomos, ajudando-os a detectar objetos como placas de trânsito e semáforos. Técnicas como reconhecimento óptico de caracteres (OCR) permitem que o carro leia textos de placas de trânsito. Também é usada para detecção de pedestres, onde tarefas de detecção de objetos identificam pessoas em tempo real. 

Além disso, a visão computacional pode até identificar rachaduras e buracos em superfícies de estradas, permitindo um melhor monitoramento das condições variáveis das estradas. No geral, a tecnologia de visão computacional pode desempenhar um papel fundamental na melhoria da gestão do tráfego, no aumento da segurança do trânsito e no apoio ao planejamento de cidades inteligentes.

__wf_reserved_inherit
Fig 8. Compreendendo o tráfego usando YOLO11.

Visão computacional na agricultura

Imagine que os agricultores pudessem semear, irrigar e colher automaticamente suas colheitas no prazo, sem quaisquer preocupações. É exatamente isso que a visão computacional traz para a agricultura. Ela facilita o monitoramento da colheita em tempo real, para que os agricultores possam detectar problemas como doenças ou deficiências de nutrientes com mais precisão do que os humanos. 

Além do monitoramento, máquinas de capina automática orientadas por IA e integradas com visão computacional podem identificar e remover ervas daninhas, reduzindo os custos de mão de obra e aumentando o rendimento das colheitas. Essa combinação de tecnologia ajuda os agricultores a otimizar seus recursos, melhorar a eficiência e proteger suas colheitas.

__wf_reserved_inherit
Fig 9. Um exemplo de uso do YOLO11 na agricultura.

Automatizando processos de fabricação com IA

Na fabricação, a visão computacional ajuda a monitorar a produção, verificar a qualidade do produto e rastrear os trabalhadores automaticamente. A Visão de IA torna o processo mais rápido e preciso, ao mesmo tempo em que reduz os erros, levando à redução de custos. 

Especificamente, para garantia de qualidade, detecção de objetos e segmentação de instâncias são comumente usados. Os sistemas de detecção de defeitos realizam uma verificação final nos produtos acabados para garantir que apenas os melhores cheguem aos clientes. Qualquer produto com amassados ou rachaduras é automaticamente identificado e rejeitado. Esses sistemas também rastreiam e contam produtos em tempo real, fornecendo monitoramento contínuo na linha de montagem.

__wf_reserved_inherit
Fig 10. Monitorando uma linha de montagem usando visão computacional.

Educação tornada mais impactante com visão computacional

Uma das maneiras pelas quais a visão computacional é usada na sala de aula é por meio do reconhecimento de gestos - ela personaliza o aprendizado detectando os movimentos dos alunos. Modelos como o YOLO11 são ótimos para esta tarefa. Eles podem identificar com precisão gestos como mãos levantadas ou expressões confusas em tempo real. 

Quando tais gestos são detectados, uma lição em andamento pode ser ajustada, fornecendo ajuda extra ou modificando o conteúdo para melhor atender às necessidades do aluno. Isso cria um ambiente de aprendizado mais dinâmico e adaptável, ajudando os professores a se concentrarem no ensino, enquanto o sistema apoia a experiência de aprendizado de cada aluno.

Tendências recentes em visão computacional

Agora que exploramos algumas das aplicações da visão computacional em vários setores, vamos mergulhar nas principais tendências que impulsionam seu progresso.

Uma das principais tendências é a computação de borda, uma estrutura de computação distribuída que processa dados mais perto de sua fonte. Por exemplo, a computação de borda equipa dispositivos como câmeras e sensores para processar dados visuais diretamente, resultando em tempos de resposta mais rápidos, atrasos reduzidos e privacidade aprimorada.

Outra tendência importante na visão computacional é o uso da realidade mesclada. Ela combina o mundo físico com elementos digitais, usando a visão computacional para fazer com que objetos virtuais se misturem perfeitamente com o mundo real. Pode ser usada para melhorar experiências em jogos, educação e treinamento. 

Prós e contras da visão computacional

Aqui estão alguns dos principais benefícios que a visão computacional pode trazer para vários setores:

  • Redução de custos: A automatização de tarefas com visão computacional ajuda a reduzir os custos operacionais, melhorar a produtividade e minimizar erros.
  • Escalabilidade: Uma vez implementados, os sistemas de visão computacional podem ser facilmente escalados para lidar com grandes quantidades de dados, tornando-os adequados para empresas em crescimento ou operações de grande escala.
  • Personalização específica da aplicação: Os modelos de visão computacional podem ser ajustados usando o seu conjunto de dados, oferecendo soluções altamente especializadas que atendem aos requisitos da sua aplicação.

Embora estes benefícios destaquem como a visão computacional pode impactar vários setores, também é importante considerar os desafios envolvidos na sua implementação. Aqui estão alguns dos principais desafios:

  • Preocupações com a privacidade dos dados: O uso de dados visuais, especialmente em áreas sensíveis como vigilância ou saúde, pode levantar questões de privacidade e preocupações com a segurança.
  • Limitações ambientais: Os sistemas de visão computacional podem ter dificuldades para funcionar corretamente em ambientes desafiadores, como iluminação inadequada, imagens de baixa qualidade ou fundos complexos.
  • Alto custo inicial: Desenvolver e implementar sistemas de visão computacional pode ser caro devido à necessidade de hardware, software e expertise especializados.

Principais conclusões

A visão computacional está reinventando a forma como as máquinas interagem com o mundo, permitindo-lhes ver e entender o mundo como os humanos. Já está sendo usada em muitas áreas, como melhorar a segurança em carros autônomos, ajudar os médicos a diagnosticar doenças mais rapidamente, tornar as compras mais personalizadas e até mesmo ajudar os agricultores com o monitoramento de colheitas. 

À medida que a tecnologia continua a melhorar, novas tendências como a computação de ponta e a realidade combinada estão abrindo ainda mais possibilidades. Embora existam alguns desafios, como preconceitos e altos custos, a visão computacional tem o potencial de causar um enorme impacto positivo em muitos setores no futuro.

Para saber mais, visite o nosso repositório GitHub e interaja com a nossa comunidade. Explore as inovações em setores como IA em carros autônomos e visão computacional na agricultura nas nossas páginas de soluções. 🚀

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência