Glossário

Visão por computador (CV)

Liberte o potencial da IA com a Visão por Computador! Explore o seu papel na deteção de objectos, cuidados de saúde, carros autónomos e muito mais. Saiba mais agora!

A Visão por Computador (CV) é um domínio da inteligência artificial (IA) que treina computadores para interpretar e compreender o mundo visual. Utilizando imagens digitais de câmaras, vídeos e modelos de aprendizagem profunda, as máquinas podem identificar e classificar objectos com precisão e reagir ao que "vêem". O objetivo é permitir que os computadores reproduzam a visão humana, uma tarefa que envolve o processamento e a análise de grandes quantidades de dados visuais para lhes dar sentido. Como campo, tem crescido rapidamente graças aos avanços na aprendizagem profunda e à disponibilidade de grandes conjuntos de dados.

Como funciona a visão computacional

A visão por computador funciona através da aplicação de algoritmos de aprendizagem automática (ML) a dados visuais. Em vez de ser explicitamente programado para reconhecer um objeto, um modelo de CV aprende a identificar padrões a partir de milhares ou milhões de imagens marcadas. Por exemplo, para treinar um modelo de reconhecimento de gatos, este seria alimentado com inúmeras imagens de gatos até conseguir aprender a distinguir as caraterísticas de um gato por si próprio.

A CV moderna baseia-se fortemente em modelos de aprendizagem profunda, em particular nas Redes Neuronais Convolucionais (CNN). Uma CNN é um tipo de rede neural que é altamente eficaz no processamento de dados de imagem. Funciona através da aplicação de filtros (ou kernels) a uma imagem para criar mapas de caraterísticas que realçam caraterísticas importantes como arestas, texturas e formas. Estas redes estão na base de muitas tarefas comuns de visão por computador, permitindo às máquinas analisar informações visuais com uma precisão crescente.

Visão computacional vs. processamento de imagens

Embora intimamente relacionados, a visão por computador e o processamento de imagens não são a mesma coisa. O processamento de imagens é um subconjunto da CV que se centra na manipulação de imagens digitais para as melhorar ou extrair informações úteis. Envolve operações como a nitidez, a desfocagem ou a filtragem de uma imagem. Em contraste, a visão por computador vai um passo mais longe, tendo como objetivo interpretar e compreender o conteúdo da imagem. Por exemplo, o processamento de imagem pode ser utilizado para melhorar a qualidade de uma fotografia, enquanto a visão por computador é utilizada para identificar as pessoas, os objectos e a cena nessa fotografia. Pode saber mais sobre esta distinção nesta descrição geral pormenorizada do processamento de imagem digital.

Tarefas-chave na visão computacional

A visão por computador engloba várias tarefas fundamentais que permitem às máquinas analisar e interpretar dados visuais:

  • Deteção de objectos: Isto envolve a identificação e localização de objectos numa imagem ou vídeo. Um modelo como o Ultralytics YOLO desenha uma caixa delimitadora à volta de cada objeto detectado e atribui-lhe uma etiqueta de classe.
  • Classificação de imagens: Esta tarefa envolve a atribuição de um único rótulo a uma imagem inteira a partir de um conjunto predefinido de categorias. Por exemplo, classificar uma imagem como contendo um "gato" ou um "cão".
  • Segmentação de imagens: Ao contrário da deteção de objectos, a segmentação classifica cada pixel de uma imagem. Fornece uma compreensão muito mais pormenorizada do conteúdo da imagem. As sub-tarefas incluem a segmentação de instâncias e a segmentação semântica.
  • Estimativa da pose: É utilizada para determinar a posição e a orientação de uma pessoa ou objeto no espaço. É amplamente utilizada em robótica, realidade aumentada e análise da atividade humana.
  • Seguimento de objectos: Esta tarefa consiste em seguir um ou mais objectos ao longo do tempo numa sequência de vídeo. É crucial para aplicações como a vigilância e a navegação autónoma.

Aplicações no mundo real

As aplicações de visão computacional estão cada vez mais presentes em vários sectores:

Ferramentas e estruturas

O desenvolvimento e a implantação de modelos de visão computacional são facilitados por várias ferramentas e estruturas. Bibliotecas como PyTorch (visite o site oficial do PyTorch) e TensorFlow (visite o site oficial do TensorFlow) são fundamentais para a construção de modelos. Bibliotecas de código aberto como OpenCV fornecem uma vasta coleção de funções para visão computacional em tempo real.

Plataformas como o Ultralytics HUB simplificam todo o ciclo de vida de um projeto de CV, desde a gestão de conjuntos de dados e a formação de modelos personalizados até à implementação. O uso de formatos padronizados como o ONNX também ajuda a garantir a interoperabilidade entre diferentes estruturas. À medida que estas tecnologias amadurecem, continuarão a impulsionar a inovação em todos os sectores.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência