Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Visão Computacional (CV)

Desbloqueie o potencial da IA com a Visão Computacional! Explore seu papel na detecção de objetos, saúde, carros autônomos e muito mais. Saiba mais agora!

Visão Computacional (CV) é um campo da inteligência artificial (IA) que treina computadores para interpretar e entender o mundo visual. Usando imagens digitais de câmeras, vídeos e modelos de aprendizado profundo, as máquinas podem identificar e classificar objetos com precisão e, em seguida, reagir ao que "veem". O objetivo é permitir que os computadores repliquem a visão humana, uma tarefa que envolve o processamento e a análise de vastas quantidades de dados visuais para dar sentido a eles. Como campo, cresceu rapidamente graças aos avanços no aprendizado profundo e à disponibilidade de grandes conjuntos de dados.

Como a Visão Computacional Funciona

A visão computacional funciona aplicando algoritmos de aprendizado de máquina (ML) a dados visuais. Em vez de ser explicitamente programado para reconhecer um objeto, um modelo de CV aprende a identificar padrões a partir de milhares ou milhões de imagens rotuladas. Por exemplo, para treinar um modelo para reconhecer gatos, ele seria alimentado com inúmeras imagens de gatos até que possa aprender a distinguir as características de um gato por conta própria.

A CV moderna depende fortemente de modelos de aprendizado profundo, particularmente Redes Neurais Convolucionais (CNNs). Uma CNN é um tipo de rede neural que é altamente eficaz no processamento de dados de imagem. Ela funciona aplicando filtros (ou kernels) a uma imagem para criar mapas de características que destacam características importantes como bordas, texturas e formas. Essas redes impulsionam muitas tarefas comuns de visão computacional, permitindo que as máquinas analisem informações visuais com precisão crescente.

Visão Computacional vs. Processamento de Imagem

Embora intimamente relacionadas, a visão computacional e o processamento de imagem não são a mesma coisa. O Processamento de imagem é um subconjunto da VC que se concentra na manipulação de imagens digitais para aprimorá-las ou extrair informações úteis. Envolve operações como nitidez, desfoque ou filtragem de uma imagem. Em contraste, a visão computacional vai um passo além, visando interpretar e entender o conteúdo da imagem. Por exemplo, o processamento de imagem pode ser usado para melhorar a qualidade de uma foto, enquanto a visão computacional seria usada para identificar as pessoas, objetos e cenas dentro dessa foto. Você pode aprender mais sobre a distinção nesta visão geral detalhada do processamento de imagem digital.

Tarefas Essenciais em Visão Computacional

A visão computacional engloba várias tarefas-chave que permitem que as máquinas analisem e interpretem dados visuais:

  • Detecção de Objetos: Isso envolve identificar e localizar objetos dentro de uma imagem ou vídeo. Um modelo como o Ultralytics YOLO desenha uma bounding box ao redor de cada objeto detectado e atribui a ele um rótulo de classe.
  • Classificação de Imagens: Esta tarefa envolve atribuir um único rótulo a uma imagem inteira a partir de um conjunto predefinido de categorias. Por exemplo, classificar uma imagem como contendo um "gato" ou um "cachorro".
  • Segmentação de Imagens: Ao contrário da detecção de objetos, a segmentação classifica cada pixel em uma imagem. Ela fornece uma compreensão muito mais detalhada do conteúdo da imagem. As subtarefas incluem segmentação de instância e segmentação semântica.
  • Estimativa de Pose: Isso é usado para determinar a posição e orientação de uma pessoa ou objeto no espaço. É amplamente utilizado em robótica, realidade aumentada e análise de atividade humana.
  • Rastreamento de Objetos: Esta tarefa envolve acompanhar um ou mais objetos ao longo do tempo em uma sequência de vídeo. É crucial para aplicações como vigilância e navegação autônoma.

Aplicações no Mundo Real

As aplicações de visão computacional são cada vez mais prevalentes em vários setores:

Ferramentas e Frameworks

O desenvolvimento e a implementação de modelos de visão computacional são facilitados por várias ferramentas e frameworks. Bibliotecas como PyTorch (visite o site oficial do PyTorch) e TensorFlow (visite o site oficial do TensorFlow) são fundamentais para a construção de modelos. Bibliotecas de código aberto como OpenCV fornecem uma vasta coleção de funções para visão computacional em tempo real.

Plataformas como o Ultralytics HUB simplificam todo o ciclo de vida de um projeto de CV, desde o gerenciamento de conjuntos de dados e o treinamento de modelos personalizados até a implantação. O uso de formatos padronizados como o ONNX também ajuda a garantir a interoperabilidade entre diferentes estruturas. À medida que essas tecnologias amadurecem, elas continuarão a impulsionar a inovação em todos os setores.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência