Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Visão Computacional (CV)

Explore os fundamentos da Visão Computacional (CV). Saiba como Ultralytics e a Ultralytics permitem a deteção de objetos, segmentação e muito mais.

A visão computacional (CV) é uma área sofisticada da inteligência artificial (IA) que permite que computadores e sistemas obtenham informações significativas a partir de imagens digitais, vídeos e outros inputs visuais. Enquanto a visão humana tem a capacidade inata de perceber e compreender instantaneamente o ambiente circundante, os computadores precisam ser treinados para reconhecer padrões e interpretar pixels. Ao aproveitar o Aprendizado de Máquina (ML) e, especificamente, os algoritmos de Aprendizado Profundo (DL), os sistemas de CV podem capturar dados visuais, processá-los e fazer recomendações ou tomar medidas com base nessas informações.

Como a Visão Computacional Funciona

Na sua essência, um computador vê uma imagem como uma matriz de valores numéricos que representam pixels. A CV moderna depende fortemente das Redes Neurais Convolucionais (CNNs), que são projetadas para imitar o padrão de conectividade dos neurónios no cérebro humano. Essas redes aprendem a identificar uma hierarquia de características — desde bordas e texturas simples até formas e objetos complexos — por meio de um processo chamado extração de características.

Para funcionar de forma eficaz, esses modelos requerem grandes quantidades de dados de treino. Por exemplo, para reconhecer um carro, um modelo precisa processar milhares de imagens rotuladas de carros em várias condições. Ferramentas como a Ultralytics simplificam esse fluxo de trabalho, permitindo que os utilizadores anotem conjuntos de dados, treinem modelos na nuvem e os implementem de forma eficiente.

Tarefas essenciais em visão computacional

A visão computacional não é uma função única, mas um conjunto de tarefas distintas, cada uma resolvendo um problema específico:

  • Classificação de imagens: esta tarefa atribui um rótulo de classe a uma imagem inteira, respondendo à pergunta: «O que está nesta imagem?» (por exemplo, distinguir entre um gato e um cão).
  • Detecção de objetos: indo um passo além, a detecção identifica objetos distintos dentro de uma imagem e desenha uma caixa delimitadora ao redor deles. Isso é crucial para contar itens ou localizar características específicas.
  • Segmentação de instâncias: fornece uma máscara precisa ao nível do pixel para cada objeto detetado, separando instâncias individuais da mesma classe. É vital para aplicações que exigem alta precisão, como a análise de imagens médicas.
  • Estimativa de pose: envolve a deteção de pontos-chave específicos num objeto, como as articulações do corpo humano, para track e posturas.

Aplicações no Mundo Real

A utilidade da visão computacional abrange praticamente todos os setores, automatizando tarefas que antes exigiam olhos humanos .

  • Fabricação e controlo de qualidade: Em ambientes industriais, o CV é frequentemente referido como Visão Artificial. É utilizado para automatizar a inspeção de qualidade, detetando defeitos minúsculos em produtos numa linha de montagem de forma mais rápida e precisa do que os inspetores humanos. Por exemplo, a IA na fabricação permite o monitoramento em tempo real dos equipamentos para evitar falhas.
  • Transporte autónomo: Os carros autônomos dependem inteiramente do CV para navegar com segurança. Ao processar as informações das câmaras e sensores LiDAR, esses veículos realizam a detecção de objetos 3D para identificar pedestres, outros veículos e sinais de trânsito em tempo real. Esse é um componente crítico para alcançar altos níveis de automação veicular.
  • Saúde e Diagnóstico: Os radiologistas utilizam o CV para ajudar a identificar anomalias em raios-X, ressonâncias magnéticas e tomografias computadorizadas. A IA na área da saúde ajuda na deteção precoce de doenças, como a identificação de tumores, destacando regiões de interesse que podem passar despercebidas a olho nu .

Visão Computacional vs. Processamento de Imagem

É importante distinguir CV de Processamento de Imagem, embora muitas vezes trabalhem em conjunto.

  • O processamento de imagens envolve a manipulação de uma imagem para melhorá-la ou extrair informações (por exemplo, ajustar o brilho, o contraste ou aplicar filtros como os do Adobe Photoshop). O resultado geralmente é outra imagem.
  • A Visão Computacional recebe uma imagem como entrada e produz informações ou uma interpretação (por exemplo, «Há três pessoas nesta sala»). A VC utiliza técnicas de processamento de imagens para preparar imagens para análise por redes neurais.

Implementando visão computacional com Python

As bibliotecas modernas tornaram acessível a implementação de modelos CV poderosos. O exemplo abaixo demonstra como carregar o estado da arte YOLO26 modelo para detect numa imagem usando o ultralytics pacote.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
results[0].show()

Este script simples utiliza um modelo pré-treinado para realizar tarefas complexas de inferência, demonstrando a acessibilidade das ferramentas modernas de IA. Para os programadores que desejam ir além das imagens estáticas, o CV também alimenta sistemas de compreensão de vídeo e rastreamento em tempo real usados em segurança e análise esportiva. Ao integrar-se a bibliotecas como OpenCV, os programadores podem criar aplicações abrangentes que capturam, processam e analisam o mundo visual.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora