Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Visão Computacional (CV)

Desbloqueie o potencial da IA com a Visão Computacional! Explore seu papel na detecção de objetos, saúde, carros autônomos e muito mais. Saiba mais agora!

A Visão por Computador (CV) é um domínio transformador da inteligência artificial (IA) que permite aos computadores percecionar, interpretar e compreender o mundo visual. Ao processar imagens digitais, vídeos e outras entradas visuais, as máquinas podem extrair informações significativas e tomar medidas ou fazer recomendações com base nessa análise. Enquanto a visão humana se baseia no olho e no cérebro para contextualizar instantaneamente o ambiente, a visão por computador utiliza software avançado e algoritmos de algoritmos de aprendizagem automática (ML) para replicar para replicar esta capacidade, permitindo aos sistemas automatizar tarefas que anteriormente exigiam a visão humana.

Como a Visão Computacional Funciona

Na sua essência, a visão computacional baseia-se em técnicas de reconhecimento de padrões para compreender dados visuais dados visuais. As primeiras tentativas envolveram a codificação manual de regras para definir objectos, mas a CV moderna é impulsionada pela aprendizagem profunda (DL) e grandes quantidades de dados de dados de treino. A arquitetura mais comum utilizada atualmente é a Rede Neuronal Convolucional (CNN), que processa imagens pixel a pixel. Estas redes identificam caraterísticas de baixo nível, como arestas e texturas nas camadas iniciais e combinam-nas para reconhecer conceitos complexos - como rostos ou veículos - em camadas mais profundas. Este processo Este processo requer conjuntos de dados rotulados em massa para ensinar o modelo a distinguir eficazmente entre diferentes categorias.

Tarefas essenciais em visão computacional

A visão computacional não é uma ação única, mas um conjunto de tarefas específicas que resolvem problemas diferentes:

  • Deteção de objectos: Esta tarefa consiste em identificar e localizar objectos numa imagem ou num fluxo de vídeo. Desenha desenha caixas delimitadoras à volta dos objectos detectados e atribui-lhes e atribui-lhes uma etiqueta de classe, como "pessoa" ou "bicicleta".
  • Classificação de imagens: O sistema sistema analisa uma imagem inteira e atribui-lhe uma única etiqueta com base no seu conteúdo dominante. Por exemplo, classificar uma fotografia como "paisagem" ou "retrato".
  • Segmentação de instâncias: Mais profundo do que a deteção, identifica o contorno preciso e perfeito de cada objeto, separando as instâncias individuais da da mesma classe do fundo.
  • Estimativa de pose: Esta técnica detecta pontos-chave específicos numa figura, como as articulações de um corpo humano, para track movimento e a postura em tempo real.

Visão Computacional vs. Processamento de Imagem

É comum confundir-se visão computacional com processamento digital de imagens, mas estes têm objectivos diferentes. O processamento de imagens centra-se na manipulação de uma imagem de entrada para melhorar a sua qualidade ou extrair informação sem necessariamente a "compreender". Exemplos comuns incluem o ajuste da luminosidade, aplicação de filtros ou redução de ruído. Em contrapartida, CV centra-se na compreensão da imagem, em que o objetivo é emular a cognição humana para interpretar o que a imagem representa.

Aplicações no Mundo Real

A utilidade da visão computacional se estende por praticamente todos os setores, aumentando a eficiência e a segurança:

Implementação da visão computacional com YOLO11

Os programadores podem implementar tarefas poderosas de visão computacional utilizando o ultralytics pacote Python . O exemplo abaixo demonstra como carregar o pacote Modelo YOLO11-a última versão estável versão estável recomendada para todos os casos de utilização padrão - para detect objectos numa imagem.

from ultralytics import YOLO

# Load the pretrained YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results to see bounding boxes and labels
results[0].show()

Principais ferramentas e bibliotecas

O ecossistema CV é apoiado por bibliotecas robustas de código aberto. OpenCV é uma biblioteca fundamental que fornece milhares de algoritmos para visão computacional em tempo real. Para construir e treinar modelos de aprendizagem profunda, estruturas como PyTorch e TensorFlow são padrões padrões do sector. Ultralytics baseia-se nestes fundamentos para fornecer modelos de última geração que são fáceis de implementar. Olhando para o futuro, a PlataformaUltralytics fornece um ambiente abrangente para gerir todo o ciclo de vida da Vision AI, desde a gestão de dados até à implementação.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora