Desbloqueie o potencial da IA com a Visão Computacional! Explore seu papel na detecção de objetos, saúde, carros autônomos e muito mais. Saiba mais agora!
A Visão por Computador (CV) é um domínio transformador da inteligência artificial (IA) que permite aos computadores percecionar, interpretar e compreender o mundo visual. Ao processar imagens digitais, vídeos e outras entradas visuais, as máquinas podem extrair informações significativas e tomar medidas ou fazer recomendações com base nessa análise. Enquanto a visão humana se baseia no olho e no cérebro para contextualizar instantaneamente o ambiente, a visão por computador utiliza software avançado e algoritmos de algoritmos de aprendizagem automática (ML) para replicar para replicar esta capacidade, permitindo aos sistemas automatizar tarefas que anteriormente exigiam a visão humana.
Na sua essência, a visão computacional baseia-se em técnicas de reconhecimento de padrões para compreender dados visuais dados visuais. As primeiras tentativas envolveram a codificação manual de regras para definir objectos, mas a CV moderna é impulsionada pela aprendizagem profunda (DL) e grandes quantidades de dados de dados de treino. A arquitetura mais comum utilizada atualmente é a Rede Neuronal Convolucional (CNN), que processa imagens pixel a pixel. Estas redes identificam caraterísticas de baixo nível, como arestas e texturas nas camadas iniciais e combinam-nas para reconhecer conceitos complexos - como rostos ou veículos - em camadas mais profundas. Este processo Este processo requer conjuntos de dados rotulados em massa para ensinar o modelo a distinguir eficazmente entre diferentes categorias.
A visão computacional não é uma ação única, mas um conjunto de tarefas específicas que resolvem problemas diferentes:
É comum confundir-se visão computacional com processamento digital de imagens, mas estes têm objectivos diferentes. O processamento de imagens centra-se na manipulação de uma imagem de entrada para melhorar a sua qualidade ou extrair informação sem necessariamente a "compreender". Exemplos comuns incluem o ajuste da luminosidade, aplicação de filtros ou redução de ruído. Em contrapartida, CV centra-se na compreensão da imagem, em que o objetivo é emular a cognição humana para interpretar o que a imagem representa.
A utilidade da visão computacional se estende por praticamente todos os setores, aumentando a eficiência e a segurança:
Os programadores podem implementar tarefas poderosas de visão computacional utilizando o ultralytics pacote Python . O exemplo
abaixo demonstra como carregar o pacote Modelo YOLO11-a última versão estável
versão estável recomendada para todos os casos de utilização padrão - para detect objectos numa imagem.
from ultralytics import YOLO
# Load the pretrained YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results to see bounding boxes and labels
results[0].show()
O ecossistema CV é apoiado por bibliotecas robustas de código aberto. OpenCV é uma biblioteca fundamental que fornece milhares de algoritmos para visão computacional em tempo real. Para construir e treinar modelos de aprendizagem profunda, estruturas como PyTorch e TensorFlow são padrões padrões do sector. Ultralytics baseia-se nestes fundamentos para fornecer modelos de última geração que são fáceis de implementar. Olhando para o futuro, a PlataformaUltralytics fornece um ambiente abrangente para gerir todo o ciclo de vida da Vision AI, desde a gestão de dados até à implementação.