Explore os fundamentos da Visão Computacional (CV). Saiba como Ultralytics e a Ultralytics permitem a deteção de objetos, segmentação e muito mais.
A visão computacional (CV) é uma área sofisticada da inteligência artificial (IA) que permite que computadores e sistemas obtenham informações significativas a partir de imagens digitais, vídeos e outros inputs visuais. Enquanto a visão humana tem a capacidade inata de perceber e compreender instantaneamente o ambiente circundante, os computadores precisam ser treinados para reconhecer padrões e interpretar pixels. Ao aproveitar o Aprendizado de Máquina (ML) e, especificamente, os algoritmos de Aprendizado Profundo (DL), os sistemas de CV podem capturar dados visuais, processá-los e fazer recomendações ou tomar medidas com base nessas informações.
Na sua essência, um computador vê uma imagem como uma matriz de valores numéricos que representam pixels. A CV moderna depende fortemente das Redes Neurais Convolucionais (CNNs), que são projetadas para imitar o padrão de conectividade dos neurónios no cérebro humano. Essas redes aprendem a identificar uma hierarquia de características — desde bordas e texturas simples até formas e objetos complexos — por meio de um processo chamado extração de características.
Para funcionar de forma eficaz, esses modelos requerem grandes quantidades de dados de treino. Por exemplo, para reconhecer um carro, um modelo precisa processar milhares de imagens rotuladas de carros em várias condições. Ferramentas como a Ultralytics simplificam esse fluxo de trabalho, permitindo que os utilizadores anotem conjuntos de dados, treinem modelos na nuvem e os implementem de forma eficiente.
A visão computacional não é uma função única, mas um conjunto de tarefas distintas, cada uma resolvendo um problema específico:
A utilidade da visão computacional abrange praticamente todos os setores, automatizando tarefas que antes exigiam olhos humanos .
É importante distinguir CV de Processamento de Imagem, embora muitas vezes trabalhem em conjunto.
As bibliotecas modernas tornaram acessível a implementação de modelos CV poderosos. O exemplo abaixo demonstra como carregar o
estado da arte YOLO26 modelo para detect numa imagem
usando o ultralytics pacote.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()
Este script simples utiliza um modelo pré-treinado para realizar tarefas complexas de inferência, demonstrando a acessibilidade das ferramentas modernas de IA. Para os programadores que desejam ir além das imagens estáticas, o CV também alimenta sistemas de compreensão de vídeo e rastreamento em tempo real usados em segurança e análise esportiva. Ao integrar-se a bibliotecas como OpenCV, os programadores podem criar aplicações abrangentes que capturam, processam e analisam o mundo visual.