Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Estimativa da profundidade

Saiba como a estimativa de profundidade adiciona perspectiva 3D à visão computacional. Explore técnicas como profundidade monocular e visão estéreo usando os modelos Ultralytics .

A estimativa de profundidade é um processo crítico na visão computacional que determina a distância dos objetos a partir de uma câmara, adicionando efetivamente uma terceira dimensão às imagens 2D. Ao calcular a distância de cada pixel numa imagem, essa técnica cria um mapa de profundidade, uma representação em que a intensidade do pixel corresponde à distância. Essa capacidade imita a visão binocular humana, permitindo que as máquinas percebam relações espaciais e geometria. É uma tecnologia fundamental para permitir que sistemas autónomos naveguem com segurança, compreendam o seu ambiente e interajam com objetos físicos.

Mecanismos e técnicas fundamentais

Existem várias maneiras de estimar a profundidade, desde soluções baseadas em hardware até abordagens puramente orientadas por software que utilizam inteligência artificial.

  • Sistemas de visão estéreo: semelhante aos olhos humanos, a visão estéreo utiliza duas câmaras colocadas lado a lado. Algoritmos analisam as pequenas diferenças, ou disparidade, entre as imagens esquerda e direita para triangular a distância. Isso depende muito da precisão da correspondência de características para identificar os mesmos pontos em ambos os quadros.
  • Estimativa de profundidade monocular: este método avançado estima a profundidade a partir de uma única imagem. Como uma única foto 2D carece de dados de profundidade inerentes, os modelos de aprendizagem profunda são treinados em vastos conjuntos de dados para reconhecer pistas visuais como perspetiva, tamanho do objeto e oclusão. Arquiteturas modernas, como redes neurais convolucionais (CNNs), se destacam nessa tarefa, tornando possível derivar uma estrutura 3D a partir de câmaras padrão.
  • LiDAR e tempo de voo (ToF): Sensores ativos como LiDAR (Light Detection and Ranging) e câmaras de tempo de voo emitem pulsos de luz e medem o tempo que levam para retornar. Esses métodos geram nuvens de pontos altamente precisas e são frequentemente usados para coletar dados de referência para treinar modelos de aprendizagem automática.

Aplicações no Mundo Real

A capacidade de medir distâncias é transformadora em muitos setores, impulsionando aplicações que exigem consciência espacial .

  • Condução autónoma: Os carros autônomos dependem da estimativa de profundidade para detect , medir a distância até outros veículos e navegar com segurança em redes rodoviárias complexas. É essencial para a detecção de objetos 3D para identificar peões e ciclistas.
  • Robótica e automação: os robôs usam a percepção de profundidade para tarefas como planeamento de trajetórias e manipulação de objetos. Por exemplo, um robô de armazém precisa saber exatamente a que distância está uma prateleira para pegar um pacote sem colidir com ela.
  • Realidade aumentada (RA): Para colocar objetos virtuais de forma convincente numa cena do mundo real, os dispositivos de RA devem compreender a geometria 3D do ambiente. A estimativa de profundidade garante que os personagens virtuais possam esconder-se atrás de móveis reais, um conceito conhecido como tratamento de oclusão.

Exemplo de código: Estimativa de profundidade monocular

Embora existam modelos de profundidade especializados, muitas vezes é possível inferir relações espaciais usando caixas delimitadoras de detecção de objetos como um proxy para distância em cenários simples (caixas maiores geralmente significam objetos mais próximos). Veja como carregar um modelo usando o ultralytics pacote para detect , que é o primeiro passo em muitos pipelines sensíveis à profundidade.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Process results
for result in results:
    # Get bounding boxes (xyxy format)
    boxes = result.boxes.xyxy

    # Iterate through detections
    for box in boxes:
        print(f"Detected object at: {box}")

Relação com outros conceitos de visão computacional

É importante distinguir a estimativa de profundidade de termos relacionados. Enquanto a detecção de objetos identifica o que e onde um objeto está no espaço 2D (usando uma caixa delimitadora), a estimativa de profundidade identifica a que distância ele está (eixo Z). Da mesma forma, a segmentação semântica classifica os pixels em categorias (por exemplo, estrada, céu, carro), enquanto a estimativa de profundidade atribui um valor de distância a esses mesmos pixels.

Avanços na IA espacial

Os recentes avanços na IA generativa estão a colmatar a lacuna entre a visão 2D e 3D. Técnicas como Neural Radiance Fields (NeRF) utilizam múltiplas imagens 2D para reconstruir cenas 3D complexas, baseando-se fortemente em princípios de profundidade subjacentes. Além disso, à medida que as técnicas de otimização de modelos melhoram, torna-se viável executar estimativas de profundidade altamente precisas em dispositivos de IA de ponta. Isso permite a computação espacial em tempo real em hardware tão pequeno quanto drones ou óculos inteligentes, facilitada por plataformas como a Ultralytics para treinamento e implantação eficientes de modelos.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora