Saiba como a estimativa de profundidade adiciona perspectiva 3D à visão computacional. Explore técnicas como profundidade monocular e visão estéreo usando os modelos Ultralytics .
A estimativa de profundidade é um processo crítico na visão computacional que determina a distância dos objetos a partir de uma câmara, adicionando efetivamente uma terceira dimensão às imagens 2D. Ao calcular a distância de cada pixel numa imagem, essa técnica cria um mapa de profundidade, uma representação em que a intensidade do pixel corresponde à distância. Essa capacidade imita a visão binocular humana, permitindo que as máquinas percebam relações espaciais e geometria. É uma tecnologia fundamental para permitir que sistemas autónomos naveguem com segurança, compreendam o seu ambiente e interajam com objetos físicos.
Existem várias maneiras de estimar a profundidade, desde soluções baseadas em hardware até abordagens puramente orientadas por software que utilizam inteligência artificial.
A capacidade de medir distâncias é transformadora em muitos setores, impulsionando aplicações que exigem consciência espacial .
Embora existam modelos de profundidade especializados, muitas vezes é possível inferir relações espaciais usando caixas delimitadoras de detecção de objetos
como um proxy para distância em cenários simples (caixas maiores geralmente significam objetos mais próximos). Veja como carregar um modelo
usando o ultralytics pacote para detect , que é o primeiro passo em muitos pipelines sensíveis à profundidade.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")
É importante distinguir a estimativa de profundidade de termos relacionados. Enquanto a detecção de objetos identifica o que e onde um objeto está no espaço 2D (usando uma caixa delimitadora), a estimativa de profundidade identifica a que distância ele está (eixo Z). Da mesma forma, a segmentação semântica classifica os pixels em categorias (por exemplo, estrada, céu, carro), enquanto a estimativa de profundidade atribui um valor de distância a esses mesmos pixels.
Os recentes avanços na IA generativa estão a colmatar a lacuna entre a visão 2D e 3D. Técnicas como Neural Radiance Fields (NeRF) utilizam múltiplas imagens 2D para reconstruir cenas 3D complexas, baseando-se fortemente em princípios de profundidade subjacentes. Além disso, à medida que as técnicas de otimização de modelos melhoram, torna-se viável executar estimativas de profundidade altamente precisas em dispositivos de IA de ponta. Isso permite a computação espacial em tempo real em hardware tão pequeno quanto drones ou óculos inteligentes, facilitada por plataformas como a Ultralytics para treinamento e implantação eficientes de modelos.