Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Deteção de objectos 3D

Explore a deteção de objectos 3D: como o LiDAR, as nuvens de pontos e a aprendizagem profunda criam caixas delimitadoras 3D precisas para veículos autónomos, robótica e RA.

A deteção de objetos 3D é uma técnica avançada de visão computacional (CV) que identifica, classifica e localiza objetos num ambiente tridimensional. Ao contrário da deteção tradicional de objetos 2D, que desenha uma caixa delimitadora retangular plana em torno de um item num plano de imagem, a deteção de objetos 3D estima um cuboide espacial. Este volume é definido por sete parâmetros-chave: as coordenadas centrais (x, y, z), as dimensões físicas (comprimento, largura, altura) e a orientação (ângulo de direção). Esses ricos dados espaciais permitem que os sistemas de inteligência artificial (IA) percebam o tamanho real, a distância e a posição dos objetos em relação ao sensor, preenchendo a lacuna entre a percepção digital e a interação física.

Como funciona a deteção de objectos 3D

Para construir uma compreensão volumétrica do mundo, os modelos de deteção 3D requerem dados de entrada que contenham informações geométricas. Enquanto o reconhecimento de imagem padrão depende da intensidade dos pixels, os métodos 3D frequentemente utilizam a fusão de sensores para combinar dados visuais com medições de profundidade.

As principais fontes de dados incluem:

  • LiDAR (Light Detection and Ranging): Estes sensores emitem pulsos de laser para medir distâncias precisas, gerando uma representação geométrica esparsa da cena, conhecida como nuvem de pontos.
  • Câmaras estéreo: Ao utilizar duas lentes para imitar a visão binocular, estes sistemas calculam a profundidade através de mapas de disparidade, permitindo a reconstrução de estruturas 3D a partir de desvios visuais.
  • Previsão de profundidade monocular: Algoritmos avançados de deep learning (DL) podem inferir a profundidade a partir de uma única imagem 2D, uma técnica frequentemente chamada de "pseudo-LiDAR", embora geralmente ofereça menor precisão do que sensores ativos.

Aplicações no Mundo Real

A capacidade de perceber profundidade e volume torna a deteção de objetos 3D o mecanismo de perceção para indústrias que interagem com o mundo físico.

  • Veículos autónomos: Os carros autônomos dependem da detecção 3D para track trajetória, a velocidade e a direção do tráfego ao redor. Ao processar dados do Waymo Open Dataset ou do nuScenes dataset, esses veículos podem prever possíveis colisões e planejar rotas seguras em ambientes dinâmicos.
  • Robótica: Os robôs industriais utilizam a perceção 3D para realizar a «seleção de caixas». Um braço robótico deve compreender a posição 3D exata de uma peça para a agarrar corretamente de uma pilha. Esta capacidade está integrada nos fluxos de trabalho modernos utilizando ferramentas como o Open3D para o processamento de dados.
  • Realidade aumentada (RA): para fixar personagens ou informações virtuais em superfícies do mundo real, estruturas como Google usam deteção 3D para mapear a geometria do ambiente, garantindo que os recursos digitais se alinhem perfeitamente com o chão ou as mesas físicas.

Deteção de objectos 3D vs. 2D

A distinção entre estas duas tecnologias reside na dimensionalidade da sua produção e nos seus casos de utilização pretendidos .

  • Detecção de objetos 2D: Opera no espaço da tela (pixels). Permite inferência em tempo real para tarefas como identificar uma pessoa num quadro de vídeo, mas não é possível saber a que distância em metros a pessoa se encontra.
  • Detecção de objetos 3D: Opera no espaço mundial (metros). Lida com oclusão de forma eficaz e fornece os dados de coordenadas necessários para um robô navegar fisicamente ao redor de um objeto.

Para cenários que exigem mais dados de orientação do que uma simples caixa quadrada, mas menos sobrecarga computacional do que 3D completo, a detecção Oriented Bounding Box (OBB) serve como um meio-termo eficiente. OBB é totalmente compatível com o YOLO26, o mais recente Ultralytics , permitindo detecções rotacionadas em imagens aéreas ou linhas de produção complexas.

Integração com o Ultralytics YOLO

Embora a detecção 3D completa geralmente exija arquiteturas especializadas como VoxelNet ou PointPillars, os detetores 2D de alta velocidade desempenham um papel fundamental em pipelines 3D "baseados em frustum". Neste fluxo de trabalho, um modelo como YOLO11 (ou o mais recente YOLO26) deteta o objeto na imagem 2D. Esta caixa 2D é então extrudida para o espaço 3D para isolar a secção relevante da nuvem de pontos LiDAR, reduzindo significativamente a área de pesquisa para o modelo 3D.

O exemplo a seguir demonstra como realizar inferência com um modelo OBB usando o ultralytics pacote, que fornece deteção sensível à rotação, frequentemente usada como precursor para análise 3D completa :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

Conceitos Relacionados

  • Estimativa de profundidade: uma tarefa de previsão por pixel que cria um mapa de profundidade de uma cena. Ao contrário da deteção de objetos, ela não identifica instâncias individuais de objetos ou suas classes.
  • Dados sintéticos: cenas 3D geradas artificialmente usadas para treinar modelos quando os dados 3D rotulados do mundo real são escassos ou caros para coletar.
  • PyTorch3D: Uma biblioteca que fornece componentes eficientes e reutilizáveis para pesquisa em visão computacional 3D com deep learning.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora