Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Deteção de objectos 3D

Explore a deteção de objectos 3D: como o LiDAR, as nuvens de pontos e a aprendizagem profunda criam caixas delimitadoras 3D precisas para veículos autónomos, robótica e RA.

A deteção de objectos 3D é uma técnica sofisticada de técnica de visão por computador (CV) que identifica, classifica e classifica e localiza objectos num espaço tridimensional. Ao contrário da tradicional deteção de objectos 2D deteção de objectos 2D tradicional, que desenha uma retangular plana à volta de um objeto no plano da imagem, a a deteção de objectos 3D estima uma caixa delimitadora 3D orientada - um cuboide definido pelas suas coordenadas centrais (x, y, z), dimensões (comprimento, largura, altura) e orientação (ângulo de direção). Esta capacidade permite aos sistemas de sistemas de inteligência artificial (IA) para perceber o tamanho, a distância e a pose dos objectos no mundo real, o que é essencial para a interação física e a navegação.

Como funciona a deteção de objectos 3D

Para perceber a profundidade e o volume, os modelos de deteção de objectos 3D baseiam-se em fontes de dados que captam a geometria espacial. Enquanto os métodos 2D dependem apenas da intensidade dos pixéis, os métodos 3D processam dados de sensores avançados:

  • LiDAR (Light Detection and Ranging): Emite impulsos laser para medir distâncias exactas, gerando uma representação 3D esparsa conhecida como nuvem de pontos.
  • Câmaras estéreo: Utilizam duas lentes para simular a visão binocular, calculando a profundidade através de mapas de disparidade para reconstruir a estrutura 3D.
  • Câmaras monoculares: Utilizar a aprendizagem profunda (DL) para inferir a profundidade a partir de imagens individuais, muitas vezes referidas como técnicas "pseudo-LiDAR".

Arquitecturas especializadas processam estes dados. Por exemplo, PointNet processa diretamente nuvens de pontos em bruto, enquanto a VoxelNet divide o espaço 3D em grelhas volumétricas (voxels) para aplicar operações convolucionais. Estes modelos produzem as coordenadas 3D precisas e a orientação dos objectos, permitindo às máquinas compreender não só o que é um objeto, mas também onde se encontra exatamente no mundo físico.

Deteção de objectos 3D vs. 2D

A principal distinção reside na dimensionalidade espacial e na informação fornecida:

  • Deteção de objectos 2D: Funciona no espaço da imagem (pixéis). Produz uma caixa delimitadora (min_x, min_y, max_x, max_y) que indica a posição de um objeto no enquadramento da câmara, mas não tem profundidade ou tamanho absoluto.
  • Deteção de objectos 3D: Funciona no espaço mundial (metros/unidades). Produz um cuboide 3D que tem em conta profundidade, dimensões físicas e rotação. Isto lida melhor com a oclusão e permite uma medição precisa da distância medição precisa.

Para aplicações que requerem uma perceção espacial parcial sem uma sobrecarga total de 3D, caixa delimitadora orientada (OBB) serve como serve como meio-termo, prevendo caixas delimitadoras rodadas em 2D para melhor se adaptarem a objectos como navios ou veículos em vistas aéreas.

Aplicações no Mundo Real

A deteção de objectos 3D é o motor de perceção para as indústrias que interagem com o mundo físico:

  • Veículos autónomos: Os veículos autónomos, como os desenvolvidos pela Waymo, utilizam a deteção 3D em LiDAR e dados da câmara para track a velocidade, o rumo e a distância de outros veículos e peões para planear trajectórias seguras. trajectórias seguras.
  • Robótica: Os braços industriais e os robots móveis na fabrico dependem da perceção 3D para agarrar objectos objectos com poses específicas ou navegar em armazéns dinâmicos sem colisões.
  • Realidade Aumentada (RA): Os dispositivos utilizam a deteção 3D para ancorar objectos virtuais a superfícies do mundo real, garantindo que se alinham corretamente com a geometria do ambiente.

Integração com YOLO11

Enquanto YOLO11 seja principalmente um detetor 2D, ele desempenha um papel fundamental em muitos pipelines de deteção 3D. Uma abordagem comum, conhecida como "deteção baseada em frustum" utiliza um modelo 2D de alta velocidade para identificar a região de interesse numa imagem. Esta caixa 2D é depois extrudida para o espaço 3D para cortar a nuvem de pontos, reduzindo significativamente o espaço de pesquisa para o modelo 3D.

O exemplo seguinte demonstra como efetuar a etapa inicial de deteção 2D utilizando Ultralytics YOLO11, que que serviria de proposta para um módulo de levantamento 3D:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

Conceitos Relacionados

  • Estimativa da profundidade: Prevê a distância de cada pixel de uma imagem em relação à câmara. Embora forneça dados de profundidade, não identifica identifica inerentemente objectos individuais ou as suas dimensões como a deteção 3D.
  • Fusão de sensores: O processo de combinação de dados de vários sensores (por exemplo, LiDAR, radar e câmaras) para melhorar a precisão e a fiabilidade da deteção fiabilidade da deteção 3D.
  • Conjunto de dados NuScenes: Um conjunto de dados públicos em grande escala para a condução autónoma que fornece anotações de caixas delimitadoras 3D para dados LiDAR e dados da câmara, amplamente utilizados para aferir modelos 3D.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora