Explore a deteção de objectos 3D: como o LiDAR, as nuvens de pontos e a aprendizagem profunda criam caixas delimitadoras 3D precisas para veículos autónomos, robótica e RA.
A deteção de objetos 3D é uma técnica avançada de visão computacional (CV) que identifica, classifica e localiza objetos num ambiente tridimensional. Ao contrário da deteção tradicional de objetos 2D, que desenha uma caixa delimitadora retangular plana em torno de um item num plano de imagem, a deteção de objetos 3D estima um cuboide espacial. Este volume é definido por sete parâmetros-chave: as coordenadas centrais (x, y, z), as dimensões físicas (comprimento, largura, altura) e a orientação (ângulo de direção). Esses ricos dados espaciais permitem que os sistemas de inteligência artificial (IA) percebam o tamanho real, a distância e a posição dos objetos em relação ao sensor, preenchendo a lacuna entre a percepção digital e a interação física.
Para construir uma compreensão volumétrica do mundo, os modelos de deteção 3D requerem dados de entrada que contenham informações geométricas. Enquanto o reconhecimento de imagem padrão depende da intensidade dos pixels, os métodos 3D frequentemente utilizam a fusão de sensores para combinar dados visuais com medições de profundidade.
As principais fontes de dados incluem:
A capacidade de perceber profundidade e volume torna a deteção de objetos 3D o mecanismo de perceção para indústrias que interagem com o mundo físico.
A distinção entre estas duas tecnologias reside na dimensionalidade da sua produção e nos seus casos de utilização pretendidos .
Para cenários que exigem mais dados de orientação do que uma simples caixa quadrada, mas menos sobrecarga computacional do que 3D completo, a detecção Oriented Bounding Box (OBB) serve como um meio-termo eficiente. OBB é totalmente compatível com o YOLO26, o mais recente Ultralytics , permitindo detecções rotacionadas em imagens aéreas ou linhas de produção complexas.
Embora a detecção 3D completa geralmente exija arquiteturas especializadas como VoxelNet ou PointPillars, os detetores 2D de alta velocidade desempenham um papel fundamental em pipelines 3D "baseados em frustum". Neste fluxo de trabalho, um modelo como YOLO11 (ou o mais recente YOLO26) deteta o objeto na imagem 2D. Esta caixa 2D é então extrudida para o espaço 3D para isolar a secção relevante da nuvem de pontos LiDAR, reduzindo significativamente a área de pesquisa para o modelo 3D.
O exemplo a seguir demonstra como realizar inferência com um modelo OBB usando o
ultralytics pacote, que fornece deteção sensível à rotação, frequentemente usada como precursor para análise 3D completa
:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)