바운딩 박스가 객체 탐지, AI 및 머신러닝 시스템을 어떻게 활성화하는지 알아보세요. 컴퓨터 비전 애플리케이션에서의 역할에 대해 살펴보세요!
바운딩 박스는 이미지 또는 비디오 프레임 내에서 특정 객체를 둘러싸는 좌표 집합으로 정의된 직사각형 영역입니다. 컴퓨터 비전(CV) 분야에서 이러한 박스는 인공지능(AI) 시스템이 개별 항목을 찾아 인식하는 방법을 가르치는 기본 주석 역할을 합니다. 단순히 전체 이미지를 "자동차가 포함된" 것으로 분류하는 대신, 바운딩 박스는 모델이 자동차의 정확한 위치와 공간적 범위를 특정하여 배경 및 다른 개체들과 분리할 수 있게 합니다. 이러한 위치 지정 능력은 높은 정밀도로 여러 개체를 동시에 식별하는 것을 목표로 하는 객체 탐지 작업에 필수적입니다.
시각적 데이터를 효과적으로 처리하기 위해 머신 러닝(ML) 모델은 경계 상자를 수학적으로 표현하기 위한 특정 좌표계에 의존합니다. 선택된 형식은 종종 모델 훈련을 위한 데이터 준비 방식과 모델이 예측 결과를 출력하는 방식을 결정합니다.
바운딩 박스는 다양한 산업 분야의 수많은 AI 솔루션의 핵심 구성 요소입니다. 정밀한 위치 파악을 가능하게 함으로써 시스템이 물리적 세계와 지능적으로 상호작용할 수 있도록 합니다.
현대적인 아키텍처(예: YOLO26모델은
바운딩 박스와 함께 클래스 라벨 및
신뢰 점수다음 예제는 이미지를 대상으로 추론을 실행하고
경계 상자 좌표를 활용하는 방법을 보여줍니다. ultralytics 패키지입니다.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])
바운딩 박스는 일반적인 탐지에 표준으로 사용되지만, 더 세분화된 작업에 사용되는 다른 주석 유형과는 구별됩니다.
고품질 바운딩 박스 어노테이션 생성은 머신러닝 파이프라인의 핵심 단계입니다. Ultralytics 데이터 어노테이션 및 데이터셋 관리 도구를 제공하여 이 과정을 간소화합니다. 적절한 어노테이션은 모델이 객체를 정확히 구분하도록 학습시켜 과적합이나 배경 혼동과 같은 오류를 최소화합니다. 추론 단계에서는 비최대 억제(NMS) 와 같은 고급 기법을 활용하여 중복되는 박스를 제거함으로써 예측을 정제합니다. 이를 통해 각 객체에 대해 가장 정확한 탐지 결과만 남겨집니다.