벤치마크 데이터 세트가 공정한 모델 평가, 재현성 및 머신 러닝의 발전을 가능하게 함으로써 AI 혁신을 주도하는 방법을 알아보십시오.
벤치마크 데이터 세트는 표준화된 고품질의 데이터 모음으로, 머신 러닝 모델의 성능을 머신 러닝(ML) 모델의 성능을 공정하고 재현 가능한 방식으로 평가하는 데 사용되는 표준화된 고품질 데이터 모음입니다. 내부 테스트에 사용되는 비공개 데이터와 달리, 벤치마크 데이터 세트는 전체 연구 커뮤니티를 위한 공개적인 "측정봉" 역할을 합니다. 정확히 동일한 입력과 동일한 입력과 동일한 평가 지표를 사용하여 개발자는 다음을 수행할 수 있습니다. 어떤 모델이 더 뛰어난 정확도, 속도 또는 효율성을 제공하는지 객관적으로 판단할 수 있습니다. 이러한 데이터 세트는 다음과 같은 분야에서 다음과 같은 분야의 진행 상황 추적 컴퓨터 비전(CV) 및 자연어 처리와 같은 분야의 진행 상황을 추적하는 데 기본이 됩니다.
빠르게 진화하는 인공 지능 (AI), 주장 새로운 모델이 "더 빠르다" 또는 "더 정확하다"고 주장하는 것은 공유된 기준점 없이는 의미가 없습니다. 의미가 없습니다. 벤치마크 데이터 세트는 이러한 공통점을 제공합니다. 벤치마크 데이터 세트는 일반적으로 특정 과제를 대표하도록 큐레이션됩니다, 작은 물체 감지 또는 열악한 조명 조건 처리와 같은 특정 과제를 나타내도록 선별됩니다. 다음과 같은 인기 있는 과제는 다음과 같습니다. ImageNet 대규모 시각 인식 챌린지(ILSVRC), 는 건전한 경쟁을 촉진하기 위해 이러한 데이터 세트에 의존합니다. 이러한 표준화는 모델 아키텍처의 개선이 모델 아키텍처의 진정한 발전 더 쉬운 비표준 데이터에 대한 테스트의 결과가 아닌 진정한 발전을 보장합니다.
벤치마크 데이터 세트와 표준 개발 수명 주기 동안 사용되는 데이터 분할을 구분하는 것이 중요합니다:
벤치마크 데이터 세트는 엄격한 안전 및 신뢰성 표준을 설정하여 다양한 산업에서 성공을 정의합니다. 엄격한 안전 및 신뢰성 표준을 수립하여 성공을 정의합니다.
객체 감지에서 가장 눈에 띄는 예는 COCO (컨텍스트 내 공통 개체) 데이터 세트입니다. Ultralytics 새로운 아키텍처를 출시할 때 아키텍처를 출시할 때 YOLO11와 같은 새로운 아키텍처를 출시할 때 그 성능을 엄격하게 COCO 벤치마킹하여 개선 사항을 확인합니다. 평균 평균 정밀도(mAP). 이 연구자들은 사람, 자전거, 동물과 같은 일상적인 물체를 감지하는 데 있어 YOLO11 이전 반복이나 다른 최신 모델과 비교했을 때 사람, 자전거, 동물과 같은 일상적인 물체를 감지하는 데 있어 이전 모델이나 다른 최신 모델과 정확히 비교할 수 있습니다.
자동차 산업에서 안전은 무엇보다 중요합니다. 자율주행차 개발자들은 자율 주행 차량 개발자는 전문 벤치마크를 활용합니다. Waymo 오픈 데이터 세트. 이러한 데이터 세트에는 다음과 같은 복잡하고 주석이 달린 기록이 포함되어 있습니다. 보행자, 자전거, 교통 표지판 등 도시 주행 환경에 대한 복잡한 주석이 달린 기록이 포함되어 있습니다. 이러한 벤치마크에 따라 인식 시스템을 평가함으로써 엔지니어는 이러한 벤치마크에 따라 실제 교통 상황에서의 시스템의 실제 교통 시나리오에서의 견고성, AI가 동적 위험에 올바르게 반응하는지 확인할 수 있습니다.
Ultralytics 다음과 같은 다양한 내보내기 형식에서 모델을 쉽게 벤치마킹할 수 있는 기본 제공 도구를 제공합니다. ONNX 또는 TensorRT. 이를 통해 사용자는 추론 지연 시간과 정확도 사이의 추론 지연 시간과 정확도 사이의 절충점 사이의 최적의 균형을 파악하는 데 도움이 됩니다.
다음 예는 Python API를 사용하여 YOLO11 모델을 벤치마킹하는 방법을 보여줍니다. 이 프로세스는 표준 데이터 세트에서 모델의 속도와 정확도를 평가합니다.
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Run benchmarks to evaluate performance across different formats
# This checks speed and accuracy on the COCO8 dataset
results = model.benchmark(data="coco8.yaml", imgsz=640, half=False)
벤치마크는 필수적이지만 완벽하지는 않습니다. "데이터 세트 편향"이라는 현상이 발생할 수 있습니다. 벤치마크가 현실 세계의 다양성을 정확하게 반영하지 못하면 '데이터 세트 편향'이라는 현상이 발생할 수 있습니다. 예를 들어 얼굴 인식 벤치마크에 다양한 인구통계학적 표현이 부족한 얼굴 인식 벤치마크는 특정 그룹에 대해 제대로 작동하지 않는 모델로 이어질 수 있습니다. 또한 연구자는 다음을 준수해야 합니다. 특정 벤치마크에서 높은 점수를 얻기 위해 모델을 최적화하는 '시험에 맞춘 학습'을 피해야 합니다. 새로운 데이터에 대한 일반화를 희생하면서까지. 데이터 세트에 대한 지속적인 업데이트, 예를 들어 Objects365 프로젝트와 같은 데이터 세트에 대한 지속적인 업데이트는 다양성과 확장성을 높여 다양성과 규모를 늘림으로써 이러한 문제를 완화하는 데 도움이 됩니다.

