Yolo 비전 선전
선전
지금 참여하기
용어집

XGBoost

분류 및 회귀 작업에서 정확한 예측을 위한 강력하고 빠르며 다재다능한 머신러닝 알고리즘인 XGBoost를 알아보세요.

익스트림 그라데이션 부스팅(XGBoost)은 고도로 최적화되고 유연한 소프트웨어 라이브러리로, 그라데이션 부스팅 프레임워크인 그라데이션 부스팅 프레임워크를 구현하는 매우 최적화되고 유연한 소프트웨어 라이브러리입니다. 이 라이브러리는 뛰어난 속도로 머신 러닝(ML) 분야에서 탁월한 속도와 특히 구조화된 데이터나 표 형식의 데이터에서 뛰어난 속도와 성능을 자랑합니다. 처음에는 워싱턴 대학교의 연구 프로젝트로 개발되었습니다. 워싱턴 대학교의 연구 프로젝트로 개발된 XGBoost는 대용량 데이터를 처리하는 능력 덕분에 대규모 데이터 세트를 처리할 수 있는 능력으로 인해 데이터 과학의 필수품이 되었습니다. 데이터 과학 경진대회에서 최첨단 결과를 달성할 수 있기 때문입니다. 기능 앙상블 방법으로, 여러 약한 모델의 예측을 결합하여 여러 개의 약한 모델을 결합하여 강력한 강력한 학습자를 생성하는 앙상블 방식으로 작동합니다.

XGBoost 작동 원리

XGBoost의 핵심 원리는 그라데이션 부스팅입니다, 새로운 모델을 순차적으로 추가하여 기존 모델의 오류를 수정하는 기술입니다. 구체적으로 살펴보면 의사 결정 트리를 기본 학습자로 사용합니다. 표준 부스팅과 달리 부스팅과 달리, XGBoost는 볼록한 손실 함수를 결합한 특정 목적 함수를 사용하여 훈련 프로세스를 최적화합니다. 손실 함수 (예측 값과 실제 값의 차이 측정 예측값과 실제값의 차이 측정)과 정규화 용어(모델 복잡성에 페널티를 부여)를 결합한 특정 목적 함수를 사용하여 학습 프로세스를 최적화합니다.

XGBoost는 몇 가지 시스템 최적화를 통해 기존의 그라데이션 부스팅을 개선했습니다:

  • 병렬 처리: 부스팅은 본질적으로 순차적이지만, XGBoost는 각 트리의 구성을 병렬화하여 모델 학습 시간을 크게 단축합니다. 모델 훈련 시간을 크게 단축합니다.
  • 정규화: 과적합을 방지하기 위해 L1(올가미) 및 L2(능선) 정규화가 포함되어 있습니다. 과적합을 방지하여 모델이 새로운 데이터에 잘 일반화되도록 잘 일반화합니다.
  • 나무 가지치기: 알고리즘 은 "max_depth" 매개변수와 역방향 가지치기를 사용하여 양의 이득을 제공하지 않는 분할을 제거합니다, 모델 구조를 최적화합니다.
  • 누락된 데이터 처리: XGBoost 는 학습 중에 누락된 값을 처리하는 최적의 방향을 학습하여 데이터 전처리 파이프라인을 간소화합니다.

실제 애플리케이션

확장성과 효율성 덕분에 XGBoost는 다양한 산업 분야에서 중요한 의사 결정을 위한 작업에 배포됩니다.

  1. 금융 사기 탐지: 금융 기관은 다음을 위해 XGBoost를 활용합니다. 이상 징후 탐지를 통해 사기 거래를 식별합니다. 거래를 식별합니다. 이 모델은 거래 내역과 사용자 행동을 분석하여 활동을 합법적인 것으로 classify 의심스러운 활동을 높은 정밀도로 분류하고 리콜.
  2. 의료 위험 예측: 의료 데이터 분석 의료 데이터 분석에서 XGBoost는 다음을 위해 사용됩니다. 재입원 가능성이나 당뇨병과 같은 만성 질환의 발병 가능성 등 환자 결과를 예측하는 데 사용됩니다, 구조화된 환자 기록과 임상 변수를 기반으로 합니다.

다른 모델과의 비교

ML 환경에서 XGBoost가 어디에 적합한지 이해하려면 다른 인기 알고리즘과 구별해야 합니다.

  • XGBoost와 랜덤 포레스트 비교: 둘 다 둘 다 트리 기반 앙상블 방식이지만, 랜덤 포레스트는 트리를 만드는 배깅이라는 기법을 사용합니다. 트리를 독립적으로 병렬로 구축합니다. 이와 대조적으로, XGBoost는 트리를 순차적으로 구축하여 이전 오류를 수정하는 부스팅을 사용합니다. XGBoost는 일반적으로 더 높은 정확도를 제공하지만 더 세심한 하이퍼파라미터 튜닝이 필요합니다.
  • XGBoost와 딥 러닝(DL) 비교: XGBoost는 정형/표 형식 데이터에 대한 업계 표준입니다. 그러나 이미지나 동영상과 같은 비정형 데이터의 경우 이미지나 비디오와 같은 비정형 데이터의 경우, 다음과 같은 딥 러닝 모델이 컨볼루션 신경망(CNN) 과 같은 딥 러닝 모델이 더 우수합니다. 물체 감지와 같은 작업의 경우 다음과 같은 최신 비전 모델 Ultralytics YOLO11 과 같은 최신 비전 모델이 같은 최신 비전 모델이 선호됩니다.

구현 예시

다음 Python 예제는 간단한 분류기를 훈련하는 방법을 보여줍니다. xgboost 라이브러리를 합성 데이터 세트. 이는 XGBoost를 표준에 통합하는 것이 얼마나 쉬운지를 보여줍니다. 데이터 과학 워크플로.

import xgboost as xgb
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# Create a synthetic dataset for binary classification
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Initialize and train the XGBoost classifier
model = xgb.XGBClassifier(n_estimators=100, learning_rate=0.1, max_depth=3)
model.fit(X_train, y_train)

# Display the accuracy on the test set
print(f"Model Accuracy: {model.score(X_test, y_test):.4f}")

수학적 기초에 대한 더 자세한 내용은 원본 XGBoost 연구 논문에서 시스템 설계에 대한 심층적인 설명을 제공합니다. 시스템 설계에 대한 자세한 설명을 제공합니다. 또한 다음과 같은 분야에 관심이 있는 사용자는 컴퓨터 비전(CV) 애플리케이션에 관심이 있는 사용자는 시각적 데이터 입력을 처리하여 표 형식 모델을 보완하는 Ultralytics YOLO 모델 시각적 데이터 입력.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기