용어집

의사 결정 트리

분류, 회귀, 의료 및 금융과 같은 실제 애플리케이션을 위한 머신 러닝에서 의사 결정 트리의 강력한 기능을 알아보세요.

의사 결정 트리는 나무와 같은 구조를 사용하여 예측을 하는 인기 있고 직관적인 머신 러닝(ML) 모델입니다. 의사 결정 트리는 데이터 집합을 점점 더 작은 하위 집합으로 나누면서 동시에 관련된 의사 결정 트리를 개발하는 방식으로 작동합니다. 최종 결과는 의사 결정 노드와 리프 노드가 있는 트리입니다. 의사 결정 노드는 특징 또는 속성을 나타내고, 분기는 의사 결정 규칙을 나타내며, 각 리프 노드는 결과 또는 클래스 레이블을 나타냅니다. 구조가 순서도와 유사하기 때문에 이해하고 해석하기 가장 간단한 모델 중 하나이며 예측 모델링의 초석이 됩니다.

의사 결정 트리의 작동 방식

의사 결정 트리를 구축하는 과정에는 다양한 속성의 값에 따라 학습 데이터를 재귀적으로 분할하는 작업이 포함됩니다. 알고리즘은 각 단계에서 데이터를 분할할 최적의 속성을 선택하여 결과 하위 그룹을 가능한 한 '순수'하게 만드는 것을 목표로 합니다. 즉, 각 그룹은 주로 동일한 결과를 가진 데이터 요소로 구성됩니다. 이 분할 프로세스는 노드의 무질서 또는 무작위성 수준을 측정하는 지니 불순도 또는 정보 이득과 같은 기준에 따라 결정되는 경우가 많습니다.

트리는 모든 데이터를 포함하는 단일 루트 노드로 시작합니다. 그런 다음 데이터에 대한 질문(예: "고객의 나이가 30세 이상인가?")을 나타내는 의사 결정 노드로 분할됩니다. 이러한 분할은 노드가 순수하거나 최대 트리 깊이와 같은 중지 조건이 충족될 때까지 계속됩니다. 분할되지 않은 최종 노드를 리프 노드라고 하며, 리프 노드에 도달하는 모든 데이터 포인트에 대한 최종 예측을 제공합니다. 예를 들어, 리프 노드는 트랜잭션을 "사기성" 또는 "사기성 없음"으로 분류할 수 있습니다. 이러한 해석 가능성은 설명 가능한 AI(XAI)에 대한 논의에서 종종 강조되는 핵심적인 장점입니다.

실제 애플리케이션

의사 결정 트리는 다양한 산업 분야에서 분류 및 회귀 작업에 모두 사용되는 다목적 도구입니다.

  1. 진단을 위한 의료 분야의 AI: 의사 결정 트리를 사용하여 예비 진단 모델을 만들 수 있습니다. 이 모델은 증상(발열, 기침), 나이, 실험실 결과와 같은 환자 데이터를 입력(특징)으로 사용합니다. 그런 다음 트리는 일련의 의사 결정 규칙에 따라 특정 질병의 가능성을 예측합니다. 예를 들어, 환자의 발열 여부에 따라 분할한 다음 기침의 심각도에 따라 다시 분할하여 궁극적으로 진단 가능성을 제시하는 리프 노드로 이어질 수 있습니다. 이는 의료 전문가가 따라야 할 명확한 규칙 기반의 경로를 제공합니다. 이 분야에 대한 더 자세한 인사이트는 국립 생의학 영상 및 생명공학 연구소(NIBIB)에서 확인할 수 있습니다.
  2. 신용 위험 평가를 위한 금융 서비스: 은행과 금융 기관은 의사 결정 트리를 사용하여 대출 자격을 결정합니다. 이 모델은 신용 점수, 소득, 대출 금액, 고용 이력 등의 신청자 데이터를 분석합니다. 트리는 먼저 신용 점수를 기준으로 분할될 수 있습니다. 신용 점수가 높으면 한 경로를 따르고, 낮으면 다른 경로를 따릅니다. 이후 소득과 대출 기간에 따라 분할하면 신청자를 저위험 또는 고위험으로 분류하여 대출 승인 결정에 영향을 미칩니다. 이 애플리케이션은 금융 분야에서 AI의 핵심적인 부분입니다.

다른 모델과의 관계

의사 결정 트리는 종종 더 높은 정확도를 제공하는 더 복잡한 앙상블 방법의 기초를 형성합니다.

  • 랜덤 포레스트: 이 인기 있는 모델은 데이터와 특징의 다양한 무작위 하위 집합에 대해 여러 의사 결정 트리를 구축합니다. 그런 다음 분류를 위해 투표하거나 회귀를 위해 평균을 내는 방식으로 예측을 집계하여 성능을 개선하고 과적합에 대해 모델을 더욱 강력하게 만듭니다.
  • 그라데이션 부스트 트리: XGBoostLightGBM과 같은 모델은 의사 결정 트리를 순차적으로 구축하여 각각의 새로운 트리가 이전 트리의 오류를 수정하는 고급 앙상블 기법입니다.
  • K-메인 클러스터링: 의사 결정 트리와 클러스터링 알고리즘을 구별하는 것이 중요합니다. K-Means는 레이블이 없는 데이터를 그룹화하는 비지도 학습 방법인 반면, 의사 결정 트리는 레이블이 있는 데이터를 기반으로 예측을 하는 지도 학습에 사용됩니다.
  • 컨볼루션 신경망(CNN): 의사 결정 트리는 표 형식의 데이터 문제에는 강력하지만 이미지와 같은 고차원 데이터에는 그다지 효과적이지 않습니다. 컴퓨터 비전에서는 CNN이나 비전 트랜스포머(ViT) 와 같은 모델이 대신 사용됩니다. Ultralytics YOLO11과 같은 최신 아키텍처는 이러한 딥 러닝 구조를 활용해 객체 감지, 이미지 분류, 인스턴스 분할과 같은 복잡한 작업을 처리합니다.

의사 결정 트리와 같은 기본 모델을 이해하면 인공 지능(AI)의 더 넓은 영역에서 중요한 맥락을 파악할 수 있습니다. Scikit-learn과 같은 도구는 의사 결정 트리를 위한 대중적인 구현을 제공하며, Ultralytics HUB와 같은 플랫폼은 더 복잡한 사용 사례를 위한 고급 비전 모델의 개발 및 배포를 간소화합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨