Thuật ngữ

Cây quyết định

Khám phá sức mạnh của cây quyết định trong học máy để phân loại, hồi quy và các ứng dụng thực tế như chăm sóc sức khỏe và tài chính.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Cây quyết định là một thuật toán học máy (ML) đa năng và được sử dụng rộng rãi thuộc thể loại học có giám sát . Nó sử dụng cấu trúc giống cây để mô hình hóa các quyết định và hậu quả có thể xảy ra của chúng, tương tự như sơ đồ luồng. Mỗi nút bên trong biểu diễn một bài kiểm tra trên một thuộc tính (hoặc tính năng), mỗi nhánh biểu diễn kết quả của bài kiểm tra và mỗi nút lá biểu diễn một nhãn lớp (trong các tác vụ phân loại) hoặc một giá trị liên tục (trong các tác vụ hồi quy). Do cấu trúc trực quan của chúng, cây quyết định được biết đến là tương đối dễ hiểu và diễn giải, khiến chúng trở nên có giá trị đối với AI có thể giải thích được (XAI) .

Cây quyết định hoạt động như thế nào

Ý tưởng cốt lõi là chia tập dữ liệu thành các tập con ngày càng nhỏ hơn dựa trên các giá trị của các tính năng đầu vào, tạo ra cấu trúc cây. Quá trình bắt đầu tại nút gốc, biểu diễn toàn bộ tập dữ liệu. Tại mỗi nút, thuật toán chọn tính năng và ngưỡng tốt nhất để chia dữ liệu theo cách làm tăng độ tinh khiết hoặc tính đồng nhất của các tập con kết quả đối với biến mục tiêu. Các tiêu chí chung để tìm ra sự phân chia tốt nhất bao gồm tạp chất Gini và mức tăng thông tin (dựa trên entropy), đo lường sự hỗn loạn hoặc tính ngẫu nhiên trong một tập hợp. Quá trình phân chia này tiếp tục đệ quy cho đến khi đạt được tiêu chí dừng, chẳng hạn như đạt đến độ sâu tối đa, có số lượng mẫu tối thiểu trong một nút hoặc đạt được các nút lá thuần túy (các nút chỉ chứa các mẫu của một lớp). Để đưa ra dự đoán cho một điểm dữ liệu mới, nó sẽ duyệt cây từ gốc xuống một nút lá dựa trên kết quả của các bài kiểm tra tính năng và dự đoán là lớp đa số hoặc giá trị trung bình trong lá đó. Việc xử lý dữ liệu trước cẩn thận và kỹ thuật tính năng có thể tác động đáng kể đến hiệu suất của cây quyết định.

Các loại cây quyết định

Cây quyết định có thể được phân loại thành hai loại chính:

  • Cây phân loại: Được sử dụng khi biến mục tiêu là phân loại (ví dụ: dự đoán 'rác' hoặc 'không phải rác'). Các nút lá biểu diễn nhãn lớp.
  • Cây hồi quy: Được sử dụng khi biến mục tiêu là liên tục (ví dụ: dự đoán giá nhà). Các nút lá biểu diễn giá trị số dự đoán, thường là giá trị trung bình của các giá trị mục tiêu của các mẫu đào tạo đạt đến lá đó.

Ưu điểm và nhược điểm

Cây quyết định mang lại một số lợi ích:

  • Khả năng diễn giải: Cấu trúc đồ họa của chúng giúp chúng dễ hình dung và dễ hiểu.
  • Chuẩn bị dữ liệu tối thiểu: Chúng thường yêu cầu ít công việc dọn dẹp dữ liệu hơn so với các thuật toán khác, chẳng hạn như cần ít chuẩn hóa dữ liệu hơn.
  • Xử lý dữ liệu phi tuyến tính: Có thể nắm bắt mối quan hệ phi tuyến tính giữa các tính năng và biến mục tiêu.
  • Mức độ quan trọng của tính năng: Về cơ bản, chúng cung cấp thước đo mức độ quan trọng của tính năng dựa trên thời điểm hoặc tần suất sử dụng tính năng để phân tách.

Tuy nhiên, chúng cũng có nhược điểm:

  • Quá khớp: Cây quyết định có thể dễ dàng trở nên quá phức tạp và thu thập nhiễu trong dữ liệu đào tạo , dẫn đến tổng quát hóa kém trên dữ liệu thử nghiệm chưa thấy. Các kỹ thuật như cắt tỉa hoặc thiết lập ràng buộc về sự phát triển của cây giúp giảm thiểu quá khớp .
  • Tính không ổn định: Những thay đổi nhỏ trong dữ liệu có thể tạo ra một cây hoàn toàn khác.
  • Độ lệch: Cây có thể bị lệch về phía các tính năng có nhiều cấp độ hoặc lớp chiếm ưu thế hơn nếu tập dữ liệu mất cân bằng.

Ứng dụng trong thế giới thực

Cây quyết định được sử dụng trong nhiều lĩnh vực khác nhau:

  1. Chẩn đoán y khoa: Hỗ trợ bác sĩ bằng cách tạo ra các mô hình gợi ý chẩn đoán dựa trên các triệu chứng của bệnh nhân và kết quả xét nghiệm. Ví dụ, một cây có thể hướng dẫn chẩn đoán bằng cách đặt câu hỏi về các triệu chứng theo trình tự ( AI trong các ứng dụng chăm sóc sức khỏe ).
  2. Dự đoán tình trạng mất khách hàng: Các doanh nghiệp sử dụng cây quyết định để xác định những khách hàng có khả năng ngừng sử dụng dịch vụ của họ dựa trên các mô hình sử dụng, thông tin nhân khẩu học và lịch sử tương tác, cho phép thực hiện các nỗ lực giữ chân khách hàng có mục tiêu ( Dự đoán tình trạng mất khách hàng ).
  3. Đánh giá rủi ro tài chính: Đánh giá khả năng tín dụng bằng cách phân tích các yếu tố như thu nhập, nợ và lịch sử tín dụng ( Mô hình thị giác máy tính trong tài chính ).
  4. Kiểm soát chất lượng sản xuất: Xác định các lỗi tiềm ẩn trong sản phẩm dựa trên dữ liệu cảm biến hoặc thông số quy trình ( Cải thiện sản xuất bằng thị giác máy tính ).

Mối quan hệ với các mô hình khác

Cây quyết định tạo thành cơ sở cho các phương pháp tổng hợp phức tạp hơn như Rừng ngẫu nhiên và Cây tăng cường độ dốc (như XGBoost hoặc LightGBM ). Ví dụ, Rừng ngẫu nhiên xây dựng nhiều cây quyết định trên các tập hợp dữ liệu và tính năng khác nhau và tổng hợp các dự đoán của chúng, thường dẫn đến độ chính xác và độ mạnh mẽ tốt hơn chống lại tình trạng quá khớp so với một cây duy nhất. Mặc dù mạnh mẽ đối với nhiều vấn đề dữ liệu dạng bảng, nhưng cây quyết định khác đáng kể so với các mô hình như Mạng nơ-ron tích chập (CNN) hoặc Bộ chuyển đổi thị giác (ViT) được sử dụng trong thị giác máy tính . Các mô hình như Ultralytics YOLO11 tận dụng kiến trúc học sâu được tối ưu hóa cho các tác vụ như phát hiện đối tượng , phân loại hình ảnhphân đoạn thể hiện , liên quan đến việc xử lý dữ liệu phức tạp, nhiều chiều như hình ảnh, một lĩnh vực mà các cây quyết định đơn lẻ kém hiệu quả hơn. Việc hiểu các mô hình nền tảng như cây quyết định cung cấp bối cảnh có giá trị trong bối cảnh rộng hơn của AImô hình dự đoán . Các công cụ như Scikit-learn cung cấp các triển khai phổ biến cho cây quyết định, trong khi các nền tảng như Ultralytics HUB hợp lý hóa quá trình phát triển và triển khai các mô hình thị giác tiên tiến.

Đọc tất cả