Khám phá sức mạnh của cây quyết định trong học máy để phân loại, hồi quy và các ứng dụng thực tế như chăm sóc sức khỏe và tài chính.
Cây quyết định là một thuật toán học máy (ML) đa năng và được sử dụng rộng rãi thuộc thể loại học có giám sát . Nó sử dụng cấu trúc giống cây để mô hình hóa các quyết định và hậu quả có thể xảy ra của chúng, tương tự như sơ đồ luồng. Mỗi nút bên trong biểu diễn một bài kiểm tra trên một thuộc tính (hoặc tính năng), mỗi nhánh biểu diễn kết quả của bài kiểm tra và mỗi nút lá biểu diễn một nhãn lớp (trong các tác vụ phân loại) hoặc một giá trị liên tục (trong các tác vụ hồi quy). Do cấu trúc trực quan của chúng, cây quyết định được biết đến là tương đối dễ hiểu và diễn giải, khiến chúng trở nên có giá trị đối với AI có thể giải thích được (XAI) .
Ý tưởng cốt lõi là chia tập dữ liệu thành các tập con ngày càng nhỏ hơn dựa trên các giá trị của các tính năng đầu vào, tạo ra cấu trúc cây. Quá trình bắt đầu tại nút gốc, biểu diễn toàn bộ tập dữ liệu. Tại mỗi nút, thuật toán chọn tính năng và ngưỡng tốt nhất để chia dữ liệu theo cách làm tăng độ tinh khiết hoặc tính đồng nhất của các tập con kết quả đối với biến mục tiêu. Các tiêu chí chung để tìm ra sự phân chia tốt nhất bao gồm tạp chất Gini và mức tăng thông tin (dựa trên entropy), đo lường sự hỗn loạn hoặc tính ngẫu nhiên trong một tập hợp. Quá trình phân chia này tiếp tục đệ quy cho đến khi đạt được tiêu chí dừng, chẳng hạn như đạt đến độ sâu tối đa, có số lượng mẫu tối thiểu trong một nút hoặc đạt được các nút lá thuần túy (các nút chỉ chứa các mẫu của một lớp). Để đưa ra dự đoán cho một điểm dữ liệu mới, nó sẽ duyệt cây từ gốc xuống một nút lá dựa trên kết quả của các bài kiểm tra tính năng và dự đoán là lớp đa số hoặc giá trị trung bình trong lá đó. Việc xử lý dữ liệu trước cẩn thận và kỹ thuật tính năng có thể tác động đáng kể đến hiệu suất của cây quyết định.
Cây quyết định có thể được phân loại thành hai loại chính:
Cây quyết định mang lại một số lợi ích:
Tuy nhiên, chúng cũng có nhược điểm:
Cây quyết định được sử dụng trong nhiều lĩnh vực khác nhau:
Cây quyết định tạo thành cơ sở cho các phương pháp tổng hợp phức tạp hơn như Rừng ngẫu nhiên và Cây tăng cường độ dốc (như XGBoost hoặc LightGBM ). Ví dụ, Rừng ngẫu nhiên xây dựng nhiều cây quyết định trên các tập hợp dữ liệu và tính năng khác nhau và tổng hợp các dự đoán của chúng, thường dẫn đến độ chính xác và độ mạnh mẽ tốt hơn chống lại tình trạng quá khớp so với một cây duy nhất. Mặc dù mạnh mẽ đối với nhiều vấn đề dữ liệu dạng bảng, nhưng cây quyết định khác đáng kể so với các mô hình như Mạng nơ-ron tích chập (CNN) hoặc Bộ chuyển đổi thị giác (ViT) được sử dụng trong thị giác máy tính . Các mô hình như Ultralytics YOLO11 tận dụng kiến trúc học sâu được tối ưu hóa cho các tác vụ như phát hiện đối tượng , phân loại hình ảnh và phân đoạn thể hiện , liên quan đến việc xử lý dữ liệu phức tạp, nhiều chiều như hình ảnh, một lĩnh vực mà các cây quyết định đơn lẻ kém hiệu quả hơn. Việc hiểu các mô hình nền tảng như cây quyết định cung cấp bối cảnh có giá trị trong bối cảnh rộng hơn của AI và mô hình dự đoán . Các công cụ như Scikit-learn cung cấp các triển khai phổ biến cho cây quyết định, trong khi các nền tảng như Ultralytics HUB hợp lý hóa quá trình phát triển và triển khai các mô hình thị giác tiên tiến.