Bảng chú giải thuật ngữ

Cây quyết định

Khám phá sức mạnh của cây quyết định trong machine learning để phân loại, hồi quy và các ứng dụng thực tế như chăm sóc sức khỏe và tài chính.

Cây quyết định (Decision Tree) là một mô hình học máy (ML) phổ biến và trực quan, sử dụng cấu trúc dạng cây để đưa ra các dự đoán. Nó hoạt động bằng cách chia một tập dữ liệu thành các tập hợp con nhỏ hơn và nhỏ hơn đồng thời phát triển một cây quyết định liên quan. Kết quả cuối cùng là một cây với các nút quyết định và các nút lá. Một nút quyết định đại diện cho một đặc trưng hoặc thuộc tính, một nhánh đại diện cho một quy tắc quyết định và mỗi nút lá đại diện cho một kết quả hoặc một nhãn lớp. Vì cấu trúc của nó giống với một sơ đồ luồng, nó là một trong những mô hình dễ hiểu và giải thích nhất, khiến nó trở thành nền tảng của mô hình hóa dự đoán.

Cách cây quyết định hoạt động

Quá trình xây dựng cây quyết định bao gồm việc chia đệ quy dữ liệu huấn luyện dựa trên các giá trị của các thuộc tính khác nhau. Thuật toán chọn thuộc tính tốt nhất để chia dữ liệu ở mỗi bước, nhằm mục đích làm cho các nhóm con kết quả "thuần khiết" nhất có thể—nghĩa là mỗi nhóm chủ yếu bao gồm các điểm dữ liệu có cùng kết quả. Quá trình phân tách này thường được hướng dẫn bởi các tiêu chí như Gini impurity hoặc Information Gain, đo lường mức độ hỗn loạn hoặc ngẫu nhiên trong các nút.

Cây quyết định bắt đầu với một nút gốc duy nhất chứa tất cả dữ liệu. Sau đó, nó phân chia thành các nút quyết định, đại diện cho các câu hỏi về dữ liệu (ví dụ: "Tuổi của khách hàng có trên 30 không?"). Các phân chia này tiếp tục cho đến khi các nút thuần khiết hoặc đáp ứng một điều kiện dừng, chẳng hạn như độ sâu cây tối đa. Các nút cuối cùng, không được phân chia được gọi là nút lá và chúng cung cấp dự đoán cuối cùng cho bất kỳ điểm dữ liệu nào tiếp cận chúng. Ví dụ: một nút lá có thể phân loại một giao dịch là "gian lận" hoặc "không gian lận". Tính dễ hiểu này là một lợi thế quan trọng, thường được nhấn mạnh trong các cuộc thảo luận về AI có thể giải thích (Explainable AI - XAI).

Các Ứng dụng Thực tế

Cây quyết định rất linh hoạt và được sử dụng cho cả tác vụ phân loại và hồi quy trong nhiều ngành công nghiệp khác nhau.

AI trong chăm sóc sức khỏe để chẩn đoán (AI in Healthcare for Diagnosis): Cây quyết định có thể được sử dụng để tạo mô hình chẩn đoán sơ bộ. Mô hình sẽ lấy dữ liệu bệnh nhân như các triệu chứng (sốt, ho), tuổi và kết quả xét nghiệm làm đầu vào (tính năng). Sau đó, cây sẽ tuân theo một loạt các quy tắc quyết định để dự đoán khả năng mắc một bệnh cụ thể. Ví dụ: một phân tách có thể dựa trên việc bệnh nhân có bị sốt hay không, sau đó là một phân tách khác về mức độ nghiêm trọng của ho, cuối cùng dẫn đến một nút lá gợi ý một chẩn đoán có thể xảy ra. Điều này cung cấp một đường dẫn dựa trên quy tắc rõ ràng để các chuyên gia y tế tuân theo. Thông tin chi tiết hơn về lĩnh vực này có thể được tìm thấy tại Viện Hình ảnh Y sinh và Kỹ thuật Sinh học Quốc gia (NIBIB).
Dịch vụ tài chính để đánh giá rủi ro tín dụng: Các ngân hàng và tổ chức tài chính sử dụng cây quyết định để xác định khả năng đủ điều kiện vay. Mô hình phân tích dữ liệu người đăng ký như điểm tín dụng, thu nhập, số tiền vay và lịch sử việc làm. Cây có thể phân tách đầu tiên dựa trên điểm tín dụng. Nếu điểm cao, nó sẽ đi theo một đường dẫn; nếu thấp, một đường dẫn khác. Các phân tách tiếp theo về thu nhập và thời hạn vay giúp phân loại người đăng ký là rủi ro thấp hoặc rủi ro cao, ảnh hưởng đến quyết định phê duyệt khoản vay. Ứng dụng này là một phần cốt lõi của AI trong tài chính.

Mối quan hệ với các Mô hình khác

Cây quyết định tạo thành cơ sở cho các phương pháp ensemble (tập hợp) phức tạp hơn, thường mang lại độ chính xác cao hơn.

Random Forests (Rừng ngẫu nhiên): Mô hình phổ biến này xây dựng nhiều cây quyết định trên các tập hợp con ngẫu nhiên khác nhau của dữ liệu và các đặc trưng. Sau đó, nó tổng hợp các dự đoán của chúng (bằng cách bỏ phiếu cho phân loại hoặc tính trung bình cho hồi quy), điều này cải thiện hiệu suất và làm cho mô hình mạnh mẽ hơn trước tình trạng quá khớp (overfitting).
Cây tăng cường độ dốc: Các mô hình như XGBoost và LightGBM là các kỹ thuật ensemble (tập hợp) nâng cao, xây dựng cây quyết định tuần tự, trong đó mỗi cây mới sửa các lỗi của cây trước đó.
K-Means Clustering: Điều quan trọng là phải phân biệt cây quyết định với các thuật toán phân cụm. K-Means là một phương pháp học không giám sát (unsupervised learning) để nhóm dữ liệu chưa được gắn nhãn, trong khi cây quyết định được sử dụng cho học có giám sát (supervised learning) để đưa ra dự đoán dựa trên dữ liệu đã được gắn nhãn.
Convolutional Neural Networks (CNNs) (Mạng nơ-ron tích chập): Mặc dù mạnh mẽ đối với các bài toán với dữ liệu dạng bảng, cây quyết định (decision tree) ít hiệu quả hơn đối với dữ liệu nhiều chiều như hình ảnh. Trong computer vision (thị giác máy tính), các mô hình như CNNs và Vision Transformers (ViT) được sử dụng thay thế. Các kiến trúc hiện đại như Ultralytics YOLO11 tận dụng các cấu trúc deep learning (học sâu) này cho các tác vụ phức tạp như object detection (phát hiện đối tượng), image classification (phân loại ảnh) và instance segmentation (phân vùng thể hiện).

Hiểu các mô hình nền tảng như cây quyết định cung cấp bối cảnh giá trị trong bối cảnh rộng lớn hơn của trí tuệ nhân tạo (AI). Các công cụ như Scikit-learn cung cấp các triển khai phổ biến cho cây quyết định, trong khi các nền tảng như Ultralytics HUB hợp lý hóa việc phát triển và triển khai các mô hình thị giác tiên tiến cho các trường hợp sử dụng phức tạp hơn.

Cây quyết định

Huấn luyện các mô hình Ultralytics YOLO để hợp lý hóa quy trình làm việc trong các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Huấn luyện các mô hình AI trong vài giây với Ultralytics YOLO

Cách cây quyết định hoạt động

Các Ứng dụng Thực tế

Mối quan hệ với các Mô hình khác

Đọc thêm trong danh mục này

Từ bit đến qubit: Cách tối ưu hóa lượng tử đang định hình lại AI

Hướng dẫn nhanh cho người mới bắt đầu về cách đào tạo mô hình AI

Từ Dubai với những hiểu biết sâu sắc: Những điểm chính từ Hội nghị thượng đỉnh GDG MENA-T 2025

Tham gia cộng đồng Ultralytics