Thuật ngữ

Tăng cường CatBoost

Tăng cường các dự án học máy của bạn với CatBoost, một thư viện tăng cường độ dốc mạnh mẽ, vượt trội trong xử lý dữ liệu theo danh mục và các ứng dụng thực tế.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

CatBoost là một thư viện tăng cường độ dốc mã nguồn mở, tinh vi do Yandex phát triển. Nó đã đạt được sự phổ biến đáng kể trong cộng đồng học máy (ML) vì khả năng đặc biệt của nó trong việc xử lý trực tiếp các tính năng phân loại, thường dẫn đến cải thiện độ chính xác của mô hình và giảm nhu cầu xử lý dữ liệu trước mở rộng. Được xây dựng dựa trên các nguyên tắc của tăng cường độ dốc , CatBoost sử dụng các phương pháp tổng hợp sử dụng cây quyết định nhưng kết hợp các kỹ thuật độc đáo để quản lý dữ liệu hiệu quả, đặc biệt là dữ liệu có cấu trúc hoặc dạng bảng phổ biến trong nhiều ứng dụng kinh doanh.

Các khái niệm và kỹ thuật cốt lõi

Nền tảng của CatBoost nằm ở việc tăng cường độ dốc, trong đó các mô hình được xây dựng tuần tự, với mỗi mô hình mới cố gắng sửa các lỗi do mô hình trước đó gây ra. CatBoost giới thiệu một số cải tiến chính:

  • Xử lý tính năng danh mục được tối ưu hóa: Không giống như nhiều thuật toán yêu cầu chuyển đổi thủ công các tính năng danh mục (như tên thành phố hoặc loại sản phẩm) thành định dạng số (ví dụ, thông qua mã hóa one-hot ), CatBoost triển khai các chiến lược mới như tăng cường theo thứ tự và thống kê mục tiêu. Điều này cho phép nó sử dụng các tính năng danh mục trực tiếp và nắm bắt hiệu quả các phụ thuộc phức tạp mà không cần kỹ thuật tính năng mở rộng.
  • Ordered Boosting: Một kỹ thuật được thiết kế để chống rò rỉ mục tiêu (khi thông tin từ biến mục tiêu vô tình ảnh hưởng đến việc xử lý các tính năng trong quá trình đào tạo) và giảm tình trạng quá khớp . Điều này giúp cải thiện khả năng khái quát hóa của mô hình đối với dữ liệu chưa biết.
  • Cây đối xứng: CatBoost sử dụng cây quyết định đối xứng (hoặc oblivious), trong đó cùng một tiêu chí phân tách được áp dụng trên toàn bộ cấp độ của cây. Cấu trúc này hoạt động như một dạng chính quy hóa , tăng tốc thực thi và giúp ngăn ngừa tình trạng quá khớp.

Phân biệt CatBoost với các thuật toán tương tự

CatBoost thường được so sánh với các thư viện tăng cường độ dốc phổ biến khác như XGBoostLightGBM . Trong khi cả ba đều là những công cụ mạnh mẽ cho các tác vụ học có giám sát trên dữ liệu dạng bảng, thì lợi thế chính của CatBoost nằm ở khả năng xử lý các tính năng phân loại tiên tiến, gốc của nó. Điều này thường đơn giản hóa quy trình mô hình hóa, yêu cầu ít điều chỉnh siêu tham số thủ công và xử lý trước hơn so với XGBoost hoặc LightGBM, đặc biệt là khi xử lý các tập dữ liệu giàu biến phân loại. Điều quan trọng cần nhớ là các máy tăng cường độ dốc này chủ yếu vượt trội với dữ liệu dạng bảng có cấu trúc. Đối với các tác vụ liên quan đến dữ liệu không có cấu trúc như hình ảnh hoặc video, điển hình trong thị giác máy tính (CV) , các kiến trúc chuyên biệt như Mạng nơ-ron tích chập (CNN) và các mô hình như Ultralytics YOLO thường được ưu tiên. Các mô hình CV này xử lý các tác vụ như phân loại hình ảnh , phát hiện đối tượngphân đoạn hình ảnh , thường được quản lý và triển khai bằng các nền tảng như Ultralytics HUB .

Ứng dụng trong thế giới thực

Điểm mạnh của CatBoost khiến nó phù hợp với nhiều ứng dụng khác nhau, đặc biệt là khi dữ liệu bao gồm cả loại số và loại phân loại:

  • Phát hiện gian lận tài chính: Trong lĩnh vực ngân hàng và tài chính ( AI trong tài chính ), CatBoost có thể sử dụng hiệu quả các tính năng phân loại như loại giao dịch, danh mục thương gia, vị trí người dùng và thời gian trong ngày để xây dựng các mô hình mạnh mẽ nhằm xác định các hoạt động gian lận. Khả năng xử lý các tính năng này mà không cần xử lý trước mở rộng rất có giá trị. Tìm hiểu thêm về ML trong phát hiện gian lận .
  • Hệ thống đề xuất thương mại điện tử: CatBoost có thể cung cấp năng lượng cho hệ thống đề xuất bằng cách học hỏi từ dữ liệu hành vi của người dùng, thường bao gồm thông tin theo danh mục như danh mục sản phẩm, thương hiệu, thông tin nhân khẩu học của người dùng và lịch sử duyệt web. Điều này giúp cung cấp các đề xuất sản phẩm được cá nhân hóa. Khám phá Sổ tay hệ thống đề xuất để biết thêm bối cảnh.
  • Dự đoán tình trạng mất khách hàng: Các doanh nghiệp sử dụng CatBoost để dự đoán khách hàng nào có khả năng ngừng sử dụng dịch vụ của họ, tận dụng dữ liệu theo danh mục như gói đăng ký, loại tương tác hỗ trợ khách hàng và thông tin nhân khẩu học.
  • Dự báo thời tiết: Dự đoán các kiểu thời tiết liên quan đến nhiều biến số phân loại (như loại mây hoặc loại mưa) cùng với dữ liệu số, khiến CatBoost trở thành một lựa chọn khả thi.
  • Hỗ trợ chẩn đoán y khoa: Trong khi phân tích hình ảnh y khoa thường dựa vào mô hình CV, CatBoost có thể được sử dụng với dữ liệu bệnh nhân có cấu trúc (bao gồm các trường phân loại như triệu chứng hoặc mã bệnh sử) để hỗ trợ dự đoán chẩn đoán.

Công cụ và tích hợp

CatBoost có sẵn dưới dạng thư viện nguồn mở với các API thân thiện với người dùng, chủ yếu dành cho Python , nhưng cũng hỗ trợ R và giao diện dòng lệnh. Nó tích hợp tốt với các khuôn khổ khoa học dữ liệu phổ biến như PandasScikit-learn , giúp dễ dàng kết hợp vào các quy trình MLOps hiện có. Các nhà khoa học dữ liệu thường sử dụng nó trong các môi trường như sổ ghi chép Jupyter và trên các nền tảng như Kaggle cho các cuộc thi và nghiên cứu. Mặc dù CatBoost khác biệt với các khuôn khổ học sâu như PyTorchTensorFlow , nhưng nó đại diện cho một giải pháp thay thế mạnh mẽ cho các loại dữ liệu và vấn đề cụ thể, đặc biệt là trong lĩnh vực mô hình dự đoán dạng bảng. Bạn có thể tìm thấy tài liệu hướng dẫn và hướng dẫn chi tiết trên trang web chính thức của CatBoost . Để biết thông tin chi tiết về việc đánh giá hiệu suất mô hình, hãy tham khảo hướng dẫn về số liệu hiệu suất YOLO , bao gồm các khái niệm áp dụng trên toàn bộ mô hình ML.

Đọc tất cả