Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

LightGBM

Khám phá LightGBM, framework gradient boosting nhanh chóng, hiệu quả cho các tập dữ liệu lớn, mang lại độ chính xác cao trong các ứng dụng máy học.

LightGBM, hay Light Gradient Boosting Machine, là một nền tảng tăng cường độ dốc mã nguồn mở, hiệu suất cao được phát triển bởi Microsoft được sử dụng rộng rãi cho các tác vụ xếp hạng, phân loại và học máy (ML) khác. Nó được thiết kế đặc biệt để xử lý dữ liệu quy mô lớn với hiệu suất cao và sử dụng bộ nhớ thấp. Không giống như nhiều thuật toán khác gặp khó khăn với các tập dữ liệu khổng lồ, LightGBM được tối ưu hóa về tốc độ, khiến nó trở thành lựa chọn ưu tiên để làm việc với dữ liệu lớn trong cả ứng dụng công nghiệp và môi trường khoa học dữ liệu cạnh tranh. Bằng cách sử dụng các thuật toán học dựa trên cây, nó liên tục cải thiện dự đoán để đạt được kết quả tiên tiến.

Cơ chế cốt lõi và hiệu quả

Ưu điểm chính của LightGBM nằm ở cách tiếp cận độc đáo trong việc xây dựng cây quyết định . Trong khi các thuật toán tăng cường truyền thống thường sử dụng chiến lược tăng trưởng theo cấp độ (ưu tiên chiều sâu), LightGBM sử dụng chiến lược lá (ưu tiên tốt nhất). Phương pháp này chọn lá có độ mất delta lớn nhất để tăng trưởng, cho phép mô hình hội tụ nhanh hơn nhiều và đạt được độ chính xác cao hơn.

Để nâng cao hiệu suất hơn nữa mà không ảnh hưởng đến độ chính xác, LightGBM kết hợp hai kỹ thuật mới:

  • Lấy mẫu một phía dựa trên gradient (GOSS): Kỹ thuật này giảm mẫu các trường hợp dữ liệu. Nó giữ lại tất cả các trường hợp có gradient lớn (lỗi lớn hơn) và thực hiện lấy mẫu ngẫu nhiên trên các trường hợp có gradient nhỏ. Phương pháp này giả định rằng các điểm dữ liệu có gradient nhỏ hơn đã được đào tạo tốt, cho phép thuật toán tối ưu hóa tập trung vào các trường hợp khó hơn.
  • Gói tính năng độc quyền (EFB): Trong dữ liệu đa chiều, nhiều tính năng loại trừ lẫn nhau (chúng không bao giờ khác không cùng một lúc). EFB gói các tính năng này để giảm số chiều, giúp tăng tốc đáng kể quá trình huấn luyện mô hình .

Các Ứng dụng Thực tế

LightGBM đặc biệt hiệu quả đối với dữ liệu có cấu trúc hoặc dạng bảng và cung cấp năng lượng cho các hệ thống quan trọng trong nhiều ngành công nghiệp khác nhau.

  1. Phát hiện gian lận tài chính: Trong lĩnh vực tài chính, tốc độ là yếu tố then chốt. LightGBM được sử dụng để phân tích hàng triệu hồ sơ giao dịch theo thời gian thực nhằm phát hiện các hoạt động đáng ngờ. Bằng cách tích hợp AI vào quy trình làm việc tài chính , các tổ chức có thể giảm thiểu các trường hợp báo động giả và ngăn chặn gian lận trước khi sự việc được giải quyết.
  2. Chẩn đoán Chăm sóc Sức khỏe: Các chuyên gia y tế sử dụng LightGBM để lập mô hình dự đoán , đánh giá rủi ro cho bệnh nhân. Ví dụ, nó có thể phân tích tiền sử bệnh và các dấu hiệu sinh tồn của bệnh nhân để dự đoán khả năng mắc các bệnh như tiểu đường hoặc bệnh tim, đóng vai trò là một thành phần quan trọng của AI hiện đại trong chăm sóc sức khỏe .

So sánh với các mô hình khác

Để hiểu được vị trí của LightGBM trong bối cảnh ML, cần phải phân biệt nó với các thư viện tăng cường và khuôn khổ học sâu tương tự.

  • LightGBM so với XGBoost và CatBoost: Mặc dù XGBoostCatBoost cũng là những thư viện tăng cường độ dốc phổ biến, nhưng cách triển khai của chúng khác nhau. XGBoost thường sử dụng phương pháp tăng trưởng theo cấp độ, ổn định hơn nhưng thường chậm hơn phương pháp lá của LightGBM. CatBoost được tối ưu hóa đặc biệt cho dữ liệu phân loại, trong khi LightGBM thường yêu cầu tiền xử lý như kỹ thuật tính năng để xử lý các phân loại một cách tối ưu.
  • LightGBM so với Ultralytics YOLO : LightGBM vượt trội trong các tác vụ dữ liệu có cấu trúc (hàng và cột). Ngược lại, Ultralytics YOLO11 là một nền tảng học sâu (DL) được thiết kế cho dữ liệu phi cấu trúc, chẳng hạn như hình ảnh và video. Mặc dù LightGBM có thể dự đoán tỷ lệ khách hàng rời bỏ, YOLO Các mô hình thực hiện phát hiện đối tượngphân loại hình ảnh . Để có các giải pháp AI toàn diện, các nhà phát triển thường sử dụng Nền tảng Ultralytics để quản lý các mô hình thị giác cùng với các mô hình bảng như LightGBM.

Ví dụ mã

Sau đây là Python đoạn trích minh họa cách đào tạo bộ phân loại LightGBM cơ bản trên dữ liệu tổng hợp.

import lightgbm as lgb
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# Generate synthetic binary classification data
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Initialize and train the LightGBM model
model = lgb.LGBMClassifier(learning_rate=0.05, n_estimators=100)
model.fit(X_train, y_train)

# Display the accuracy score
print(f"Test Accuracy: {model.score(X_test, y_test):.4f}")

Để tìm hiểu thêm về các thuật toán cơ bản, bạn có thể khám phá tài liệu chính thức của LightGBM .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay