Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Hồi quy Logistic (Logistic Regression)

Khám phá sức mạnh của Hồi quy Logistic để phân loại nhị phân. Tìm hiểu các ứng dụng, khái niệm chính và tầm quan trọng của nó trong học máy.

Hồi quy Logistic là một thuật toán cơ bản trong lĩnh vực học máy (ML), chủ yếu được sử dụng cho các tác vụ phân loại nhị phân. Mặc dù thuật ngữ "hồi quy" trong tên gọi thường gây nhầm lẫn cho người mới bắt đầu, thuật toán này không được sử dụng để dự đoán các giá trị liên tục như giá nhà đất hay nhiệt độ. Thay vào đó, nó dự đoán xác suất một dữ liệu đầu vào nhất định thuộc về một danh mục cụ thể, chẳng hạn như "rác" hoặc "không phải thư rác". Thuật toán này đóng vai trò là điểm khởi đầu thiết yếu cho học có giám sát , mang lại sự cân bằng giữa tính đơn giản và khả năng diễn giải, khiến nó trở thành một cơ sở đáng tin cậy cho nhiều dự án mô hình hóa dự đoán.

Cơ chế của hồi quy logistic

Về cơ bản, Hồi quy Logistic biến đổi dữ liệu đầu vào thành một điểm xác suất nằm trong khoảng từ 0 đến 1 bằng một hàm toán học gọi là hàm Sigmoid . Không giống như Hồi quy Tuyến tính , vốn vẽ một đường thẳng lên dữ liệu để dự đoán một kết quả liên tục, Hồi quy Logistic vẽ một đường cong hình chữ "S". Đường cong này, còn được gọi là hàm logistic, ánh xạ bất kỳ số thực nào thành một giá trị xác suất.

Mô hình học weights and biases tối ưu cho các đặc trưng đầu vào trong quá trình huấn luyện. Điều này thường đạt được bằng cách tối thiểu hóa một hàm mất mát cụ thể được gọi là Log Loss (hoặc Binary Cross-Entropy) bằng một thuật toán tối ưu hóa như gradient descent . Nếu xác suất được tính toán vượt quá một ngưỡng xác định—thường là 0,5—mô hình sẽ gán trường hợp đó vào lớp dương; ngược lại, nó sẽ gán trường hợp đó vào lớp âm.

Các khái niệm và thuật ngữ chính

Để hiểu về Hồi quy Logistic, bạn cần phải quen thuộc với một số khái niệm cơ bản thường xuất hiện trong khoa học dữ liệu :

  • Ranh giới Quyết định: Giá trị ngưỡng phân tách các lớp. Ví dụ, trong không gian đặc trưng 2D, đây có thể là một đường thẳng phân tách hai nhóm điểm dữ liệu.
  • Chuẩn hóa: Các kỹ thuật như chuẩn hóa L1 hoặc L2 thường được áp dụng để ngăn ngừa hiện tượng quá khớp , đảm bảo mô hình có thể tổng quát hóa tốt với dữ liệu thử nghiệm mới, chưa từng thấy.
  • Hồi quy logistic đa thức: Trong khi phiên bản chuẩn là nhị phân, biến thể này xử lý các vấn đề có ba hoặc nhiều loại, tương tự như cách các hàm softmax hoạt động trong mạng nơ-ron sâu.
  • Tỷ lệ cược: Xác suất xảy ra một sự kiện chia cho xác suất không xảy ra. Hồi quy logistic mô hình hóa logarit tự nhiên của các tỷ lệ cược này (log-odds).

Các Ứng dụng Thực tế

Nhờ tính hiệu quả và khả năng diễn giải, Hồi quy logistic được triển khai rộng rãi trong nhiều ngành công nghiệp khác nhau.

  • Chăm sóc sức khỏe và Chẩn đoán: Trong lĩnh vực AI chăm sóc sức khỏe , các bác sĩ sử dụng thuật toán này để dự đoán khả năng bệnh nhân mắc bệnh, chẳng hạn như tiểu đường hoặc bệnh tim, dựa trên các yếu tố nguy cơ như tuổi tác, BMI và huyết áp. Xem cách phân tích hình ảnh y tế bổ sung cho các phương pháp thống kê này.
  • Đánh giá Rủi ro Tài chính: Các ngân hàng và công ty công nghệ tài chính sử dụng các mô hình này để chấm điểm tín dụng . Bằng cách phân tích lịch sử tài chính của người nộp đơn, mô hình ước tính khả năng vỡ nợ, hỗ trợ đưa ra quyết định cho vay an toàn.
  • Dự đoán Tiếp thị và Churn: Các doanh nghiệp áp dụng mô hình dự đoán để tính toán khả năng khách hàng hủy đăng ký (churn). Thông tin chi tiết này cho phép các công ty nhắm mục tiêu hiệu quả vào các nỗ lực giữ chân khách hàng.

Ví dụ triển khai

Trong khi nâng cao học sâu (DL) các khuôn khổ như Ultralytics YOLO11 được ưu tiên cho các nhiệm vụ phức tạp như tầm nhìn máy tínhHồi quy logistic vẫn là tiêu chuẩn cho phân loại dữ liệu dạng bảng. Ví dụ sau đây sử dụng phương pháp phổ biến scikit-learn thư viện để đào tạo một bộ phân loại đơn giản.

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Generate synthetic data: 100 samples, 5 features
X, y = np.random.rand(100, 5), np.random.randint(0, 2, 100)

# Split data and initialize the Logistic Regression model
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model = LogisticRegression(solver="liblinear", random_state=42)

# Train the model and predict class labels
model.fit(X_train, y_train)
print(f"Predicted Class: {model.predict(X_test[0].reshape(1, -1))}")

Hồi quy logistic so với các thuật toán khác

Điều quan trọng là phải phân biệt Hồi quy logistic với các khái niệm trí tuệ nhân tạo (AI) liên quan:

  • so với Hồi quy tuyến tính: Sự khác biệt chính nằm ở kết quả đầu ra. Hồi quy tuyến tính dự đoán một giá trị số liên tục (ví dụ: dự đoán giá nhà), trong khi Hồi quy logistic dự đoán một phạm trù rời rạc (ví dụ: nhà có bán được không: Có/Không).
  • so với Máy vectơ hỗ trợ (SVM): SVM cố gắng tìm khoảng cách rộng nhất giữa các lớp, thường xử lý dữ liệu phi tuyến tính tốt hơn thông qua các hạt nhân. Hồi quy logistic mang tính xác suất và tập trung vào việc tối đa hóa khả năng xảy ra của dữ liệu quan sát được.
  • so với Học sâu (ví dụ: YOLO11 ): Đối với dữ liệu nhận thức đa chiều như hình ảnh hoặc video, các bộ phân loại tuyến tính đơn giản không thể nắm bắt được các mẫu phức tạp. Các mô hình tiên tiến như Ultralytics YOLO11 sử dụng Mạng Nơ-ron Tích chập (CNN) để tự động trích xuất và phân loại đặc điểm , vượt trội hơn hẳn hồi quy logistic trong các tác vụ như phát hiện đối tượng .

Để tìm hiểu thêm về nền tảng thống kê, mục Wikipedia về Hồi quy logistic cung cấp thông tin chuyên sâu về toán học, trong khi tài liệu Scikit-learn cung cấp các nguồn tài nguyên thực tế tuyệt vời cho các nhà phát triển.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay