Khai thác dữ liệu là quá trình khám phá các mẫu, mối tương quan, bất thường và những hiểu biết có giá trị khác ẩn trong các tập dữ liệu lớn. Nó kết hợp các kỹ thuật từ máy học (ML) , thống kê và hệ thống cơ sở dữ liệu để chuyển đổi dữ liệu thô thành thông tin và kiến thức hữu ích. Trong lĩnh vực trí tuệ nhân tạo (AI) , khai thác dữ liệu đóng vai trò là bước quan trọng trong việc hiểu các đặc điểm dữ liệu, chuẩn bị dữ liệu để đào tạo mô hình và khám phá các cấu trúc cơ bản thúc đẩy quá trình ra quyết định thông minh. Ý tưởng cốt lõi thường được gọi là Khám phá kiến thức trong cơ sở dữ liệu (KDD) .
Các kỹ thuật khai thác dữ liệu chính
Khai thác dữ liệu bao gồm nhiều kỹ thuật khác nhau được sử dụng để khám phá và phân tích dữ liệu từ nhiều góc độ khác nhau. Một số phương pháp phổ biến bao gồm:
- Phân loại : Gán điểm dữ liệu cho các danh mục hoặc lớp được xác định trước. Được sử dụng trong các tác vụ như phát hiện email rác hoặc phân loại hình ảnh .
- Phân cụm : Nhóm các điểm dữ liệu tương tự lại với nhau mà không cần biết trước về các nhóm. Hữu ích cho phân khúc khách hàng hoặc xác định các mẫu riêng biệt trong dữ liệu sinh học. Xem các thuật toán như K-Means hoặc DBSCAN .
- Hồi quy : Dự đoán các giá trị số liên tục, chẳng hạn như dự báo doanh số hoặc ước tính giá nhà. Ví dụ bao gồm Hồi quy tuyến tính .
- Khai thác quy tắc liên kết : Khám phá mối quan hệ hoặc sự liên kết giữa các mục trong tập dữ liệu lớn, thường được sử dụng trong phân tích giỏ hàng để hiểu thói quen mua hàng.
- Phát hiện bất thường : Xác định các điểm dữ liệu hoặc sự kiện khác biệt đáng kể so với chuẩn mực, rất quan trọng để phát hiện gian lận hoặc xác định giá trị ngoại lệ trong dữ liệu cảm biến.
- Giảm số lượng chiều : Giảm số lượng biến (tính năng) đang xem xét trong khi vẫn bảo toàn thông tin quan trọng, thường sử dụng các kỹ thuật như Phân tích thành phần chính (PCA) .
Quá trình khai thác dữ liệu
Khai thác dữ liệu thường là một quá trình lặp đi lặp lại bao gồm một số giai đoạn:
- Hiểu biết về doanh nghiệp: Xác định mục tiêu và yêu cầu của dự án.
- Hiểu dữ liệu: Thu thập và khám phá dữ liệu ban đầu để làm quen với dữ liệu.
- Chuẩn bị dữ liệu: Bao gồm việc làm sạch dữ liệu (xử lý các giá trị bị thiếu, nhiễu), tích hợp dữ liệu (kết hợp các nguồn), lựa chọn dữ liệu (chọn dữ liệu có liên quan) và xử lý trước dữ liệu (định dạng dữ liệu). Tăng cường dữ liệu cũng có thể được áp dụng ở đây.
- Mô hình hóa: Lựa chọn và áp dụng các kỹ thuật khai thác khác nhau (như phân loại, phân cụm) để xác định các mẫu. Điều này thường liên quan đến việc sử dụng các thuật toán ML .
- Đánh giá: Đánh giá các mẫu được phát hiện về tính hợp lệ, tính mới lạ, tính hữu ích và tính dễ hiểu. Các số liệu như độ chính xác hoặc mAP thường được sử dụng.
- Triển khai: Sử dụng kiến thức đã khám phá để ra quyết định, thường tích hợp kiến thức đó vào hệ thống hoạt động hoặc báo cáo phát hiện. Điều này có thể liên quan đến việc triển khai mô hình .
Khai thác dữ liệu so với các khái niệm liên quan
Mặc dù có liên quan, khai thác dữ liệu khác với các lĩnh vực tập trung vào dữ liệu khác:
- Phân tích dữ liệu : Phân tích dữ liệu là thuật ngữ rộng hơn bao gồm toàn bộ quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu để hỗ trợ ra quyết định. Khai thác dữ liệu là một bước cụ thể trong phân tích dữ liệu tập trung vào việc khám phá các mẫu mới và ẩn . Phân tích thường tập trung vào thống kê mô tả và các mối quan hệ đã biết, trong khi khai thác tìm kiếm những điều chưa biết.
- Học máy (ML) : ML là một lĩnh vực AI tập trung vào việc phát triển các thuật toán cho phép hệ thống học từ dữ liệu. Khai thác dữ liệu sử dụng các thuật toán ML làm công cụ để khám phá các mẫu, nhưng bản thân ML rộng hơn, bao gồm việc tạo và ứng dụng các thuật toán học cho nhiều tác vụ khác nhau (dự đoán, phân loại, v.v.). Mục tiêu của khai thác dữ liệu chủ yếu là khám phá kiến thức từ dữ liệu.
- Dữ liệu lớn : Dữ liệu lớn là các tập dữ liệu có đặc điểm là khối lượng lớn, tốc độ cao và đa dạng. Các kỹ thuật khai thác dữ liệu rất cần thiết để trích xuất giá trị từ Dữ liệu lớn, nhưng bản thân Dữ liệu lớn mô tả bản chất của dữ liệu chứ không phải quy trình phân tích. Các công cụ như Apache Spark thường được sử dụng để khai thác Dữ liệu lớn.
Ứng dụng AI/ML trong thế giới thực
Khai thác dữ liệu thúc đẩy sự đổi mới trong nhiều lĩnh vực:
- Bán lẻ và thương mại điện tử: Các nhà bán lẻ sử dụng khai thác quy tắc liên kết (phân tích giỏ hàng) trên dữ liệu giao dịch để khám phá những sản phẩm nào thường được mua cùng nhau. Thông tin chi tiết này cung cấp thông tin cho thiết kế bố cục cửa hàng, các chương trình khuyến mãi có mục tiêu và hỗ trợ các hệ thống đề xuất trực tuyến ("Khách hàng đã mua X cũng đã mua Y"). Điều này giúp tối ưu hóa quản lý hàng tồn kho do AI thúc đẩy và cá nhân hóa trải nghiệm của khách hàng, như đã thấy trong các nền tảng như Amazon .
- Chăm sóc sức khỏe: Các kỹ thuật khai thác dữ liệu như phân loại và phân cụm phân tích hồ sơ bệnh nhân (EHR) và hình ảnh y tế để xác định các mô hình liên quan đến bệnh tật, dự đoán các yếu tố rủi ro của bệnh nhân hoặc đánh giá hiệu quả điều trị. Ví dụ, khai thác dữ liệu chẩn đoán có thể giúp phát hiện sớm các tình trạng như ung thư (ví dụ, sử dụng các tập dữ liệu như tập dữ liệu U não) hoặc dự đoán tình trạng tái nhập viện, góp phần cải thiện việc chăm sóc bệnh nhân và phân bổ nguồn lực trong các tổ chức như NIH . Khám phá AI trong các giải pháp chăm sóc sức khỏe để biết thêm ví dụ.