Bảng chú giải thuật ngữ

Khai phá Dữ liệu

Khám phá cách khai thác dữ liệu biến dữ liệu thô thành thông tin chi tiết hữu ích, cung cấp năng lượng cho AI, ML và các ứng dụng thực tế trong lĩnh vực chăm sóc sức khỏe, bán lẻ, v.v.!

Khai thác dữ liệu là quá trình khám phá các mẫu, mối tương quan và dị thường trong các tập dữ liệu lớn để trích xuất thông tin có giá trị và chưa từng biết trước đây. Nó đóng vai trò là một bước thăm dò quan trọng, biến dữ liệu thô thành một cấu trúc dễ hiểu, thường đóng vai trò là nền tảng cho mô hình hóa dự đoán và các tác vụ Học máy (ML). Bằng cách tận dụng các kỹ thuật từ thống kê, hệ thống cơ sở dữ liệu và AI, khai thác dữ liệu giúp khám phá những hiểu biết sâu sắc tiềm ẩn có thể cung cấp thông tin cho các chiến lược kinh doanh, nghiên cứu khoa học và đổi mới công nghệ.

Cách thức hoạt động của Khai thác dữ liệu

Quy trình khai thác dữ liệu thường được cấu trúc theo các khuôn khổ như Quy trình Tiêu chuẩn Liên ngành cho Khai thác Dữ liệu (CRISP-DM). Các giai đoạn điển hình bao gồm:

Thu thập và tích hợp dữ liệu (Data Collection and Integration): Thu thập dữ liệu từ nhiều nguồn khác nhau, có thể bao gồm cơ sở dữ liệu có cấu trúc, văn bản phi cấu trúc hoặc hình ảnh từ Data Lake.
Tiền xử lý dữ liệu (Data Preprocessing): Điều này bao gồm làm sạch dữ liệu (data cleaning) để xử lý các giá trị bị thiếu hoặc không nhất quán và chuyển đổi dữ liệu để chuẩn hóa hoặc tổng hợp dữ liệu để phân tích. Tăng cường dữ liệu (Data augmentation) cũng có thể được sử dụng ở giai đoạn này để làm phong phú thêm bộ dữ liệu.
Khám phá và mô hình hóa mẫu (Pattern Discovery and Modeling): Áp dụng các thuật toán để xác định các mẫu. Các tác vụ phổ biến bao gồm phân loại, phân cụm (K-Means), hồi quy và khai thác luật kết hợp. Đây là giai đoạn mà các thuật toán ML được sử dụng nhiều nhất.
Đánh giá và Giải thích: Đánh giá các mẫu được khám phá về tính hợp lệ và hữu ích của chúng. Trực quan hóa dữ liệu là một công cụ quan trọng ở đây, giúp làm cho các phát hiện dễ hiểu.
Triển khai tri thức (Knowledge Deployment): Tích hợp kiến thức đã khám phá vào các hệ thống vận hành, chẳng hạn như một công cụ đề xuất hoặc một hệ thống phát hiện gian lận.

Các Ứng Dụng AI và Thị Giác Máy Tính Trong Thế Giới Thực

Khai thác dữ liệu là nền tảng cơ bản để phát triển các hệ thống thông minh trong nhiều ngành công nghiệp.

Ứng dụng AI trong lĩnh vực Bán lẻ và Phân tích Giỏ hàng: Các nhà bán lẻ khai thác nhật ký giao dịch rộng lớn để khám phá những sản phẩm nào thường được mua cùng nhau. Ví dụ: việc tìm thấy rằng khách hàng mua bánh mì cũng thường mua sữa (một quy tắc kết hợp) có thể cung cấp thông tin cho các chiến lược sắp xếp sản phẩm, gói khuyến mãi và quảng cáo được nhắm mục tiêu. Phân tích hành vi khách hàng này cũng thúc đẩy hệ thống đề xuất được cá nhân hóa. Tìm hiểu thêm về cách AI đang đạt được hiệu quả bán lẻ.
Phân tích ảnh y tế: Trong AI trong chăm sóc sức khỏe, các kỹ thuật khai thác dữ liệu được áp dụng cho các bộ dữ liệu hình ảnh và hồ sơ y tế quy mô lớn, chẳng hạn như bộ dữ liệu Khối u não. Bằng cách khai thác dữ liệu này, các nhà nghiên cứu có thể xác định các mẫu và mối tương quan liên kết các đặc điểm hình ảnh hoặc nhân khẩu học bệnh nhân nhất định với bệnh tật. Điều này giúp xây dựng các mô hình chẩn đoán, như các mô hình để phát hiện khối u, và hỗ trợ các tổ chức như Viện Y tế Quốc gia (NIH) trong việc thúc đẩy khoa học y tế.