Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Khai phá Dữ liệu

Khám phá cách khai thác dữ liệu biến dữ liệu thô thành thông tin chi tiết hữu ích, cung cấp năng lượng cho AI, ML và các ứng dụng thực tế trong lĩnh vực chăm sóc sức khỏe, bán lẻ, v.v.!

Khai thác dữ liệu là quá trình tính toán khám phá và phân tích các tập dữ liệu lớn để tìm ra các mô hình, xu hướng và mối quan hệ có ý nghĩa mà không dễ nhận thấy ngay lập tức. Bằng cách chuyển đổi thông tin thô thành kiến thức hữu ích, lĩnh vực này đóng vai trò là cầu nối quan trọng giữa phân tích thống kê và trí tuệ nhân tạo (AI) . Các tổ chức tận dụng khai thác dữ liệu để dự đoán hành vi trong tương lai, xác định các điểm bất thường và hỗ trợ ra quyết định chiến lược. Mặc dù thường được liên kết với quản lý cơ sở dữ liệu có cấu trúc, khai thác dữ liệu hiện đại sử dụng nhiều thuật toán học máy (ML) để xử lý các dữ liệu đầu vào phi cấu trúc, chẳng hạn như văn bản, video và nhật ký cảm biến, biến Dữ liệu lớn thành một tài sản giá trị của tổ chức.

Các thành phần cốt lõi của quy trình

Quy trình làm việc khai thác dữ liệu thường tuân theo Quy trình chuẩn liên ngành về khai thác dữ liệu (CRISP-DM) , hướng dẫn các học viên từ việc hiểu mục tiêu kinh doanh đến việc triển khai các mô hình.

  • Thu thập và chú thích dữ liệu : Quá trình bắt đầu bằng việc thu thập thông tin thô từ nhiều nguồn khác nhau, chẳng hạn như cơ sở dữ liệu giao dịch, cảm biến IoT hoặc kho lưu trữ hình ảnh.
  • Tiền xử lý dữ liệu : Dữ liệu thô hiếm khi sẵn sàng để phân tích. Giai đoạn này bao gồm việc làm sạch dữ liệu để loại bỏ nhiễu và xử lý các giá trị bị thiếu, thường sử dụng các thư viện như Pandas để xử lý hiệu quả.
  • Khám phá mẫu: Các thuật toán được áp dụng để trích xuất các cấu trúc ẩn. Điều này có thể bao gồm việc trích xuất đặc điểm để cô lập các biến có liên quan nhất cho mục đích phân tích.
  • Diễn giải: Các mẫu khai thác được xác thực để đảm bảo chúng đại diện cho kiến thức hữu ích chứ không phải là các mối tương quan ngẫu nhiên, thường được hỗ trợ bởi các công cụ trực quan hóa dữ liệu .

Kỹ thuật và phương pháp chính

Khai thác dữ liệu sử dụng nhiều kỹ thuật thống kê và ML để giải quyết các vấn đề cụ thể.

  • Phân loại : Kỹ thuật này phân loại các mục dữ liệu thành các lớp được xác định trước. Ví dụ: các nhà cung cấp dịch vụ email sử dụng phân loại để lọc thư thành "thư rác" hoặc "hộp thư đến".
  • Phân tích cụm : Không giống như phân loại, phân cụm nhóm các điểm dữ liệu tương tự mà không cần nhãn được xác định trước. Đây là phương pháp cốt lõi trong học không giám sát , thường được sử dụng để phân khúc thị trường.
  • Học luật kết hợp : Phương pháp này xác định mối quan hệ giữa các biến trong một tập dữ liệu. Nó thường được sử dụng trong phân tích giỏ hàng bán lẻ để phát hiện ra rằng những khách hàng mua bánh mì cũng có khả năng mua bơ.
  • Phát hiện dị thường : Tập trung vào việc xác định các giá trị ngoại lệ khác biệt đáng kể so với chuẩn mực, điều này rất quan trọng để phát hiện gian lận và bảo mật mạng.

Các Ứng dụng Thực tế

Khai thác dữ liệu cung cấp năng lượng cho các hệ thống thông minh giúp tăng hiệu quả trong nhiều ngành công nghiệp lớn.

  • Trí tuệ nhân tạo (AI) trong bán lẻ : Các nhà bán lẻ khai thác lịch sử giao dịch khổng lồ để tối ưu hóa chuỗi cung ứng và cá nhân hóa trải nghiệm mua sắm. Bằng cách phân tích các mô hình mua sắm, các công ty xây dựng hệ thống đề xuất sản phẩm mà người dùng có khả năng mua nhiều nhất, từ đó tăng đáng kể doanh thu. Các nền tảng như Google Cloud Retail tích hợp các tính năng này để dự đoán nhu cầu.
  • Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, khai thác dữ liệu được áp dụng vào hồ sơ bệnh nhân và chẩn đoán hình ảnh. Các mô hình tiên tiến như YOLO11 có thể "khai thác" dữ liệu hình ảnh để định vị và classify Các bất thường, chẳng hạn như phát hiện khối u não trên phim chụp MRI. Điều này hỗ trợ các bác sĩ X-quang bằng cách làm nổi bật các vấn đề tiềm ẩn cần được kiểm tra kỹ lưỡng hơn, như Viện Y tế Quốc gia (NIH) đã lưu ý.

Ví dụ mã: Khai thác dữ liệu trực quan

Trong thị giác máy tính, "khai thác" thường đề cập đến việc trích xuất thông tin có cấu trúc (nhãn lớp và số lượng) từ dữ liệu hình ảnh phi cấu trúc. Ví dụ sau đây minh họa cách sử dụng ultralytics thư viện để detect các đối tượng và trích xuất tên lớp và điểm tin cậy của chúng.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model to mine object data from images
model = YOLO("yolo11n.pt")

# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")

# Extract and display mined insights: detected classes and confidence
for result in results:
    for box in result.boxes:
        cls_id = int(box.cls[0])
        print(f"Detected: {model.names[cls_id]} | Confidence: {box.conf.item():.2f}")

Phân biệt các khái niệm liên quan

Điều quan trọng là phải phân biệt khai thác dữ liệu với các thuật ngữ tương tự trong bối cảnh khoa học dữ liệu.

  • Phân tích dữ liệu : Trong khi khai thác dữ liệu tập trung vào việc tự động khám phá các mẫu, phân tích là thuật ngữ rộng hơn bao gồm việc giải thích, truyền đạt và ứng dụng các mẫu đó để hỗ trợ các quyết định kinh doanh.
  • Học sâu (DL) : DL là một tập hợp con chuyên biệt của học máy lấy cảm hứng từ mạng nơ-ron. Khai thác dữ liệu thường sử dụng các thuật toán DL làm công cụ để thực hiện quy trình khám phá, đặc biệt là khi xử lý các tác vụ phức tạp như phát hiện đối tượng hoặc xử lý ngôn ngữ tự nhiên.
  • Mô hình dự đoán : Đây là một kết quả cụ thể thường được rút ra từ khai thác dữ liệu. Trong khi khai thác dữ liệu khám phá dữ liệu để tìm ra mô hình, mô hình dự đoán sử dụng mô hình đó để dự báo các sự kiện trong tương lai, một điểm khác biệt được SAS Analytics nhấn mạnh.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay