Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Tiền Xử Lý Dữ Liệu

Làm chủ tiền xử lý dữ liệu cho máy học. Tìm hiểu các kỹ thuật như làm sạch, масштабирование và mã hóa để tăng độ chính xác và hiệu suất của mô hình.

Tiền xử lý dữ liệu là một bước quan trọng trong quy trình học máy (ML) bao gồm làm sạch, chuyển đổi và sắp xếp dữ liệu thô để làm cho nó phù hợp cho việc huấn luyện và xây dựng mô hình. Dữ liệu thô từ thế giới thực thường không đầy đủ, không nhất quán và có thể chứa lỗi. Tiền xử lý chuyển đổi dữ liệu lộn xộn này thành một định dạng sạch sẽ, có cấu trúc tốt, điều này rất cần thiết để một mô hình học hỏi hiệu quả. Chất lượng dự đoán của một mô hình phụ thuộc rất nhiều vào chất lượng của dữ liệu mà nó được huấn luyện, làm cho tiền xử lý dữ liệu trở thành một thực hành nền tảng để đạt được độ chính xác cao và hiệu suất đáng tin cậy trong hệ thống AI.

Các nhiệm vụ chính trong Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là một thuật ngữ rộng bao gồm nhiều kỹ thuật khác nhau để chuẩn bị dữ liệu. Các bước cụ thể phụ thuộc vào tập dữ liệu và tác vụ ML, nhưng các tác vụ phổ biến bao gồm:

  • Làm sạch dữ liệu (Data Cleaning): Đây là quá trình xác định và sửa chữa hoặc loại bỏ các lỗi, sự không nhất quán và các giá trị bị thiếu khỏi một tập dữ liệu. Điều này có thể bao gồm việc điền vào dữ liệu bị thiếu bằng các phương pháp thống kê hoặc loại bỏ các mục trùng lặp. Dữ liệu sạch là nền tảng của bất kỳ mô hình đáng tin cậy nào.
  • Chuyển đổi dữ liệu (Data Transformation): Điều này liên quan đến việc thay đổi tỷ lệ hoặc phân phối của dữ liệu. Một kỹ thuật phổ biến là chuẩn hóa (normalization), kỹ thuật này chia tỷ lệ các đặc trưng số về một phạm vi tiêu chuẩn (ví dụ: 0 đến 1) để ngăn các đặc trưng có tỷ lệ lớn hơn chi phối quá trình học. Bạn có thể tìm hiểu thêm về các phương pháp chia tỷ lệ khác nhau từ tài liệu về tiền xử lý scikit-learn (scikit-learn preprocessing documentation).
  • Kỹ thuật đặc trưng (Feature Engineering): Đây là quá trình sáng tạo để tạo ra các đặc trưng mới từ các đặc trưng hiện có nhằm cải thiện hiệu suất của mô hình. Điều này có thể bao gồm kết hợp các đặc trưng, phân tách chúng hoặc sử dụng kiến thức về lĩnh vực để trích xuất thông tin có ý nghĩa hơn. Một khái niệm liên quan là trích xuất đặc trưng (feature extraction), giúp tự động giảm số chiều của dữ liệu.
  • Mã hóa dữ liệu phân loại (Encoding Categorical Data): Nhiều thuật toán ML yêu cầu đầu vào là số. Tiền xử lý thường bao gồm việc chuyển đổi dữ liệu phân loại (như nhãn văn bản) thành định dạng số thông qua các kỹ thuật như mã hóa one-hot.
  • Thay đổi kích thước và Tăng cường dữ liệu: Trong thị giác máy tính (CV), tiền xử lý bao gồm thay đổi kích thước hình ảnh thành một kích thước đồng nhất. Nó cũng có thể được theo sau bởi tăng cường dữ liệu, giúp mở rộng tập dữ liệu một cách giả tạo bằng cách tạo ra các phiên bản sửa đổi của hình ảnh.

Các ứng dụng AI/ML thực tế

Tiền xử lý dữ liệu là một yêu cầu phổ quát trong tất cả các lĩnh vực AI. Ứng dụng của nó là rất quan trọng để thành công trong cả các tác vụ đơn giản và phức tạp.

  1. Phân tích ảnh y tế: Trước khi mô hình YOLO có thể được đào tạo để phát hiện khối u trong ảnh chụp MRI từ một tập dữ liệu như bộ dữ liệu U não, hình ảnh phải được tiền xử lý. Điều này bao gồm chuẩn hóa các giá trị cường độ pixel để tính đến sự khác biệt trong thiết bị quét, thay đổi kích thước tất cả các hình ảnh thành kích thước đầu vào nhất quán theo yêu cầu của backbone của mô hình và làm sạch tập dữ liệu để loại bỏ các tệp bị hỏng hoặc các ví dụ được dán nhãn sai. Điều này đảm bảo mạng nơ-ron tích chập (CNN) học các đặc điểm bệnh lý thực sự của mô hình thay vì các biến thể trong hình ảnh. Bạn có thể xem thêm về điều này trong blog của chúng tôi về sử dụng YOLO để phát hiện khối u.
  2. Dự báo bán lẻ dựa trên AI: Đối với một mô hình dự đoán nhu cầu của khách hàng trong bán lẻ, dữ liệu bán hàng thô thường chứa các bản ghi giao dịch bị thiếu, cách đặt tên sản phẩm không nhất quán và các tính năng trên các thang đo khác nhau rất lớn (ví dụ: 'giá mặt hàng' so với 'số lượng mặt hàng đã bán'). Xử lý trước ở đây bao gồm điền các số liệu bán hàng bị thiếu, tiêu chuẩn hóa tên sản phẩm và chuẩn hóa các tính năng số để thuật toán mô hình hóa dự đoán có thể cân nhắc hiệu quả tầm quan trọng của từng yếu tố. Một tổng quan về xử lý trước cho doanh nghiệp nêu bật các bước này.

Tiền xử lý dữ liệu so với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt việc tiền xử lý dữ liệu (data preprocessing) với các thuật ngữ quản lý dữ liệu liên quan khác.

  • Làm sạch dữ liệu (Data Cleaning): Như đã đề cập, làm sạch dữ liệu là một tập hợp con của tiền xử lý dữ liệu. Trong khi tiền xử lý là toàn bộ quá trình chuẩn bị dữ liệu cho một mô hình, thì làm sạch đặc biệt tập trung vào việc sửa lỗi, xử lý các giá trị bị thiếu và loại bỏ các điểm không nhất quán trong bộ dữ liệu thô.
  • Tăng cường dữ liệu (Data Augmentation): Tăng cường dữ liệu là một kỹ thuật được sử dụng để tăng kích thước của dữ liệu huấn luyện (training data) một cách nhân tạo. Mặc dù nó là một phần của việc chuẩn bị dữ liệu cho quá trình huấn luyện, nhưng nó thường được áp dụng sau các bước tiền xử lý ban đầu như làm sạch và thay đổi kích thước đã được hoàn thành trên bộ dữ liệu gốc. Mục tiêu của việc tăng cường là cải thiện khả năng khái quát hóa của mô hình, trong khi tiền xử lý nhằm mục đích làm cho dữ liệu gốc có thể sử dụng được.
  • Phân tích dữ liệu (Data Analytics): Phân tích dữ liệu là một lĩnh vực rộng lớn hơn nhiều, bao gồm việc kiểm tra các tập dữ liệu để đưa ra kết luận và hỗ trợ việc ra quyết định. Tiền xử lý dữ liệu là bước đầu tiên cơ bản trong một quy trình phân tích dữ liệu, bao gồm cả phân tích dữ liệu thăm dò (EDA), mô hình hóa và trực quan hóa dữ liệu (data visualization).

Các nền tảng như Ultralytics HUB có thể giúp quản lý bộ dữ liệu và hợp lý hóa vòng đời ML, từ chuẩn bị dữ liệu đến triển khai mô hình. Hướng dẫn về tiền xử lý dữ liệu được chú thích cung cấp thêm những hiểu biết thực tế.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard