Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Tiền Xử Lý Dữ Liệu

Làm chủ tiền xử lý dữ liệu cho máy học. Tìm hiểu các kỹ thuật như làm sạch, масштабирование và mã hóa để tăng độ chính xác và hiệu suất của mô hình.

Tiền xử lý dữ liệu là giai đoạn đầu tiên quan trọng trong quy trình học máy, nơi dữ liệu thô được chuyển đổi thành định dạng rõ ràng, dễ hiểu cho các thuật toán. Dữ liệu thực tế thường không đầy đủ, không nhất quán và chứa đầy lỗi hoặc giá trị ngoại lai. Nếu một mô hình được huấn luyện trên những đầu vào không đầy đủ như vậy, mô hình dự đoán kết quả có thể sẽ cho kết quả không chính xác, một hiện tượng thường được gọi là "đầu vào rác, đầu ra rác". Bằng cách giải quyết một cách có hệ thống những vấn đề này, tiền xử lý đảm bảo dữ liệu huấn luyện có chất lượng cao, điều cần thiết để đạt được độ chính xác và ổn định tối ưu của mô hình.

Kỹ thuật cốt lõi trong tiền xử lý

Các bước cụ thể liên quan đến quá trình xử lý trước sẽ khác nhau tùy theo loại dữ liệu—có thể là văn bản, hình ảnh hoặc dữ liệu bảng—nhưng nhìn chung bao gồm một số tác vụ cơ bản.

  • Dọn dẹp dữ liệu : Bao gồm việc xử lý các giá trị bị thiếu, hiệu chỉnh dữ liệu nhiễu và giải quyết các điểm không nhất quán. Các kỹ thuật có thể bao gồm việc sử dụng các phương pháp thống kê để xác định các mục bị thiếu hoặc loại bỏ hoàn toàn các bản ghi bị hỏng bằng các công cụ như Pandas .
  • Chuẩn hóa và Điều chỉnh tỷ lệ: Thuật toán thường hoạt động kém hiệu quả khi các đặc trưng có tỷ lệ quá khác biệt (ví dụ: tuổi so với thu nhập). Chuẩn hóa sẽ điều chỉnh các cột số theo một tỷ lệ chung, chẳng hạn như từ 0 đến 1, ngăn các giá trị lớn hơn lấn át quá trình giảm dần độ dốc . Bạn có thể tìm hiểu thêm về các chiến lược điều chỉnh tỷ lệ trong tài liệu Scikit-learn .
  • Mã hóa: Các mô hình học máy thường yêu cầu dữ liệu đầu vào dạng số. Dữ liệu danh mục (như "Đỏ", "Xanh lá", "Xanh dương") phải được chuyển đổi thành số bằng các phương pháp như mã hóa one-hot hoặc mã hóa nhãn.
  • Giảm chiều: Các kỹ thuật như Phân tích thành phần chính (PCA) làm giảm số lượng biến đầu vào, chỉ giữ lại thông tin cần thiết nhất để ngăn ngừa tình trạng quá khớp và tăng tốc độ đào tạo.
  • Thay đổi kích thước hình ảnh: Trong thị giác máy tính (CV) , hình ảnh thường phải được thay đổi kích thước theo một kích thước cố định (ví dụ: 640x640 pixel) để phù hợp với lớp đầu vào của Mạng nơ-ron tích chập (CNN) .

Các Ứng dụng Thực tế

Tiền xử lý dữ liệu hiện diện ở khắp các ngành công nghiệp, đóng vai trò là nền tảng cho các hệ thống AI đáng tin cậy.

  1. Phân tích hình ảnh y tế : Khi phát hiện bất thường trong chụp MRI hoặc CT, quá trình tiền xử lý là vô cùng quan trọng. Độ tương phản và độ phân giải của ảnh quét thô thay đổi tùy thuộc vào máy được sử dụng. Tiền xử lý sẽ chuẩn hóa cường độ điểm ảnh và thay đổi kích thước hình ảnh để đảm bảo AI tập trung vào các đặc điểm bệnh lý thay vì các hiện tượng kỹ thuật. Ví dụ, hãy xem các nhà nghiên cứu đang sử dụng YOLO11 để phát hiện khối u nhằm cải thiện độ chính xác chẩn đoán như thế nào.
  2. Phát hiện Gian lận Tài chính: Trong lĩnh vực ngân hàng, nhật ký giao dịch thường lộn xộn và mất cân bằng. Quá trình tiền xử lý bao gồm việc xóa lỗi dấu thời gian và chuẩn hóa số tiền giao dịch. Quan trọng hơn, nó cũng bao gồm việc cân bằng tập dữ liệu — vì gian lận rất hiếm — bằng cách sử dụng các kỹ thuật lấy mẫu để đảm bảo mô hình phát hiện bất thường xác định hiệu quả các hoạt động đáng ngờ. IBM cung cấp thông tin chi tiết về cách chuẩn bị dữ liệu hỗ trợ các phân tích quan trọng trong kinh doanh này.

Tiền xử lý với Ultralytics YOLO

Các khuôn khổ hiện đại thường tự động hóa các phần quan trọng của quy trình tiền xử lý. Khi sử dụng YOLO11 , các tác vụ như thay đổi kích thước hình ảnh, điều chỉnh giá trị pixel và định dạng nhãn được xử lý nội bộ trong quá trình đào tạo. Điều này cho phép các nhà phát triển tập trung vào các tác vụ cấp cao hơn như đánh giá và triển khai mô hình .

Ví dụ sau đây minh họa cách YOLO11 tự động xử lý việc thay đổi kích thước hình ảnh thông qua imgsz tranh luận trong quá trình đào tạo:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)

Phân biệt các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt quá trình xử lý dữ liệu trước với các thuật ngữ tương tự trong quy trình học máy:

  • so với Tăng cường Dữ liệu : Trong khi tiền xử lý định dạng dữ liệu để có thể sử dụng được (ví dụ: thay đổi kích thước), tăng cường liên quan đến việc tạo ra các biến thể tổng hợp mới từ dữ liệu hiện có (ví dụ: xoay, lật) để tăng tính đa dạng và độ tin cậy của tập dữ liệu. Bạn có thể tìm hiểu thêm trong hướng dẫn về tăng cường dữ liệu của chúng tôi.
  • so với Kỹ thuật Đặc trưng : Tiền xử lý tập trung vào việc làm sạch và định dạng dữ liệu thô. Kỹ thuật Đặc trưng là một bước sáng tạo hơn, bao gồm việc rút ra các biến mới, có ý nghĩa từ dữ liệu đó (ví dụ: tính toán "giá trên mỗi feet vuông" từ "giá" và "diện tích") để cải thiện hiệu suất mô hình .
  • so với Ghi nhãn Dữ liệu : Ghi nhãn là quy trình thủ công hoặc tự động chú thích dữ liệu (như vẽ khung giới hạn ) để tạo ra dữ liệu thực tế. Tiền xử lý chuẩn bị các hình ảnh và chú thích đã được gắn nhãn này cho mạng nơ-ron .

Bằng cách nắm vững quy trình tiền xử lý dữ liệu, các kỹ sư đặt nền móng cho các dự án AI thành công, đảm bảo các mô hình tinh vi như YOLO11YOLO26 sắp ra mắt có thể hoạt động hết tiềm năng. Để quản lý tập dữ liệu và tự động hóa các quy trình công việc này, Nền tảng Ultralytics cung cấp một môi trường thống nhất để hợp lý hóa hành trình từ dữ liệu thô đến mô hình đã triển khai.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay