Data Cleaning
Làm chủ việc làm sạch dữ liệu để cải thiện độ chính xác của model AI. Tìm hiểu các kỹ thuật để loại bỏ lỗi, xử lý các giá trị bị thiếu và chuẩn bị các tập dữ liệu sạch cho Ultralytics YOLO26.
Làm sạch dữ liệu là quá trình quan trọng nhằm phát hiện và sửa lỗi (hoặc loại bỏ) các bản ghi bị hỏng, không chính xác hoặc không liên quan khỏi tập dữ liệu, bảng hoặc cơ sở dữ liệu. Trong lĩnh vực trí tuệ nhân tạo (AI) và học máy (ML), bước này thường được coi là phần tốn thời gian nhưng thiết yếu nhất trong quy trình làm việc. Trước khi một model như YOLO26 có thể học cách nhận diện đối tượng một cách hiệu quả, dữ liệu huấn luyện cần phải được loại bỏ các sai sót để ngăn chặn hiện tượng "Garbage In, Garbage Out" (Đầu vào rác, đầu ra rác), nơi dữ liệu đầu vào kém chất lượng dẫn đến kết quả đầu ra không đáng tin cậy.
Link to this sectionTầm quan trọng của tính toàn vẹn dữ liệu trong AI#
Các model thị giác máy tính hiệu suất cao phụ thuộc rất lớn vào chất lượng của tập dữ liệu mà chúng tiêu thụ. Nếu một tập dữ liệu chứa các hình ảnh bị dán nhãn sai, trùng lặp hoặc các tệp tin bị hỏng, model sẽ gặp khó khăn trong việc khái quát hóa các mô hình, dẫn đến quá khớp (overfitting) hoặc độ chính xác suy luận kém. Làm sạch dữ liệu hiệu quả giúp cải thiện độ tin cậy của các model dự báo và đảm bảo rằng thuật toán học từ các tín hiệu hợp lệ thay vì nhiễu.
Link to this sectionCác kỹ thuật làm sạch dữ liệu phổ biến#
Các chuyên gia áp dụng nhiều chiến lược khác nhau để tinh chỉnh tập dữ liệu của mình bằng các công cụ như Pandas cho dữ liệu dạng bảng hoặc các công cụ thị giác chuyên dụng.
- Xử lý các giá trị bị thiếu: Điều này bao gồm việc loại bỏ các bản ghi bị thiếu dữ liệu hoặc sử dụng kỹ thuật gán giá trị (imputation techniques) để điền vào các khoảng trống dựa trên các giá trị trung bình thống kê hoặc các láng giềng gần nhất.
- Loại bỏ các bản ghi trùng lặp: Các hình ảnh trùng lặp trong tập huấn luyện có thể vô tình làm lệch hướng model. Việc loại bỏ chúng đảm bảo model không ghi nhớ các ví dụ cụ thể, giúp giảm thiểu thiên kiến tập dữ liệu (dataset bias).
- Phát hiện ngoại lai: Việc xác định và xử lý các dị biệt (anomalies) hoặc điểm ngoại lai (outliers) lệch đáng kể so với định mức là rất quan trọng, vì chúng có thể làm sai lệch phân tích thống kê và trọng số của model.
- Sửa lỗi cấu trúc: Điều này bao gồm việc sửa các lỗi chính tả trong nhãn lớp (ví dụ: sửa lỗi "Car" so với "car") để đảm bảo tính nhất quán của lớp (class consistency).
Link to this sectionCác ứng dụng trong thực tế#
Làm sạch dữ liệu đóng vai trò then chốt trong nhiều ngành công nghiệp nơi AI được triển khai.
- Phân tích hình ảnh y tế: Trong các ứng dụng AI chăm sóc sức khỏe, các tập dữ liệu thường chứa các bản quét có nhiễu, siêu dữ liệu bệnh nhân không chính xác hoặc nhiễu nền không liên quan. Làm sạch dữ liệu này đảm bảo rằng các model phân tích hình ảnh y tế tập trung hoàn toàn vào các dấu hiệu sinh học liên quan đến chẩn đoán.
- Quản lý tồn kho bán lẻ: Đối với AI trong bán lẻ, các tập dữ liệu sản phẩm có thể chứa các mặt hàng lỗi thời hoặc hình ảnh có tỷ lệ khung hình không chính xác. Làm sạch các tập dữ liệu này đảm bảo rằng các model phát hiện đối tượng có thể xác định chính xác mức tồn kho và giảm tỷ lệ dương tính giả trong môi trường thực tế.
Link to this sectionPhân biệt giữa làm sạch dữ liệu và tiền xử lý#
Mặc dù thường được sử dụng thay thế cho nhau, làm sạch dữ liệu khác biệt với tiền xử lý dữ liệu. Làm sạch dữ liệu tập trung vào việc sửa các lỗi và loại bỏ dữ liệu "xấu". Ngược lại, tiền xử lý bao gồm việc biến đổi dữ liệu sạch thành định dạng phù hợp cho model, chẳng hạn như thay đổi kích thước hình ảnh, chuẩn hóa hoặc áp dụng tăng cường dữ liệu (data augmentation) để tăng tính đa dạng.
Link to this sectionTự động hóa các kiểm tra chất lượng#
Các quy trình hiện đại, như những quy trình có sẵn trên Ultralytics Platform, tích hợp các kiểm tra tự động để xác định các hình ảnh bị hỏng hoặc nhãn không nhất quán trước khi quá trình huấn luyện bắt đầu. Dưới đây là một ví dụ Python đơn giản minh họa cách kiểm tra và xác định các tệp hình ảnh bị hỏng bằng thư viện Pillow tiêu chuẩn, một bước phổ biến trước khi nạp dữ liệu vào một model như YOLO26.
from pathlib import Path
from PIL import Image
def verify_images(dataset_path):
"""Iterates through a directory to identify corrupt images."""
for img_path in Path(dataset_path).glob("*.jpg"):
try:
with Image.open(img_path) as img:
img.verify() # Checks file integrity
except (OSError, SyntaxError):
print(f"Corrupt file found: {img_path}")
# Run verification on your dataset
verify_images("./coco8/images/train")





