Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Làm Sạch Dữ Liệu (Data Cleaning)

Làm chủ việc làm sạch dữ liệu (data cleaning) cho các dự án AI và ML. Tìm hiểu các kỹ thuật để sửa lỗi, nâng cao chất lượng dữ liệu và tăng hiệu suất mô hình một cách hiệu quả!

Làm sạch dữ liệu là quá trình xác định và sửa chữa hoặc loại bỏ dữ liệu bị hỏng, không chính xác, không đầy đủ hoặc không nhất quán khỏi một bộ dữ liệu. Đây là bước đầu tiên quan trọng trong bất kỳ quy trình làm việc học máy (ML) nào, vì chất lượng của dữ liệu huấn luyện quyết định trực tiếp đến hiệu suất và độ tin cậy của mô hình thu được. Tuân theo nguyên tắc "rác vào, rác ra", làm sạch dữ liệu đảm bảo rằng các mô hình như Ultralytics YOLO được huấn luyện trên thông tin chính xác và nhất quán, dẫn đến độ chính xác (accuracy) tốt hơn và dự đoán đáng tin cậy hơn. Nếu không làm sạch đúng cách, các vấn đề tiềm ẩn trong dữ liệu có thể dẫn đến kết quả sai lệch và khả năng khái quát hóa mô hình kém.

Các Tác vụ Làm sạch Dữ liệu Chính

Quá trình làm sạch dữ liệu bao gồm một số tác vụ riêng biệt được thiết kế để giải quyết các loại vấn đề chất lượng dữ liệu khác nhau. Các tác vụ này thường mang tính lặp đi lặp lại và có thể yêu cầu kiến thức cụ thể về lĩnh vực.

  • Xử lý Giá trị Bị thiếu: Các bộ dữ liệu thường chứa các mục bị thiếu, có thể được giải quyết bằng cách xóa các bản ghi không đầy đủ hoặc bằng cách thay thế (điền vào) các giá trị bị thiếu bằng các phương pháp thống kê như giá trị trung bình, trung vị hoặc các mô hình dự đoán nâng cao hơn. Hướng dẫn về xử lý dữ liệu bị thiếu có thể cung cấp thêm thông tin chi tiết.
  • Sửa dữ liệu không chính xác: Điều này bao gồm sửa các lỗi đánh máy, sự không nhất quán trong phép đo (ví dụ: lbs so với kg) và thông tin không chính xác về mặt thực tế. Các quy tắc xác thực dữ liệu thường được áp dụng để gắn cờ các lỗi này.
  • Loại bỏ các bản sao: Các bản ghi trùng lặp có thể đưa sai lệch vào mô hình bằng cách tạo ra trọng số không phù hợp cho một số điểm dữ liệu nhất định. Xác định và loại bỏ các mục dư thừa này là một bước tiêu chuẩn.
  • Quản lý Ngoại lệ: Ngoại lệ là các điểm dữ liệu lệch đáng kể so với các quan sát khác. Tùy thuộc vào nguyên nhân của chúng, chúng có thể bị xóa, sửa chữa hoặc chuyển đổi để ngăn chúng ảnh hưởng tiêu cực đến quá trình huấn luyện mô hình. Các kỹ thuật phát hiện ngoại lệ được sử dụng rộng rãi cho việc này.
  • Chuẩn hóa Dữ liệu: Điều này liên quan đến việc đảm bảo rằng dữ liệu tuân thủ một định dạng nhất quán. Ví dụ bao gồm chuẩn hóa định dạng ngày, chữ hoa chữ thường (ví dụ: chuyển đổi tất cả văn bản thành chữ thường) và chuyển đổi đơn vị. Các tiêu chuẩn chất lượng dữ liệu nhất quán là rất quan trọng để thành công.

Các ứng dụng AI/ML thực tế

  1. Phân tích ảnh y tế: Khi huấn luyện một mô hình phát hiện đối tượng trên một bộ dữ liệu như bộ dữ liệu U não, làm sạch dữ liệu là rất quan trọng. Quá trình này sẽ bao gồm việc loại bỏ các tệp hình ảnh bị hỏng hoặc chất lượng thấp, chuẩn hóa tất cả các hình ảnh về độ phân giải và định dạng nhất quán, đồng thời xác minh rằng nhãn và chú thích của bệnh nhân là chính xác. Điều này đảm bảo mô hình học hỏi từ thông tin rõ ràng, đáng tin cậy, điều này rất cần thiết để phát triển các công cụ chẩn đoán đáng tin cậy trong ứng dụng AI trong Chăm sóc sức khỏe. Viện Chẩn đoán Hình ảnh và Kỹ thuật Y sinh Quốc gia (NIBIB) nhấn mạnh tầm quan trọng của dữ liệu chất lượng trong nghiên cứu y học.
  2. AI cho Quản lý hàng tồn kho bán lẻ: Trong bán lẻ dựa trên AI, các mô hình thị giác máy tính theo dõi hàng hóa trên kệ bằng cách sử dụng nguồn cấp dữ liệu camera. Việc làm sạch dữ liệu là cần thiết để lọc ra những hình ảnh bị mờ, loại bỏ các khung hình mà sản phẩm bị người mua hàng che khuất và loại bỏ trùng lặp số lượng sản phẩm từ nhiều góc camera. Việc khắc phục những sự cố này đảm bảo hệ thống hàng tồn kho có cái nhìn chính xác về mức tồn kho, cho phép bổ sung hàng thông minh hơn và giảm lãng phí. Các công ty như Google Cloud cung cấp các giải pháp phân tích, trong đó chất lượng dữ liệu là tối quan trọng.

Làm Sạch Dữ Liệu so với Các Khái Niệm Liên Quan

Điều quan trọng là phải phân biệt làm sạch dữ liệu (data cleaning) với các bước chuẩn bị dữ liệu liên quan:

Làm sạch dữ liệu (Data cleaning) là một thực hành nền tảng, thường lặp đi lặp lại, giúp tăng đáng kể độ tin cậy và hiệu suất của các hệ thống AI bằng cách đảm bảo dữ liệu cơ bản là hợp lệ. Các công cụ như thư viện Pandas thường được sử dụng cho các tác vụ thao tác và làm sạch dữ liệu trong quy trình làm việc ML dựa trên Python. Đảm bảo chất lượng dữ liệu thông qua làm sạch nghiêm ngặt là rất quan trọng để phát triển AI đáng tin cậy, đặc biệt khi làm việc với các tác vụ thị giác máy tính (CV) phức tạp hoặc bộ dữ liệu chuẩn (benchmark datasets) quy mô lớn như COCO hoặc ImageNet. Các nền tảng như Ultralytics HUB có thể giúp quản lý và duy trì các bộ dữ liệu chất lượng cao trong suốt vòng đời dự án.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard