Thuật ngữ

Làm sạch dữ liệu

Làm sạch dữ liệu chính cho các dự án AI và ML. Tìm hiểu các kỹ thuật để sửa lỗi, nâng cao chất lượng dữ liệu và tăng hiệu suất mô hình một cách hiệu quả!

Làm sạch dữ liệu là quá trình xác định, sửa chữa hoặc loại bỏ dữ liệu bị hỏng, không chính xác, không đầy đủ hoặc không nhất quán khỏi một tập dữ liệu. Đây là bước đầu tiên quan trọng trong bất kỳ quy trình học máy (ML) nào, vì chất lượng dữ liệu huấn luyện quyết định trực tiếp hiệu suất và độ tin cậy của mô hình kết quả. Tuân thủ nguyên tắc "đầu vào rác, đầu ra rác", làm sạch dữ liệu đảm bảo các mô hình như Ultralytics YOLO được huấn luyện dựa trên thông tin chính xác và nhất quán, mang lại độ chính xác cao hơn và dự đoán đáng tin cậy hơn. Nếu không được làm sạch đúng cách, các vấn đề tiềm ẩn trong dữ liệu có thể dẫn đến kết quả bị sai lệch và khả năng khái quát hóa mô hình kém.

Nhiệm vụ dọn dẹp dữ liệu chính

Quá trình làm sạch dữ liệu bao gồm một số tác vụ riêng biệt được thiết kế để giải quyết các loại vấn đề chất lượng dữ liệu khác nhau. Các tác vụ này thường mang tính lặp lại và có thể yêu cầu kiến thức chuyên môn.

  • Xử lý Giá trị Thiếu : Tập dữ liệu thường chứa các mục bị thiếu, có thể được giải quyết bằng cách loại bỏ các bản ghi không đầy đủ hoặc bằng cách nhập (điền) các giá trị bị thiếu bằng các phương pháp thống kê như trung bình, trung vị hoặc các mô hình dự đoán tiên tiến hơn. Hướng dẫn về xử lý dữ liệu bị thiếu có thể cung cấp thêm thông tin chi tiết.
  • Sửa dữ liệu không chính xác : Bao gồm sửa lỗi đánh máy, lỗi đo lường không nhất quán (ví dụ: lbs so với kg) và thông tin không chính xác về mặt thực tế. Các quy tắc xác thực dữ liệu thường được áp dụng để đánh dấu các lỗi này.
  • Loại bỏ các mục trùng lặp : Các bản ghi trùng lặp có thể gây ra sai lệch trong mô hình bằng cách gán trọng số không cần thiết cho một số điểm dữ liệu nhất định. Việc xác định và loại bỏ các mục trùng lặp này là một bước tiêu chuẩn.
  • Quản lý Giá trị Ngoại lệ : Giá trị ngoại lệ là các điểm dữ liệu có sự khác biệt đáng kể so với các quan sát khác. Tùy thuộc vào nguyên nhân, chúng có thể được loại bỏ, hiệu chỉnh hoặc chuyển đổi để tránh ảnh hưởng tiêu cực đến quá trình huấn luyện mô hình . Các kỹ thuật phát hiện giá trị ngoại lệ được sử dụng rộng rãi cho mục đích này.
  • Chuẩn hóa dữ liệu : Điều này bao gồm việc đảm bảo dữ liệu tuân thủ một định dạng nhất quán. Ví dụ bao gồm chuẩn hóa định dạng ngày tháng, viết hoa chữ cái đầu (ví dụ: chuyển đổi toàn bộ văn bản sang chữ thường) và chuyển đổi đơn vị. Các tiêu chuẩn chất lượng dữ liệu nhất quán là rất quan trọng để thành công.

Ứng dụng AI/ML trong thế giới thực

  1. Phân tích Hình ảnh Y tế : Khi huấn luyện mô hình phát hiện đối tượng trên một tập dữ liệu như tập dữ liệu U Não , việc làm sạch dữ liệu là vô cùng quan trọng. Quá trình này bao gồm việc loại bỏ các tệp hình ảnh bị hỏng hoặc chất lượng thấp, chuẩn hóa tất cả hình ảnh về độ phân giải và định dạng nhất quán, và xác minh nhãn và chú thích của bệnh nhân là chính xác. Điều này đảm bảo mô hình học hỏi từ thông tin rõ ràng, đáng tin cậy, điều cần thiết để phát triển các công cụ chẩn đoán đáng tin cậy trong AI trong lĩnh vực chăm sóc sức khỏe . Viện Quốc gia về Chẩn đoán Hình ảnh và Kỹ thuật Sinh học Y sinh (NIBIB) nhấn mạnh tầm quan trọng của dữ liệu chất lượng trong nghiên cứu y khoa.
  2. AI cho Quản lý Hàng tồn kho Bán lẻ : Trong lĩnh vực bán lẻ ứng dụng AI , các mô hình thị giác máy tính giám sát hàng tồn kho trên kệ bằng nguồn cấp dữ liệu camera. Việc làm sạch dữ liệu là cần thiết để lọc bỏ các hình ảnh mờ, loại bỏ các khung hình sản phẩm bị che khuất bởi người mua sắm và loại bỏ trùng lặp số lượng sản phẩm từ nhiều góc camera. Việc khắc phục những vấn đề này đảm bảo hệ thống kiểm kê có cái nhìn chính xác về lượng hàng tồn kho, cho phép bổ sung hàng hóa thông minh hơn và giảm thiểu lãng phí. Các công ty như Google Cloud cung cấp các giải pháp phân tích, trong đó chất lượng dữ liệu là yếu tố quan trọng hàng đầu.

Dọn dẹp dữ liệu so với các khái niệm liên quan

Điều quan trọng là phải phân biệt việc dọn dẹp dữ liệu với các bước chuẩn bị dữ liệu liên quan:

  • Tiền xử lý dữ liệu : Đây là một thuật ngữ rộng hơn, bao gồm cả việc làm sạch dữ liệu nhưng cũng bao gồm các chuyển đổi khác để chuẩn bị dữ liệu cho các mô hình ML, chẳng hạn như chuẩn hóa (điều chỉnh tỷ lệ các đặc trưng số), mã hóa các biến phân loại và trích xuất đặc trưng . Trong khi làm sạch tập trung vào việc sửa lỗi, tiền xử lý tập trung vào việc định dạng dữ liệu cho các thuật toán. Xem hướng dẫn của Ultralytics về tiền xử lý dữ liệu có chú thích để biết thêm chi tiết.
  • Ghi nhãn dữ liệu : Đây là quá trình thêm thẻ hoặc chú thích thông tin (nhãn) vào dữ liệu thô, chẳng hạn như vẽ các hộp giới hạn xung quanh các đối tượng trong hình ảnh để học có giám sát . Việc làm sạch dữ liệu có thể bao gồm việc sửa các nhãn không chính xác được phát hiện trong quá trình kiểm tra chất lượng, nhưng nó khác với hành động ghi nhãn ban đầu. Hướng dẫn Thu thập và Chú thích Dữ liệu cung cấp thông tin chi tiết về việc ghi nhãn.
  • Tăng cường Dữ liệu : Kỹ thuật này làm tăng kích thước và tính đa dạng của tập dữ liệu huấn luyện một cách nhân tạo bằng cách tạo ra các bản sao đã sửa đổi của dữ liệu hiện có (ví dụ: xoay ảnh, thay đổi độ sáng). Tăng cường dữ liệu nhằm mục đích cải thiện khả năng khái quát hóa và độ mạnh mẽ của mô hình, trong khi làm sạch dữ liệu tập trung vào việc cải thiện chất lượng của dữ liệu gốc . Tìm hiểu thêm trong Hướng dẫn Tối ưu về Tăng cường Dữ liệu .

Làm sạch dữ liệu là một hoạt động nền tảng, thường lặp đi lặp lại, giúp tăng cường đáng kể độ tin cậy và hiệu suất của các hệ thống AI bằng cách đảm bảo dữ liệu cơ bản là chính xác. Các công cụ như thư viện Pandas thường được sử dụng cho các tác vụ xử lý và làm sạch dữ liệu trong quy trình làm việc ML dựa trên Python. Đảm bảo chất lượng dữ liệu thông qua việc làm sạch nghiêm ngặt là rất quan trọng để phát triển AI đáng tin cậy, đặc biệt là khi làm việc với các tác vụ thị giác máy tính (CV) phức tạp hoặc các tập dữ liệu chuẩn quy mô lớn như COCO hoặc ImageNet . Các nền tảng như Ultralytics HUB có thể giúp quản lý và duy trì các tập dữ liệu chất lượng cao trong suốt vòng đời dự án.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard