Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Trôi Dữ Liệu (Data Drift)

Khám phá các loại, nguyên nhân và giải pháp cho trôi dữ liệu (data drift) trong machine learning. Tìm hiểu cách phát hiện và giảm thiểu trôi dữ liệu để có các mô hình AI mạnh mẽ.

Trôi dữ liệu (Data drift) là một thách thức phổ biến trong học máy (ML) xảy ra khi các thuộc tính thống kê của dữ liệu mà một mô hình gặp phải trong quá trình sản xuất thay đổi theo thời gian so với dữ liệu huấn luyện (training data) mà nó được xây dựng. Sự thay đổi này có nghĩa là mô hình đang hoạt động trên dữ liệu mà nó chưa được chuẩn bị, điều này có thể dẫn đến sự suy giảm âm thầm nhưng đáng kể trong hiệu suất dự đoán của nó. Quản lý hiệu quả trôi dữ liệu là một thành phần quan trọng của vòng đời MLOps, đảm bảo rằng các hệ thống trí tuệ nhân tạo (AI) vẫn đáng tin cậy sau khi triển khai mô hình (model deployment). Nếu không có giám sát mô hình (model monitoring) chủ động, vấn đề này có thể không bị phát hiện, dẫn đến các quyết định tồi tệ và kết quả kinh doanh tiêu cực.

Trôi dạt Dữ liệu so với Trôi dạt Khái niệm

Điều quan trọng là phải phân biệt trôi dữ liệu (data drift) với một vấn đề liên quan, trôi khái niệm (concept drift). Mặc dù cả hai đều có thể làm giảm hiệu suất của mô hình, nhưng nguyên nhân của chúng là khác nhau.

  • Trôi dữ liệu (Data Drift): Còn được gọi là trôi đặc trưng (feature drift) hoặc trôi hiệp biến (covariate drift), điều này xảy ra khi phân phối của dữ liệu đầu vào thay đổi, nhưng mối quan hệ cơ bản giữa đầu vào và đầu ra vẫn không đổi. Ví dụ: một mô hình thị giác máy tính (computer vision) được huấn luyện trên hình ảnh từ một loại máy ảnh có thể hoạt động kém trên hình ảnh từ một máy ảnh mới có các thuộc tính cảm biến khác nhau. Định nghĩa của các đối tượng được phát hiện là giống nhau, nhưng các đặc điểm của dữ liệu đầu vào đã thay đổi.
  • Concept Drift: Điều này xảy ra khi các thuộc tính thống kê của biến mục tiêu thay đổi theo thời gian. Mối quan hệ cơ bản giữa các đặc trưng đầu vào và biến đầu ra bị thay đổi. Ví dụ: trong một hệ thống phát hiện gian lận tài chính, các chiến thuật được những kẻ gian lận sử dụng sẽ phát triển, thay đổi những gì cấu thành một giao dịch "gian lận". Bạn có thể tìm thấy một khám phá chi tiết về concept drift trong các tài liệu học thuật.

Các ví dụ thực tế

  1. Quản lý hàng tồn kho bán lẻ: Một hệ thống bán lẻ dựa trên AI sử dụng nguồn cấp dữ liệu camera và một mô hình phát hiện đối tượng như Ultralytics YOLO11 để theo dõi hàng tồn kho trên kệ. Mô hình này được đào tạo trên một bộ bao bì sản phẩm cụ thể. Nếu nhà cung cấp thay đổi thiết kế bao bì hoặc cửa hàng nâng cấp ánh sáng, điều này sẽ gây ra hiện tượng trôi dữ liệu. Dữ liệu trực quan mới khác với tập dữ liệu huấn luyện ban đầu, có khả năng khiến mô hình không nhận dạng được sản phẩm, dẫn đến số lượng hàng tồn kho không chính xác.
  2. Xe tự hành: Xe tự lái sử dụng các mô hình được huấn luyện trên lượng lớn dữ liệu cảm biến từ các vị trí địa lý và điều kiện thời tiết cụ thể. Nếu một chiếc xe được triển khai ở một thành phố mới hoặc gặp phải một sự kiện thời tiết hiếm gặp như tuyết lần đầu tiên, hệ thống nhận thức của nó sẽ đối mặt với hiện tượng trôi dữ liệu (data drift). Sự phân phối của các đầu vào (ví dụ: vạch kẻ đường, biển báo giao thông, hành vi của người đi bộ) khác biệt đáng kể so với kinh nghiệm huấn luyện của nó, điều này có thể gây nguy hiểm và cần được chú ý ngay lập tức. Waymo và các công ty xe tự hành khác đầu tư rất nhiều vào việc phát hiện và giảm thiểu vấn đề này.

Phát hiện và Giảm thiểu Hiện tượng Trôi Dữ liệu

Phát hiện và giải quyết sự trôi dữ liệu là một quá trình liên tục bao gồm sự kết hợp giữa các chiến lược giám sát và bảo trì.

Các Phương pháp Detection (Phát hiện)

  • Giám sát hiệu suất: Theo dõi các chỉ số mô hình quan trọng như độ chính xác (precision), độ phủ (recall)F1-score theo thời gian có thể cho thấy sự suy giảm hiệu suất do trôi dạt dữ liệu (drift). Các công cụ như TensorBoard có thể giúp trực quan hóa các chỉ số này.
  • Giám sát thống kê: Áp dụng các kiểm định thống kê để so sánh sự phân phối của dữ liệu đầu vào với dữ liệu huấn luyện. Các phương pháp phổ biến bao gồm kiểm định Kolmogorov-Smirnov, Chỉ số ổn định dân số (PSI) hoặc kiểm định chi bình phương.
  • Công cụ giám sát: Sử dụng các nền tảng khả năng quan sát chuyên dụng được thiết kế để giám sát các mô hình ML trong sản xuất. Các tùy chọn mã nguồn mở bao gồm PrometheusGrafana, trong khi các công cụ ML chuyên dụng như Evidently AINannyML cung cấp các tính năng phát hiện trôi dữ liệu cụ thể hơn. Các nhà cung cấp dịch vụ đám mây cũng cung cấp các giải pháp như AWS SageMaker Model MonitorVertex AI Model Monitoring của Google Cloud.

Các chiến lược giảm thiểu

  • Huấn luyện lại: Chiến lược đơn giản nhất là thường xuyên huấn luyện lại mô hình trên dữ liệu mới, gần đây phản ánh môi trường sản xuất hiện tại. Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho quy trình làm việc huấn luyện lại và triển khai dễ dàng.
  • Học trực tuyến: Điều này liên quan đến việc cập nhật mô hình một cách gia tăng khi dữ liệu mới đến. Nên sử dụng thận trọng, vì nó có thể nhạy cảm với dữ liệu nhiễu và có thể khiến hiệu suất của mô hình dao động không thể đoán trước.
  • Tăng cường dữ liệu: Chủ động sử dụng các kỹ thuật tăng cường dữ liệu trong giai đoạn huấn luyện ban đầu có thể làm cho mô hình mạnh mẽ hơn đối với một số loại biến thể nhất định, chẳng hạn như thay đổi về ánh sáng, tỷ lệ hoặc hướng.
  • Thích ứng miền (Domain Adaptation): Sử dụng các kỹ thuật tiên tiến để cố gắng thích ứng một cách rõ ràng một mô hình được huấn luyện trên phân phối dữ liệu nguồn với một phân phối dữ liệu mục tiêu khác nhưng có liên quan. Đây là một lĩnh vực nghiên cứu ML tích cực.

Quản lý hiệu quả sự trôi dạt dữ liệu (data drift) là rất quan trọng để đảm bảo rằng các hệ thống AI được xây dựng bằng các framework như PyTorch hoặc TensorFlow vẫn chính xác và mang lại giá trị trong suốt vòng đời hoạt động của chúng. Bạn có thể tìm hiểu thêm về các phương pháp hay nhất để bảo trì mô hình trong blog của chúng tôi.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard