Thuật ngữ

Dữ liệu trôi dạt

Khám phá các loại, nguyên nhân và giải pháp cho sự trôi dữ liệu trong học máy. Tìm hiểu cách phát hiện và giảm thiểu sự trôi dữ liệu cho các mô hình AI mạnh mẽ.

Trôi dữ liệu là một thách thức phổ biến trong học máy (ML) , xảy ra khi các thuộc tính thống kê của dữ liệu mà mô hình gặp phải trong quá trình sản xuất thay đổi theo thời gian so với dữ liệu huấn luyện mà nó được xây dựng dựa trên. Sự thay đổi này đồng nghĩa với việc mô hình đang vận hành trên dữ liệu mà nó chưa được chuẩn bị, điều này có thể dẫn đến sự suy giảm âm thầm nhưng đáng kể về hiệu suất dự đoán. Quản lý trôi dữ liệu hiệu quả là một thành phần quan trọng của vòng đời MLOps , đảm bảo các hệ thống Trí tuệ Nhân tạo (AI) vẫn đáng tin cậy sau khi triển khai mô hình . Nếu không có giám sát mô hình chủ động, vấn đề này có thể không được phát hiện, dẫn đến các quyết định kém và kết quả kinh doanh tiêu cực.

Sự trôi dạt dữ liệu so với sự trôi dạt khái niệm

Điều quan trọng là phải phân biệt sự trôi dạt dữ liệu với một vấn đề liên quan, đó là sự trôi dạt khái niệm. Mặc dù cả hai đều có thể làm giảm hiệu suất mô hình, nhưng nguyên nhân của chúng lại khác nhau.

  • Trôi Dữ Liệu: Còn được gọi là trôi đặc trưng hoặc trôi hiệp biến, hiện tượng này xảy ra khi phân phối dữ liệu đầu vào thay đổi, nhưng mối quan hệ cơ bản giữa đầu vào và đầu ra vẫn không đổi. Ví dụ, một mô hình thị giác máy tính được đào tạo trên hình ảnh từ một loại camera có thể hoạt động kém trên hình ảnh từ một camera mới có các thuộc tính cảm biến khác. Định nghĩa về các đối tượng được phát hiện vẫn như cũ, nhưng các đặc điểm của dữ liệu đầu vào đã thay đổi.
  • Trôi dạt khái niệm: Điều này xảy ra khi các thuộc tính thống kê của biến mục tiêu thay đổi theo thời gian. Mối quan hệ cơ bản giữa các đặc điểm đầu vào và biến đầu ra bị thay đổi. Ví dụ, trong một hệ thống phát hiện gian lận tài chính, các chiến thuật mà kẻ gian sử dụng sẽ thay đổi, làm thay đổi những gì cấu thành nên một giao dịch "gian lận". Có thể tìm hiểu chi tiết về trôi dạt khái niệm trong các tài liệu học thuật .

Ví dụ thực tế

  1. Quản lý Hàng tồn kho Bán lẻ: Hệ thống bán lẻ ứng dụng AI sử dụng nguồn cấp dữ liệu từ camera và mô hình phát hiện đối tượng như Ultralytics YOLO11 để theo dõi hàng tồn kho trên kệ. Mô hình được huấn luyện trên một bộ bao bì sản phẩm cụ thể. Nếu nhà cung cấp thay đổi thiết kế bao bì hoặc cửa hàng nâng cấp hệ thống chiếu sáng, điều này sẽ dẫn đến hiện tượng trôi dữ liệu. Dữ liệu hình ảnh mới khác với tập dữ liệu huấn luyện ban đầu, có khả năng khiến mô hình không nhận dạng được sản phẩm, dẫn đến số lượng hàng tồn kho không chính xác.
  2. Xe tự hành: Xe tự lái sử dụng các mô hình được đào tạo dựa trên lượng lớn dữ liệu cảm biến từ các vị trí địa lý và điều kiện thời tiết cụ thể. Nếu xe được triển khai tại một thành phố mới hoặc gặp phải hiện tượng thời tiết hiếm gặp như tuyết rơi lần đầu tiên, hệ thống nhận thức của xe sẽ phải đối mặt với hiện tượng trôi dữ liệu. Việc phân bổ dữ liệu đầu vào (ví dụ: vạch kẻ đường, biển báo giao thông, hành vi của người đi bộ) khác biệt đáng kể so với kinh nghiệm đào tạo, điều này có thể gây ảnh hưởng đến an toàn và cần được xử lý ngay lập tức. Waymo và các công ty xe tự hành khác đang đầu tư mạnh mẽ vào việc phát hiện và giảm thiểu hiện tượng này.

Phát hiện và giảm thiểu sự trôi dữ liệu

Phát hiện và giải quyết tình trạng trôi dữ liệu là một quá trình liên tục bao gồm sự kết hợp giữa các chiến lược giám sát và bảo trì.

Phương pháp phát hiện

  • Giám sát hiệu suất: Theo dõi các số liệu mô hình chính như độ chính xác , độ thu hồiđiểm F1 theo thời gian có thể chỉ ra sự suy giảm hiệu suất có thể do trôi dạt. Các công cụ như TensorBoard có thể giúp trực quan hóa các số liệu này.
  • Giám sát Thống kê: Áp dụng các kiểm định thống kê để so sánh phân phối của dữ liệu đầu vào với dữ liệu huấn luyện. Các phương pháp phổ biến bao gồm kiểm định Kolmogorov-Smirnov , Chỉ số Ổn định Dân số (PSI) hoặc kiểm định chi bình phương.
  • Công cụ Giám sát: Sử dụng các nền tảng quan sát chuyên biệt được thiết kế để giám sát các mô hình ML trong môi trường sản xuất. Các tùy chọn mã nguồn mở bao gồm PrometheusGrafana , trong khi các công cụ ML chuyên dụng như Evidently AINannyML cung cấp các tính năng phát hiện độ lệch cụ thể hơn. Các nhà cung cấp dịch vụ đám mây cũng cung cấp các giải pháp như AWS SageMaker Model MonitorVertex AI Model Monitoring của Google Cloud .

Chiến lược giảm thiểu

  • Đào tạo lại: Chiến lược đơn giản nhất là thường xuyên đào tạo lại mô hình trên dữ liệu mới, gần đây phản ánh môi trường sản xuất hiện tại. Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho quy trình đào tạo lại và triển khai dễ dàng.
  • Học trực tuyến: Phương pháp này liên quan đến việc cập nhật mô hình dần dần khi có dữ liệu mới. Cần thận trọng khi sử dụng vì nó có thể nhạy cảm với dữ liệu nhiễu và có thể khiến hiệu suất của mô hình dao động khó lường.
  • Tăng cường dữ liệu: Chủ động sử dụng các kỹ thuật tăng cường dữ liệu trong giai đoạn đào tạo ban đầu có thể giúp mô hình mạnh mẽ hơn trước một số loại biến thể nhất định, chẳng hạn như thay đổi về ánh sáng, tỷ lệ hoặc hướng.
  • Thích ứng miền: Sử dụng các kỹ thuật tiên tiến để cố gắng thích ứng một mô hình được đào tạo trên phân phối dữ liệu nguồn sang một phân phối dữ liệu đích khác nhưng có liên quan. Đây là một lĩnh vực nghiên cứu ML đang được quan tâm.

Việc quản lý hiệu quả sự trôi dạt dữ liệu là rất quan trọng để đảm bảo các hệ thống AI được xây dựng bằng các framework như PyTorch hoặc TensorFlow luôn chính xác và mang lại giá trị trong suốt vòng đời hoạt động. Bạn có thể tìm hiểu thêm về các phương pháp bảo trì mô hình tốt nhất trên blog của chúng tôi.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard