Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Máy học quên đi

Khám phá việc sử dụng máy học để loại bỏ có chọn lọc dữ liệu huấn luyện nhạy cảm. Tìm hiểu cách đảm bảo tuân thủ GDPR và bảo mật dữ liệu với Ultralytics YOLO26.

Học máy loại bỏ ảnh hưởng của dữ liệu huấn luyện (Machine unlearning) là một lĩnh vực con mới nổi của học máy , tập trung vào việc loại bỏ ảnh hưởng của một tập hợp con dữ liệu huấn luyện cụ thể khỏi một mô hình đã được huấn luyện. Khi các mô hình tiếp nhận lượng thông tin khổng lồ, khả năng "quên" dữ liệu một cách có chọn lọc trở nên vô cùng quan trọng. Quá trình này cho phép các nhà phát triển trích xuất các điểm dữ liệu cụ thể mà không cần phải huấn luyện lại toàn bộ kiến ​​trúc từ đầu, tiết kiệm đáng kể thời gian và chi phí tính toán .

Động lực chính thúc đẩy công nghệ này là Bảo vệ Dữ liệu Cá nhân . Với sự ra đời của các quy định và yêu cầu bảo vệ dữ liệu nghiêm ngặt như Quyền được Lãng quên của GDPR, người dùng có quyền pháp lý yêu cầu xóa thông tin cá nhân của họ. Học máy loại bỏ dữ liệu (Machine unlearning) cung cấp một con đường để loại bỏ dữ liệu này một cách an toàn khỏi các mô hình học sâu , đảm bảo tuân thủ quy định trong khi vẫn duy trì tính hữu ích tổng thể của mô hình.

Cách thức hoạt động của việc xóa bỏ kiến ​​thức máy móc

Các cơ chế giảm độ dốc truyền thống đan xen dữ liệu huấn luyện sâu vào trọng số của mạng. Vì lý do này, việc đơn giản xóa hình ảnh hoặc tệp văn bản gốc khỏi cơ sở dữ liệu không loại bỏ được các mẫu đã học khỏi chính mô hình. Các kỹ thuật xóa bỏ dữ liệu đã học thường được chia thành hai loại: xóa bỏ chính xác và xóa bỏ gần đúng. Xóa bỏ chính xác đảm bảo rằng mô hình cuối cùng về mặt thống kê giống hệt với một mô hình được huấn luyện hoàn toàn mà không có dữ liệu bị lãng quên, thường đạt được thông qua việc phân vùng tập dữ liệu khéo léo. Xóa bỏ gần đúng, thường được thảo luận trong các nghiên cứu gần đây về các thuật toán xóa bỏ hiệu quả , sử dụng các can thiệp toán học để điều chỉnh các tham số của mô hình và che giấu ảnh hưởng của dữ liệu mục tiêu một cách hồi tố.

Điều quan trọng là phải phân biệt giữa việc máy học quên đi kiến ​​thức cũ và học liên tục . Trong khi học liên tục hướng đến việc bổ sung kiến ​​thức mới một cách tuần tự mà không bị quên lãng một cách đột ngột, thì việc máy học quên đi kiến ​​thức cũ là việc loại bỏ kiến ​​thức một cách có chủ đích và có mục tiêu. Các tổ chức tập trung vào tính công bằng của thuật toán cũng sử dụng việc máy học quên đi kiến ​​thức cũ để khắc phục sự thiên vị trong AI bằng cách loại bỏ dữ liệu có hại hoặc bị sai lệch sau khi huấn luyện.

Các Ứng dụng Thực tế

Các thuật toán xóa bỏ kiến ​​thức đã nhanh chóng chuyển từ nghiên cứu lý thuyết về an toàn AI sang ứng dụng thực tiễn trong nhiều ngành công nghiệp khác nhau.

  • Chăm sóc sức khỏe và hình ảnh y tế: Trong phân tích hình ảnh y tế , sự đồng ý của bệnh nhân có thể bị thu hồi bất cứ lúc nào. Nếu bệnh nhân yêu cầu rút lại phim X-quang của họ, các bệnh viện có thể sử dụng kỹ thuật "học lại" để trích xuất các mô hình sinh lý cụ thể của họ từ mô hình chẩn đoán mà không ảnh hưởng đến khả năng của hệ thống. detect bệnh tật cho các bệnh nhân khác.
  • Giám sát và An ninh: Trong các hệ thống giám sát thông minh hiện đại, camera có thể vô tình thu thập thông tin nhận dạng cá nhân (PII) như biển số xe hoặc khuôn mặt. Chức năng "học lại" cho phép các nhà phát triển loại bỏ PII cụ thể này khỏi mô hình thị giác máy tính đã triển khai để tuân thủ các kỹ thuật AI bảo vệ quyền riêng tư .

Thực hiện các chiến lược xóa bỏ kiến ​​thức lỗi thời

Mặc dù các API xóa bỏ dữ liệu trực tiếp, một bước duy nhất vẫn là một lĩnh vực nghiên cứu tích cực trong các thách thức về xóa bỏ dữ liệu bằng máy học , nhưng các chuyên gia thường đạt được một cơ sở dữ liệu xóa bỏ chính xác bằng cách chọn lọc một tập dữ liệu đã được làm sạch và bắt đầu một chu kỳ huấn luyện lại nhanh chóng. Khi sử dụng Nền tảng Ultralytics để quản lý dữ liệu dựa trên đám mây, bạn có thể dễ dàng tạo phiên bản cho tập dữ liệu để loại trừ dữ liệu đã bị thu hồi.

Dưới đây là tóm tắt ngắn gọn. Python Ví dụ minh họa phương pháp cơ bản để loại bỏ kiến ​​thức lỗi thời bằng cách huấn luyện lại Ultralytics YOLO26 trên tập dữ liệu đã được làm sạch:

from ultralytics import YOLO

# Load an existing, pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Naive exact unlearning: perform efficient retraining on a sanitized dataset.
# The 'sanitized_data.yaml' excludes the specific sensitive data to be "unlearned"
results = model.train(data="sanitized_data.yaml", epochs=50, device="cuda")

Khi nhu cầu tối ưu hóa mô hìnhtính ổn định trong mạng nơ-ron ngày càng tăng, việc "quên đi" (unlearning) đang trở thành một yêu cầu tiêu chuẩn. Cho dù bạn đang quản lý các quy trình phân loại hình ảnh phức tạp hay triển khai các mô hình ở biên, việc tích hợp các cơ chế để "quên đi" dữ liệu một cách có trách nhiệm sẽ đảm bảo hệ thống AI của bạn luôn tuân thủ các quy định, công bằng và đáng tin cậy.

Tăng sức mạnh với Ultralytics YOLO

Nhận AI thị giác tiên tiến cho các dự án của bạn. Tìm giấy phép phù hợp với mục tiêu của bạn ngay hôm nay.

Tìm hiểu các tùy chọn cấp phép