Federated Learning là một kỹ thuật Machine Learning (ML) được thiết kế để đào tạo các thuật toán trên nhiều thiết bị biên phi tập trung hoặc máy chủ lưu trữ các mẫu dữ liệu cục bộ, mà không trao đổi dữ liệu thô. Phương pháp này giải quyết trực tiếp các mối quan tâm quan trọng xung quanh Quyền riêng tư dữ liệu , bảo mật và quyền truy cập dữ liệu, cho phép đào tạo mô hình cộng tác bằng cách sử dụng các tập dữ liệu không thể hoặc không nên được thu thập tập trung. Thay vì đưa dữ liệu đến một mô hình trung tâm, Federated Learning đưa quy trình đào tạo mô hình đến vị trí của dữ liệu, thường nằm trên các thiết bị AI biên như điện thoại thông minh hoặc máy chủ bệnh viện. Nó đại diện cho sự chuyển dịch sang Trí tuệ nhân tạo (AI) an toàn hơn và có ý thức về quyền riêng tư hơn.
Các khái niệm cốt lõi của học tập liên bang
Học tập liên bang hoạt động thông qua một quy trình lặp đi lặp lại thường được điều phối bởi một máy chủ hoặc điều phối viên trung tâm:
- Khởi tạo: Máy chủ trung tâm bắt đầu bằng một mô hình toàn cầu ban đầu (ví dụ: mô hình YOLO Ultralytics chung để phát hiện đối tượng ).
- Phân phối: Mô hình toàn cầu này được gửi đến một số thiết bị khách hàng (ví dụ: điện thoại di động, máy chủ cục bộ).
- Đào tạo cục bộ: Mỗi thiết bị khách hàng đào tạo mô hình đã nhận bằng dữ liệu cục bộ của riêng nó. Vì dữ liệu này không bao giờ rời khỏi thiết bị nên quyền riêng tư được duy trì. Bước này sử dụng tài nguyên tính toán cục bộ.
- Cập nhật truyền: Thay vì gửi dữ liệu thô, máy khách chỉ gửi các tham số mô hình đã cập nhật ( weights and biases ) hoặc các gradient được tính toán trở lại máy chủ trung tâm. Các kỹ thuật như tổng hợp an toàn và quyền riêng tư khác biệt có thể được áp dụng ở đây để tăng cường bảo mật.
- Tổng hợp: Máy chủ trung tâm tổng hợp các bản cập nhật từ các máy khách tham gia (ví dụ: bằng cách tính trung bình trọng số) để cải thiện mô hình toàn cầu được chia sẻ.
- Lặp lại: Các bước 2-5 được lặp lại cho đến khi mô hình toàn cầu đạt đến mức hiệu suất mong muốn, thường được đánh giá bằng các số liệu chuẩn được thảo luận trong các hướng dẫn như YOLO Performance Metrics .
Quá trình này cho phép mô hình toàn cầu học từ một phạm vi dữ liệu rộng lớn và đa dạng được phân phối trên nhiều địa điểm mà không ảnh hưởng đến quyền riêng tư của người dùng. Bạn có thể khám phá nghiên cứu và ứng dụng Federated Learning để biết thêm thông tin cơ bản.
Học tập liên bang so với đào tạo phân tán
Trong khi Học tập liên bang liên quan đến việc đào tạo trên nhiều máy, nó khác đáng kể so với Đào tạo phân tán truyền thống:
- Phân phối dữ liệu: Đào tạo phân tán thường giả định dữ liệu được thu thập tập trung và sau đó phân phối (thường là giống hệt nhau và độc lập, hoặc IID) trên các nút trong một môi trường được kiểm soát như trung tâm dữ liệu. Học tập liên bang về cơ bản giả định dữ liệu được phân cấp ngay từ đầu và thường không phải là IID, phản ánh sự thay đổi dữ liệu trong thế giới thực giữa người dùng hoặc địa điểm.
- Quyền riêng tư: Bảo vệ quyền riêng tư là mục tiêu cơ bản của Học tập liên bang. Mục tiêu chính của đào tạo phân tán thường là khả năng mở rộng và tốc độ, ít tập trung vào quyền riêng tư dữ liệu trong quá trình đào tạo.
- Mạng và phần cứng: Học liên bang phải xử lý các kết nối mạng không đáng tin cậy và khả năng phần cứng không đồng nhất của các thiết bị khách hàng, trong khi đào tạo phân tán thường chạy trên các mạng băng thông cao và phần cứng đồng nhất hơn.
Ứng dụng của học tập liên bang
Học tập liên bang đặc biệt có giá trị trong các tình huống mà dữ liệu nhạy cảm, lớn hoặc phân tán cố hữu:
- Chăm sóc sức khỏe: Đào tạo các mô hình chẩn đoán cho các nhiệm vụ như Phân tích hình ảnh y tế trên nhiều bệnh viện mà không cần chia sẻ hồ sơ bệnh nhân nhạy cảm. Điều này cho phép tạo ra các mô hình mạnh mẽ hơn bằng cách tận dụng dữ liệu bệnh nhân đa dạng trong khi tuân thủ các quy định nghiêm ngặt về quyền riêng tư như HIPAA. Xem các ví dụ trong Học tập liên bang cho Tin học chăm sóc sức khỏe và khám phá các giải pháp AI liên quan trong chăm sóc sức khỏe .
- Thiết bị di động: Cải thiện các tính năng trên thiết bị như bàn phím văn bản dự đoán (ví dụ: Google (Gboard), nhận dạng lệnh trợ lý giọng nói hoặc đề xuất được cá nhân hóa bằng cách đào tạo các mô hình trực tiếp trên điện thoại của người dùng mà không cần tải dữ liệu cá nhân hoặc lịch sử giao tiếp lên máy chủ trung tâm.
- Tài chính: Phát hiện các giao dịch gian lận bằng cách đào tạo các mô hình trên dữ liệu giao dịch do các ngân hàng khác nhau nắm giữ mà không yêu cầu các ngân hàng chia sẻ dữ liệu khách hàng bí mật.
- IoT công nghiệp: Phát triển các mô hình bảo trì dự đoán cho máy móc dựa trên dữ liệu cảm biến từ các nhà máy hoặc địa điểm khác nhau mà không cần tập trung dữ liệu vận hành độc quyền.
Lợi ích của việc học liên bang
- Nâng cao quyền riêng tư: Dữ liệu thô vẫn được lưu trữ cục bộ trên thiết bị của khách hàng, giúp giảm đáng kể rủi ro về quyền riêng tư.
- Giảm tải truyền thông: Việc truyền các bản cập nhật mô hình thường ít tốn băng thông hơn so với việc truyền toàn bộ tập dữ liệu.
- Học tập theo thời gian thực: Các mô hình có khả năng được cập nhật thường xuyên hơn bằng cách sử dụng dữ liệu cục bộ mới nhất trên các thiết bị biên.
- Tận dụng dữ liệu đa dạng: Cho phép truy cập vào các tập dữ liệu lớn hơn, đa dạng hơn mà không thể tập trung hóa vì lý do pháp lý, đạo đức hoặc hậu cần, có khả năng làm giảm hiện tượng quá khớp .
Những thách thức của việc học liên bang
Mặc dù có nhiều ưu điểm, phương pháp học liên bang vẫn phải đối mặt với một số rào cản:
- Hiệu quả truyền thông: Việc phối hợp và tổng hợp các bản cập nhật từ hàng nghìn hoặc hàng triệu thiết bị có thể chậm và phức tạp, đặc biệt là khi băng thông hạn chế hoặc kết nối không đáng tin cậy.
- Tính không đồng nhất của hệ thống: Các thiết bị khách hàng có sự khác biệt rất lớn về sức mạnh xử lý ( CPU / GPU ), bộ nhớ, kết nối mạng và nguồn điện khả dụng.
- Tính không đồng nhất về mặt thống kê: Dữ liệu trên các thiết bị thường không phải là IID (không phân phối giống hệt nhau và độc lập), điều này có thể làm sai lệch mô hình toàn cầu hoặc làm chậm quá trình hội tụ.
- Mối quan ngại về bảo mật: Trong khi tăng cường quyền riêng tư dữ liệu, bản thân hệ thống có thể dễ bị tấn công bởi các cuộc tấn công đối nghịch nhắm vào các bản cập nhật mô hình hoặc các vi phạm bảo mật tiềm ẩn tại máy chủ trung tâm. Đảm bảo Bảo mật dữ liệu tổng thể vẫn là điều quan trọng.
- Quản lý khách hàng: Việc lựa chọn khách hàng phù hợp, quản lý sự tham gia và xử lý tình trạng bỏ cuộc là những thách thức về mặt hậu cần.
Các khuôn khổ như TensorFlow Federated và các thư viện từ các tổ chức như OpenMined hướng đến mục tiêu giải quyết một số thách thức này. Mặc dù phức tạp, Federated Learning là một hướng đi đầy hứa hẹn để xây dựng các hệ thống AI có nhận thức về quyền riêng tư, quy mô lớn. Các nền tảng như Ultralytics HUB tạo điều kiện cho toàn bộ vòng đời triển khai và quản lý mô hình , có khả năng bao gồm các mô hình được phát triển bằng các phương pháp tiếp cận liên bang. Bạn có thể khám phá nhiều tùy chọn triển khai mô hình khác nhau trong Ultralytics hệ sinh thái. Việc kết hợp FL với các kỹ thuật khác như Học tập chủ động cũng là một lĩnh vực nghiên cứu đang được tiến hành, như đã thảo luận trong bài đăng trên blog Học tập chủ động tăng tốc quá trình phát triển thị giác máy tính .