Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học Liên Kết (Federated Learning)

Khám phá học liên kết: một phương pháp tiếp cận AI tập trung vào quyền riêng tư, cho phép huấn luyện mô hình phi tập trung trên các thiết bị mà không cần chia sẻ dữ liệu thô.

Học liên kết là một phương pháp tiếp cận phi tập trung đối với học máy (ML) , cho phép nhiều thiết bị cùng nhau huấn luyện một mô hình dự đoán chung mà không cần di chuyển dữ liệu huấn luyện khỏi nguồn gốc. Không giống như các phương pháp truyền thống đòi hỏi phải tổng hợp dữ liệu vào một hồ dữ liệu tập trung hoặc máy chủ đám mây, học liên kết đưa mô hình vào dữ liệu. Sự chuyển đổi mô hình này giải quyết những thách thức quan trọng liên quan đến quyền riêng tư và bảo mật dữ liệu , cho phép xây dựng các hệ thống mạnh mẽ trong khi vẫn lưu trữ thông tin nhạy cảm của người dùng một cách nghiêm ngặt trên các thiết bị cục bộ, chẳng hạn như điện thoại thông minh, cảm biến IoT hoặc máy chủ bệnh viện.

Federated Learning hoạt động như thế nào

Quá trình này dựa trên một chu kỳ giao tiếp lặp đi lặp lại giữa máy chủ trung tâm và các thiết bị khách tham gia. Nó thường tuân theo các bước riêng biệt sau:

  1. Khởi tạo : Máy chủ trung tâm khởi tạo mô hình mạng nơ-ron toàn cầu và phát sóng mô hình này đến một nhóm thiết bị khách đủ điều kiện đã chọn.
  2. Đào tạo cục bộ : Mỗi thiết bị khách hàng thực hiện đào tạo mô hình cục bộ bằng dữ liệu riêng của mình. Điều này tận dụng khả năng của Edge AI , đảm bảo dữ liệu thô không bao giờ rời khỏi thiết bị.
  3. Cập nhật truyền : Thay vì chia sẻ dữ liệu, máy khách chỉ gửi các bản cập nhật mô hình toán học—cụ thể là độ dốc hoặc trọng số mô hình —trở lại máy chủ trung tâm.
  4. Tổng hợp : Máy chủ sử dụng các kỹ thuật như Trung bình liên bang (FedAvg) để kết hợp các bản cập nhật này thành một mô hình toàn cầu mới, được cải tiến.
  5. Lặp lại : Mô hình toàn cầu được cập nhật được gửi lại cho khách hàng và chu kỳ lặp lại cho đến khi mô hình đạt được độ chính xác mong muốn.

Các Ứng dụng Thực tế

Học tập liên bang đã chuyển từ nghiên cứu lý thuyết sang triển khai thực tế trong các ngành công nghiệp mà tính nhạy cảm của dữ liệu là tối quan trọng.

  • Chăm sóc sức khỏe và Hình ảnh Y khoa : Các bệnh viện sử dụng học tập liên kết để hợp tác phân tích hình ảnh y khoa nhằm phát hiện khối u mà không cần chia sẻ hồ sơ bệnh án. Điều này cho phép các tổ chức đào tạo AI mạnh mẽ trong các giải pháp chăm sóc sức khỏe trên nhiều tập dữ liệu khác nhau, đồng thời tuân thủ nghiêm ngặt các quy định như HIPAA .
  • Văn bản dự đoán di động : Bàn phím điện thoại thông minh sử dụng công nghệ này để cải thiện các mô hình xử lý ngôn ngữ tự nhiên (NLP) cho việc dự đoán từ tiếp theo. Bằng cách học hỏi từ các mẫu gõ cục bộ, hệ thống cải thiện trải nghiệm người dùng mà không cần truyền tin nhắn văn bản riêng tư lên đám mây, một phương pháp được nghiên cứu bởi Google AI .

Học tập liên bang so với đào tạo phân tán

Mặc dù cả hai khái niệm đều liên quan đến nhiều máy, nhưng chúng khác nhau cơ bản ở quản trị dữ liệu và môi trường mạng.

  • Học tập Liên bang : Dữ liệu được tạo cục bộ và vẫn được phân cấp do hạn chế về quyền riêng tư. Các thiết bị thường không đồng nhất (phần cứng khác nhau) và có kết nối mạng không ổn định.
  • Đào tạo phân tán : Thường diễn ra trong một trung tâm dữ liệu được kiểm soát, nơi một tập dữ liệu trung tâm được chia thành các nút tính toán (như một cụm GPU ) để tăng tốc quá trình xử lý các tập dữ liệu lớn.

Ví dụ về mã: Mô phỏng bản cập nhật máy khách cục bộ

Trong thiết lập liên bang, vai trò của máy khách là tinh chỉnh mô hình toàn cầu trên dữ liệu cục bộ. Sau đây là Python đoạn trích minh họa cách một máy khách có thể thực hiện một vòng đào tạo cục bộ bằng cách sử dụng mô hình Ultralytics YOLO11 trước khi trích xuất trọng số để tổng hợp.

from ultralytics import YOLO

# Load the global model received from the central server
# In a real scenario, this 'yolo11n.pt' comes from the aggregator
model = YOLO("yolo11n.pt")

# Perform local training on the client's private dataset
# 'epochs=1' simulates a single round of local computation
results = model.train(data="coco8.yaml", epochs=1, imgsz=640)

# After training, the updated model weights are saved
# These weights are what the client sends back to the server
print("Local training complete. Update ready for transmission.")

Ưu điểm và thách thức

Ưu điểm chính của học tập liên kết là tính riêng tư theo thiết kế . Nó cho phép sử dụng dữ liệu tổng hợp hoặc dữ liệu riêng tư trong thế giới thực mà nếu không sẽ không thể truy cập được do các hạn chế về mặt pháp lý hoặc đạo đức. Ngoài ra, nó còn giảm thiểu mức tiêu thụ băng thông mạng do không cần truyền tải các tập dữ liệu lớn.

Tuy nhiên, vẫn còn nhiều thách thức. Tính không đồng nhất của hệ thống đồng nghĩa với việc các mô hình phải chạy trên các thiết bị có sức mạnh tính toán khác nhau, từ máy chủ mạnh đến cảm biến IoT hạn chế về pin. Ngoài ra còn có nguy cơ bị tấn công đối kháng , khi các máy khách độc hại có thể gửi các bản cập nhật bị nhiễm độc để làm hỏng mô hình toàn cầu. Để giảm thiểu điều này, các nhà nghiên cứu sử dụng các kỹ thuật bảo mật khác biệt để thêm nhiễu vào các bản cập nhật, đảm bảo không có dữ liệu của bất kỳ người dùng nào có thể bị thiết kế ngược.

Các nền tảng như TensorFlow FederatedPySyft hiện đang giúp các nhà phát triển triển khai các quy trình làm việc phức tạp này. Khi thị giác máy tính tiếp tục phát triển, học liên kết sẽ đóng vai trò quan trọng trong việc triển khai các hệ thống thông minh tôn trọng quyền riêng tư của người dùng đồng thời mang lại kết quả hiệu suất cao.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay