Yolo 비전 선전
선전
지금 참여하기
용어집

연합 학습

연방 학습이 데이터 프라이버시를 유지하면서 분산형 모델 훈련을 가능하게 하는 방식을 살펴보세요. 에지 디바이스에서 Ultralytics 안전하게 훈련하는 방법을 알아보세요.

연방 학습은 여러 장치가 원시 훈련 데이터를 공유하지 않고도 협업하여 모델을 훈련할 수 있도록 하는 분산형 기계 학습 기법입니다. 데이터를 단일 데이터 레이크나 서버로 집계하는 기존 중앙 집중식 방법과 달리, 연방 학습은 모델을 데이터로 가져옵니다. 이 접근 방식은 데이터 프라이버시와 보안을 다루는 방식을 근본적으로 변화시켜 조직이 스마트폰, IoT 기기 또는 사설 서버에 위치한 민감한 정보를 활용할 수 있게 하면서도 데이터가 원본 출처를 벗어나지 않도록 보장합니다.

연방 프로세스의 작동 방식

연방 학습의 핵심 메커니즘은 중앙 서버와 참여 클라이언트 장치 간의 반복적 통신 사이클을 포함한다. 이 프로세스는 사용자 익명성을 훼손하지 않으면서도 글로벌 신경망의 지속적인 개선을 가능케 한다.

  1. 글로벌 모델 초기화: 중앙 서버가 범용 기초 모델을 초기화하고 선택된 적격 클라이언트 장치 그룹에 이를 브로드캐스트합니다.
  2. 로컬 트레이닝: 각 클라이언트는 자체 로컬 비공개 데이터셋을 사용하여 모델 트레이닝을 독립적으로 수행합니다. 이는 에지 AI 기능을 활용하여 기기 내에서 업데이트를 계산합니다.
  3. 업데이트 집계: 클라이언트는 원본 이미지나 텍스트를 업로드하는 대신, 모델 업데이트—구체적으로는 계산된 기울기 또는 모델 가중치—만을중앙 서버로 전송합니다.
  4. 글로벌 개선: 서버는 페더레이티드 애버징(FedAvg) 과 같은 알고리즘을 사용하여 이러한 다양한 업데이트를 결합하여 새로운 우수한 글로벌 모델을 생성합니다.
  5. 반복: 개선된 모델이 클라이언트에게 다시 전송되며, 시스템이 원하는 정확도를 달성할 때까지 이 과정이 반복됩니다.

연합 학습 대 분산 교육

연방 학습은 유사한 훈련 패러다임과 구분하는 것이 중요합니다. 이는 서로 다른 공학적 문제를 해결하기 때문입니다.

  • 분산 훈련: 일반적으로 단일 데이터 센터와 같은 통제된 환경에서 수행되며, 대규모 중앙 집중식 데이터셋을 여러 GPU에 분할하여 계산 속도를 높입니다. 주요 목표는 처리 속도이며, 노드들은 고대역폭 링크로 연결됩니다.
  • 연방 학습: 이 기술은 배터리 수명과 네트워크 연결 상태가 제각각인 이질적인 기기(예: 휴대폰)가 존재하는 통제되지 않은 환경에서 작동합니다. 주요 목표는 속도 그 자체가 아닌 프라이버시와 데이터 접근성입니다.

실제 애플리케이션

분산형 데이터로 훈련할 수 있는 능력은 엄격한 규제 준수에 얽매인 산업 분야에 새로운 가능성을 열었습니다.

  • 의료 분야의 인공지능: 병원들은 환자 기록을 공유하지 않고도 의료 영상 분석을 통해 강력한 종양 탐지 모델을 훈련하기 위해 협력할 수 있습니다. 이를 통해 기관들은 HIPAA 규정을 준수하면서 더 큰 데이터 세트의 혜택을 누릴 수 있습니다.
  • 예측 키보드: 모바일 운영체제는 연합 학습을 활용해 다음 단어 예측 및 자연어 처리(NLP) 성능을 향상시킵니다. 사용자의 입력 패턴을 로컬에서 학습함으로써, 휴대폰은 개인 메시지를 클라우드에 전송하지 않고도 사용자 경험을 개선합니다.
  • 자동차 산업의 인공지능: 자율주행 차량 군집은 현지 도로 상황과 운전자의 개입으로부터 학습할 수 있습니다. 이러한 통찰력은 중앙 서버에 테라바이트 단위의 원시 영상 데이터를 업로드하지 않고도 군집의 자율주행 능력을 업데이트하기 위해 통합됩니다.

코드 예제: 로컬 클라이언트 업데이트 시뮬레이션

연방 학습 환경에서 클라이언트의 역할은 소규모 로컬 데이터셋을 활용해 글로벌 모델을 미세 조정하는 것입니다. 다음 Python 최첨단 YOLO26 모델을 사용해 클라이언트가 로컬 훈련을 한 번 수행하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load the global model received from the central server
# In a real FL system, this weight file is downloaded from the aggregator
model = YOLO("yolo26n.pt")

# Perform local training on the client's private data
# We train for 1 epoch to simulate a single round of local contribution
results = model.train(data="coco8.yaml", epochs=1, imgsz=640)

# The updated 'best.pt' weights would now be extracted
# and sent back to the central server for aggregation
print("Local training round complete. Weights ready for transmission.")

장점과 향후 방향

연방 학습의 주요 장점은 설계 단계에서의 프라이버시 보장입니다. 이를 통해 개발자는 GDPR과 같은 개인정보 보호법으로 인해 접근이 불가능했을 합성 데이터나 실제 환경의 극단적 사례로도 학습을 수행할 수 있습니다. 또한 고해상도 영상이나 이미지 데이터가 로컬에 유지되므로 네트워크 대역폭 비용을 절감합니다.

그러나 특히 시스템 이질성 (처리 능력이 서로 다른 다양한 기기)과 적대적 공격에 대한 보안 측면에서 여전히 과제가 남아 있습니다. 악의적인 클라이언트는 이론적으로 전역 모델을 손상시키기 위해 "오염된" 업데이트를 제출할 수 있습니다. 이를 완화하기 위해 차등 프라이버시 같은 고급 기법이 종종 통합되어 업데이트에 통계적 노이즈를 추가함으로써, 단일 사용자의 기여가 역추적될 수 없도록 보장합니다.

Ultralytics 같은 도구는 다양한 환경에서 모델 훈련의 복잡성을 관리하고 인공지능의 미래가 강력하면서도 프라이빗할 수 있도록 진화하고 있습니다. TensorFlow ( TensorFlow )와 파이시프트(PySyft) 와 같은 혁신적인 프레임워크는 분산형 프라이버시 보호 머신러닝으로 가능한 것의 한계를 계속해서 넓혀가고 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기