Yolo 비전 선전
선전
지금 참여하기
용어집

작업 벡터

태스크 벡터가 어떻게 효율적인 모델 병합과 행동 조정을 가능하게 하는지 알아보세요. 제로샷 멀티태스킹을 위해 Ultralytics 가중치를 조작하는 방법을 확인해 보세요.

작업 벡터는 새로운 기능을 구현하기 위해 미세 조정 과정에서 신경망의 가중치에 가해진 구체적인 변화를 나타냅니다. 연구자들은 미세 조정된 모델의 매개변수에서 기초 모델의 매개변수를 빼줌으로써, 특정 작업에 대해 학습된 행동을 포괄하는 가중치 공간 내의 방향 벡터를 분리해 낼 수 있습니다. 이 접근 방식을 통해 개발자는 모델 매개변수에간단한 산술 연산을적용하여 추가적인 훈련 컴퓨팅 리소스 없이도 모델의 행동을 유도, 수정 또는 병합할 수 있습니다.

작업 벡터와 전이 학습의 차이점

전이 학습의 개념은 기존 지식을 적용하기 위해 새로운 데이터셋으로 모델을 순차적으로 훈련하는 것을 포함하는 반면, 태스크 벡터는 훈련 후 모델의 구조적 가중치에 직접 작용합니다. 새로운 도메인을 학습하기 위해 기울기를 재훈련하는 대신, 태스크 벡터를 활용한 가중치 공간 보간을 통해 실무자들은 독립적으로 훈련된 여러 모델의 가중치 차이를 선형적으로 결합할 수 있습니다. 이를 통해 제로샷 모델 병합이 가능해지며, 단일 모델이 훈련 과정에서 발생하는 일반적인 계산 오버헤드 없이도 여러 기능을 동시에 상속받을 수 있게 됩니다.

실제 애플리케이션

딥러닝 모델을 대수적으로 조작할 수 있는 능력은 현대 AI 파이프라인 전반에 걸쳐 여러 가지 영향력 있는 응용 사례를 낳았습니다:

  • 다중 작업 모델 통합: 엔지니어들은 물체 탐지에 최적화된 작업 벡터를 이미지 분할용으로 훈련된 다른 벡터와 결합할 수 있습니다. 이를 Ultralytics 기본 모델에 적용하면, 각각의 원래 미세 조정 모델이 가진 장점을 유지하면서 두 작업 모두에서 동시에 뛰어난 성능을 발휘하는 이중 목적 아키텍처가 생성됩니다.
  • 머신 언러닝과 AI 안전성: 만약 모델이 편향되거나 위험한 출력을 보인다면, 연구자들은 해당 특정 원치 않는 행동을 나타내는 작업 벡터를 계산할 수 있습니다. 이 벡터를 모델의 가중치에서 빼줌으로써, 연구자들은 해당 행동을 효과적으로 “지울” 수 있으며, 이는 AI 안전성 향상과 견고한 AI 윤리 기준 수립에 크게 기여합니다.
  • 컴퓨터 비전에서의 도메인 적응: 특정 환경에 모델을 적응시킬 때—예를 들어 주간에서 야간 실시간 추론으로전환하는 경우—작업 벡터를 활용하면 사용자가 적응의 정도를 조절할 수 있습니다. 벡터의 일부(예: 0.5의 스케일링 계수)를 적용하면 두 도메인 모두에서 우수한 성능을 발휘하는 균형 잡힌 모델을 얻을 수 있습니다.

PyTorch에서 태스크 벡터 사용하기

태스크 벡터를 생성하고 적용하려면 PyTorch 사전( state dictionary)에 접근하여 조작해야 합니다. 다음 예제는 미세 조정된 YOLO26 모델에서 태스크 벡터를 추출하고, 특정 스케일링 계수를 적용하여 이를 기본 모델에 다시 적용하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load the state dictionaries for the base and fine-tuned models
base_weights = YOLO("yolo26n.pt").model.state_dict()
tuned_weights = YOLO("yolo26n-custom.pt").model.state_dict()

# Calculate the task vector (tuned weights minus base weights)
task_vector = {k: tuned_weights[k] - base_weights[k] for k in base_weights.keys()}

# Apply the task vector to the base model using a 0.5 scaling factor
for k in base_weights.keys():
    base_weights[k] += 0.5 * task_vector[k]

체중 조절의 미래

대규모 언어 모델이나 거대 비전 트랜스포머와 같은 아키텍처의 매개변수 수가 증가함에 따라, 사소한 조정마다 재훈련하는 것은 경제적으로 실현 불가능해집니다. 태스크 태스크 벡터는 훈련 후 모델 최적화를 위한 수학적으로 우아한 대안을 제공합니다. 수 기가바이트에 달하는 전체 모델 대신 경량화된 태스크 벡터를 공유함으로써, AI 커뮤니티는 AI 분야의 오픈소스 협업을 가속화할 수 있습니다. 사용자 정의 태스크 벡터가 정제되면, Ultralytics 활용함으로써 후속 모델 배포 및 모니터링 프로세스를 간소화하여, 최적화된 가중치가 바로 생산 환경에 적용 가능한 엔드포인트로 전환되도록 보장합니다.

함께 AI의 미래를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요