Task Vectors

태스크 벡터가 효율적인 모델 병합과 동작 제어를 어떻게 가능하게 하는지 배우세요. 제로샷 멀티태스킹을 위해 Ultralytics YOLO26 가중치를 조작하는 방법을 알아보세요.

태스크 벡터는 새로운 기능을 구현하기 위해 신경망의 가중치를 파인튜닝하는 과정에서 발생하는 특정 변화를 나타냅니다. 기초 모델의 파라미터에서 파인튜닝된 모델의 파라미터를 뺌으로써, 연구자들은 가중치 공간에서 해당 태스크에 대해 학습된 동작을 캡슐화하는 방향 벡터를 추출할 수 있습니다. 이러한 접근 방식을 통해 개발자는 추가적인 학습 연산 없이도 모델 파라미터에 대한 간단한 산술 연산을 수행하여 모델의 동작을 조정, 수정 또는 병합할 수 있습니다.

Link to this section태스크 벡터와 전이 학습의 차이점#

전이 학습 개념은 새로운 데이터셋에 대해 모델을 순차적으로 학습시켜 기존 지식을 적응시키는 반면, 태스크 벡터는 학습 후 모델의 구조적 가중치에 직접 작용합니다. 새로운 도메인을 학습하기 위해 그래디언트를 재학습하는 대신, 태스크 벡터를 이용한 가중치 공간 보간을 통해 독립적으로 학습된 여러 모델의 가중치 차이를 선형적으로 결합할 수 있습니다. 이를 통해 제로샷 모델 병합이 가능해지며, 학습 중 발생하는 일반적인 연산 오버헤드 없이도 단일 모델이 여러 기능을 동시에 상속받을 수 있습니다.

Link to this section실제 애플리케이션 사례#

딥러닝 모델을 대수적으로 조작할 수 있는 능력은 현대 AI 파이프라인 전반에 걸쳐 몇 가지 영향력 있는 애플리케이션으로 이어졌습니다.

멀티 태스크 모델 병합: 엔지니어는 객체 탐지에 최적화된 태스크 벡터와 이미지 세그멘테이션을 위해 학습된 태스크 벡터를 결합할 수 있습니다. 이를 Ultralytics YOLO26 기반 모델에 적용하면, 각 원본 파인튜닝의 강점을 유지하면서 두 가지 작업을 동시에 수행하는 다목적 아키텍처를 생성할 수 있습니다.
머신 언러닝과 AI 안전성: 모델이 편향되거나 위험한 결과를 출력하는 경우, 연구자는 이러한 원치 않는 동작을 나타내는 태스크 벡터를 계산할 수 있습니다. 모델의 가중치에서 이 벡터를 뺌으로써 해당 동작을 효과적으로 "제거"할 수 있으며, 이는 AI 안전성 향상과 AI 윤리 표준 확립에 크게 기여합니다.
컴퓨터 비전 분야의 도메인 적응: 주간에서 야간으로 환경이 전환되는 실시간 추론 등 특정 환경에 모델을 적응시킬 때, 태스크 벡터를 사용하면 사용자가 적응 정도를 조정할 수 있습니다. 벡터의 일부(예: 스케일링 계수 0.5)를 적용하면 두 도메인 모두에서 성능이 좋은 균형 잡힌 모델을 얻을 수 있습니다.

Link to this sectionPyTorch에서 태스크 벡터 활용하기#

태스크 벡터를 생성하고 적용하려면 PyTorch state dictionary에 접근하고 조작해야 합니다. 다음 예제는 파인튜닝된 YOLO26 모델에서 태스크 벡터를 추출하고, 특정 스케일링 계수를 사용하여 이를 다시 기본 모델에 적용하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load the state dictionaries for the base and fine-tuned models
base_weights = YOLO("yolo26n.pt").model.state_dict()
tuned_weights = YOLO("yolo26n-custom.pt").model.state_dict()

# Calculate the task vector (tuned weights minus base weights)
task_vector = {k: tuned_weights[k] - base_weights[k] for k in base_weights.keys()}

# Apply the task vector to the base model using a 0.5 scaling factor
for k in base_weights.keys():
    base_weights[k] += 0.5 * task_vector[k]

Link to this section가중치 조작의 미래#

대규모 언어 모델 및 거대 비전 Transformer와 같은 아키텍처의 파라미터 수가 증가함에 따라, 사소한 조정을 위해 모델을 매번 재학습하는 것은 경제적으로 불가능합니다. 태스크 벡터는 학습 후 모델 최적화를 위한 수학적으로 우아한 대안을 제공합니다. 수 기가바이트에 달하는 전체 모델 대신 가벼운 태스크 벡터를 공유함으로써, AI 커뮤니티는 오픈 소스 AI 협업을 가속화할 수 있습니다. 사용자 지정 태스크 벡터가 정제되면 Ultralytics Platform을 활용하여 후속 모델 배포 및 모니터링 프로세스를 간소화할 수 있으며, 이를 통해 최적화된 가중치가 프로덕션용 엔드포인트로 즉시 전환되도록 보장합니다.

Task Vectors

Link to this section태스크 벡터와 전이 학습의 차이점#

Link to this section실제 애플리케이션 사례#

Link to this sectionPyTorch에서 태스크 벡터 활용하기#

Link to this section가중치 조작의 미래#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!