Yolo 비전 선전
선전
지금 참여하기
용어집

컨트롤넷

ControlNet이 생성형 AI에 대한 정밀한 공간 제어를 제공하는 방식을 살펴보세요. 이미지 생성을 안내하기 위한 포즈 추출에 Ultralytics 활용하는 방법을 지금 바로 배워보세요.

ControlNet은 대규모 텍스트-이미지 생성형 AI 모델에 대한 정밀한 공간적 제어를 가능하게 하는 고급 신경망 아키텍처입니다. 원래 Stable Diffusion과 같은 모델을 개선하기 위해 도입된 이 기술은 사용자가 텍스트 프롬프트 외에도 추가 입력 조건을 활용해 이미지 생성을 유도할 수 있게 합니다. 에지 맵, 깊이 맵, 인체 골격과 같은 특정 시각적 가이드를 네트워크에 입력함으로써, 실무자는 생성된 출력의 정확한 구성, 자세 또는 구조를 지시할 수 있어, 자연어 설명과 정밀한 시각적 구현 사이의 간극을 메울 수 있습니다.

건축은 어떻게 작동하는가

ControlNet의 핵심 혁신은 새로운 조건화 작업을 학습하면서도 기초 모델의 방대한 사전 훈련된 지식을 보존하는 능력에 있습니다. 이는 원본 신경망 블록의 매개변수를 고정하고 훈련 가능한 복제본을 생성함으로써 달성됩니다. 이 복제본은 특수한 "제로 컨볼루션" 레이어를 통해 잠긴 모델에 연결됩니다. 이 레이어는 초기화 시 가중치를 0으로 설정하여 미세 조정 초기 단계에서 잡음이 추가되지 않도록 보장합니다. 수학적 및 구조적 이론에 대한 자세한 내용은 arXiv에 게재된 원본 ControlNet 연구 논문을 참고하세요.

이 독특한 구조는 개발자가 소비자용 하드웨어에서 강력한 조건부 제어 모델을 훈련할 수 있게 하여, 대규모 딥러닝 모델을 처음부터 훈련하는 것에 비해 매우 접근성이 높습니다.

ControlNet 대 확산 모델 및 LoRA

생성형 인공지능을 논의할 때 ControlNet을 관련 개념과 구분하는 것이 유용합니다:

  • 확산 모델: 이는 반복적으로 노이즈를 제거하여 이미지를 생성하는 기본 엔진입니다. 거의 전적으로 텍스트 프롬프트에 의존합니다.
  • LoRA (저순위 적응): LoRA는 모델에 새로운 스타일이나 주제 (특정 캐릭터나 예술 스타일 등) 신속하게 가르치는 방법입니다. 반면 ControlNet은 이미지의 정확한 공간적 배치를 지시합니다.

실제 애플리케이션

ControlNet은 전문적인 작업 흐름에서 컴퓨터 비전과 생성형 AI의 활용도를 획기적으로 확장했습니다.

  • 건축 컨셉 렌더링: 건축가와 인테리어 디자이너는 ControlNet을 활용하여 기본적인 흑백 컴퓨터 지원 설계(CAD) 청사진이나 손으로 그린 스케치를 건물과 공간의 사실적인 렌더링으로 변환합니다.
  • 게임 개발에서의 캐릭터 포즈 설정: 애니메이터들은 인간 포즈 추정 모델을 활용하여 참조 영상에서 스켈레톤 구조를 추출합니다. 이 스켈레톤들은 ControlNet에 입력되어 비디오 게임 자산을 위한 정확한 포즈를 유지하는 일관되고 스타일화된 캐릭터 스프라이트를 생성하며, 수작업 일러스트레이션 시간을 크게 단축시킵니다.

ControlNet 제어 조건 준비

ControlNet을 효과적으로 활용하려면 먼저 소스 이미지에서 원하는 공간적 조건을 추출해야 합니다. 예를 들어, 최신 첨단 비전 모델인Ultralytics 활용하여 인체 자세 골격을 추출할 수 있습니다. 이렇게 추출된 골격은 저장된 후 Control를 사용하여 인간 자세 스켈레톤을 추출할 수 있습니다. 이 스켈레톤은 저장된 후 ControlNet 기반 텍스트-이미지 파이프라인의 조건화 입력으로 활용됩니다.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

표준 OpenCV 사용한 Canny 에지 준비나 고급 세그멘테이션 마스크 추출 시에도 고품질 입력 데이터 준비는 필수적입니다. 맞춤형 ControlNet 조건 훈련에 필요한 클라우드 기반 데이터셋 관리 및 데이터 어노테이션을 위해 Ultralytics 같은 플랫폼은 현대 AI 팀을 위한 원활한 엔드투엔드 환경을 제공합니다.

Ultralytics YOLO 파워업

프로젝트에 필요한 고급 AI 비전을 확보하세요. 오늘 목표에 맞는 라이선스를 찾아보세요.

라이선스 옵션 살펴보기