ControlNet이 생성형 AI에 대한 정밀한 공간 제어를 제공하는 방식을 살펴보세요. 이미지 생성을 안내하기 위한 포즈 추출에 Ultralytics 활용하는 방법을 지금 바로 배워보세요.
ControlNet은 대규모 텍스트-이미지 생성형 AI 모델에 대한 정밀한 공간적 제어를 가능하게 하는 고급 신경망 아키텍처입니다. 원래 Stable Diffusion과 같은 모델을 개선하기 위해 도입된 이 기술은 사용자가 텍스트 프롬프트 외에도 추가 입력 조건을 활용해 이미지 생성을 유도할 수 있게 합니다. 에지 맵, 깊이 맵, 인체 골격과 같은 특정 시각적 가이드를 네트워크에 입력함으로써, 실무자는 생성된 출력의 정확한 구성, 자세 또는 구조를 지시할 수 있어, 자연어 설명과 정밀한 시각적 구현 사이의 간극을 메울 수 있습니다.
ControlNet의 핵심 혁신은 새로운 조건화 작업을 학습하면서도 기초 모델의 방대한 사전 훈련된 지식을 보존하는 능력에 있습니다. 이는 원본 신경망 블록의 매개변수를 고정하고 훈련 가능한 복제본을 생성함으로써 달성됩니다. 이 복제본은 특수한 "제로 컨볼루션" 레이어를 통해 잠긴 모델에 연결됩니다. 이 레이어는 초기화 시 가중치를 0으로 설정하여 미세 조정 초기 단계에서 잡음이 추가되지 않도록 보장합니다. 수학적 및 구조적 이론에 대한 자세한 내용은 arXiv에 게재된 원본 ControlNet 연구 논문을 참고하세요.
이 독특한 구조는 개발자가 소비자용 하드웨어에서 강력한 조건부 제어 모델을 훈련할 수 있게 하여, 대규모 딥러닝 모델을 처음부터 훈련하는 것에 비해 매우 접근성이 높습니다.
생성형 인공지능을 논의할 때 ControlNet을 관련 개념과 구분하는 것이 유용합니다:
ControlNet은 전문적인 작업 흐름에서 컴퓨터 비전과 생성형 AI의 활용도를 획기적으로 확장했습니다.
ControlNet을 효과적으로 활용하려면 먼저 소스 이미지에서 원하는 공간적 조건을 추출해야 합니다. 예를 들어, 최신 첨단 비전 모델인Ultralytics 활용하여 인체 자세 골격을 추출할 수 있습니다. 이렇게 추출된 골격은 저장된 후 Control를 사용하여 인간 자세 스켈레톤을 추출할 수 있습니다. 이 스켈레톤은 저장된 후 ControlNet 기반 텍스트-이미지 파이프라인의 조건화 입력으로 활용됩니다.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")
표준 OpenCV 사용한 Canny 에지 준비나 고급 세그멘테이션 마스크 추출 시에도 고품질 입력 데이터 준비는 필수적입니다. 맞춤형 ControlNet 조건 훈련에 필요한 클라우드 기반 데이터셋 관리 및 데이터 어노테이션을 위해 Ultralytics 같은 플랫폼은 현대 AI 팀을 위한 원활한 엔드투엔드 환경을 제공합니다.