ControlNet

ControlNet이 생성형 AI에 대해 어떻게 정밀한 공간 제어를 제공하는지 탐구해 보십시오. 오늘날 이미지 생성을 안내하기 위해 Ultralytics YOLO26를 사용하여 포즈를 추출하는 방법을 배우십시오.

ControlNet은 대규모 텍스트-이미지 생성형 AI 모델에 대해 정교한 공간 제어 기능을 제공하도록 설계된 고급 신경망 아키텍처입니다. 본래 Stable Diffusion과 같은 모델을 향상하기 위해 도입되었으며, 사용자가 텍스트 프롬프트 외에도 추가적인 입력 조건을 사용하여 이미지 생성을 가이드할 수 있도록 합니다. 엣지 맵, 깊이 맵, 또는 사람의 골격과 같은 특정 시각적 가이드를 네트워크에 입력함으로써, 실무자는 생성된 결과물의 정확한 구성, 자세 또는 구조를 지정할 수 있으며 자연어 설명과 정밀한 시각적 실행 사이의 간극을 메울 수 있습니다.

Link to this section아키텍처 작동 원리#

ControlNet의 핵심 혁신은 기반 모델의 방대한 사전 학습 지식을 보존하면서 새로운 조건화 작업을 학습하는 능력에 있습니다. 이는 원본 신경망 블록의 파라미터를 잠그고 학습 가능한 복제본을 생성하여 달성합니다. 이 복제본은 "제로 컨볼루션(zero convolution)" 계층을 통해 잠긴 모델에 연결되며, 이 계층은 미세 조정 초기 단계에서 노이즈가 추가되지 않도록 가중치를 0으로 초기화합니다. 수학적 및 구조적 이론에 대한 자세한 내용은 arXiv의 원본 ControlNet 연구 논문에서 확인할 수 있습니다.

이 독특한 구조를 통해 개발자는 소비자용 하드웨어에서도 강력한 조건화 제어를 학습시킬 수 있으며, 이는 대규모 딥러닝 모델을 처음부터 학습시키는 것에 비해 훨씬 접근성이 높습니다.

Link to this sectionControlNet과 확산 모델 및 LoRA 비교#

생성형 인공지능을 논할 때, ControlNet을 관련 개념과 구분하는 것이 유용합니다:

확산 모델: 이들은 노이즈를 반복적으로 제거하여 이미지를 생성하는 기본 엔진입니다. 이들은 거의 독점적으로 텍스트 프롬프트에 의존합니다.
LoRA (Low-Rank Adaptation): LoRA는 모델에게 새로운 스타일이나 주제(특정 캐릭터나 예술 스타일 등)를 빠르게 학습시키는 방법입니다. 반면 ControlNet은 이미지의 정확한 공간적 배치를 지시합니다.

Link to this section실제 애플리케이션 사례#

ControlNet은 전문적인 워크플로우에서 컴퓨터 비전과 생성형 AI의 활용성을 획기적으로 확장했습니다.

건축 컨셉 렌더링: 건축가와 인테리어 디자이너는 ControlNet을 사용하여 기본적인 흑백 CAD 도면이나 손으로 그린 스케치를 건물과 방의 실사 같은 렌더링 이미지로 변환합니다.
게임 개발에서의 캐릭터 포즈: 애니메이터는 사람 포즈 추정 모델을 활용하여 참조 영상에서 골격 구조를 추출합니다. 이 골격은 ControlNet에 입력되어 비디오 게임 자산에 필요한 정확한 포즈를 취하는 일관된 스타일의 캐릭터 스프라이트를 생성하며, 수작업 일러스트레이션 시간을 크게 단축합니다.

Link to this sectionControlNet을 위한 조건 준비#

ControlNet을 효과적으로 활용하려면 먼저 원본 이미지에서 원하는 공간 조건을 추출해야 합니다. 예를 들어, 최신 최첨단 비전 모델인 **Ultralytics YOLO26**을 사용하여 사람의 포즈 골격을 추출할 수 있습니다. 이 골격은 저장된 후 ControlNet이 활성화된 텍스트-이미지 파이프라인의 조건화 입력으로 사용됩니다.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

표준 OpenCV 함수를 사용하여 Canny 엣지를 준비하든, 고급 세그멘테이션 마스크를 추출하든, 고품질 입력을 준비하는 것이 필수적입니다. 맞춤형 ControlNet 조건을 학습하는 데 필요한 클라우드 기반 데이터셋 관리와 데이터 어노테이션의 경우, Ultralytics Platform과 같은 플랫폼이 현대 AI 팀을 위해 원활한 엔드 투 엔드 환경을 제공합니다.

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

ControlNet

Link to this section아키텍처 작동 원리#

Link to this sectionControlNet과 확산 모델 및 LoRA 비교#

Link to this section실제 애플리케이션 사례#

Link to this sectionControlNet을 위한 조건 준비#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!