용어집

확산 모델

디퓨전 모델이 어떻게 사실적인 이미지, 동영상, 데이터를 탁월한 디테일과 안정성으로 생성하여 제너레이티브 AI에 혁신을 가져오는지 알아보세요.

확산 모델은 최신 생성 AI의 초석이 된 생성 모델의 한 종류입니다. 이 모델은 학습된 데이터와 유사한 이미지나 소리와 같은 새로운 데이터를 생성하도록 설계되었습니다. 핵심 아이디어는 열역학에서 영감을 얻었습니다. 이 모델은 이미지가 순수한 정적이 될 때까지 이미지에 점차적으로 노이즈를 추가하는 과정을 역으로 학습합니다. 이 '노이즈 제거' 과정을 학습함으로써 모델은 무작위 노이즈로 시작하여 점진적으로 일관된 고품질 샘플로 개선할 수 있습니다. 이 단계별 개선 과정은 매우 세밀하고 사실적인 결과물을 생성하는 데 핵심적인 역할을 합니다.

확산 모델은 어떻게 작동하나요?

확산 모델의 프로세스에는 두 가지 주요 단계가 있습니다:

  1. 포워드 프로세스(확산): 이 단계에서는 여러 단계에 걸쳐 소량의 가우시안 노이즈를 추가하여 선명한 이미지가 체계적으로 저하됩니다. 이 과정은 이미지가 순수한 노이즈와 구분할 수 없을 때까지 계속됩니다. 이 순방향 프로세스는 고정되어 있으며 학습을 포함하지 않고 단순히 모델이 역방향으로 학습할 대상을 제공합니다.
  2. 역방향 프로세스(노이즈 제거): 이 단계에서 학습이 이루어집니다. 신경망은 정방향 프로세스에서 노이즈가 있는 이미지를 가져와 이전 단계에서 추가된 노이즈를 예측하도록 훈련됩니다. 이 예측된 노이즈를 반복적으로 제거함으로써 모델은 완전히 임의의 이미지(순수한 노이즈)로 시작하여 점차 깨끗하고 선명한 이미지로 다시 변환할 수 있습니다. 이 학습된 노이즈 제거 프로세스를 통해 모델은 처음부터 새로운 데이터를 생성할 수 있습니다. 기초 논문인"노이즈 제거 확산 확률론적 모델"은 이 접근법의 많은 토대를 마련했습니다.

확산 모델과 다른 생성 모델 비교

확산 모델은 생성적 적대적 네트워크(GAN)와 같이 널리 사용되는 다른 생성적 접근 방식과는 크게 다릅니다.

  • 훈련 안정성: 확산 모델은 일반적으로 GAN에 비해 훈련 과정이 더 안정적입니다. GAN은 생성자와 판별자 간의 복잡한 적대적 게임을 포함하므로 균형을 맞추기 어렵고 수렴에 실패할 수 있습니다.
  • 샘플 품질과 다양성: 두 모델 모두 고품질의 결과를 생성할 수 있지만, 확산 모델은 종종 매우 다양하고 사실적인 이미지를 생성하는 데 탁월하며 특정 벤치마크에서 GAN보다 우수한 성능을 발휘하기도 합니다. 그러나 이러한 품질은 추론 지연 시간이 길어지는 대가를 치를 수 있습니다.
  • 추론 속도: 기존 확산 모델은 반복적인 노이즈 제거 단계가 많이 필요하기 때문에 샘플 생성 속도가 느립니다. 반면, GAN은 단 한 번의 포워드 패스로 샘플을 생성할 수 있습니다. 그러나 지식 증류와 같은 활발한 연구와 기술로 인해 이러한 속도 격차가 빠르게 좁혀지고 있습니다.

실제 애플리케이션

확산 모델은 다양한 분야에서 새로운 창의성과 혁신의 물결을 일으키고 있습니다:

  • 고충실도 이미지 생성: 가장 잘 알려진 애플리케이션입니다. Stability AIOpenAI와 같은 회사에서 개발한 모델은 간단한 텍스트 프롬프트에서 놀랍도록 사실적이고 예술적인 이미지를 생성할 수 있습니다. 대표적인 예로는 Stable Diffusion, DALL-E 3, Midjourney, Google의 Imagen 등이 있습니다. 이러한 도구는 디지털 아트와 콘텐츠 제작을 혁신적으로 변화시켰습니다.
  • 이미지 편집 및 채색: 이미지를 처음부터 새로 만드는 데만 사용되는 것이 아닙니다. 확산 모델은 오브젝트 추가 또는 제거, 아트 스타일 변경, 사진의 누락된 부분 채우기(인페인팅) 등 지침에 따라 기존 이미지를 지능적으로 수정할 수 있습니다. Adobe Firefly와 같은 툴은 이러한 기능을 활용합니다.
  • 오디오 및 비디오 합성: 확산의 원리는 다른 데이터 유형에도 적용됩니다. AudioLDM과 같은 모델은 사실적인 음성, 음악, 음향 효과를 생성할 수 있으며, OpenAI의 Sora와 같은 모델은 텍스트-비디오 생성의 경계를 넓혀가고 있습니다.
  • 데이터 증강: 컴퓨터 비전에서는 확산 모델을 사용하여 합성 훈련 데이터를 생성할 수 있습니다. 이는 특히 실제 데이터가 부족한 경우, 물체 감지나 이미지 분할과 같은 작업을 위해 Ultralytics YOLO와 같은 모델의 견고성을 개선하는 데 특히 유용합니다.

도구 및 개발

확산 모델을 개발하고 사용하려면 일반적으로 PyTorch나 TensorFlow와 같은 머신 러닝 프레임워크가 필요합니다. 더 쉽게 개발할 수 있도록 Hugging Face Diffusers 라이브러리와 같은 라이브러리에서는 사전 학습된 모델과 도구를 제공합니다. 이러한 도구는 생성 모델 자체에 초점을 맞추고 있지만, Ultralytics HUB와 같은 플랫폼은 데이터 세트 관리 및 배포를 포함한 광범위한 워크플로우를 관리하여 포괄적인 AI 솔루션 개발을 보완할 수 있습니다. 이러한 모델이 더욱 널리 보급됨에 따라 AI 윤리를 고려하고 알고리즘 편향과 같은 문제를 해결하는 것이 중요합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨