Yolo 비전 선전
선전
지금 참여하기
용어집

확산 모델

디퓨전 모델이 현실적인 이미지, 비디오, 데이터를 탁월한 디테일과 안정성으로 생성하여 생성적 AI를 어떻게 혁신하는지 알아보세요.

확산 모델은 새로운 데이터 샘플을 생성하는 방법을 학습하는 데이터 샘플을 생성하는 방법을 학습하는 AI 알고리즘입니다. 비평형 열역학의 원리에서 영감을 얻은 이 모델은 열역학의 원리에서 영감을 얻은 이 모델은 고음질 이미지, 오디오 및 비디오를 생성하는 최첨단 기술로 부상했습니다. 기존 방식과 달리 단일 단계로 복잡한 결과물을 생성하려고 시도하는 이전 방법과 달리, 확산 모델은 무작위 정적을 일관성 있는 콘텐츠에 반복적으로 정제하여 컴퓨터 비전 작업에서 디테일과 의미 구조를 전례 없이 제어할 수 있습니다. 컴퓨터 비전 작업.

확산의 메커니즘

확산 모델의 작동은 포워드 프로세스와 리버스 프로세스의 두 가지 단계로 나눌 수 있습니다. 프로세스입니다.

  1. 포워드 프로세스(확산): 이 단계에서는 데이터의 구조를 체계적으로 파괴합니다. 학습 데이터의 선명한 이미지로 시작합니다, 모델은 일련의 시간 단계에 걸쳐 소량의 가우스 노이즈를 추가합니다. 일련의 시간 단계에 걸쳐 소량의 가우시안 노이즈를 추가합니다. 결국 데이터는 구조화되지 않은 순수한 무작위 노이즈로 저하됩니다. 이 과정은 일반적으로 고정되어 있으며 마르코프 체인 규칙을 따릅니다.
  2. 리버스 프로세스(노이즈 제거): 핵심 머신 러닝 작업은 이 단계에 있습니다. A 신경망(종종U-Net 아키텍처)은 각 단계에서 추가되는 노이즈를 예측하고 제거하도록 훈련됩니다. 손상을 역으로 학습함으로써 모델은 다음을 수행할 수 있습니다. 순수한 노이즈에서 시작하여 점진적으로 '노이즈 제거'를 통해 새롭고 일관된 이미지를 환각할 수 있습니다.

기초 연구와 같은 연구 노이즈 제거 확산 확률론적 모델 (DDPM) 논문과 같은 연구를 통해 수학적 프레임워크를 확립했습니다.

확산 대 GAN

확산 모델이 각광받기 전이었습니다, 생성적 적대 신경망(GAN) 이 이미지 합성을 위한 주된 접근 방식이었습니다. 두 가지 모두 강력하지만 근본적인 차이가 있습니다:

  • 훈련 안정성: 확산 모델은 일반적으로 훈련하기가 더 쉽습니다. GAN은 두 네트워크(생성자와 판별자) 간의 적대적 게임에 의존하기 때문에 모드 붕괴 또는 불안정성을 초래하는 경우가 많습니다. 확산은 노이즈 예측과 관련된 보다 안정적인 손실 함수를 보다 안정적인 손실 함수를 사용합니다.
  • 출력 다양성: 확산 모델은 다양하고 매우 상세한 샘플을 생성하는 데 탁월합니다. GAN은 데이터 세트의 전체 분포를 커버하는 데 어려움을 겪을 수 있습니다.
  • 추론 속도: GAN이 단일 패스로 이미지를 생성하는 데는 다음과 같은 절충점이 존재합니다. 더 빠릅니다. 확산 모델은 이미지를 세분화하기 위해 여러 단계를 거쳐야 하므로 추론 대기 시간이 추론 지연 시간이 길어집니다. 하지만 잠재 확산(잠재 확산에 사용됨)과 같은 최신 기술 잠복 확산 ( 안정적 확산)과 같은 새로운 기법은 압축된 잠재 공간에서 압축된 잠재 공간에서 프로세스를 수행하여 속도를 크게 향상시킵니다.

실제 애플리케이션

확산 모델의 다양성은 다양한 산업 분야로 확장되어 창의성과 엔지니어링 워크플로우를 향상시키는 도구에 힘을 실어줍니다. 엔지니어링 워크플로우를 강화합니다.

  • 합성 데이터 생성: 레이블이 지정된 실제 데이터를 얻는 것은 비용이 많이 들거나 개인정보 보호에 민감할 수 있습니다. 확산 모델은 방대한 양의 실제 데이터를 생성할 수 있습니다. 합성 데이터를 생성하여 강력한 강력한 물체 감지 모델을 훈련할 수 있습니다. 예를 들어 엔지니어는 희귀한 산업 결함에 대한 수천 개의 합성 이미지를 생성하여 훈련할 수 있습니다. YOLO11 을 훈련시킬 수 있습니다.
  • 고충실도 이미지 제작: DALL-E 3, MidjourneyAdobe Firefly와 같은 툴은 확산을 활용하여 텍스트 프롬프트를 전문가 수준의 전문가 수준의 아트웍과 에셋으로 전환할 수 있습니다.
  • 의료 영상: 의료 분야에서 확산 모델은 다음을 지원합니다. 초고해상도, 고품질 재구성 저해상도 입력에서 고품질의 MRI 또는 CT 스캔을 재구성하여 정확한 의료 이미지 분석을 지원합니다.
  • 비디오 및 오디오 합성: 이 개념은 정적 이미지를 넘어 시간적 데이터로 확장됩니다. 다음과 같은 모델 OpenAI의 Sora와 같은 모델과 런웨이 ML의 툴은 확산 원리를 적용하여 일관된 비디오 시퀀스와 사실적인 사운드스케이프를 생성합니다. 사실적인 사운드스케이프를 생성합니다.

포워드 프로세스 구현

확산 모델이 학습을 위해 데이터를 준비하는 방법을 이해하려면 포워드 프로세스를 시각화하면 도움이 됩니다. 다음 다음 PyTorch 코드 스니펫은 가우시안 노이즈가 tensor 추가되어 한 단계의 성능 저하를 시뮬레이션하는 방법을 보여줍니다.

import torch


def add_gaussian_noise(image_tensor, noise_level=0.1):
    """Simulates one step of the forward diffusion process by adding noise.

    Args:
        image_tensor (torch.Tensor): Input image tensor.
        noise_level (float): Standard deviation of the noise.
    """
    noise = torch.randn_like(image_tensor) * noise_level
    noisy_image = image_tensor + noise
    return noisy_image


# Create a dummy tensor representing a 640x640 image
clean_img = torch.zeros(1, 3, 640, 640)
noisy_output = add_gaussian_noise(clean_img, noise_level=0.2)

print(f"Output shape: {noisy_output.shape} | Noise added successfully.")

이 과정을 역으로 진행함으로써 모델은 노이즈에서 신호를 복구하는 방법을 학습하고, 다운스트림 작업을 위해 데이터 세트를 보강하는 데 사용할 수 있는 복잡한 이미지 분할이나 분류와 같은 다운스트림 작업을 위해 데이터 세트를 보강하는 데 사용할 수 있는 이미지 세분화나 분류와 같은 다운스트림 작업의 데이터 세트를 보강하는 데 사용할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기