Yolo 비전 선전
선전
지금 참여하기
용어집

Stable Diffusion

텍스트 프롬프트에서 사실적인 이미지를 생성하여 창의성과 효율성을 혁신하는 최첨단 AI 모델인 Stable Diffusion을 알아보세요.

스테이블 디퓨전은 눈에 띄는 오픈소스 생성 AI 모델로, 텍스트 설명을 기반으로 상세한 텍스트 설명을 기반으로 상세한 이미지를 생성하도록 설계된 유명한 소스 생성 AI 모델입니다. 텍스트-이미지 합성. 출시자 Stability AI에 의해 출시된 이 딥 러닝 아키텍처는 강력한 성능을 갖춘 소비자급 하드웨어에서 효율적으로 실행할 수 있을 만큼 효율적이어서 강력한 성능을 갖춘 소비자급 하드웨어에서 실행할 수 있을 만큼 효율적이어서 고품질 이미지 생성에 대한 액세스를 대중화했습니다. GPU. 클라우드 서비스를 통해서만 액세스할 수 있는 독점 모델과 달리 클라우드 서비스를 통해서만 액세스할 수 있는 독점 모델과 달리, Stable Diffusion의 개방형 가용성을 통해 연구자와 개발자는 다음을 수행할 수 있습니다. 코드를 검사하고, 가중치를 수정하고, 예술적 도구부터 합성 데이터 파이프라인까지 다양한 맞춤형 애플리케이션을 구축할 수 있습니다.

Stable Diffusion 작동 방식

안정적 확산의 핵심은 일종의 확산 모델, 특히 잠재 확산 모델(LDM)입니다. 이 프로세스는 열역학에서 영감을 얻었으며 점진적인 성능 저하 과정을 역으로 역전시키는 학습을 포함합니다.

  1. 순방향 확산: 시스템은 선명한 훈련 이미지로 시작하여 이미지가 무작위 정적 이미지가 될 때까지 가우시안 노이즈를 이미지가 무작위 정적이 될 때까지 점진적으로 추가합니다.
  2. 역확산: A 신경망(일반적으로 U-Net)을 학습시켜 이 노이즈를 단계별로 예측하고 제거하여 원본 이미지를 복구하도록 훈련합니다.

스테이블 디퓨전은 이 프로세스를 고차원 픽셀 공간이 아닌 압축된 이미지 표현인 고차원 픽셀 공간이 아닌 이미지의 압축된 표현입니다. 이 기술은 고해상도 이미지 합성 연구 논문에 자세히 설명되어 있는 이 기법을 사용하면 계산 요구 사항을 크게 줄여 추론 대기 시간을 단축하고 메모리 사용량을 줄일 수 있습니다. 모델 모델은 다음과 같은 텍스트 인코더를 사용합니다. CLIP과 같은 텍스트 인코더를 사용하여 사용자 프롬프트를 노이즈 제거 프로세스를 안내하는 임베딩으로 변환하여 프로세스를 안내하는 임베딩으로 변환하여 최종 출력이 설명과 일치하도록 합니다.

관련성 및 실제 응용 분야

주문형 맞춤형 이미지를 생성하는 기능은 특히 다음과 같은 다양한 산업에 큰 영향을 미칩니다. 컴퓨터 비전(CV) 및 머신 러닝 워크플로우에 특히 큰 영향을 미칩니다.

  • 합성 데이터 생성: ML 엔지니어에게 가장 실용적인 애플리케이션 중 하나는 데이터 부족 문제를 해결하기 위한 훈련 데이터를 생성하는 것입니다. 예를 들어 예를 들어, 객체 감지 모델을 훈련할 때 같은 YOLO11 와 같은 물체 감지 모델을 훈련할 때 특정 유형의 산업 결함이나 특이한 환경의 동물과 같은 특정 유형의 산업 결함이나 특이한 환경의 동물과 같은 희귀한 시나리오를 인식하도록 훈련할 때 안정적인 확산을 사용하면 수천 가지의 다양한 사실적인 예시를 만들 수 있습니다. 이를 통해 모델의 견고성을 개선하고 과적합을 방지합니다.
  • 이미지 편집 및 인페인팅: 스테이블 디퓨전은 이미지를 처음부터 새로 생성하는 것 외에도 이미지 분할 작업을 효과적으로 수행할 수 있습니다. 인페인팅. 이를 통해 사용자는 이미지의 특정 영역을 생성된 콘텐츠로 대체하여 편집할 수 있으며, 이는 데이터 증강 또는 크리에이티브 데이터 증강 또는 크리에이티브 후처리에 유용합니다.

안정적 확산과 관련 개념 구분하기

종종 다른 생성 기술과 함께 그룹화되기도 하지만, 안정적 확산은 뚜렷한 특징을 가지고 있습니다:

  • Vs. GAN 생성적 적대적 네트워크(GAN) 이 이미지 생성의 이전 표준이었습니다. 하지만 GAN은 불안정성과 '모드 붕괴'(모델이 제한된 종류의 이미지를 생성하는 경우)로 인해 훈련이 어렵기로 악명이 높습니다. 및 '모드 붕괴'(모델이 제한된 종류의 이미지를 생성하는 경우)로 인해 훈련이 어렵기로 유명합니다. 안정적인 확산은 다음과 같은 이점을 제공합니다. 일반적으로 생성 속도가 느리다는 대가를 치르지만 훈련 안정성과 출력의 다양성이 향상됩니다. 생성 속도가 느려진다는 단점이 있습니다.
  • 기존 자동 인코더: 스테이블 디퓨전은 자동 인코더 (특히 가변 자동 인코더 또는 VAE)를 사용하여 픽셀 공간과 잠재 공간 사이를 이동하지만, 핵심 생성 로직은 디퓨전 프로세스입니다. 표준 자동 인코더는 주로 텍스트 조건부 생성 기능 없이 압축 또는 노이즈 제거에 사용됩니다.

비전 AI 워크플로와 통합

Ultralytics Python API를 사용하는 개발자에게는 Stable 확산은 강력한 업스트림 도구 역할을 합니다. 합성 이미지의 데이터 세트를 생성하고 주석을 추가한 다음 고성능 비전 모델을 훈련하는 데 사용할 수 있습니다.

다음 예는 데이터 세트에 대해 YOLO11 모델을 학습시키는 워크플로우를 구성하는 방법을 보여줍니다. 데이터 세트를 학습시키는 워크플로를 구성하는 방법을 보여줍니다:

from ultralytics import YOLO

# Load the YOLO11 model (recommended for latest state-of-the-art performance)
model = YOLO("yolo11n.pt")

# Train the model on a dataset.yaml that includes paths to your synthetic data
# This helps the model learn from diverse, generated scenarios
results = model.train(
    data="synthetic_dataset.yaml",  # Config file pointing to real + synthetic images
    epochs=50,
    imgsz=640,
)

이 워크플로에서는 생성 AI와 판별 AI 간의 시너지를 강조합니다. 안정적인 확산이 데이터를 생성합니다, 그리고 YOLO11 같은 모델은 이를 학습하여 실제 세계에서 실제 세계에서 분류 또는 탐지와 같은 작업을 수행합니다. 이 프로세스를 최적화하기 위해 이 프로세스를 최적화하기 위해 엔지니어는 종종 하이퍼파라미터 튜닝을 통해 모델 실제 특징과 합성 특징의 혼합에 잘 적응할 수 있도록 하이퍼파라미터 튜닝을 사용합니다.

다음과 같은 딥 러닝 프레임워크 PyTorchTensorFlow 과 같은 딥러닝 프레임워크는 이러한 모델을 실행하는 데 기본이 됩니다. 기술이 발전함에 따라 기술이 발전함에 따라 생성 및 분석 간의 통합이 더욱 긴밀하게 이루어지면서 가능한 것의 인공 지능.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기