Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Diffusion Models

Узнай, как диффузионные модели используют генеративный ИИ для создания высококачественных данных. Научись улучшать обучение Ultralytics YOLO26 с помощью реалистичных синтетических данных уже сегодня.

Диффузионные модели — это класс алгоритмов генеративного ИИ, которые учатся создавать новые образцы данных путем обращения процесса постепенного добавления шума. В отличие от традиционных дискриминативных моделей, используемых для таких задач, как детектирование объектов или классификация, которые предсказывают метки на основе данных, диффузионные модели фокусируются на создании высококачественного контента — прежде всего изображений, аудио и видео, — который максимально точно имитирует статистические свойства реальных данных. Они быстро стали передовым решением для синтеза изображений высокого разрешения, превзойдя прежних лидеров, таких как Генеративно-состязательные сети (GAN), благодаря стабильности обучения и способности генерировать разнообразные результаты.

Link to this sectionКак работают диффузионные модели#

Основной механизм диффузионной модели основан на неравновесной термодинамике. Процесс обучения включает две отдельные фазы: прямой процесс (диффузия) и обратный процесс (удаление шума).

  • Прямой процесс: Эта фаза систематически разрушает структуру обучающего изображения путем добавления небольшого количества гауссова шума в течение серии временных шагов. По мере продолжения процесса сложные данные (например, фотография кота) постепенно превращаются в чистый, неструктурированный случайный шум.
  • Обратный процесс: Цель нейронной сети — научиться обращать это искажение. Начиная со случайного шума, модель предсказывает шум, который был добавлен на каждом шаге, и вычитает его. Итеративно удаляя шум, модель «очищает» случайный сигнал, пока не появится четкое высококачественное изображение.

Это итеративное уточнение позволяет исключительно точно контролировать мелкие детали и текстуру, что является значительным преимуществом по сравнению с методами одношаговой генерации.

Link to this sectionРеальные приложения#

Диффузионные модели вышли за рамки академических исследований и стали практическими инструментами производственного уровня в различных отраслях.

  • Генерация синтетических данных: Одно из самых ценных применений для инженеров по компьютерному зрению — создание синтетических данных для расширения обучающих выборок. Если в наборе данных не хватает разнообразия — например, отсутствуют изображения автомобилей в снежных условиях, — диффузионная модель может сгенерировать реалистичные вариации. Это помогает улучшить устойчивость таких моделей компьютерного зрения, как YOLO26, при развертывании в непредсказуемых условиях.
  • Inpainting (дорисовка) и редактирование изображений: Диффузионные модели лежат в основе продвинутых инструментов редактирования, которые позволяют пользователям изменять определенные области изображения. Эта техника, известная как inpainting, позволяет удалять нежелательные объекты или заполнять недостающие части фотографии на основе окружающего контекста. Архитекторы и дизайнеры используют это для быстрого прототипирования, визуализируя изменения продуктов или окружения без необходимости ручной 3D-визуализации.

Link to this sectionРазграничение ключевых терминов#

Полезно отличать диффузионные модели от других генеративных архитектур:

  • Диффузионные модели vs. GAN: Хотя GAN используют две конкурирующие сети (генератор и дискриминатор) и известны быстрым сэмплированием, они часто страдают от «схлопывания моды» (mode collapse), когда модель производит ограниченное разнообразие результатов. Диффузионные модели, как правило, более стабильны во время обучения и более полно покрывают распределение данных, хотя могут работать медленнее на этапе инференса.
  • Диффузионные модели vs. VAE: Вариационные автокодировщики (VAE) сжимают данные в латентное пространство, а затем восстанавливают их. Хотя VAE работают быстро, их сгенерированные изображения иногда могут выглядеть размытыми по сравнению с четкими деталями, создаваемыми диффузионными процессами.

Link to this sectionПрактическая реализация#

Хотя обучение диффузионной модели с нуля требует значительных вычислительных мощностей, инженеры могут использовать предобученные модели или интегрировать их в рабочие процессы вместе с эффективными детекторами. Например, ты можешь использовать диффузионную модель для генерации фоновых вариаций для датасета, а затем использовать Ultralytics Platform для аннотирования и обучения модели детектирования на этих дополненных данных.

Ниже приведен концептуальный пример с использованием torch для симуляции простого шага прямой диффузии (добавление шума), что является фундаментом обучения таких систем.

import torch


def add_noise(image_tensor, noise_level=0.1):
    """Simulates a single step of the forward diffusion process by adding Gaussian noise."""
    # Generate Gaussian noise with the same shape as the input image
    noise = torch.randn_like(image_tensor) * noise_level

    # Add noise to the original image
    noisy_image = image_tensor + noise

    # Clamp values to ensure they remain valid image data (e.g., 0.0 to 1.0)
    return torch.clamp(noisy_image, 0.0, 1.0)


# Create a dummy image tensor (3 channels, 64x64 pixels)
dummy_image = torch.rand(1, 3, 64, 64)
noisy_result = add_noise(dummy_image)

print(f"Original shape: {dummy_image.shape}, Noisy shape: {noisy_result.shape}")

Link to this sectionПерспективы развития#

Эта область стремительно развивается в сторону латентных диффузионных моделей (LDM), которые работают в сжатом латентном пространстве, а не в пространстве пикселей, чтобы сократить вычислительные затраты. Такая эффективность позволяет запускать мощные генеративные модели на потребительском оборудовании. По мере продолжения исследований мы ожидаем более тесной интеграции между генеративными входными данными и дискриминативными задачами, например использование сгенерированных диффузией сценариев для проверки безопасности автономных транспортных средств или улучшения анализа медицинских изображений путем имитации редких патологий.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения