Глоссарий

Generative Adversarial Network (GAN)

Узнайте, как GAN совершают революцию в ИИ, генерируя реалистичные изображения, улучшая данные и стимулируя инновации в здравоохранении, играх и других областях.

Генеративная адверсарная сеть (GAN) - это сложная структура в рамках искусственного интеллекта (ИИ), используемая для создания новых экземпляров данных, похожих на исходный набор данных. Она была представлена Яном Гудфеллоу и исследователями в В 2014 году Ян Гудэллоу и исследователи представили в своей фундаментальной работе GAN, которые работают на уникальной основе: они ставят две различные нейронные сети друг против друга в непрерывной, конкурентной игре. Этот состязательный процесс позволяет системе создавать высокореалистичный синтетический контент, от фотореалистичных изображений и произведений искусства до аудио и 3D-моделей, что делает их краеугольным камнем современного генеративного ИИ.

Как функционируют ГАНы

Архитектура GAN состоит из двух основных компонентов: генератора и дискриминатора. Дискриминатор. Эти две сети обучаются одновременно в игре с нулевой суммой, где выигрыш одного агента - это проигрыш другого. выигрыш одного агента означает проигрыш другого.

Генератор: Эта сеть выступает в роли "фальсификатора". Она принимает на вход случайный шум и пытается сгенерировать данные - например, изображение лица, - которые выглядят подлинными. Ее цель - создать синтетические данные, достаточно убедительные для того, чтобы обмануть Дискриминатор.
Дискриминатор: Эта сеть выполняет роль "детектива". Она получает как настоящие образцы из обучающих данных и фальшивые образцы из Генератор. Ее задача - правильно classify входные данные как настоящие или поддельные.

В процессе обучения Генератор совершенствуется, учась обманывать Дискриминатор, а Дискриминатор лучше отличает настоящее от подделки. В идеале этот цикл продолжается до тех пор, пока система не достигнет равновесия Нэша, при котором генерируемые данные неотличимы от реальных, а Дискриминатор угадывает с 50-процентной уверенности.

Применение в реальном мире

GAN вышли за рамки теоретических исследований и нашли практическое применение в различных отраслях.

Расширение данных для компьютерного зрения: В сценариях, где данных мало, GAN могут генерировать разнообразные обучающие примеры. Например, в ИИ в здравоохранении, GAN создают синтетические медицинские изображения для обучения диагностических моделей без ущерба для конфиденциальности данных пациента. Аналогично, они помогают улучшить модели обнаружения объектов, генерируя редкие сценариев, таких как аварии для автономных транспортных средств, обеспечивая готовность автомобилей чтобы обеспечить готовность автомобилей к экстремальным ситуациям.
Сверхразрешение и реставрация изображений: GAN широко используются для повышения качества изображений с низким разрешением. Такие технологии, как DLSS отNVIDIA, используют концепции схожие с GAN, для рендеринга видеоигр в более высоком разрешении. В фотографии GAN с суперразрешением могут восстановить старые, зернистые старые зернистые фотографии в четкие и качественные изображения.
Перенос стиля и искусство: Инструменты позволяют перенести художественный стиль одного изображения на другое (например, сделать фотографию похожей на картину Ван Гога). Эта творческая способность также является движущей силой многих глубоких подделок и виртуальных авторитетов.

GAN и диффузионные модели

Хотя обе технологии являются генеративными, важно отличать GAN от диффузионных моделей (таких как которые используются в Stable Diffusion).

GAN: Генерируют данные за один проход (или несколько шагов) через генератор. В целом они быстрее делают выводы, но могут быть сложны в обучение из-за проблем с нестабильностью, таких как коллапс режима, когда генератор производит ограниченное количество выходов.
Диффузионные модели: Генерируют данные путем итеративного удаления шума из случайного сигнала. Они часто дают более качественные и разнообразные результаты и более стабильны в процессе обучения, но обычно требуют больше вычислительной мощности и времени для создания одного изображения.

Определение генератора в PyTorch

В то время как такие библиотеки, как ultralytics сосредоточиться на дискриминационных задачах, таких как обнаружение с YOLO11Понимание структуры генератора GAN будет полезным. полезно. Ниже приведен простой PyTorch пример генератора предназначенного для создания данных из вектора скрытого шума.

import torch
import torch.nn as nn


class SimpleGenerator(nn.Module):
    """A basic GAN Generator that upsamples a noise vector into an image."""

    def __init__(self, latent_dim=100, img_shape=(1, 28, 28)):
        super().__init__()
        self.img_shape = img_shape
        self.model = nn.Sequential(
            nn.Linear(latent_dim, 128),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Linear(128, int(torch.prod(torch.tensor(img_shape)))),
            nn.Tanh(),  # Normalizes output to [-1, 1] range
        )

    def forward(self, z):
        img = self.model(z)
        return img.view(img.size(0), *self.img_shape)


# Example: Create a generator and produce a dummy image from random noise
generator = SimpleGenerator()
random_noise = torch.randn(1, 100)  # Batch of 1, 100-dim noise vector
generated_img = generator(random_noise)
print(f"Generated image shape: {generated_img.shape}")

Значение в машинном обучении

Появление GAN ознаменовало собой переход от от контролируемого обучения, которое требует маркированных данных, к неконтролируемому, когда модели понимают глубинную структуру данных. Благодаря использованию обратное распространение эффективно в конкурентной GAN позволяют исследователям моделировать сложные распределения. Эта способность синтезировать реальность вызвала дискуссии об этике ИИ, в частности о подлинности и дезинформации, что делает их одной из самых обсуждаемых тем в области глубокого обучения на сегодняшний день.

Generative Adversarial Network (GAN)

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Как функционируют ГАНы

Применение в реальном мире

GAN и диффузионные модели

Определение генератора в PyTorch

Значение в машинном обучении

Читать больше в этой категории

Понимание важности аннотации с участием человека

Что такое дистилляция наборов данных? Краткий обзор

Очки Oakley Meta AI переосмысливают концепцию очков с помощью Vision AI

Присоединяйтесь к сообществу Ultralytics