Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Дифференциальная конфиденциальность

Узнайте, как дифференциальная конфиденциальность защищает конфиденциальные данные в AI/ML, обеспечивая конфиденциальность, обеспечивая точный анализ и соответствие нормативным требованиям.

Дифференциальная конфиденциальность - это надежная математическая схема, используемая в анализе данных и Машинное обучение (ML) для обеспечения того, чтобы выходные данные алгоритма не раскрывает информацию о конкретном человеке в наборе данных. Благодаря количественной оценке количественная оценка потери конфиденциальности, связанной с выпуском данных, позволяет организациям делиться совокупными закономерностями и тенденциями, сохраняя при этом сохраняя при этом доказанную гарантию конфиденциальности для каждого участника. Такой подход стал краеугольным камнем этики ИИ, позволяя ученым, изучающим данные, извлекать ценные извлекать ценные сведения из конфиденциальной информации, не подрывая доверия пользователей и не нарушая нормативных требований.

Как работает дифференциальная конфиденциальность

Основной механизм дифференциальной конфиденциальности предполагает введение рассчитанного количества статистического шума в наборы данных или результаты запросов к базе данных. Этот шум тщательно выверен, чтобы быть достаточно значительным, чтобы скрыть вклад любого отдельного человека, что делает невозможным злоумышленнику определить, были ли включены данные конкретного человека, но при этом достаточно мал, чтобы сохранить общую точность совокупной статистики.

В контексте глубокого обучения (ГОО) эта техника Эта техника часто применяется в процессе обучения, в частности во время градиентного спуска. Обрезая градиенты и добавляя шума перед обновлением весов модели, разработчики могут создавать модели, сохраняющие конфиденциальность. Однако при этом возникает проблема "компромисс между приватностью и полезностью", когда более сильные настройки приватности (приводящие к большему количеству шума) могут несколько снизить точность конечной модели.

Основные концепции и реализация

Для реализации дифференциальной конфиденциальности специалисты используют параметр, известный как "эпсилон" (ε), который выступает в качестве бюджет конфиденциальности. Более низкое значение эпсилон означает более строгие требования к конфиденциальности и больше шума, в то время как более высокое значение эпсилон позволяет получать более точные данные, но с большим запасом для потенциальной утечки информации. Эта концепция очень важна при подготовке обучающих данных для таких ответственных задач, как анализ медицинских изображений или финансовое прогнозирование.

Следующий пример на Python демонстрирует фундаментальную концепцию дифференциальной конфиденциальности: добавление шума к данным для маскировки точных значений. В то время как библиотеки вроде Opacus используются для полного обучения модели, в этом фрагменте используется PyTorch чтобы проиллюстрировать механизм введения шума.

import torch

# Simulate a tensor of sensitive gradients or data points
original_data = torch.tensor([1.5, 2.0, 3.5, 4.0])

# Generate Laplacian noise (common in Differential Privacy) based on a privacy budget
noise_scale = 0.5
noise = torch.distributions.laplace.Laplace(0, noise_scale).sample(original_data.shape)

# Add noise to create a differentially private version
private_data = original_data + noise

print(f"Original: {original_data}")
print(f"Private:  {private_data}")

Применение в реальном мире

Крупнейшие технологические компании и государственные органы полагаются на дифференцированную конфиденциальность, чтобы повысить удобство работы пользователей и одновременно обеспечить безопасность личной информации. защиты личной информации.

  • Анализ использования Apple пользователями: Apple использует локальную дифференциальную конфиденциальность для сбора информации от пользователей iPhone и Mac. Это позволяет определять популярные эмодзи, обнаруживать высокий уровень использования памяти в приложениях в приложениях и улучшать предложения QuickType, не получая при этом доступа к необработанным данным пользователей и не отслеживая их поведение.
  • Бюро переписи населения США: Сайт Перепись населения США 2020 года приняла дифференцированную конфиденциальность для публикации демографической статистики. Это гарантирует, что опубликованные таблицы данных не могут быть переработаны для для идентификации конкретных домохозяйств, что позволяет сбалансировать общественную потребность в демографических данных с требованием закона о защите конфиденциальности граждан.

Дифференцированная конфиденциальность по сравнению со смежными терминами

Важно отличать дифференциальную конфиденциальность от других методов сохранения конфиденциальности, которые можно встретить в современном жизненном цикле MLOps.

  • Дифференциальная конфиденциальность в сравнении с конфиденциальностью данных: Конфиденциальность данных - это широкая дисциплина, охватывающая законы, права и передовые методы работы с персональными данными (например, соответствие GDPR). Дифференциальная конфиденциальность - это конкретное математическое определение и технический инструмент, используемый для достижения целей конфиденциальности данных.
  • Дифференциальная конфиденциальность по сравнению с федеративным обучением: Федеративное обучение - это децентрализованный метод обучения. метод, при котором модели обучаются на локальных устройствах (edge computing) без загрузки исходных данных на сервер. В то время как Federated Learning сохраняет локальность данных, он не гарантирует, что обновления модели сами по себе не приведут к утечке информации. Поэтому дифференциальная конфиденциальность часто сочетается с федеративным обучением для защиты обновлений модели.
  • Дифференциальная конфиденциальность по сравнению с анонимизацией: Традиционная анонимизация предполагает удаление персонально идентифицируемой информации (PII), например имен или номеров социального страхования. номера социального страхования. Однако анонимизированные наборы данных часто могут быть "повторно идентифицированы" путем перекрестного сопоставления с другими публичными данными. Дифференциальная конфиденциальность обеспечивает математически доказуемую гарантию от таких атак на повторную идентификацию атак.

Значение в компьютерном зрении

Для пользователей, использующих такие продвинутые модели, как YOLO11 для задач таких как обнаружение объектов или наблюдение, дифференциальная конфиденциальность дает возможность тренироваться на реальных видеоматериалах, не раскрывая личности людей. не раскрывая личности людей, запечатленных на видеозаписях. Интегрируя эти методы, разработчики могут создавать надежные, совместимые системы искусственного интеллекта, и пользоваться доверием общественности.

Чтобы узнать больше об инструментах для обеспечения конфиденциальности, проект OpenDP предлагает набор алгоритмов с открытым исходным кодом. алгоритмов, а Google предлагает TensorFlow Privacy для разработчиков, желающих интегрировать эти концепции в свои рабочие процессы.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас