Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Конфиденциальность данных

Узнайте об основных методах обеспечения конфиденциальности данных для AI/ML, от анонимизации до федеративного обучения, обеспечивающих доверие, соответствие требованиям и этические методы ИИ.

Конфиденциальность данных включает в себя руководящие принципы, практики и технические меры, используемые для защиты личной информации физических лиц во время ее сбора, обработки и хранения. В контексте искусственного интеллекта (ИИ) и машинного обучения (МО) эта концепция имеет решающее значение, поскольку современные алгоритмы часто требуют огромных объемов обучающих данных для достижения высокой точности. Обеспечение того, чтобы эти данные не ставили под угрозу конфиденциальность пользователей и не нарушали их права, является основополагающим требованием для этического развития. Организации должны ориентироваться в сложной системе нормативных актов, таких как Общий регламент по защите данных (GDPR) в Европе и Закон о защите прав потребителей Калифорнии (CCPA) в Соединенных Штатах, чтобы обеспечить соответствие и надежность своих систем ИИ.

Основные принципы развития искусственного интеллекта

Интеграция конфиденциальности в жизненный цикл ИИ часто называется «Privacy by Design» (конфиденциальность по дизайну). Этот подход влияет на то, как инженеры обрабатывают предварительную обработку данных и архитектуру модели.

  • Минимизация данных: системы должны собирать только те конкретные данные, которые необходимы для выполнения определенной задачи, что снижает риск, связанный с хранением избыточной личной информации (PII).
  • Ограничение цели: данные, собранные для конкретного применения, например для повышения эффективности производства, не должны повторно использоваться для несвязанных аналитических целей без явного согласия пользователя.
  • Анонимизация: эта техника предполагает удаление прямых идентификаторов из наборов данных. Передовые методы позволяют исследователям проводить анализ данных по агрегированным тенденциям, не отслеживая выводы до конкретных лиц.
  • Прозрачность: являясь ключевым элементом этики ИИ, прозрачность требует от организаций четкого информирования о том, как используются данные пользователей, что способствует принятию обоснованных решений.

Применение в реальном мире

Сохранение конфиденциальности имеет важное значение в тех секторах, где конфиденциальные личные данные взаимодействуют с передовой автоматизацией и компьютерным зрением (CV).

Диагностика в здравоохранении

В области анализа медицинских изображений больницы используют ИИ для помощи радиологам в диагностике заболеваний по рентгеновским снимкам и МРТ. Однако эти изображения защищены строгими законами, такими как Закон о переносимости и подотчетности медицинского страхования (HIPAA). Перед обучением модели для таких задач, как обнаружение опухолей, метаданные пациентов удаляются из файлов DICOM, что позволяет исследователям использовать ИИ в здравоохранении, не раскрывая личности пациентов.

Умные города и наблюдение

Инициативы в области городского планирования все чаще опираются на обнаружение объектов для управления дорожным движением и обеспечения общественной безопасности. Чтобы сбалансировать безопасность и анонимность личности, системы могут идентифицировать пешеходов и транспортные средства в реальном времени и немедленно применять фильтры размытия к лицам и номерным знакам. Это гарантирует, что инициативы «умного города» уважают конфиденциальность граждан в общественных местах, при этом по-прежнему собирая полезные данные о транспортных потоках.

Техническая реализация: анонимизация в режиме реального времени

Обычным техническим способом обеспечения конфиденциальности в компьютерном зрении является редактирование конфиденциальных объектов во время вывода. Следующий Python демонстрирует, как использовать модель Ultralytics для detect на изображении и применения гауссового размытия к обнаруженным областям.

import cv2
from ultralytics import YOLO

# Load the YOLO26 model (latest generation for efficiency)
model = YOLO("yolo26n.pt")
img = cv2.imread("street.jpg")

# Perform detection
results = model(img)

# Blur detected persons (class ID 0)
for box in results[0].boxes.data:
    if int(box[5]) == 0:  # Class 0 is 'person'
        x1, y1, x2, y2 = map(int, box[:4])
        # Apply Gaussian blur to the region of interest (ROI)
        img[y1:y2, x1:x2] = cv2.GaussianBlur(img[y1:y2, x1:x2], (51, 51), 0)

Отличие конфиденциальности данных от смежных терминов

Хотя эти понятия часто обсуждаются вместе, важно отличать конфиденциальность данных от схожих концепций в сфере машинного обучения (MLOps) .

  • Конфиденциальность данных и безопасность данных: Конфиденциальность относится к правам и политикам, регулирующим, кто и для каких целей имеет право доступа к данным. Безопасность относится к техническим механизмам (таким как шифрование и брандмауэры), используемым для защиты данных от несанкционированного доступа или враждебных атак. Безопасность — это инструмент для обеспечения конфиденциальности.
  • Конфиденциальность данных и дифференциальная конфиденциальность: Конфиденциальность данных — это общая цель. Дифференциальная конфиденциальность — это конкретное математическое определение и метод, который добавляет статистический шум к набору данных. Это гарантирует, что результат алгоритма не может раскрыть, были ли данные конкретного человека включены в входные данные. Этот метод часто исследуется учеными из Национального института стандартов и технологий (NIST).

Новые технологии

В ответ на растущие требования к конфиденциальности новые методологии меняют подход к обучению моделей.

  • Федеративное обучение: этот децентрализованный подход позволяет обучать модели на локальных устройствах (таких как смартфоны) и отправлять на центральный сервер только обученные веса модели, а не сами исходные данные.
  • Синтетические данные: путем генерации искусственных наборов данных, которые имитируют статистические свойства реальных данных, инженеры могут обучать надежные модели без раскрытия реальной информации о пользователях. Это помогает снизить предвзятость наборов данных и защищает личность пользователей.

Для команд, стремящихся обеспечить безопасное управление своими наборами данных, Ultralytics предлагает инструменты для аннотирования, обучения и развертывания моделей с соблюдением современных стандартов управления данными.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас