Узнайте об основных методах обеспечения конфиденциальности данных для AI/ML, от анонимизации до федеративного обучения, обеспечивающих доверие, соответствие требованиям и этические методы ИИ.
Конфиденциальность данных включает в себя руководящие принципы, практики и технические меры, используемые для защиты личной информации физических лиц во время ее сбора, обработки и хранения. В контексте искусственного интеллекта (ИИ) и машинного обучения (МО) эта концепция имеет решающее значение, поскольку современные алгоритмы часто требуют огромных объемов обучающих данных для достижения высокой точности. Обеспечение того, чтобы эти данные не ставили под угрозу конфиденциальность пользователей и не нарушали их права, является основополагающим требованием для этического развития. Организации должны ориентироваться в сложной системе нормативных актов, таких как Общий регламент по защите данных (GDPR) в Европе и Закон о защите прав потребителей Калифорнии (CCPA) в Соединенных Штатах, чтобы обеспечить соответствие и надежность своих систем ИИ.
Интеграция конфиденциальности в жизненный цикл ИИ часто называется «Privacy by Design» (конфиденциальность по дизайну). Этот подход влияет на то, как инженеры обрабатывают предварительную обработку данных и архитектуру модели.
Сохранение конфиденциальности имеет важное значение в тех секторах, где конфиденциальные личные данные взаимодействуют с передовой автоматизацией и компьютерным зрением (CV).
В области анализа медицинских изображений больницы используют ИИ для помощи радиологам в диагностике заболеваний по рентгеновским снимкам и МРТ. Однако эти изображения защищены строгими законами, такими как Закон о переносимости и подотчетности медицинского страхования (HIPAA). Перед обучением модели для таких задач, как обнаружение опухолей, метаданные пациентов удаляются из файлов DICOM, что позволяет исследователям использовать ИИ в здравоохранении, не раскрывая личности пациентов.
Инициативы в области городского планирования все чаще опираются на обнаружение объектов для управления дорожным движением и обеспечения общественной безопасности. Чтобы сбалансировать безопасность и анонимность личности, системы могут идентифицировать пешеходов и транспортные средства в реальном времени и немедленно применять фильтры размытия к лицам и номерным знакам. Это гарантирует, что инициативы «умного города» уважают конфиденциальность граждан в общественных местах, при этом по-прежнему собирая полезные данные о транспортных потоках.
Обычным техническим способом обеспечения конфиденциальности в компьютерном зрении является редактирование конфиденциальных объектов во время вывода. Следующий Python демонстрирует, как использовать модель Ultralytics для detect на изображении и применения гауссового размытия к обнаруженным областям.
import cv2
from ultralytics import YOLO
# Load the YOLO26 model (latest generation for efficiency)
model = YOLO("yolo26n.pt")
img = cv2.imread("street.jpg")
# Perform detection
results = model(img)
# Blur detected persons (class ID 0)
for box in results[0].boxes.data:
if int(box[5]) == 0: # Class 0 is 'person'
x1, y1, x2, y2 = map(int, box[:4])
# Apply Gaussian blur to the region of interest (ROI)
img[y1:y2, x1:x2] = cv2.GaussianBlur(img[y1:y2, x1:x2], (51, 51), 0)
Хотя эти понятия часто обсуждаются вместе, важно отличать конфиденциальность данных от схожих концепций в сфере машинного обучения (MLOps) .
В ответ на растущие требования к конфиденциальности новые методологии меняют подход к обучению моделей.
Для команд, стремящихся обеспечить безопасное управление своими наборами данных, Ultralytics предлагает инструменты для аннотирования, обучения и развертывания моделей с соблюдением современных стандартов управления данными.