Узнайте о методе «разучивания» моделей для выборочного удаления конфиденциальных обучающих данных. Узнайте, как обеспечить соответствие требованиям GDPR и конфиденциальность данных с помощью Ultralytics .
«Отучение» моделей — это новая область машинного обучения, направленная на устранение влияния определённого поднабора обучающих данных на обученную модель. Поскольку модели обрабатывают огромные объёмы информации, способность выборочно «забывать» данные стала крайне важной. Этот процесс позволяет разработчикам извлекать конкретные данные без необходимости переобучения всей архитектуры с нуля, что значительно экономит время и вычислительные ресурсы.
Основной движущей силой этой технологии является конфиденциальность данных. С появлением строгих норм и правил защиты данных, а также таких положений, как «право на забвение» в рамках GDPR, у пользователей появилось законное право требовать удаления своих персональных данных. Технология «машинного разучивания» открывает возможность безопасно удалять эти данные из моделей глубокого обучения, обеспечивая соблюдение нормативных требований при сохранении общей эффективности модели.
Традиционные механизмы спуска по градиенту тесно связывают обучающие данные с весами сети. Из-за этого простое удаление исходного изображения или текстового файла из базы данных не приводит к удалению выученных шаблонов из самой модели. Методы «разучивания» машинного обучения обычно делятся на две категории: точное «разучивание» и приближенное «разучивание». Точное разучивание гарантирует, что конечная модель будет статистически идентична модели, обученной полностью без забытых данных, что часто достигается за счет умного разбиения наборов данных. Приближенное разучивание, часто обсуждаемое в недавних исследованиях по эффективным алгоритмам разучивания, использует математические вмешательства для корректировки параметров модели и ретроактивного маскирования влияния целевых данных.
Важно проводить различие между «разучиванием» машин и непрерывным обучением. В то время как непрерывное обучение направлено на последовательное накопление новых знаний без риска катастрофического забывания, разучивание представляет собой целенаправленное, умышленное удаление знаний. Организации, занимающиеся вопросами алгоритмической справедливости, также используют разучивание для устранения предвзятости в ИИ путем очистки вредных или искаженных данных после завершения обучения.
Алгоритмы «отучения» быстро перешли от теоретических исследований в области безопасности ИИ к практическому внедрению в различных отраслях.
Хотя API для прямого одноэтапного «разучивания» по-прежнему остаются активной областью исследований в рамках задач машинного «разучивания», специалисты-практики часто достигают точного базового уровня «разучивания» путем формирования очищенного набора данных и запуска быстрого цикла переобучения. При использовании Ultralytics для облачного управления данными вы можете легко создать версию набора данных, чтобы исключить из него аннулированные данные.
Ниже приведён краткий Python , демонстрирующий базовый подход к «разучиванию» посредством переобучения модели Ultralytics на очищенном наборе данных:
from ultralytics import YOLO
# Load an existing, pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Naive exact unlearning: perform efficient retraining on a sanitized dataset.
# The 'sanitized_data.yaml' excludes the specific sensitive data to be "unlearned"
results = model.train(data="sanitized_data.yaml", epochs=50, device="cuda")
По мере роста спроса на оптимизацию моделей и устойчивость нейронных сетей «забывание» становится стандартным требованием. Независимо от того, занимаетесь ли вы управлением сложными потоками классификации изображений или развертыванием моделей на периферийных устройствах, внедрение механизмов ответственного «забывания» данных гарантирует, что ваши системы искусственного интеллекта будут оставаться соответствующими нормативным требованиям, справедливыми и заслуживающими доверия.