Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Privacidad Diferencial

Descubra cómo la privacidad diferencial protege los datos confidenciales en la IA/ML, garantizando la privacidad al tiempo que permite un análisis preciso y el cumplimiento de las regulaciones.

La privacidad diferencial es un marco matemático robusto utilizado en el análisis de datos y el aprendizaje automático (AM) para garantizar que el resultado de un algoritmo no revele información sobre ningún individuo específico dentro del conjunto de datos. Al cuantificar la pérdida de privacidad asociada a la divulgación de datos, permite a las organizaciones compartir patrones y tendencias agregados a la vez que de confidencialidad para cada participante. Este planteamiento se ha convertido en la piedra angular de la ética de la IA, permitiendo a los científicos de datos extraer información de los datos de los participantes. ética de la IA, permitiendo a los científicos de datos extraer información sensible sin comprometer la confianza de los usuarios ni violar las normas reguladoras.

¿Cómo funciona la privacidad diferencial?

El mecanismo central de la privacidad diferencial consiste en inyectar una cantidad calculada de ruido estadístico en los en los conjuntos de datos o en los resultados de las consultas a las bases de datos. Este ruido Este ruido se calibra cuidadosamente para que sea lo bastante significativo como para enmascarar la contribución de un solo individuo -imposible para un atacante determinar si se incluyeron los datos de una persona específica, pero lo suficientemente pequeño como para preservar la exactitud general de las estadísticas agregadas. la precisión general de las estadísticas agregadas.

En el contexto del aprendizaje profundo (deep learning, DL), esta técnica suele aplicarse durante el proceso de entrenamiento, concretamente durante el descenso de gradiente. Al recortar los gradientes y añadir ruido antes de actualizar los pesos del modelo, los desarrolladores pueden crear modelos que preserven la privacidad. Sin embargo, esto introduce un Sin embargo, esto introduce un "equilibrio entre privacidad y utilidad", en el que una configuración de privacidad más estricta (que genera más ruido) puede reducir ligeramente la precisión del modelo final. la precisión del modelo final.

Conceptos básicos y aplicación

Para aplicar la privacidad diferencial, los profesionales utilizan un parámetro conocido como "épsilon" (ε), que actúa como un presupuesto de privacidad. Un valor de épsilon más bajo indica requisitos de privacidad más estrictos y más ruido, mientras que un épsilon más alto permite obtener datos más precisos pero con un margen más amplio para posibles fugas de información. Este concepto es fundamental a la hora de preparar datos de entrenamiento para tareas sensibles como análisis de imágenes médicas o financieras.

El siguiente ejemplo Python demuestra el concepto fundamental de la privacidad diferencial: añadir ruido a los datos para enmascarar valores exactos. Mientras que las bibliotecas como Opacus se utilizan para el entrenamiento completo del modelo, este fragmento utiliza PyTorch para ilustrar el mecanismo de inyección de ruido.

import torch

# Simulate a tensor of sensitive gradients or data points
original_data = torch.tensor([1.5, 2.0, 3.5, 4.0])

# Generate Laplacian noise (common in Differential Privacy) based on a privacy budget
noise_scale = 0.5
noise = torch.distributions.laplace.Laplace(0, noise_scale).sample(original_data.shape)

# Add noise to create a differentially private version
private_data = original_data + noise

print(f"Original: {original_data}")
print(f"Private:  {private_data}")

Aplicaciones en el mundo real

Las principales empresas tecnológicas y organismos gubernamentales confían en la privacidad diferencial para mejorar la experiencia del usuario y, al mismo tiempo la información personal.

  • Análisis de uso de usuarios de Apple: Apple utiliza Privacidad Diferencial Local para recopilar información de los usuarios de iPhone y Mac. Esto les permite identificar los emojis más populares, descubrir el alto uso de memoria en las aplicaciones y mejorar las sugerencias de QuickType sin acceder nunca a los datos brutos de los usuarios ni rastrear el comportamiento individual.
  • Oficina del Censo de Estados Unidos: El Censo de EE.UU. de 2020 adoptó la privacidad diferencial para publicar estadísticas demográficas. Esto garantiza que las tablas de datos publicadas no puedan ser objeto de ingeniería inversa para hogares específicos, equilibrando la necesidad pública de datos demográficos con el requisito legal de proteger la confidencialidad de los ciudadanos. confidencialidad de los ciudadanos.

Privacidad diferencial frente a términos relacionados

Es importante distinguir la privacidad diferencial de otras técnicas de preservación de la privacidad que se encuentran en un moderno ciclo de vida de MLOps.

  • Privacidad diferencial frente a privacidad de datos: La privacidad de los datos es una disciplina amplia que abarca las leyes, los derechos y las mejores prácticas para el manejo de datos personales (por ejemplo, el cumplimiento del GDPR). La privacidad diferencial es una definición matemática específica y herramienta técnica utilizada para alcanzar objetivos de privacidad de datos.
  • Privacidad diferencial frente al aprendizaje federado: El aprendizaje federado es un método de descentralizado en el que los modelos se entrenan en dispositivos locales (edge computing) sin cargar los datos brutos en un servidor. Mientras que Federated Learning mantiene los datos locales, no garantiza que las propias actualizaciones del modelo no filtren información. Por lo tanto, la privacidad diferencial se combina a menudo con el aprendizaje federado para asegurar las actualizaciones del modelo.
  • Privacidad diferencial frente a anonimización: La anonimización tradicional consiste en eliminar información de identificación personal (IPI), como nombres o sociales. Sin embargo, los conjuntos de datos anonimizados a menudo pueden "reidentificarse" mediante referencias cruzadas con otros datos públicos. con otros datos públicos. La privacidad diferencial ofrece una garantía matemáticamente demostrable contra estos ataques de reidentificación. reidentificación.

Importancia en la visión por ordenador

Para los usuarios que utilizan modelos avanzados como YOLO11 para tareas como la detección de objetos o la vigilancia, la privacidad diferencial ofrece una vía para entrenarse en secuencias de vídeo del mundo real sin exponer las identidades de las personas capturadas en las imágenes. de las personas capturadas. Al integrar estas técnicas, los desarrolladores pueden crear sistemas de IA que sean robustos, conformes y de confianza para el público.

Para saber más sobre herramientas de privacidad, el proyecto OpenDP ofrece un conjunto de algoritmos de código abierto. de algoritmos de código abierto, y Google ofrece TensorFlow Privacy desarrolladores que deseen integrar estos conceptos en sus flujos de trabajo.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora