Differential Privacy - formation-ia-act

🔐 La Protection Mathématique

L’epsilon est votre bouclier. Plus il est petit, plus la vie privée est protégée.

C’est la seule technique avec des garanties prouvables mathématiquement.

Anonymisation = promesse. Differential Privacy = preuve.

Netflix a été attaqué. AOL a été attaqué. L’anonymisation classique a échoué. Les chercheurs ont réidentifié des millions de personnes à partir de données « anonymisées ».

La differential privacy résout ce problème. Elle offre des garanties mathématiques qu’aucune technique d’anonymisation ne peut fournir. Google, Apple, Meta l’utilisent en production. Le US Census Bureau l’a utilisée pour le recensement 2020.

Dans ce guide, découvrez comment fonctionne la confidentialité différentielle, comment l’implémenter dans vos systèmes IA, et comment elle s’intègre dans votre stratégie privacy by design IA.

ε paramètre clé : epsilon

≤1 epsilon recommandé

100% garantie prouvable

Par Loïc Gros-Flandre

Directeur de Modernee – Agence IA. Expert en techniques de préservation de la vie privée et conformité AI Act.

🔐 Expert Privacy • 🧮 Techniques DP • ✅ +50 systèmes audités

                📋 Ce que vous allez maîtriser
                → Les fondamentaux mathématiques de la differential privacy
→ Epsilon, delta, sensibilité : les paramètres clés
→ Les mécanismes de bruit (Laplace, Gaussien, Exponentiel)
→ DP-SGD : entraîner des modèles différentiellement privés
→ Outils et bibliothèques pour l’implémentation

            

Infographie : Fonctionnement de la Differential Privacy et échelle d’epsilon

🔐 Qu’est-ce que la Differential Privacy ?

La differential privacy (confidentialité différentielle) est une définition mathématique rigoureuse de la vie privée. Elle garantit qu’on ne peut pas déterminer si une personne spécifique a participé à un dataset.

differential privacy ia - Équipe analysant les techniques de confidentialité

Photo par Campaign Creators sur Unsplash

🧮 La Définition Mathématique

Un algorithme M satisfait la (ε, δ)-differential privacy si pour tous datasets voisins D et D’ (différant d’un seul individu) :

📐 Formule Fondamentale

P[M(D) ∈ S] ≤ e^ε × P[M(D’) ∈ S] + δ

En français : Le résultat est presque identique qu’Alice soit dans le dataset ou non.

ε (Epsilon) : Le Paramètre Clé

L’epsilon contrôle le niveau de protection. C’est le « bouton de réglage » privacy/utilité :

Epsilon (ε)	Niveau de Protection	Usage Typique
0.1 – 0.5	🟢 Très forte	Données médicales, sensibles
1 – 2	🟢 Forte	Standard recommandé
3 – 5	🟡 Modérée	Analytics, télémétrie
6 – 10	🟠 Faible	Statistiques agrégées basiques
> 10	🔴 Insuffisante	Non recommandé

δ (Delta) : La Probabilité d’Échec

Le delta représente la probabilité que la garantie ε soit violée. En pratique :

🎯 δ = 0 : Pure ε-differential privacy (garantie absolue)
📊 δ = 1/n² : Règle pratique (n = taille dataset)
⚠️ δ > 1/n : Trop élevé, protection insuffisante

« L’epsilon n’est pas un choix technique, c’est une décision éthique. Quel risque de réidentification êtes-vous prêt à accepter ? »
— Cynthia Dwork, Inventrice de la Differential Privacy

🎲 Les Mécanismes de Bruit

differential privacy ia - Analyse des mécanismes de confidentialité

Photo par Scott Graham sur Unsplash

Pour atteindre la differential privacy, on ajoute du bruit aléatoire calibré mathématiquement. Le choix du mécanisme dépend du type de requête.

1️⃣ Mécanisme de Laplace

Le plus courant pour les requêtes numériques (comptage, sommes, moyennes).

# Mécanisme de Laplace
import numpy as np

def laplace_mechanism(true_value, sensitivity, epsilon):
    """
    Ajoute du bruit de Laplace pour garantir ε-differential privacy.
    
    Args:
        true_value: La vraie valeur à protéger
        sensitivity: Δf - l'impact max d'un individu
        epsilon: Paramètre de confidentialité
    
    Returns:
        Valeur bruité différentiellement privée
    """
    scale = sensitivity / epsilon
    noise = np.random.laplace(0, scale)
    return true_value + noise

# Exemple : compter les utilisateurs
true_count = 1000
sensitivity = 1  # Un utilisateur change le compte de max 1
epsilon = 1.0

private_count = laplace_mechanism(true_count, sensitivity, epsilon)
print(f"Vrai compte: {true_count}, Compte privé: {private_count:.0f}")

2️⃣ Mécanisme Gaussien

Pour les garanties (ε, δ)-DP. Utilisé quand on veut des garanties composées plus serrées.

📊 Bruit : Distribution gaussienne (normale)
🔧 Écart-type : σ = Δf × √(2 ln(1.25/δ)) / ε
✅ Avantage : Meilleure composition pour requêtes multiples

3️⃣ Mécanisme Exponentiel

Pour les requêtes non-numériques (sélection d’options, catégories).

🎯 Usage : Choisir parmi des options discrètes
📊 Pondération : Probabilité proportionnelle à exp(ε × score / 2Δu)
💡 Exemple : Sélectionner le meilleur produit sans révéler les votes individuels

💡 Concept Clé : La Sensibilité (Δf)

La sensibilité mesure l’impact maximum qu’un seul individu peut avoir sur le résultat.

Exemple : Pour un comptage, Δf = 1 (ajouter/retirer une personne change le compte de 1).

Pour une moyenne de salaires de 0 à 100K€, Δf = 100K/n.

🔐 Quiz : Comprenez-vous la Differential Privacy ?

Testez vos connaissances sur la confidentialité différentielle

🧠 DP-SGD : Entraîner des Modèles Différentiellement Privés

Le DP-SGD (Differentially Private Stochastic Gradient Descent) permet d’entraîner des modèles de machine learning avec des garanties de differential privacy.

🔧 Comment Fonctionne DP-SGD

Échantillonnage par Lot (Subsampling)

Sélectionner aléatoirement un sous-ensemble du dataset pour chaque batch. L’amplification par sous-échantillonnage améliore les garanties privacy.

Clipping des Gradients

Limiter la norme des gradients individuels à une valeur C. Cela borne la sensibilité : aucun exemple ne peut avoir un impact trop grand.

Ajout de Bruit Gaussien

Ajouter du bruit N(0, σ²C²I) au gradient agrégé. Le ratio σ détermine le niveau de confidentialité.

Mise à Jour des Paramètres

Appliquer la descente de gradient standard avec le gradient bruité. Le modèle final est (ε, δ)-différentiellement privé.

# DP-SGD avec Opacus (Meta)
from opacus import PrivacyEngine
import torch

# Modèle standard
model = MyModel()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

# Wrapper DP
privacy_engine = PrivacyEngine()
model, optimizer, train_loader = privacy_engine.make_private_with_epsilon(
    module=model,
    optimizer=optimizer,
    data_loader=train_loader,
    epochs=10,
    target_epsilon=1.0,    # Budget privacy cible
    target_delta=1e-5,     # Probabilité d'échec
    max_grad_norm=1.0,     # Clipping bound
)

# Entraînement standard - les garanties DP sont automatiques
for batch in train_loader:
    optimizer.zero_grad()
    loss = model(batch).sum()
    loss.backward()
    optimizer.step()

# Vérifier l'epsilon consommé
epsilon = privacy_engine.get_epsilon(delta=1e-5)
print(f"Epsilon final: {epsilon:.2f}")

⚖️ Le Trade-off Utilité / Privacy

Plus la protection est forte (petit ε), plus le bruit est important, et plus l’utilité diminue.

Epsilon Cible	Perte d’Utilité Typique	Usage
ε ≤ 1	5-15% accuracy	Données très sensibles
ε = 2-3	2-5% accuracy	Bon compromis
ε = 5-8	< 2% accuracy	Protection minimale acceptable

⚠️ Attention au Budget Privacy

Chaque époque d’entraînement consomme du budget. Plus d’époques = epsilon final plus élevé.

Utilisez les techniques de composition avancées (moments accountant) pour optimiser.

🛠️ Outils et Implémentation Pratique

differential privacy ia - Dashboard d'implémentation DP

Photo par Carlos Muza sur Unsplash

📚 Les Bibliothèques Principales

Outil	Maintenu par	Usage
Opacus	Meta (Facebook)	DP-SGD pour PyTorch
TensorFlow Privacy	Google	DP-SGD pour TensorFlow
OpenDP	Harvard/Microsoft	Framework général, statistiques
PyDP	Google	Binding Python de Google DP lib
Diffprivlib	IBM	Compatible scikit-learn
PySyft	OpenMined	Federated Learning + DP

🏢 Qui Utilise la Differential Privacy ?

🔵 Google : Chrome (RAPPOR), Android, Maps, BigQuery
🍎 Apple : iOS keyboard, Siri, Health data
🔷 Meta : Facebook URL sharing, WhatsApp
🔶 Microsoft : Windows telemetry, LinkedIn
🏛️ US Census Bureau : Recensement 2020
🚗 Uber : Analytics des trajets

💡 AI Act et Differential Privacy

L’AI Act n’exige pas explicitement la DP, mais elle s’inscrit parfaitement dans les obligations privacy IA.

Pour les systèmes haut risque avec données sensibles, la DP démontre une protection technique documentable et prouvable.

🎚️ Simulateur : Impact de l’Epsilon

Valeur Epsilon (ε) : 1.0

Vraie valeur à protéger

Sensibilité (Δf)

❓ Questions Fréquentes – Differential Privacy

Qu’est-ce que la differential privacy ?

La differential privacy est une technique mathématique qui garantit qu’on ne peut pas déterminer si une personne spécifique a participé à un dataset. Elle fonctionne en ajoutant du bruit calibré aux résultats. La garantie est prouvable mathématiquement, contrairement à l’anonymisation classique.

Qu’est-ce que l’epsilon (ε) en differential privacy ?

L’epsilon est le paramètre de confidentialité. Plus epsilon est petit, plus la protection est forte. ε = 0 signifie confidentialité parfaite (mais utilité nulle). ε = 1 est considéré comme une bonne protection. ε > 10 offre peu de protection.

Quelle est la différence entre differential privacy et anonymisation ?

L’anonymisation supprime ou masque les identifiants. Elle peut être réversible (attaques de réidentification). La differential privacy offre des garanties mathématiques prouvables, indépendantes des connaissances de l’attaquant. Netflix et AOL ont montré que l’anonymisation seule ne suffit pas.

Comment fonctionne le mécanisme de Laplace ?

Le mécanisme de Laplace ajoute du bruit tiré d’une distribution de Laplace au résultat. Le bruit est calibré selon : sensibilité / epsilon. Plus epsilon est petit, plus le bruit est important. Ce mécanisme est adapté aux requêtes numériques.

La differential privacy dégrade-t-elle les performances du modèle ?

Oui, il y a un trade-off utilité/privacy. Plus la protection est forte (petit epsilon), plus l’utilité diminue. Cependant, avec des datasets suffisamment grands et des techniques optimisées (DP-SGD, PATE), la perte peut être acceptable (quelques % de précision).

Quelles entreprises utilisent la differential privacy ?

Google (Chrome, Android, Maps), Apple (iOS, Siri), Microsoft (Windows telemetry), Meta (Facebook), US Census Bureau (recensement 2020), Uber, LinkedIn. Ces géants l’utilisent pour collecter des statistiques tout en protégeant les individus.

Qu’est-ce que DP-SGD pour l’entraînement de modèles IA ?

DP-SGD est une version modifiée de la descente de gradient qui garantit la differential privacy pendant l’entraînement. Elle clippe les gradients individuels et ajoute du bruit gaussien. Le modèle final est alors différentiellement privé avec un epsilon calculable.

La differential privacy est-elle requise par l’AI Act ?

L’AI Act n’exige pas explicitement la DP, mais elle s’inscrit dans les exigences de privacy by design (Article 10). Pour les systèmes haut risque traitant des données sensibles, la DP peut démontrer une protection technique robuste et documentable.

Quels outils pour implémenter la differential privacy ?

Outils principaux : OpenDP (Harvard/Microsoft), TensorFlow Privacy (Google), Opacus (Meta, PyTorch), IBM Diffprivlib (scikit-learn compatible), PySyft (federated learning + DP). Choisir selon votre framework ML.

Qu’est-ce que le budget privacy et comment le gérer ?

Le budget privacy est l’epsilon total que vous pouvez dépenser. Chaque requête ou accès au dataset consomme du budget (composition). Une fois épuisé, plus d’accès possible sans compromettre les garanties. Utilisez des techniques de composition avancées pour optimiser.

🎯 Conclusion : La Privacy avec des Garanties

La differential privacy est la seule technique qui offre des garanties prouvables de vie privée. Pas de promesses, pas d’espoir que l’attaquant n’aura pas assez de données auxiliaires. Des mathématiques.

Elle a un coût : la perte d’utilité. Mais avec les bons paramètres et les bonnes techniques, ce coût est souvent acceptable, surtout face aux risques de réidentification et aux sanctions réglementaires.

1️⃣ Epsilon = protection — Plus petit = plus protégé. ε ≤ 1 recommandé pour données sensibles.
2️⃣ DP-SGD pour l’IA — Entraîner des modèles avec garanties DP natives.
3️⃣ Documentation prouvable — Parfait pour démontrer la conformité AI Act.

La deadline approche. Intégrez la differential privacy dans votre stratégie privacy maintenant.

227 jours restants

Formation Techniques de Privacy pour l’IA

Apprenez à implémenter la differential privacy, le federated learning, et les techniques de privacy by design conformes à l’AI Act.

Me former aux techniques privacy → 500€

🔐 Differential Privacy • 🧮 DP-SGD • ✅ Privacy by Design

📚 Sources Officielles Citées

The Algorithmic Foundations of Differential Privacy – Dwork & Roth • Référence académique
Opacus – Meta • Bibliothèque DP-SGD PyTorch
TensorFlow Privacy • Guide officiel Google

ATTENDEZ !

Differential Privacy IA : Vie Privée