Quelles sont les exigences de qualité des données dans l'IA Act ?

L'article 10 de l'IA Act exige que les données d'entraînement soient pertinentes, représentatives, exemptes d'erreurs dans la mesure du possible, et complètes au regard de la finalité du système. Pour les systèmes à haut risque, ces exigences sont renforcées et doivent être documentées.

Comment détecter les biais dans les données IA ?

Plusieurs méthodes : analyse statistique de la distribution des données, tests de performance par sous-groupe (genre, âge, origine), métriques d'équité (demographic parity, equalized odds), et audits par des experts indépendants. Des outils comme AI Fairness 360 ou Fairlearn facilitent cette détection.

Peut-on utiliser des données personnelles pour entraîner l'IA ?

Oui, mais en respectant le RGPD. L'IA Act et le RGPD se complètent : base légale pour le traitement, minimisation des données, pseudonymisation ou anonymisation quand possible, et information des personnes concernées. L'IA Act permet aussi l'utilisation de données sensibles pour détecter les biais.

Qu'est-ce qu'un datasheet pour dataset ?

Un datasheet est un document standardisé décrivant un dataset : motivation de création, composition, processus de collecte, prétraitement, utilisations prévues, distribution, maintenance, et considérations éthiques. C'est la 'fiche technique' du jeu de données, recommandée par l'IA Act.

L'IA Act s'applique-t-il aux données de test et validation ?

Oui, les exigences de qualité s'appliquent aux données d'entraînement, de validation ET de test. Toutes doivent être représentatives et documentées. Les données de test doivent être indépendantes des données d'entraînement pour une évaluation fiable.

data - formation-ia-act

📊 Le Fondement de Toute IA

87% des échecs de projets IA sont liés à des problèmes de données. L'IA Act en fait une obligation légale : qualité, représentativité, absence de biais.

"Garbage in, garbage out." Cette maxime du machine learning devient une obligation légale avec l'IA Act.

L'article 10 du règlement impose des exigences strictes sur les données d'entraînement, de validation et de test. Pour les systèmes à haut risque, ces exigences sont obligatoires et auditables.

Représentativité, biais, documentation, gouvernance : ce guide détaille toutes les obligations liées à la qualité des données IA.

Art. 10 Données et gouvernance

227 jours restants

35M€ sanction max

Par Loïc Gros-Flandre

Directeur de Modernee - Agence IA et Soignant Voice Application médical. Expert en conformité IA et transformation digitale des entreprises.

🎯 Expert gouvernance données • 💼 Conseil data IA

                📚 Ce que vous allez découvrir
                → Les exigences de l'article 10 sur la qualité des données
→ Comment évaluer la représentativité d'un dataset
→ Techniques de détection et correction des biais
→ La documentation obligatoire (datasheets)
→ Gouvernance des données et responsabilités

            

Infographie : Les 4 piliers de qualité des données selon l'article 10 IA Act

📜 Article 10 : Les Exigences Fondamentales

L'article 10 de l'IA Act établit un cadre complet pour la gestion des données d'entraînement des systèmes à haut risque.

📋 Champ d'Application

Les exigences de l'article 10 s'appliquent aux systèmes IA à haut risque. Pour les autres catégories, elles constituent des bonnes pratiques recommandées.

Type de données	Obligation	Documentation
Entraînement	Qualité + représentativité	Obligatoire
Validation	Indépendance + qualité	Obligatoire
Test	Indépendance + qualité	Obligatoire

Pour comprendre les obligations IA Act dans leur ensemble, consultez notre guide complet.

🎯 Les 6 Critères de Qualité

L'article 10(2) définit les critères que doivent respecter les données :

📊 Pertinence — Adaptées à la finalité prévue du système
👥 Représentativité — Reflètent la population cible
✅ Exactitude — Exemptes d'erreurs dans la mesure du possible
📝 Complétude — Couvrent tous les cas d'usage pertinents
⚖️ Équité — Sans biais discriminatoires injustifiés
🔒 Conformité — Respectent la vie privée et le RGPD

"Les données sont le carburant de l'IA. Un carburant de mauvaise qualité produit des résultats médiocres, voire dangereux."
— Cédric Villani, Mathématicien, Rapport IA France 2018

👥 Représentativité : Le Défi Central

La représentativité est au cœur de l'article 10(3). Les données doivent refléter fidèlement la population et le contexte d'utilisation du système.

🔍 Qu'est-ce que la Représentativité ?

Un dataset est représentatif quand il contient une distribution équilibrée des caractéristiques pertinentes pour l'usage prévu.

⚠️ Exemple Concret

Un système de scoring crédit entraîné sur 90% d'hommes cadres sera peu fiable pour évaluer des femmes indépendantes. Les données ne reflètent pas la population réelle des demandeurs.

📊 Dimensions de la Représentativité

Dimension	Ce qu'il faut vérifier	Exemple
Démographique	Âge, genre, origine géographique	Reconnaissance faciale sur tous les tons de peau
Temporelle	Données récentes et variées dans le temps	Scoring incluant les évolutions économiques
Contextuelle	Conditions d'utilisation réelles	Images dans différentes conditions d'éclairage
Comportementale	Diversité des comportements possibles	Voiture autonome face à tous types de conducteurs

Les obligations IA Act entreprises incluent l'analyse de représentativité pour tout système à haut risque.

🛠️ Comment Évaluer la Représentativité ?

1️⃣ Définir la population cible — Qui utilisera le système ? Sur qui s'appliquera-t-il ?
2️⃣ Analyser la distribution — Comparer les proportions dataset vs population réelle
3️⃣ Identifier les lacunes — Quels groupes sont sous-représentés ?
4️⃣ Documenter les écarts — Justifier ou corriger

📊 Évaluez la Qualité de vos Données (Quiz 4 min)

⚖️ Détection et Correction des Biais

Les biais dans les données sont la première cause de discrimination algorithmique. L'IA Act impose leur détection et leur correction.

🔴 Types de Biais à Détecter

Type de biais	Origine	Exemple
Biais de sélection	Données non représentatives	Sondage en ligne excluant les seniors
Biais historique	Discriminations passées	Recrutement reproduisant le "boys club"
Biais de mesure	Erreurs de collecte	Capteurs de santé calibrés sur peaux claires
Biais d'agrégation	Moyennes masquant les différences	Diagnostic unique homme/femme
Biais de labellisation	Annotations subjectives	"Professionnel" selon critères culturels

🛠️ Outils de Détection

Plusieurs outils open source facilitent la détection des biais :

🔧 AI Fairness 360 (IBM) — Métriques d'équité complètes
🔧 Fairlearn (Microsoft) — Intégration Python/scikit-learn
🔧 What-If Tool (Google) — Visualisation interactive
🔧 Aequitas — Audit d'équité open source

🔄 Techniques de Correction

                💡 3 Approches de Correction
                Pré-traitement : Rééquilibrer les données avant entraînement
In-processing : Contraintes d'équité dans l'algorithme
Post-processing : Ajuster les seuils de décision

            

Les obligations fournisseurs IA incluent la mise en place de ces mécanismes de détection.

"Un algorithme n'est jamais neutre. Il amplifie les biais présents dans les données qui l'ont façonné."
— Cathy O'Neil, Auteure de "Weapons of Math Destruction"

📝 Documentation : Les Datasheets Obligatoires

L'IA Act impose une documentation complète des datasets utilisés. Le format recommandé : les datasheets.

📋 Contenu d'un Datasheet

Inspiré du format "Datasheets for Datasets" (Gebru et al., 2018), un datasheet doit inclure :

🎯 Motivation — Pourquoi ce dataset a été créé
📊 Composition — Ce qu'il contient, taille, distribution
🔄 Collecte — Comment les données ont été obtenues
🧹 Prétraitement — Nettoyage, labellisation, transformations
✅ Usages prévus — Applications recommandées
❌ Limitations — Ce que le dataset ne couvre pas
⚠️ Considérations éthiques — Risques identifiés
📅 Maintenance — Mises à jour prévues

📄 Exemple de Datasheet

Dataset : Visages Européens v2.3

Motivation : Entraînement reconnaissance faciale contrôle d'accès

Composition : 500K images, 42% femmes, 18-85 ans, 12 pays UE

Collecte : Partenariats universités, consentement explicite

Limitation : Sous-représentation Europe de l'Est (8%)

Les obligations déploiement IA imposent de vérifier cette documentation avant mise en production.

🏛️ Gouvernance des Données

L'article 10(2) impose des pratiques de gouvernance pour garantir la qualité des données dans la durée.

👥 Rôles et Responsabilités

Rôle	Responsabilité	Qui ?
Data Owner	Propriété et décisions stratégiques	Métier / Direction
Data Steward	Qualité et conformité opérationnelle	Data Office
Data Engineer	Collecte, transformation, pipeline	Équipe technique
Data Scientist	Analyse, modélisation, validation	Équipe ML

🔄 Processus de Gouvernance

Étape 1

Inventaire. Cataloguer tous les datasets utilisés pour l'IA.

Étape 2

Évaluation. Analyser représentativité et biais potentiels.

Étape 3

Détection biais. Appliquer les outils de fairness.

Étape 4

Correction. Rééquilibrer si nécessaire.

Étape 5

Documentation. Créer les datasheets complets.

Étape 6

Versioning. Suivre les évolutions des datasets.

Étape 7

Audit. Revue régulière de la qualité.

Les obligations utilisateurs IA incluent la vérification de la qualité des données fournies.

📊 Évaluateur Maturité Data Governance

Nombre de datasets utilisés pour l'IA

Niveau de documentation actuel

Analyse des biais réalisée ?

🎯 3 Cas Pratiques

📍 Cas 1 : IA Recrutement - Dataset Historique

Problème

Une entreprise tech veut utiliser l'IA pour présélectionner les CV. Son historique de recrutement : 85% d'hommes, 90% d'ingénieurs grandes écoles.

Risque : Biais historique reproduit, discrimination indirecte.

Solution :

✅ Rééquilibrer le dataset (oversampling femmes)
✅ Supprimer les variables corrélées au genre
✅ Ajouter des données externes diversifiées
✅ Tester l'équité par sous-groupe

📍 Cas 2 : IA Santé - Diversité Ethnique

Problème

Un algorithme de détection de mélanomes entraîné sur des images de peaux claires (90% caucasiennes) montre des performances dégradées sur peaux foncées.

Risque : Diagnostic erroné, conséquences médicales graves.

Solution :

✅ Collecter des images diversifiées (partenariats internationaux)
✅ Utiliser l'augmentation de données ciblée
✅ Mesurer la performance par phototype
✅ Documenter les limitations résiduelles

📍 Cas 3 : IA Crédit - Données Géographiques

Problème

Un scoring crédit utilise le code postal comme variable. Corrélation forte avec l'origine ethnique dans certaines zones.

Risque : Discrimination par proxy (redlining algorithmique).

Solution :

✅ Analyser les corrélations variables/caractéristiques protégées
✅ Supprimer ou transformer les proxies discriminatoires
✅ Utiliser des métriques d'équité (demographic parity)
✅ Documenter la justification de chaque variable

Pour les PME, les obligations IA Act PME prévoient des allègements sur la documentation.

❓ Questions Fréquentes - Données IA

Quelles sont les exigences de qualité des données ?

L'article 10 exige que les données soient pertinentes, représentatives, exactes, complètes et sans biais injustifiés. Ces critères sont obligatoires pour les systèmes à haut risque.

Qu'est-ce que la représentativité des données ?

Les données doivent refléter fidèlement la population cible. Un système de reconnaissance faciale utilisé en France doit être entraîné sur des visages représentatifs de la diversité française.

Comment détecter les biais dans un dataset ?

Plusieurs méthodes : analyse statistique de distribution, tests de performance par sous-groupe, métriques d'équité (AI Fairness 360, Fairlearn), et audits externes.

La documentation des datasets est-elle obligatoire ?

Oui, pour les systèmes à haut risque. L'IA Act exige une documentation incluant provenance, composition, limitations et mesures de qualité appliquées.

Peut-on utiliser des données personnelles ?

Oui, en respectant le RGPD. Base légale, minimisation, pseudonymisation. L'IA Act permet même l'utilisation de données sensibles pour détecter les biais.

Les données synthétiques sont-elles autorisées ?

Oui. Elles peuvent aider à corriger des biais ou augmenter la représentativité. Mais elles doivent être documentées et leur utilisation justifiée.

Qui est responsable de la qualité des données ?

Le fournisseur pour les systèmes à haut risque. Responsabilité partagée si le déployeur fournit ses propres données ou modifie le système.

Qu'est-ce qu'un datasheet ?

Un document standardisé décrivant un dataset : motivation, composition, collecte, prétraitement, usages prévus, limitations, considérations éthiques. La "fiche technique" du jeu de données.

Les données de test sont-elles concernées ?

Oui. Les exigences s'appliquent aux données d'entraînement, de validation ET de test. Toutes doivent être représentatives et documentées.

Comment corriger un dataset biaisé ?

Plusieurs techniques : rééchantillonnage, pondération, augmentation ciblée, collecte supplémentaire, ou données synthétiques. Le choix dépend du type de biais.

🎯 Conclusion : Les Données, Fondement de la Conformité

La qualité des données n'est plus une bonne pratique. C'est une obligation légale avec l'IA Act.

                ✅ Ce Qu'il Faut Retenir
                Article 10 : Cadre complet pour la qualité des données
Représentativité : Refléter la population cible
Biais : Détecter et corriger obligatoirement
Documentation : Datasheets obligatoires pour haut risque
Gouvernance : Processus et responsabilités clairs

            

Investir dans la qualité des données, c'est investir dans la fiabilité de vos systèmes IA et dans votre conformité.

227 jours restants

Formez vos équipes Data à l'IA Act

Formation adaptée aux data scientists, data engineers et data stewards. Finançable OPCO.

Me former → 500€

📚

Sources Officielles Citées

Règlement (UE) 2024/1689 - Article 10 Données • Journal officiel UE
CNIL - Dossier Intelligence Artificielle • Protection des données
AI Fairness 360 - IBM Research • Toolkit open source
Datasheets for Datasets - Gebru et al. • Référence académique

ATTENDEZ !

Données IA et IA Act : Qualité des Données

📊 Le Fondement de Toute IA

Par Loïc Gros-Flandre

📚 Ce que vous allez découvrir

📜 Article 10 : Les Exigences Fondamentales

📋 Champ d'Application

🎯 Les 6 Critères de Qualité

👥 Représentativité : Le Défi Central

🔍 Qu'est-ce que la Représentativité ?

⚠️ Exemple Concret

📊 Dimensions de la Représentativité

🛠️ Comment Évaluer la Représentativité ?

📊 Évaluez la Qualité de vos Données (Quiz 4 min)

⚖️ Détection et Correction des Biais

🔴 Types de Biais à Détecter

🛠️ Outils de Détection

🔄 Techniques de Correction

💡 3 Approches de Correction

📝 Documentation : Les Datasheets Obligatoires

📋 Contenu d'un Datasheet

📄 Exemple de Datasheet

Dataset : Visages Européens v2.3

🏛️ Gouvernance des Données

👥 Rôles et Responsabilités

🔄 Processus de Gouvernance

📊 Évaluateur Maturité Data Governance

🎯 3 Cas Pratiques

📍 Cas 1 : IA Recrutement - Dataset Historique

Problème

📍 Cas 2 : IA Santé - Diversité Ethnique

Problème

📍 Cas 3 : IA Crédit - Données Géographiques

Problème

❓ Questions Fréquentes - Données IA

🎯 Conclusion : Les Données, Fondement de la Conformité

✅ Ce Qu'il Faut Retenir

Formez vos équipes Data à l'IA Act

Sources Officielles Citées