Données IA et IA Act : Qualité des Données
📊 Le Fondement de Toute IA
87% des échecs de projets IA sont liés à des problèmes de données. L'IA Act en fait une obligation légale : qualité, représentativité, absence de biais.
"Garbage in, garbage out." Cette maxime du machine learning devient une obligation légale avec l'IA Act.
L'article 10 du règlement impose des exigences strictes sur les données d'entraînement, de validation et de test. Pour les systèmes à haut risque, ces exigences sont obligatoires et auditables.
Représentativité, biais, documentation, gouvernance : ce guide détaille toutes les obligations liées à la qualité des données IA.
Par Loïc Gros-Flandre
Directeur de Modernee - Agence IA et Soignant Voice Application médical. Expert en conformité IA et transformation digitale des entreprises.
📚 Ce que vous allez découvrir
- → Les exigences de l'article 10 sur la qualité des données
- → Comment évaluer la représentativité d'un dataset
- → Techniques de détection et correction des biais
- → La documentation obligatoire (datasheets)
- → Gouvernance des données et responsabilités
Infographie : Les 4 piliers de qualité des données selon l'article 10 IA Act
📜 Article 10 : Les Exigences Fondamentales
L'article 10 de l'IA Act établit un cadre complet pour la gestion des données d'entraînement des systèmes à haut risque.
📋 Champ d'Application
Les exigences de l'article 10 s'appliquent aux systèmes IA à haut risque. Pour les autres catégories, elles constituent des bonnes pratiques recommandées.
| Type de données | Obligation | Documentation |
|---|---|---|
| Entraînement | Qualité + représentativité | Obligatoire |
| Validation | Indépendance + qualité | Obligatoire |
| Test | Indépendance + qualité | Obligatoire |
Pour comprendre les obligations IA Act dans leur ensemble, consultez notre guide complet.
🎯 Les 6 Critères de Qualité
L'article 10(2) définit les critères que doivent respecter les données :
- 📊 Pertinence — Adaptées à la finalité prévue du système
- 👥 Représentativité — Reflètent la population cible
- ✅ Exactitude — Exemptes d'erreurs dans la mesure du possible
- 📝 Complétude — Couvrent tous les cas d'usage pertinents
- ⚖️ Équité — Sans biais discriminatoires injustifiés
- 🔒 Conformité — Respectent la vie privée et le RGPD
"Les données sont le carburant de l'IA. Un carburant de mauvaise qualité produit des résultats médiocres, voire dangereux."
— Cédric Villani, Mathématicien, Rapport IA France 2018
👥 Représentativité : Le Défi Central
La représentativité est au cœur de l'article 10(3). Les données doivent refléter fidèlement la population et le contexte d'utilisation du système.
🔍 Qu'est-ce que la Représentativité ?
Un dataset est représentatif quand il contient une distribution équilibrée des caractéristiques pertinentes pour l'usage prévu.
⚠️ Exemple Concret
Un système de scoring crédit entraîné sur 90% d'hommes cadres sera peu fiable pour évaluer des femmes indépendantes. Les données ne reflètent pas la population réelle des demandeurs.
📊 Dimensions de la Représentativité
| Dimension | Ce qu'il faut vérifier | Exemple |
|---|---|---|
| Démographique | Âge, genre, origine géographique | Reconnaissance faciale sur tous les tons de peau |
| Temporelle | Données récentes et variées dans le temps | Scoring incluant les évolutions économiques |
| Contextuelle | Conditions d'utilisation réelles | Images dans différentes conditions d'éclairage |
| Comportementale | Diversité des comportements possibles | Voiture autonome face à tous types de conducteurs |
Les obligations IA Act entreprises incluent l'analyse de représentativité pour tout système à haut risque.
🛠️ Comment Évaluer la Représentativité ?
- 1️⃣ Définir la population cible — Qui utilisera le système ? Sur qui s'appliquera-t-il ?
- 2️⃣ Analyser la distribution — Comparer les proportions dataset vs population réelle
- 3️⃣ Identifier les lacunes — Quels groupes sont sous-représentés ?
- 4️⃣ Documenter les écarts — Justifier ou corriger
📊 Évaluez la Qualité de vos Données (Quiz 4 min)
⚖️ Détection et Correction des Biais
Les biais dans les données sont la première cause de discrimination algorithmique. L'IA Act impose leur détection et leur correction.
🔴 Types de Biais à Détecter
| Type de biais | Origine | Exemple |
|---|---|---|
| Biais de sélection | Données non représentatives | Sondage en ligne excluant les seniors |
| Biais historique | Discriminations passées | Recrutement reproduisant le "boys club" |
| Biais de mesure | Erreurs de collecte | Capteurs de santé calibrés sur peaux claires |
| Biais d'agrégation | Moyennes masquant les différences | Diagnostic unique homme/femme |
| Biais de labellisation | Annotations subjectives | "Professionnel" selon critères culturels |
🛠️ Outils de Détection
Plusieurs outils open source facilitent la détection des biais :
- 🔧 AI Fairness 360 (IBM) — Métriques d'équité complètes
- 🔧 Fairlearn (Microsoft) — Intégration Python/scikit-learn
- 🔧 What-If Tool (Google) — Visualisation interactive
- 🔧 Aequitas — Audit d'équité open source
🔄 Techniques de Correction
💡 3 Approches de Correction
- Pré-traitement : Rééquilibrer les données avant entraînement
- In-processing : Contraintes d'équité dans l'algorithme
- Post-processing : Ajuster les seuils de décision
Les obligations fournisseurs IA incluent la mise en place de ces mécanismes de détection.
"Un algorithme n'est jamais neutre. Il amplifie les biais présents dans les données qui l'ont façonné."
— Cathy O'Neil, Auteure de "Weapons of Math Destruction"
📝 Documentation : Les Datasheets Obligatoires
L'IA Act impose une documentation complète des datasets utilisés. Le format recommandé : les datasheets.
📋 Contenu d'un Datasheet
Inspiré du format "Datasheets for Datasets" (Gebru et al., 2018), un datasheet doit inclure :
- 🎯 Motivation — Pourquoi ce dataset a été créé
- 📊 Composition — Ce qu'il contient, taille, distribution
- 🔄 Collecte — Comment les données ont été obtenues
- 🧹 Prétraitement — Nettoyage, labellisation, transformations
- ✅ Usages prévus — Applications recommandées
- ❌ Limitations — Ce que le dataset ne couvre pas
- ⚠️ Considérations éthiques — Risques identifiés
- 📅 Maintenance — Mises à jour prévues
📄 Exemple de Datasheet
Dataset : Visages Européens v2.3
Motivation : Entraînement reconnaissance faciale contrôle d'accès
Composition : 500K images, 42% femmes, 18-85 ans, 12 pays UE
Collecte : Partenariats universités, consentement explicite
Limitation : Sous-représentation Europe de l'Est (8%)
Les obligations déploiement IA imposent de vérifier cette documentation avant mise en production.
🏛️ Gouvernance des Données
L'article 10(2) impose des pratiques de gouvernance pour garantir la qualité des données dans la durée.
👥 Rôles et Responsabilités
| Rôle | Responsabilité | Qui ? |
|---|---|---|
| Data Owner | Propriété et décisions stratégiques | Métier / Direction |
| Data Steward | Qualité et conformité opérationnelle | Data Office |
| Data Engineer | Collecte, transformation, pipeline | Équipe technique |
| Data Scientist | Analyse, modélisation, validation | Équipe ML |
🔄 Processus de Gouvernance
Inventaire. Cataloguer tous les datasets utilisés pour l'IA.
Évaluation. Analyser représentativité et biais potentiels.
Détection biais. Appliquer les outils de fairness.
Correction. Rééquilibrer si nécessaire.
Documentation. Créer les datasheets complets.
Versioning. Suivre les évolutions des datasets.
Audit. Revue régulière de la qualité.
Les obligations utilisateurs IA incluent la vérification de la qualité des données fournies.
📊 Évaluateur Maturité Data Governance
🎯 3 Cas Pratiques
📍 Cas 1 : IA Recrutement - Dataset Historique
Problème
Une entreprise tech veut utiliser l'IA pour présélectionner les CV. Son historique de recrutement : 85% d'hommes, 90% d'ingénieurs grandes écoles.
Risque : Biais historique reproduit, discrimination indirecte.
Solution :
- ✅ Rééquilibrer le dataset (oversampling femmes)
- ✅ Supprimer les variables corrélées au genre
- ✅ Ajouter des données externes diversifiées
- ✅ Tester l'équité par sous-groupe
📍 Cas 2 : IA Santé - Diversité Ethnique
Problème
Un algorithme de détection de mélanomes entraîné sur des images de peaux claires (90% caucasiennes) montre des performances dégradées sur peaux foncées.
Risque : Diagnostic erroné, conséquences médicales graves.
Solution :
- ✅ Collecter des images diversifiées (partenariats internationaux)
- ✅ Utiliser l'augmentation de données ciblée
- ✅ Mesurer la performance par phototype
- ✅ Documenter les limitations résiduelles
📍 Cas 3 : IA Crédit - Données Géographiques
Problème
Un scoring crédit utilise le code postal comme variable. Corrélation forte avec l'origine ethnique dans certaines zones.
Risque : Discrimination par proxy (redlining algorithmique).
Solution :
- ✅ Analyser les corrélations variables/caractéristiques protégées
- ✅ Supprimer ou transformer les proxies discriminatoires
- ✅ Utiliser des métriques d'équité (demographic parity)
- ✅ Documenter la justification de chaque variable
Pour les PME, les obligations IA Act PME prévoient des allègements sur la documentation.
❓ Questions Fréquentes - Données IA
L'article 10 exige que les données soient pertinentes, représentatives, exactes, complètes et sans biais injustifiés. Ces critères sont obligatoires pour les systèmes à haut risque.
Les données doivent refléter fidèlement la population cible. Un système de reconnaissance faciale utilisé en France doit être entraîné sur des visages représentatifs de la diversité française.
Plusieurs méthodes : analyse statistique de distribution, tests de performance par sous-groupe, métriques d'équité (AI Fairness 360, Fairlearn), et audits externes.
Oui, pour les systèmes à haut risque. L'IA Act exige une documentation incluant provenance, composition, limitations et mesures de qualité appliquées.
Oui, en respectant le RGPD. Base légale, minimisation, pseudonymisation. L'IA Act permet même l'utilisation de données sensibles pour détecter les biais.
Oui. Elles peuvent aider à corriger des biais ou augmenter la représentativité. Mais elles doivent être documentées et leur utilisation justifiée.
Le fournisseur pour les systèmes à haut risque. Responsabilité partagée si le déployeur fournit ses propres données ou modifie le système.
Un document standardisé décrivant un dataset : motivation, composition, collecte, prétraitement, usages prévus, limitations, considérations éthiques. La "fiche technique" du jeu de données.
Oui. Les exigences s'appliquent aux données d'entraînement, de validation ET de test. Toutes doivent être représentatives et documentées.
Plusieurs techniques : rééchantillonnage, pondération, augmentation ciblée, collecte supplémentaire, ou données synthétiques. Le choix dépend du type de biais.
🎯 Conclusion : Les Données, Fondement de la Conformité
La qualité des données n'est plus une bonne pratique. C'est une obligation légale avec l'IA Act.
✅ Ce Qu'il Faut Retenir
- Article 10 : Cadre complet pour la qualité des données
- Représentativité : Refléter la population cible
- Biais : Détecter et corriger obligatoirement
- Documentation : Datasheets obligatoires pour haut risque
- Gouvernance : Processus et responsabilités clairs
Investir dans la qualité des données, c'est investir dans la fiabilité de vos systèmes IA et dans votre conformité.
Formez vos équipes Data à l'IA Act
Formation adaptée aux data scientists, data engineers et data stewards. Finançable OPCO.
Me former → 500€Sources Officielles Citées
- Règlement (UE) 2024/1689 - Article 10 Données • Journal officiel UE
- CNIL - Dossier Intelligence Artificielle • Protection des données
- AI Fairness 360 - IBM Research • Toolkit open source
- Datasheets for Datasets - Gebru et al. • Référence académique