Métriques Performance IA : KPIs ML
📊 Le Piège de l’Accuracy
Un modèle avec 99% d’accuracy peut être catastrophique. Sur un dataset avec 1% de fraudes, un modèle qui prédit « pas de fraude » systématiquement atteint 99% d’accuracy… mais détecte 0% des fraudes.
Votre modèle affiche 95% d’accuracy. Excellent, non ? Pas si vite. Cette métrique seule ne vous dit rien sur la qualité réelle de vos prédictions.
Les métriques de performance IA sont au cœur de la conformité AI Act. L’Article 15 exige des niveaux de performance documentés et justifiés. Mais comment choisir les bonnes métriques ?
Ce guide vous explique chaque métrique ML : accuracy, precision, recall, F1-score, AUC-ROC. Avec des exemples concrets et un calculateur interactif.
📚 Ce que vous allez maîtriser
- → La matrice de confusion expliquée simplement
- → Accuracy, Precision, Recall, F1 : quand les utiliser
- → Courbe ROC et AUC : l’évaluation avancée
- → Métriques pour la régression (MAE, RMSE, R²)
- → Exigences AI Act en matière de performance
Infographie : Matrice de confusion et formules des métriques de classification
📊 La Matrice de Confusion : Base de Tout
Avant de comprendre les métriques, il faut maîtriser la matrice de confusion. C’est le tableau qui compare les prédictions de votre modèle avec la réalité.
Photo par Campaign Creators sur Unsplash
🎯 Les 4 Cases Expliquées
| Case | Signification | Exemple (Spam) |
|---|---|---|
| Vrai Positif (TP) | Prédit positif, c’est vrai | Email spam classé spam ✅ |
| Faux Positif (FP) | Prédit positif, c’est faux | Email légitime classé spam ❌ |
| Faux Négatif (FN) | Prédit négatif, c’est faux | Email spam classé légitime ❌ |
| Vrai Négatif (TN) | Prédit négatif, c’est vrai | Email légitime classé légitime ✅ |
⚠️ Erreur Critique
Les Faux Négatifs sont souvent plus dangereux que les Faux Positifs. Un cancer non détecté (FN) est plus grave qu’une fausse alerte (FP). Choisissez vos métriques en fonction du coût de chaque type d’erreur.
📈 Les 5 Métriques de Classification
Photo par Scott Graham sur Unsplash
Accuracy (Exactitude)
Formule : (TP + TN) / Total
Utilisation : Classes équilibrées uniquement. Trompeuse si déséquilibre.
Exemple : 90 prédictions correctes sur 100 = 90% accuracy
Precision (Précision)
Formule : TP / (TP + FP)
Utilisation : Quand les faux positifs sont coûteux.
Exemple : Sur 100 emails classés spam, 80 sont vraiment spam = 80% precision
Recall (Sensibilité / Rappel)
Formule : TP / (TP + FN)
Utilisation : Quand manquer un positif est grave.
Exemple : Sur 100 vrais spams, 90 détectés = 90% recall
F1-Score
Formule : 2 × (Precision × Recall) / (Precision + Recall)
Utilisation : Équilibre precision/recall, classes déséquilibrées.
Exemple : Precision 80%, Recall 90% → F1 = 84.7%
AUC-ROC
Signification : Aire sous la courbe ROC (0 à 1)
Utilisation : Comparaison de modèles, indépendant du seuil.
Interprétation : 0.5 = aléatoire, 0.8+ = bon, 0.9+ = excellent
« L’accuracy est la métrique des débutants. Les experts regardent precision, recall et F1 selon le contexte métier. »
— Data Scientist Senior, 2024
🎯 Quel Métrique Choisir ?
| Cas d’Usage | Métrique Prioritaire | Pourquoi |
|---|---|---|
| Détection de cancer | Recall ↑↑↑ | Manquer un cancer = danger vital |
| Filtre anti-spam | Precision ↑ | Email légitime en spam = perte |
| Détection de fraude | Recall ↑↑ | Fraude non détectée = perte € |
| Recommandation produit | F1-Score | Équilibre pertinence/couverture |
| Comparaison de modèles | AUC-ROC | Indépendant du seuil choisi |
🎯 Testez vos Connaissances Métriques (Quiz 3 min)
📉 Métriques pour la Régression
Pour les modèles qui prédisent des valeurs continues (prix, température, durée), d’autres métriques s’appliquent.
Mean Absolute Error
Formule : Moyenne des |prédiction – réalité|
Interprétation : Erreur moyenne en unité de la variable. Facile à comprendre.
Exemple : MAE = 5€ signifie erreur moyenne de 5€ sur les prix.
Root Mean Square Error
Formule : √(Moyenne des (prédiction – réalité)²)
Interprétation : Pénalise plus les grandes erreurs que MAE.
Usage : Préféré quand les grandes erreurs sont très coûteuses.
Coefficient de Détermination
Formule : 1 – (SSres / SStot)
Interprétation : % de variance expliquée (0 à 1). R²=0.8 = 80% variance expliquée.
Attention : Peut être négatif si modèle pire que la moyenne.
Mean Absolute Percentage Error
Formule : Moyenne des |erreur / réalité| × 100
Interprétation : Erreur en %. MAPE=10% = erreur moyenne de 10%.
Limite : Problème si valeurs proches de 0.
🇪🇺 Exigences AI Act sur les Performances
Photo par Carlos Muza sur Unsplash
L’AI Act (Article 15) impose des exigences de performance pour les systèmes à haut risque. Ne pas les respecter expose à des sanctions pour performance IA insuffisante.
📋 Ce que l’AI Act Exige
- 📊 Niveaux de performance appropriés : Justifier les seuils choisis
- 🎯 Exactitude : Documenter accuracy et métriques pertinentes
- 🔒 Robustesse : Performance stable face aux perturbations
- ⚖️ Équité : Performances désagrégées par sous-groupes
- 📝 Documentation : Tracer toutes les métriques et justifications
💡 Bonne Pratique AI Act
L’AI Act n’impose pas de métriques spécifiques. Vous devez justifier vos choix en fonction du contexte métier. Pour un modèle de diagnostic médical, privilégiez le recall. Pour un chatbot, l’accuracy peut suffire.
📊 Métriques d’Équité (Fairness)
L’AI Act exige des performances équitables entre groupes. Voici les métriques clés :
| Métrique d’Équité | Définition | Seuil Acceptable |
|---|---|---|
| Disparate Impact Ratio | Ratio taux d’acceptation entre groupes | 0.8 – 1.25 |
| Equal Opportunity Diff. | Différence de recall entre groupes | < 0.1 |
| Predictive Parity | Différence de precision entre groupes | < 0.1 |
🧮 Calculateur de Métriques ML
Entrez les valeurs de votre matrice de confusion :
❓ Questions Fréquentes sur les Métriques
L’accuracy (exactitude) mesure le pourcentage total de prédictions correctes sur l’ensemble des données. La precision mesure la proportion de vrais positifs parmi toutes les prédictions positives. Exemple : sur 100 emails, un modèle anti-spam avec 90% d’accuracy classe correctement 90 emails. Mais sa precision de 70% signifie que sur les emails classés spam, 30% étaient en fait légitimes (faux positifs).
Le recall est prioritaire quand manquer un cas positif est très grave (coût élevé des faux négatifs). Exemples : détection de cancer (manquer un cancer = danger vital), détection de fraude (manquer une fraude = perte financière), sécurité (manquer une menace = risque). La precision est prioritaire quand les faux positifs sont coûteux : filtrage spam (emails légitimes en spam = perte d’opportunités), recrutement (rejeter de bons candidats).
Le F1-score est la moyenne harmonique de la precision et du recall. Il varie de 0 (pire) à 1 (parfait). Un F1-score de 0.8+ est généralement considéré comme bon. Il est utile quand precision et recall sont tous deux importants et qu’il faut trouver un équilibre. Attention : un F1 élevé peut masquer un déséquilibre – vérifiez toujours precision et recall séparément.
Avec des classes déséquilibrées (ex: 95% négatifs, 5% positifs), l’accuracy est trompeuse. Privilégiez : precision et recall sur la classe minoritaire, F1-score, AUC-ROC (insensible au déséquilibre), precision-recall curve et Average Precision. Techniques de rééquilibrage : SMOTE (sur-échantillonnage), sous-échantillonnage, class weights, stratified sampling.
L’AI Act (Article 15) exige de documenter les niveaux de performance appropriés en termes de robustesse, exactitude et cybersécurité. Pour les systèmes à haut risque, vous devez : définir des métriques pertinentes pour votre cas d’usage, les mesurer de façon désagrégée par sous-groupes (équité), documenter les seuils acceptables, et monitorer ces métriques en production.
La courbe ROC (Receiver Operating Characteristic) trace le taux de vrais positifs (recall) contre le taux de faux positifs pour différents seuils de classification. L’AUC (Area Under Curve) mesure l’aire sous cette courbe. AUC = 1 signifie un modèle parfait, AUC = 0.5 équivaut à un tirage aléatoire. Un AUC > 0.8 est généralement considéré comme bon, > 0.9 excellent.
✅ Conclusion : Choisissez les Bonnes Métriques
Les métriques de performance IA ne sont pas interchangeables. Chaque métrique répond à une question différente sur votre modèle.
Pour l’AI Act, l’essentiel est de justifier vos choix en fonction du contexte métier et de documenter les résultats de façon désagrégée.
🎯 Les 3 Règles d’Or
- 1️⃣ Ne vous fiez jamais à l’accuracy seule
- 2️⃣ Choisissez precision ou recall selon le coût des erreurs
- 3️⃣ Documentez les métriques par sous-groupe (équité)
Formation Évaluation Modèles IA
Apprenez à évaluer, documenter et monitorer les performances de vos modèles ML conformément à l’AI Act.
Maîtriser les Métriques → 500€✅ Cas pratiques • ✅ Outils d’évaluation • ✅ Certificat
📚 Sources et Références
- Règlement (UE) 2024/1689 – AI Act • Article 15 (exigences de performance)
- Scikit-learn – Model Evaluation • Documentation métriques
- Google ML Crash Course – Classification • Tutoriel métriques