Métriques Performance - formation-ia-act

Q: Quelle est la différence entre accuracy et precision ?

L'accuracy (exactitude) mesure le pourcentage total de prédictions correctes sur l'ensemble des données. La precision mesure la proportion de vrais positifs parmi toutes les prédictions positives. Exemple : sur 100 emails, un modèle anti-spam avec 90% d'accuracy classe correctement 90 emails. Mais sa precision de 70% signifie que sur les emails classés spam, 30% étaient en fait légitimes (faux positifs).

Q: Quand utiliser le recall plutôt que la precision ?

Le recall est prioritaire quand manquer un cas positif est très grave (coût élevé des faux négatifs). Exemples : détection de cancer (manquer un cancer = danger vital), détection de fraude (manquer une fraude = perte financière), sécurité (manquer une menace = risque). La precision est prioritaire quand les faux positifs sont coûteux : filtrage spam (emails légitimes en spam = perte d'opportunités), recrutement (rejeter de bons candidats).

Q: Comment interpréter un F1-score ?

Le F1-score est la moyenne harmonique de la precision et du recall. Il varie de 0 (pire) à 1 (parfait). Un F1-score de 0.8+ est généralement considéré comme bon. Il est utile quand precision et recall sont tous deux importants et qu'il faut trouver un équilibre. Attention : un F1 élevé peut masquer un déséquilibre - vérifiez toujours precision et recall séparément.

Q: Qu'est-ce que la courbe ROC et l'AUC ?

La courbe ROC (Receiver Operating Characteristic) trace le taux de vrais positifs (recall) contre le taux de faux positifs pour différents seuils de classification. L'AUC (Area Under Curve) mesure l'aire sous cette courbe. AUC = 1 signifie un modèle parfait, AUC = 0.5 équivaut à un tirage aléatoire. Un AUC > 0.8 est généralement considéré comme bon, > 0.9 excellent.

Q: Quelles métriques exige l'AI Act ?

L'AI Act (Article 15) exige de documenter les niveaux de performance appropriés en termes de robustesse, exactitude et cybersécurité. Pour les systèmes à haut risque, vous devez : définir des métriques pertinentes pour votre cas d'usage, les mesurer de façon désagrégée par sous-groupes (équité), documenter les seuils acceptables, et monitorer ces métriques en production. Aucune métrique spécifique n'est imposée, mais la justification du choix est requise.

Q: Comment gérer les classes déséquilibrées ?

Avec des classes déséquilibrées (ex: 95% négatifs, 5% positifs), l'accuracy est trompeuse. Privilégiez : precision et recall sur la classe minoritaire, F1-score, AUC-ROC (insensible au déséquilibre), precision-recall curve et Average Precision. Techniques de rééquilibrage : SMOTE (sur-échantillonnage), sous-échantillonnage, class weights, stratified sampling pour train/test split.

📊 Le Piège de l’Accuracy

Un modèle avec 99% d’accuracy peut être catastrophique. Sur un dataset avec 1% de fraudes, un modèle qui prédit « pas de fraude » systématiquement atteint 99% d’accuracy… mais détecte 0% des fraudes.

Votre modèle affiche 95% d’accuracy. Excellent, non ? Pas si vite. Cette métrique seule ne vous dit rien sur la qualité réelle de vos prédictions.

Les métriques de performance IA sont au cœur de la conformité AI Act. L’Article 15 exige des niveaux de performance documentés et justifiés. Mais comment choisir les bonnes métriques ?

Ce guide vous explique chaque métrique ML : accuracy, precision, recall, F1-score, AUC-ROC. Avec des exemples concrets et un calculateur interactif.

225 jours restants

8+ Métriques Clés

Art.15 Exigence AI Act

Par Loïc Gros-Flandre

Directeur de Modernee – Expert en évaluation de modèles ML et conformité réglementaire IA.

📊 Spécialiste Métriques ML • 🎯 +30 modèles évalués

                📚 Ce que vous allez maîtriser
                → La matrice de confusion expliquée simplement
→ Accuracy, Precision, Recall, F1 : quand les utiliser
→ Courbe ROC et AUC : l’évaluation avancée
→ Métriques pour la régression (MAE, RMSE, R²)
→ Exigences AI Act en matière de performance

            

Infographie : Matrice de confusion et formules des métriques de classification

📊 La Matrice de Confusion : Base de Tout

Avant de comprendre les métriques, il faut maîtriser la matrice de confusion. C’est le tableau qui compare les prédictions de votre modèle avec la réalité.

métriques performance ia - Analyse données ML

Photo par Campaign Creators sur Unsplash

🎯 Les 4 Cases Expliquées

Case	Signification	Exemple (Spam)
Vrai Positif (TP)	Prédit positif, c’est vrai	Email spam classé spam ✅
Faux Positif (FP)	Prédit positif, c’est faux	Email légitime classé spam ❌
Faux Négatif (FN)	Prédit négatif, c’est faux	Email spam classé légitime ❌
Vrai Négatif (TN)	Prédit négatif, c’est vrai	Email légitime classé légitime ✅

⚠️ Erreur Critique

Les Faux Négatifs sont souvent plus dangereux que les Faux Positifs. Un cancer non détecté (FN) est plus grave qu’une fausse alerte (FP). Choisissez vos métriques en fonction du coût de chaque type d’erreur.

📈 Les 5 Métriques de Classification

Photo par Scott Graham sur Unsplash

Accuracy (Exactitude)

Formule : (TP + TN) / Total

Utilisation : Classes équilibrées uniquement. Trompeuse si déséquilibre.

Exemple : 90 prédictions correctes sur 100 = 90% accuracy

Precision (Précision)

Formule : TP / (TP + FP)

Utilisation : Quand les faux positifs sont coûteux.

Exemple : Sur 100 emails classés spam, 80 sont vraiment spam = 80% precision

Recall (Sensibilité / Rappel)

Formule : TP / (TP + FN)

Utilisation : Quand manquer un positif est grave.

Exemple : Sur 100 vrais spams, 90 détectés = 90% recall

F1-Score

Formule : 2 × (Precision × Recall) / (Precision + Recall)

Utilisation : Équilibre precision/recall, classes déséquilibrées.

Exemple : Precision 80%, Recall 90% → F1 = 84.7%

AUC-ROC

Signification : Aire sous la courbe ROC (0 à 1)

Utilisation : Comparaison de modèles, indépendant du seuil.

Interprétation : 0.5 = aléatoire, 0.8+ = bon, 0.9+ = excellent

« L’accuracy est la métrique des débutants. Les experts regardent precision, recall et F1 selon le contexte métier. »
— Data Scientist Senior, 2024

🎯 Quel Métrique Choisir ?

Cas d’Usage	Métrique Prioritaire	Pourquoi
Détection de cancer	Recall ↑↑↑	Manquer un cancer = danger vital
Filtre anti-spam	Precision ↑	Email légitime en spam = perte
Détection de fraude	Recall ↑↑	Fraude non détectée = perte €
Recommandation produit	F1-Score	Équilibre pertinence/couverture
Comparaison de modèles	AUC-ROC	Indépendant du seuil choisi

🎯 Testez vos Connaissances Métriques (Quiz 3 min)

📉 Métriques pour la Régression

Pour les modèles qui prédisent des valeurs continues (prix, température, durée), d’autres métriques s’appliquent.

MAE

Mean Absolute Error

Formule : Moyenne des |prédiction – réalité|

Interprétation : Erreur moyenne en unité de la variable. Facile à comprendre.

Exemple : MAE = 5€ signifie erreur moyenne de 5€ sur les prix.

RMSE

Root Mean Square Error

Formule : √(Moyenne des (prédiction – réalité)²)

Interprétation : Pénalise plus les grandes erreurs que MAE.

Usage : Préféré quand les grandes erreurs sont très coûteuses.

R²

Coefficient de Détermination

Formule : 1 – (SSres / SStot)

Interprétation : % de variance expliquée (0 à 1). R²=0.8 = 80% variance expliquée.

Attention : Peut être négatif si modèle pire que la moyenne.

MAPE

Mean Absolute Percentage Error

Formule : Moyenne des |erreur / réalité| × 100

Interprétation : Erreur en %. MAPE=10% = erreur moyenne de 10%.

Limite : Problème si valeurs proches de 0.

🇪🇺 Exigences AI Act sur les Performances

métriques performance ia - Dashboard conformité

Photo par Carlos Muza sur Unsplash

L’AI Act (Article 15) impose des exigences de performance pour les systèmes à haut risque. Ne pas les respecter expose à des sanctions pour performance IA insuffisante.

📋 Ce que l’AI Act Exige

📊 Niveaux de performance appropriés : Justifier les seuils choisis
🎯 Exactitude : Documenter accuracy et métriques pertinentes
🔒 Robustesse : Performance stable face aux perturbations
⚖️ Équité : Performances désagrégées par sous-groupes
📝 Documentation : Tracer toutes les métriques et justifications

💡 Bonne Pratique AI Act

L’AI Act n’impose pas de métriques spécifiques. Vous devez justifier vos choix en fonction du contexte métier. Pour un modèle de diagnostic médical, privilégiez le recall. Pour un chatbot, l’accuracy peut suffire.

📊 Métriques d’Équité (Fairness)

L’AI Act exige des performances équitables entre groupes. Voici les métriques clés :

Métrique d’Équité	Définition	Seuil Acceptable
Disparate Impact Ratio	Ratio taux d’acceptation entre groupes	0.8 – 1.25
Equal Opportunity Diff.	Différence de recall entre groupes	< 0.1
Predictive Parity	Différence de precision entre groupes	< 0.1

🧮 Calculateur de Métriques ML

Entrez les valeurs de votre matrice de confusion :

Vrais Positifs (TP)

Faux Positifs (FP)

Faux Négatifs (FN)

Vrais Négatifs (TN)

❓ Questions Fréquentes sur les Métriques

Quelle est la différence entre accuracy et precision ?

L’accuracy (exactitude) mesure le pourcentage total de prédictions correctes sur l’ensemble des données. La precision mesure la proportion de vrais positifs parmi toutes les prédictions positives. Exemple : sur 100 emails, un modèle anti-spam avec 90% d’accuracy classe correctement 90 emails. Mais sa precision de 70% signifie que sur les emails classés spam, 30% étaient en fait légitimes (faux positifs).

Quand utiliser le recall plutôt que la precision ?

Le recall est prioritaire quand manquer un cas positif est très grave (coût élevé des faux négatifs). Exemples : détection de cancer (manquer un cancer = danger vital), détection de fraude (manquer une fraude = perte financière), sécurité (manquer une menace = risque). La precision est prioritaire quand les faux positifs sont coûteux : filtrage spam (emails légitimes en spam = perte d’opportunités), recrutement (rejeter de bons candidats).

Comment interpréter un F1-score ?

Le F1-score est la moyenne harmonique de la precision et du recall. Il varie de 0 (pire) à 1 (parfait). Un F1-score de 0.8+ est généralement considéré comme bon. Il est utile quand precision et recall sont tous deux importants et qu’il faut trouver un équilibre. Attention : un F1 élevé peut masquer un déséquilibre – vérifiez toujours precision et recall séparément.

Comment gérer les classes déséquilibrées ?

Avec des classes déséquilibrées (ex: 95% négatifs, 5% positifs), l’accuracy est trompeuse. Privilégiez : precision et recall sur la classe minoritaire, F1-score, AUC-ROC (insensible au déséquilibre), precision-recall curve et Average Precision. Techniques de rééquilibrage : SMOTE (sur-échantillonnage), sous-échantillonnage, class weights, stratified sampling.

Quelles métriques exige l’AI Act ?

L’AI Act (Article 15) exige de documenter les niveaux de performance appropriés en termes de robustesse, exactitude et cybersécurité. Pour les systèmes à haut risque, vous devez : définir des métriques pertinentes pour votre cas d’usage, les mesurer de façon désagrégée par sous-groupes (équité), documenter les seuils acceptables, et monitorer ces métriques en production.

Qu’est-ce que la courbe ROC et l’AUC ?

La courbe ROC (Receiver Operating Characteristic) trace le taux de vrais positifs (recall) contre le taux de faux positifs pour différents seuils de classification. L’AUC (Area Under Curve) mesure l’aire sous cette courbe. AUC = 1 signifie un modèle parfait, AUC = 0.5 équivaut à un tirage aléatoire. Un AUC > 0.8 est généralement considéré comme bon, > 0.9 excellent.

✅ Conclusion : Choisissez les Bonnes Métriques

Les métriques de performance IA ne sont pas interchangeables. Chaque métrique répond à une question différente sur votre modèle.

Pour l’AI Act, l’essentiel est de justifier vos choix en fonction du contexte métier et de documenter les résultats de façon désagrégée.

                🎯 Les 3 Règles d’Or
                1️⃣ Ne vous fiez jamais à l’accuracy seule
2️⃣ Choisissez precision ou recall selon le coût des erreurs
3️⃣ Documentez les métriques par sous-groupe (équité)