Guide des méthodes
Choisir votre méthode statistique
Un guide structuré pour identifier la bonne méthode selon votre intention analytique. Pour chaque technique : description, hypothèses sous-jacentes, cas d'usage et pièges fréquents.
+ R les deux langages
Accès direct
Statistiques descriptives
Décrire
Résumer, visualiser et comprendre la structure des données. Première étape de toute analyse, indispensable avant toute modélisation ou test.
Indicateurs univariés
QuantitatifMesures synthétiques calculées sur un échantillon pour caractériser une variable. On distingue indicateurs de tendance centrale (moyenne, médiane, mode), de dispersion (variance, écart-type, étendue, IQR) et de forme (asymétrie ou skewness, aplatissement ou kurtosis).
Première exploration d'un nouveau jeu de données, reporting régulier, contrôle qualité. Toujours préférer la médiane à la moyenne en présence de valeurs extrêmes ou de distribution asymétrique.
Résumer une distribution multimodale par sa seule moyenne masque la réalité. Toujours croiser avec une visualisation (histogramme, densité).
Quantiles, quartiles, percentiles
QuantitatifLe q-quantile (avec q ∈ [0,1]) est la valeur d'observation telle que dans l'échantillon ordonné, q×100 % des observations ont une valeur plus petite. Les quartiles sont les 0.25 et 0.75-quantiles. La médiane est le 0.5-quantile. Les percentiles sont les quantiles exprimés en pourcentages.
Tests non paramétriques, segmentation par tranches, identification de valeurs extrêmes (règle des 1.5×IQR), comparaisons inter-groupes via boîtes à moustaches.
Contrairement à la moyenne/écart-type, les quantiles ne sont pas perturbés par les valeurs extrêmes. À privilégier sur les distributions à queues lourdes.
Visualisations descriptives
Tous typesHistogramme (distribution d'une variable continue, sensible au choix des classes), boîte à moustaches / boxplot (médiane + quartiles + outliers, idéal pour comparer plusieurs groupes), densité estimée (alternative lissée à l'histogramme), nuage de points (relation entre deux variables).
Avant toute modélisation. Les visualisations révèlent ce que les indicateurs cachent : bimodalité, ruptures, outliers, formes non linéaires.
Pour les histogrammes : tester plusieurs largeurs de classe (règles de Sturges, Scott, Freedman-Diaconis). Pour les boxplots : afficher les points individuels en plus (sinaplot, jitter) sur les petits échantillons.
Variables qualitatives
QualitatifPour les variables catégorielles, les indicateurs pertinents sont le mode (modalité la plus fréquente), les fréquences absolues et relatives par modalité, et la diversité (indices de Shannon, de Simpson).
Diagramme en barres (privilégié au camembert pour comparer des proportions), diagramme de Pareto pour les ordonner, treemap pour les hiérarchies.
Calculer une « moyenne » d'une variable codée numériquement mais qualitative par nature (ex: codes postaux, identifiants) n'a aucun sens statistique.
Corrélation et statistiques bivariées
QuantitatifMesurer l'association entre deux variables : corrélation de Pearson (linéaire, hypothèse de normalité), de Spearman (basée sur les rangs, robuste aux outliers, monotone non nécessairement linéaire), de Kendall (alternative basée sur les paires concordantes, recommandée sur petits échantillons).
Relation linéaire, distribution conjointe approximativement normale bivariée, absence d'outliers majeurs. À défaut → utiliser Spearman ou Kendall.
« Corrélation n'est pas causalité » : un coefficient élevé peut résulter d'un facteur de confusion, d'une tendance temporelle commune ou d'une variable cachée.
Modèles statistiques
Modéliser
Expliquer ou prédire une variable Y à partir d'autres variables X. Famille la plus riche de la statistique appliquée, qui sert de socle au machine learning supervisé.
Régression linéaire
Y quantitatif · X quantitatifsModélise une relation linéaire entre une variable dépendante quantitative Y et une ou plusieurs variables explicatives quantitatives X. Estimation par moindres carrés ordinaires (OLS). Le modèle s'écrit Y = β₀ + β₁X₁ + … + βₚXₚ + ε.
- Linéarité de la relation
- Indépendance des observations
- Homoscédasticité (variance constante des résidus)
- Normalité des résidus (pour l'inférence)
- Pas de multicolinéarité forte entre X (VIF < 5-10)
Prédiction d'une grandeur continue, quantification d'effets, identification des facteurs influents. Premier réflexe avant de basculer vers un modèle plus complexe — si elle marche bien, c'est gagné en interprétabilité.
Surajustement avec trop de variables, omission de variables importantes (biais), extrapolation hors du domaine d'apprentissage, non-vérification des hypothèses post-modélisation.
ANOVA (analyse de la variance)
Y quantitatif · X qualitatifsCas particulier du modèle linéaire où les variables explicatives sont uniquement qualitatives. Permet de tester si les moyennes de Y diffèrent significativement selon les modalités des facteurs. ANOVA à 1 facteur, 2 facteurs, avec ou sans interaction.
- Normalité de Y dans chaque groupe
- Homoscédasticité (variances égales entre groupes — test de Levene/Bartlett)
- Indépendance des observations
Comparer un Y continu entre plusieurs groupes définis par une ou plusieurs variables qualitatives. Tester des effets d'interaction (le facteur A a-t-il un effet différent selon le facteur B ?).
Si normalité ou homoscédasticité violées : test de Kruskal-Wallis (équivalent ANOVA 1 facteur), ou modèles linéaires généralisés.
ANCOVA (analyse de la covariance)
Y quantitatif · X mixtesCombine régression linéaire et ANOVA : explique Y à partir d'un mélange de variables qualitatives et quantitatives (covariables). Permet de tester un effet de groupe en ajustant pour des covariables continues.
- Mêmes hypothèses que la régression linéaire
- Pas d'interaction entre covariable et facteur (parallélisme des pentes)
- La covariable est mesurée avant le traitement
Études cliniques (comparer des traitements en contrôlant pour l'âge), études sociologiques (effet d'une intervention en ajustant pour le revenu), expérimentations agronomiques.
Modèles linéaires mixtes
Données hiérarchiques · Mesures répétéesExtension du modèle linéaire général incluant à la fois des effets fixes et des effets aléatoires. Indispensable quand les observations ne sont pas indépendantes : mesures répétées sur les mêmes individus, structure hiérarchique (élèves dans classes dans écoles), facteurs aléatoires (parcelles, lots…). Estimation par maximum de vraisemblance (ML ou REML).
- Facteur fixe : modalités exhaustives, intérêt pour leurs effets
- Facteur aléatoire : modalités = échantillon d'une population plus large
- Mesures répétées : plusieurs observations du même individu dans le temps
- Structures de covariance multiples (symétrie composée, AR(1), non structurée…)
Études longitudinales, essais cliniques avec suivi, expérimentations multi-sites, données issues d'enquêtes en grappes. Évite le pseudo-réplication en respectant la structure des données.
R : packages lme4, nlme, glmmTMB. Python : statsmodels.MixedLM, pymer4.
Régression logistique binaire
Y binaireModèle de référence pour la classification binaire (Y ∈ {0, 1}). Modélise la probabilité P(Y=1) via la fonction logit : log(p/(1-p)) = β₀ + β₁X₁ + … + βₚXₚ. Les coefficients s'interprètent en odds ratios (eᵝ).
- Indépendance des observations
- Linéarité du logit par rapport aux X continus
- Pas de multicolinéarité forte
- Taille d'échantillon : ≥ 10 événements par variable explicative (règle EPV)
Scoring (octroi de crédit, attrition client), épidémiologie (facteurs de risque), médecine (diagnostic). Avantage majeur : interprétabilité directe via les odds ratios.
Classes très déséquilibrées (rééchantillonner ou utiliser des poids), séparation parfaite (régression de Firth), prédicteurs corrélés.
Logistique multinomiale, ordinale, conditionnelle
Y qualitatif multi-classes
Multinomiale : Y qualitatif à K modalités non ordonnées (ex: choix de marque). Utilise K-1 équations logit prenant une modalité de référence.
Ordinale : Y qualitatif à modalités ordonnées (ex: satisfaction très faible → très forte). Modèle des odds proportionnels.
Conditionnelle : variante prenant en compte des informations sur chaque modalité de Y (ex: choix de mode de transport, en utilisant temps et confort de chaque option). Utilisée en analyse conjointe.
- Multinomiale : IIA (indépendance des alternatives non pertinentes)
- Ordinale : parallélisme des pentes (test de Brant)
- Conditionnelle : exhaustivité de l'information par alternative
Études de choix (transport, consommation), enquêtes de satisfaction, scoring multi-classes, analyse conjointe en marketing.
Régression sur composantes principales (PCR)
Multicolinéarité · p > nMéthode en deux étapes : (1) ACP sur les X pour construire des composantes orthogonales, (2) régression linéaire entre les composantes retenues et Y. Permet de gérer la multicolinéarité et les cas où p > n.
Spectroscopie, chimiométrie, données génomiques — partout où on a plus de variables que d'observations.
L'ACP est construite sans considération de Y : les composantes principales ne sont pas nécessairement les plus prédictives. Le choix du nombre de composantes reste subjectif. → Préférer généralement la PLS (ci-dessous).
Régression PLS (Partial Least Squares)
Référence en chimiométrieMéthode itérative développée par Svante Wold. Construit des composantes orthogonales à partir des X qui maximisent la covariance avec Y. Combine les avantages de l'ACP (réduction de dimension) et de la régression. Référence en chimiométrie et de plus en plus utilisée en data science.
- Multicolinéarité forte entre les X
- Cas p > n (plus de variables que d'observations)
- Données manquantes (l'algorithme NIPALS les gère nativement)
- Y multivarié (plusieurs variables à expliquer simultanément)
- Construction de composantes orthogonales à partir des X
- Construction de composantes à partir des Y
- Ajustement itératif pour maximiser la covariance X-Y
- À convergence : paramètres + indices d'importance des variables (VIP)
Chimiométrie (spectres NIR, MIR), biologie (omics), procédés industriels, marketing (analyse de drivers). Variante PLS-DA pour l'analyse discriminante.
R : packages pls, mixOmics, plsRglm. Python : sklearn.cross_decomposition.PLSRegression.
Modèles linéaires généralisés (GLM)
Y non gaussienCadre unifié pour modéliser Y dont la distribution appartient à la famille exponentielle (Poisson, binomiale, Gamma, normale, inverse gaussienne). Trois composants : distribution, fonction de lien (logit, log, identité, inverse), prédicteur linéaire.
- Poisson : Y = comptage (nombre d'événements)
- Binomial négatif : Y = comptage avec surdispersion
- Gamma : Y = durée, montant strictement positif
- Tweedie : mélange de loi discrète et continue (sinistres en assurance)
Modélisation de fréquences (sinistres, accidents, défauts), de coûts, de durées de vie d'équipements. Standard en actuariat et en épidémiologie.
Utiliser une Poisson sur des données surdispersées (variance >> moyenne) sous-estime les écarts-types et fausse l'inférence. Vérifier le rapport de dispersion, basculer vers binomiale négative si nécessaire.
Régressions pénalisées (Lasso, Ridge, Elastic Net)
Sélection de variables · Grande dimensionRégressions linéaires modifiées par une pénalité qui contraint les coefficients. Ridge (L2) rétrécit les coefficients vers zéro sans en annuler. Lasso (L1) peut annuler des coefficients → sélection automatique. Elastic Net combine les deux.
Données en grande dimension (p >> n), variables fortement corrélées, besoin de sélection automatique de prédicteurs, prévention du surajustement.
Ridge si toutes les variables ont vraisemblablement un effet. Lasso si on veut sélectionner un sous-ensemble. Elastic Net en présence de groupes de variables corrélées (Lasso tend à n'en garder qu'une par groupe).
Le paramètre de pénalisation (λ) se choisit par validation croisée. Ces méthodes sont à la frontière statistique / machine learning.
Approche bayésienne
Inférence probabilisteCadre alternatif à la statistique fréquentiste : on traite les paramètres comme des variables aléatoires munies d'une distribution a priori, mise à jour avec les données pour obtenir une distribution a posteriori (théorème de Bayes). Estimation typiquement par MCMC ou variationnelle.
Petits échantillons (l'a priori apporte de l'information), modèles hiérarchiques complexes, quantification rigoureuse de l'incertitude (intervalles de crédibilité), prise de décision en environnement incertain.
R : brms, rstanarm, rstan. Python : PyMC, NumPyro, Stan.
Analyse multivariée
Analyser
Structurer, regrouper, projeter les données sans variable cible particulière. Famille des méthodes non supervisées et factorielles, indispensables pour explorer la structure d'un jeu de données.
Analyse en Composantes Principales (ACP)
Variables quantitativesProjette les individus dans un espace de dimension réduite défini par les composantes principales — combinaisons linéaires des variables originales qui maximisent la variance expliquée. Les premières composantes capturent l'essentiel de l'information.
- Variables quantitatives (continues)
- Relations approximativement linéaires entre variables
- Normalisation recommandée si échelles différentes
- Pas d'outliers majeurs (sinon les composantes les capturent)
Réduction de dimension avant clustering ou modélisation, visualisation de jeux de données en 2D/3D, identification de patterns multivariés, exploration initiale.
Interpréter les composantes hors contexte métier, retenir trop de composantes (règle du coude, critère de Kaiser, validation croisée), oublier la nature linéaire (utiliser kernel PCA ou autoencoders pour les structures non linéaires).
Analyse des Correspondances Multiples (ACM)
Variables qualitativesÉquivalent de l'ACP pour les variables qualitatives. Permet de visualiser les associations entre modalités de plusieurs variables catégorielles, et de positionner les individus dans cet espace. Très utilisée en sciences sociales et marketing.
Enquêtes (segmentation par profils), études marketing (associations entre attributs), sciences sociales (typologies de comportements).
L'Analyse Factorielle des Correspondances est l'équivalent pour deux variables qualitatives (tableau de contingence). Le test du chi² lui est associé.
Analyse Factorielle Multiple (AFM)
Groupes de variablesMéthode pour traiter des jeux de données où les variables sont structurées en groupes (ex: questionnaire avec plusieurs thématiques, données multi-omiques). Combine les avantages de l'ACP et de l'ACM tout en équilibrant le poids de chaque groupe.
Enquêtes avec sections thématiques, intégration de données hétérogènes (sensoriel + chimique + démographique), études multi-sources.
R : package FactoMineR (référence française, F. Husson), factoextra pour la visualisation.
Classification K-means
Partition · QuantitatifAlgorithme itératif qui partitionne les observations en K groupes en minimisant la variance intra-groupe. Chaque cluster est représenté par son centroïde. Initialisation aléatoire (mieux : K-means++).
- Variables quantitatives uniquement (encodage requis sinon)
- Clusters de forme approximativement sphérique
- Sensible aux outliers (qui tirent les centroïdes)
- Sensible à la normalisation (impératif)
- K doit être fixé a priori
Méthode du coude (elbow), silhouette score, gap statistic, ou contraintes métier. Aucune méthode automatique parfaite — toujours croiser avec un sens business.
K-medoids (PAM) : plus robuste aux outliers. Mini-batch K-means : optimisé pour les gros volumes. K-modes : pour les variables qualitatives.
Classification ascendante hiérarchique (CAH)
HiérarchiqueAlgorithme qui fusionne itérativement les observations les plus proches, produisant un dendrogramme représentant l'arbre des fusions. Le nombre de classes est choisi a posteriori en coupant le dendrogramme.
- Distance : euclidienne, Manhattan, Gower (mixte)…
- Méthode d'agrégation : Ward (variance min, la plus utilisée), saut minimum/maximum, lien moyen
- Choix du niveau de coupe du dendrogramme
Pas besoin de fixer K à l'avance, accepte tout type de variable via le bon choix de distance, dendrogramme interprétable. Inconvénient : complexité O(n²) ou O(n³), peu adapté aux gros volumes.
DBSCAN, GMM et clustering moderne
Densité · Probabiliste
DBSCAN : clustering par densité. Pas de K à fixer, détecte le bruit, gère les formes non sphériques. Paramètres : epsilon (rayon) et minPts.
GMM (Gaussian Mixture Models) : approche probabiliste, chaque point appartient à chaque cluster avec une probabilité. Estimation par EM.
HDBSCAN : extension hiérarchique de DBSCAN, robuste au choix d'epsilon.
DBSCAN/HDBSCAN : clusters de formes arbitraires, détection d'anomalies, géospatial. GMM : besoin d'une appartenance souple ou de modélisation probabiliste, distributions à composantes gaussiennes.
DBSCAN dégrade sa performance en grande dimension (curse of dimensionality). GMM suppose des composantes gaussiennes ce qui n'est pas toujours vérifié — penser à la normalisation ou à des transformations préalables.
Analyse discriminante (AFD, LDA, QDA)
Supervisée descriptive
AFD (Analyse Factorielle Discriminante) : visualiser la séparation entre classes connues.
LDA (Linear Discriminant Analysis) : classification avec hypothèse d'égalité des matrices de covariance entre classes. Frontières linéaires.
QDA (Quadratic Discriminant Analysis) : sans hypothèse d'égalité des covariances. Frontières quadratiques mais plus de paramètres à estimer.
- Variables explicatives quantitatives
- Distribution normale multivariée dans chaque classe
- Matrices de covariance égales entre classes (test M de Box)
Classification en présence de plusieurs classes, visualisation de la séparabilité, alternative à la régression logistique quand les hypothèses sont satisfaites (LDA est plus efficace dans ce cas).
t-SNE, UMAP, autoencoders
Réduction non linéaire
t-SNE : projection 2D/3D préservant les voisinages locaux. Excellent pour la visualisation mais ne préserve pas les distances globales.
UMAP : alternative plus rapide, meilleur compromis local/global, plus stable. Devenu la référence en visualisation depuis 2019.
Autoencoders : réseaux de neurones encodant les données dans un espace latent, puis les reconstruisant. Apprentissage de représentations non linéaires.
Visualisation de données complexes (textes embedés, génomique, images), exploration interactive, prétraitement avant clustering quand l'ACP est insuffisante.
Interpréter quantitativement les positions sur un plot t-SNE/UMAP. Ces méthodes sont des outils de visualisation, pas d'analyse quantitative. Les distances dans l'espace projeté ne reflètent pas les distances originales.
Tests d'hypothèses
Tester
Valider une hypothèse statistique : « ces deux groupes diffèrent-ils ? », « cette variable a-t-elle un effet ? ». Famille des tests inférentiels, à manier avec précaution — un test ne « prouve » pas, il quantifie un niveau d'évidence.
Test t de Student
Comparaison de moyennesFamille de tests pour comparer des moyennes : test t à 1 échantillon (moyenne vs valeur de référence), test t pour échantillons indépendants (2 groupes), test t apparié (mêmes individus mesurés 2 fois).
- Normalité de la variable dans chaque groupe (peu critique si n > 30 grâce au TCL)
- Indépendance des observations (sauf test apparié)
- Homoscédasticité (variances égales) — sinon utiliser le test de Welch
Wilcoxon-Mann-Whitney pour 2 échantillons indépendants. Wilcoxon signé pour échantillons appariés. À privilégier sur petits échantillons ou distributions clairement non normales.
ANOVA et alternatives
Comparaison > 2 groupesExtension du test t pour comparer les moyennes de plus de 2 groupes. Voir aussi section Modéliser. Si ANOVA significative, faire suivre de tests post-hoc (Tukey HSD, Bonferroni, Holm) pour identifier quelles paires diffèrent.
- Welch's ANOVA si variances inégales
- Kruskal-Wallis si non-normalité (non paramétrique)
- Friedman pour mesures répétées sur plus de 2 conditions
Effectuer plusieurs tests t deux à deux au lieu d'une ANOVA → inflation du risque α. Avec 4 groupes et 6 comparaisons à 5%, on a ~26% de chances d'au moins un faux positif.
Tests de variances et de distributions
Validation d'hypothèses
Comparaison de variances : test F (sensible à la non-normalité), test de Levene (recommandé), test de Bartlett (très sensible à la non-normalité).
Tests de normalité : Shapiro-Wilk (le plus puissant, n < 5000), Anderson-Darling, Kolmogorov-Smirnov (peu puissant).
Test d'égalité de distributions : Kolmogorov-Smirnov à 2 échantillons.
Avant un test t ou une ANOVA (vérification d'hypothèses), validation d'un modèle (normalité des résidus), comparaison de distributions issues de deux processus.
Surdimensionner l'importance des tests de normalité sur de gros échantillons : ils détectent des écarts mineurs à la normalité, peu pertinents pour la robustesse des tests t/ANOVA. Préférer les diagnostics graphiques (QQ-plot).
Test du chi² et tableaux de contingence
Variables qualitatives
Chi² d'indépendance : tester si deux variables qualitatives sont indépendantes.
Chi² d'ajustement : tester si une distribution observée correspond à une distribution théorique.
Test exact de Fisher : alternative au chi² sur petits échantillons.
Test de McNemar : test apparié pour variables binaires (avant/après).
- Indépendance des observations
- Effectifs théoriques ≥ 5 dans 80% des cellules au moins (sinon Fisher)
- Échantillon aléatoire représentatif
Le chi² indique s'il y a une association, pas son intensité. Pour quantifier : V de Cramer, coefficient phi (2×2), odds ratio, ou les résidus standardisés.
Tests modernes : permutation, bootstrap
Sans hypothèse forte
Tests par permutation : générer la distribution de la statistique de test sous H₀ en permutant les étiquettes des observations. Aucune hypothèse de distribution requise.
Bootstrap : rééchantillonnage avec remise pour estimer la distribution d'une statistique et construire des intervalles de confiance.
Approche bayésienne : voir section Modéliser.
Aucune hypothèse paramétrique, applicable à n'importe quelle statistique (médiane, ratio, indicateur composite), intuitive et interprétable. Référence moderne en l'absence d'hypothèses fortes.
Petits échantillons, hypothèses de normalité non vérifiables, comparaisons sur des statistiques inhabituelles (médianes, percentiles), validation d'un modèle complexe.
Au-delà des statistiques classiques
Et le machine learning ?
Le ML prolonge la statistique, il ne la remplace pas. Une régression logistique est un modèle ML. Random Forest, XGBoost, réseaux de neurones, ou modèles de fondation (LLM) répondent souvent aux mêmes questions, avec d'autres compromis interprétabilité / performance.
ML supervisé : arbres, forêts, gradient boosting
Classification & régressionArbres CART, Random Forest, Gradient Boosting (XGBoost, LightGBM, CatBoost) — méthodes très performantes sur données tabulaires, gérant nativement les variables qualitatives, les valeurs manquantes, les non-linéarités et les interactions. Moins interprétables qu'une régression mais souvent supérieures en prédiction.
Tabulaire avec données hétérogènes, besoin de performance prédictive maximale, non-linéarités attendues, prêt à utiliser des outils d'interprétabilité (SHAP, importance des variables).
Deep learning et IA générative
Texte, image, audioPour les données non structurées (textes, images, signaux), les réseaux de neurones profonds et les modèles de fondation (LLM, modèles multimodaux) sont devenus la référence. Architectures : CNN (images), RNN/Transformers (séquences), GANs et diffusion (génération).
Données non tabulaires, gros volumes (> 10k-100k échantillons), capacité de calcul GPU disponible, problème où l'ingénierie de variables manuelle est trop coûteuse.
Maîtriser ces méthodes en formation
Plus de 30 formations Stat4decision couvrent ces techniques en profondeur : statistiques descriptives, régression PLS, modèles mixtes, machine learning, IA générative — sur Python ou R, en inter, intra ou sur mesure.
