Guide des méthodes

Choisir votre méthode statistique

Un guide structuré pour identifier la bonne méthode selon votre intention analytique. Pour chaque technique : description, hypothèses sous-jacentes, cas d'usage et pièges fréquents.

4 grandes intentions
30+ méthodes détaillées
10+ formations associées
Python
+ R
les deux langages
01

Statistiques descriptives

Décrire

Résumer, visualiser et comprendre la structure des données. Première étape de toute analyse, indispensable avant toute modélisation ou test.

Indicateurs univariés

Quantitatif

Mesures synthétiques calculées sur un échantillon pour caractériser une variable. On distingue indicateurs de tendance centrale (moyenne, médiane, mode), de dispersion (variance, écart-type, étendue, IQR) et de forme (asymétrie ou skewness, aplatissement ou kurtosis).

Quand l'utiliser

Première exploration d'un nouveau jeu de données, reporting régulier, contrôle qualité. Toujours préférer la médiane à la moyenne en présence de valeurs extrêmes ou de distribution asymétrique.

Piège fréquent

Résumer une distribution multimodale par sa seule moyenne masque la réalité. Toujours croiser avec une visualisation (histogramme, densité).

Quantiles, quartiles, percentiles

Quantitatif

Le q-quantile (avec q ∈ [0,1]) est la valeur d'observation telle que dans l'échantillon ordonné, q×100 % des observations ont une valeur plus petite. Les quartiles sont les 0.25 et 0.75-quantiles. La médiane est le 0.5-quantile. Les percentiles sont les quantiles exprimés en pourcentages.

Quand l'utiliser

Tests non paramétriques, segmentation par tranches, identification de valeurs extrêmes (règle des 1.5×IQR), comparaisons inter-groupes via boîtes à moustaches.

Robuste aux outliers

Contrairement à la moyenne/écart-type, les quantiles ne sont pas perturbés par les valeurs extrêmes. À privilégier sur les distributions à queues lourdes.

Visualisations descriptives

Tous types

Histogramme (distribution d'une variable continue, sensible au choix des classes), boîte à moustaches / boxplot (médiane + quartiles + outliers, idéal pour comparer plusieurs groupes), densité estimée (alternative lissée à l'histogramme), nuage de points (relation entre deux variables).

Quand l'utiliser

Avant toute modélisation. Les visualisations révèlent ce que les indicateurs cachent : bimodalité, ruptures, outliers, formes non linéaires.

Bonnes pratiques

Pour les histogrammes : tester plusieurs largeurs de classe (règles de Sturges, Scott, Freedman-Diaconis). Pour les boxplots : afficher les points individuels en plus (sinaplot, jitter) sur les petits échantillons.

Variables qualitatives

Qualitatif

Pour les variables catégorielles, les indicateurs pertinents sont le mode (modalité la plus fréquente), les fréquences absolues et relatives par modalité, et la diversité (indices de Shannon, de Simpson).

Visualisations adaptées

Diagramme en barres (privilégié au camembert pour comparer des proportions), diagramme de Pareto pour les ordonner, treemap pour les hiérarchies.

Piège fréquent

Calculer une « moyenne » d'une variable codée numériquement mais qualitative par nature (ex: codes postaux, identifiants) n'a aucun sens statistique.

Corrélation et statistiques bivariées

Quantitatif

Mesurer l'association entre deux variables : corrélation de Pearson (linéaire, hypothèse de normalité), de Spearman (basée sur les rangs, robuste aux outliers, monotone non nécessairement linéaire), de Kendall (alternative basée sur les paires concordantes, recommandée sur petits échantillons).

Hypothèses Pearson

Relation linéaire, distribution conjointe approximativement normale bivariée, absence d'outliers majeurs. À défaut → utiliser Spearman ou Kendall.

Piège fréquent

« Corrélation n'est pas causalité » : un coefficient élevé peut résulter d'un facteur de confusion, d'une tendance temporelle commune ou d'une variable cachée.

02

Modèles statistiques

Modéliser

Expliquer ou prédire une variable Y à partir d'autres variables X. Famille la plus riche de la statistique appliquée, qui sert de socle au machine learning supervisé.

Régression linéaire

Y quantitatif · X quantitatifs

Modélise une relation linéaire entre une variable dépendante quantitative Y et une ou plusieurs variables explicatives quantitatives X. Estimation par moindres carrés ordinaires (OLS). Le modèle s'écrit Y = β₀ + β₁X₁ + … + βₚXₚ + ε.

Hypothèses clés
  • Linéarité de la relation
  • Indépendance des observations
  • Homoscédasticité (variance constante des résidus)
  • Normalité des résidus (pour l'inférence)
  • Pas de multicolinéarité forte entre X (VIF < 5-10)
Quand l'utiliser

Prédiction d'une grandeur continue, quantification d'effets, identification des facteurs influents. Premier réflexe avant de basculer vers un modèle plus complexe — si elle marche bien, c'est gagné en interprétabilité.

Pièges fréquents

Surajustement avec trop de variables, omission de variables importantes (biais), extrapolation hors du domaine d'apprentissage, non-vérification des hypothèses post-modélisation.

ANOVA (analyse de la variance)

Y quantitatif · X qualitatifs

Cas particulier du modèle linéaire où les variables explicatives sont uniquement qualitatives. Permet de tester si les moyennes de Y diffèrent significativement selon les modalités des facteurs. ANOVA à 1 facteur, 2 facteurs, avec ou sans interaction.

Hypothèses clés
  • Normalité de Y dans chaque groupe
  • Homoscédasticité (variances égales entre groupes — test de Levene/Bartlett)
  • Indépendance des observations
Quand l'utiliser

Comparer un Y continu entre plusieurs groupes définis par une ou plusieurs variables qualitatives. Tester des effets d'interaction (le facteur A a-t-il un effet différent selon le facteur B ?).

Alternative non paramétrique

Si normalité ou homoscédasticité violées : test de Kruskal-Wallis (équivalent ANOVA 1 facteur), ou modèles linéaires généralisés.

ANCOVA (analyse de la covariance)

Y quantitatif · X mixtes

Combine régression linéaire et ANOVA : explique Y à partir d'un mélange de variables qualitatives et quantitatives (covariables). Permet de tester un effet de groupe en ajustant pour des covariables continues.

Hypothèses spécifiques
  • Mêmes hypothèses que la régression linéaire
  • Pas d'interaction entre covariable et facteur (parallélisme des pentes)
  • La covariable est mesurée avant le traitement
Quand l'utiliser

Études cliniques (comparer des traitements en contrôlant pour l'âge), études sociologiques (effet d'une intervention en ajustant pour le revenu), expérimentations agronomiques.

Modèles linéaires mixtes

Données hiérarchiques · Mesures répétées

Extension du modèle linéaire général incluant à la fois des effets fixes et des effets aléatoires. Indispensable quand les observations ne sont pas indépendantes : mesures répétées sur les mêmes individus, structure hiérarchique (élèves dans classes dans écoles), facteurs aléatoires (parcelles, lots…). Estimation par maximum de vraisemblance (ML ou REML).

Concepts clés
  • Facteur fixe : modalités exhaustives, intérêt pour leurs effets
  • Facteur aléatoire : modalités = échantillon d'une population plus large
  • Mesures répétées : plusieurs observations du même individu dans le temps
  • Structures de covariance multiples (symétrie composée, AR(1), non structurée…)
Quand l'utiliser

Études longitudinales, essais cliniques avec suivi, expérimentations multi-sites, données issues d'enquêtes en grappes. Évite le pseudo-réplication en respectant la structure des données.

Outils

R : packages lme4, nlme, glmmTMB. Python : statsmodels.MixedLM, pymer4.

Régression logistique binaire

Y binaire

Modèle de référence pour la classification binaire (Y ∈ {0, 1}). Modélise la probabilité P(Y=1) via la fonction logit : log(p/(1-p)) = β₀ + β₁X₁ + … + βₚXₚ. Les coefficients s'interprètent en odds ratios (eᵝ).

Hypothèses clés
  • Indépendance des observations
  • Linéarité du logit par rapport aux X continus
  • Pas de multicolinéarité forte
  • Taille d'échantillon : ≥ 10 événements par variable explicative (règle EPV)
Quand l'utiliser

Scoring (octroi de crédit, attrition client), épidémiologie (facteurs de risque), médecine (diagnostic). Avantage majeur : interprétabilité directe via les odds ratios.

Pièges fréquents

Classes très déséquilibrées (rééchantillonner ou utiliser des poids), séparation parfaite (régression de Firth), prédicteurs corrélés.

Logistique multinomiale, ordinale, conditionnelle

Y qualitatif multi-classes

Multinomiale : Y qualitatif à K modalités non ordonnées (ex: choix de marque). Utilise K-1 équations logit prenant une modalité de référence.
Ordinale : Y qualitatif à modalités ordonnées (ex: satisfaction très faible → très forte). Modèle des odds proportionnels.
Conditionnelle : variante prenant en compte des informations sur chaque modalité de Y (ex: choix de mode de transport, en utilisant temps et confort de chaque option). Utilisée en analyse conjointe.

Hypothèses spécifiques
  • Multinomiale : IIA (indépendance des alternatives non pertinentes)
  • Ordinale : parallélisme des pentes (test de Brant)
  • Conditionnelle : exhaustivité de l'information par alternative
Quand l'utiliser

Études de choix (transport, consommation), enquêtes de satisfaction, scoring multi-classes, analyse conjointe en marketing.

Régression sur composantes principales (PCR)

Multicolinéarité · p > n

Méthode en deux étapes : (1) ACP sur les X pour construire des composantes orthogonales, (2) régression linéaire entre les composantes retenues et Y. Permet de gérer la multicolinéarité et les cas où p > n.

Quand l'utiliser

Spectroscopie, chimiométrie, données génomiques — partout où on a plus de variables que d'observations.

Limites majeures

L'ACP est construite sans considération de Y : les composantes principales ne sont pas nécessairement les plus prédictives. Le choix du nombre de composantes reste subjectif. → Préférer généralement la PLS (ci-dessous).

Modèles linéaires généralisés (GLM)

Y non gaussien

Cadre unifié pour modéliser Y dont la distribution appartient à la famille exponentielle (Poisson, binomiale, Gamma, normale, inverse gaussienne). Trois composants : distribution, fonction de lien (logit, log, identité, inverse), prédicteur linéaire.

Variantes principales
  • Poisson : Y = comptage (nombre d'événements)
  • Binomial négatif : Y = comptage avec surdispersion
  • Gamma : Y = durée, montant strictement positif
  • Tweedie : mélange de loi discrète et continue (sinistres en assurance)
Quand l'utiliser

Modélisation de fréquences (sinistres, accidents, défauts), de coûts, de durées de vie d'équipements. Standard en actuariat et en épidémiologie.

Piège fréquent

Utiliser une Poisson sur des données surdispersées (variance >> moyenne) sous-estime les écarts-types et fausse l'inférence. Vérifier le rapport de dispersion, basculer vers binomiale négative si nécessaire.

Régressions pénalisées (Lasso, Ridge, Elastic Net)

Sélection de variables · Grande dimension

Régressions linéaires modifiées par une pénalité qui contraint les coefficients. Ridge (L2) rétrécit les coefficients vers zéro sans en annuler. Lasso (L1) peut annuler des coefficients → sélection automatique. Elastic Net combine les deux.

Quand l'utiliser

Données en grande dimension (p >> n), variables fortement corrélées, besoin de sélection automatique de prédicteurs, prévention du surajustement.

Choisir entre les trois

Ridge si toutes les variables ont vraisemblablement un effet. Lasso si on veut sélectionner un sous-ensemble. Elastic Net en présence de groupes de variables corrélées (Lasso tend à n'en garder qu'une par groupe).

Calibration

Le paramètre de pénalisation (λ) se choisit par validation croisée. Ces méthodes sont à la frontière statistique / machine learning.

Approche bayésienne

Inférence probabiliste

Cadre alternatif à la statistique fréquentiste : on traite les paramètres comme des variables aléatoires munies d'une distribution a priori, mise à jour avec les données pour obtenir une distribution a posteriori (théorème de Bayes). Estimation typiquement par MCMC ou variationnelle.

Quand l'utiliser

Petits échantillons (l'a priori apporte de l'information), modèles hiérarchiques complexes, quantification rigoureuse de l'incertitude (intervalles de crédibilité), prise de décision en environnement incertain.

Outils

R : brms, rstanarm, rstan. Python : PyMC, NumPyro, Stan.

03

Analyse multivariée

Analyser

Structurer, regrouper, projeter les données sans variable cible particulière. Famille des méthodes non supervisées et factorielles, indispensables pour explorer la structure d'un jeu de données.

Analyse en Composantes Principales (ACP)

Variables quantitatives

Projette les individus dans un espace de dimension réduite défini par les composantes principales — combinaisons linéaires des variables originales qui maximisent la variance expliquée. Les premières composantes capturent l'essentiel de l'information.

Hypothèses & prérequis
  • Variables quantitatives (continues)
  • Relations approximativement linéaires entre variables
  • Normalisation recommandée si échelles différentes
  • Pas d'outliers majeurs (sinon les composantes les capturent)
Quand l'utiliser

Réduction de dimension avant clustering ou modélisation, visualisation de jeux de données en 2D/3D, identification de patterns multivariés, exploration initiale.

Pièges fréquents

Interpréter les composantes hors contexte métier, retenir trop de composantes (règle du coude, critère de Kaiser, validation croisée), oublier la nature linéaire (utiliser kernel PCA ou autoencoders pour les structures non linéaires).

Analyse des Correspondances Multiples (ACM)

Variables qualitatives

Équivalent de l'ACP pour les variables qualitatives. Permet de visualiser les associations entre modalités de plusieurs variables catégorielles, et de positionner les individus dans cet espace. Très utilisée en sciences sociales et marketing.

Quand l'utiliser

Enquêtes (segmentation par profils), études marketing (associations entre attributs), sciences sociales (typologies de comportements).

Variante : AFC

L'Analyse Factorielle des Correspondances est l'équivalent pour deux variables qualitatives (tableau de contingence). Le test du chi² lui est associé.

Analyse Factorielle Multiple (AFM)

Groupes de variables

Méthode pour traiter des jeux de données où les variables sont structurées en groupes (ex: questionnaire avec plusieurs thématiques, données multi-omiques). Combine les avantages de l'ACP et de l'ACM tout en équilibrant le poids de chaque groupe.

Quand l'utiliser

Enquêtes avec sections thématiques, intégration de données hétérogènes (sensoriel + chimique + démographique), études multi-sources.

Outils

R : package FactoMineR (référence française, F. Husson), factoextra pour la visualisation.

Classification K-means

Partition · Quantitatif

Algorithme itératif qui partitionne les observations en K groupes en minimisant la variance intra-groupe. Chaque cluster est représenté par son centroïde. Initialisation aléatoire (mieux : K-means++).

Hypothèses & limites
  • Variables quantitatives uniquement (encodage requis sinon)
  • Clusters de forme approximativement sphérique
  • Sensible aux outliers (qui tirent les centroïdes)
  • Sensible à la normalisation (impératif)
  • K doit être fixé a priori
Choisir K

Méthode du coude (elbow), silhouette score, gap statistic, ou contraintes métier. Aucune méthode automatique parfaite — toujours croiser avec un sens business.

Variantes

K-medoids (PAM) : plus robuste aux outliers. Mini-batch K-means : optimisé pour les gros volumes. K-modes : pour les variables qualitatives.

Classification ascendante hiérarchique (CAH)

Hiérarchique

Algorithme qui fusionne itérativement les observations les plus proches, produisant un dendrogramme représentant l'arbre des fusions. Le nombre de classes est choisi a posteriori en coupant le dendrogramme.

Choix critiques
  • Distance : euclidienne, Manhattan, Gower (mixte)…
  • Méthode d'agrégation : Ward (variance min, la plus utilisée), saut minimum/maximum, lien moyen
  • Choix du niveau de coupe du dendrogramme
Avantages vs K-means

Pas besoin de fixer K à l'avance, accepte tout type de variable via le bon choix de distance, dendrogramme interprétable. Inconvénient : complexité O(n²) ou O(n³), peu adapté aux gros volumes.

DBSCAN, GMM et clustering moderne

Densité · Probabiliste

DBSCAN : clustering par densité. Pas de K à fixer, détecte le bruit, gère les formes non sphériques. Paramètres : epsilon (rayon) et minPts.
GMM (Gaussian Mixture Models) : approche probabiliste, chaque point appartient à chaque cluster avec une probabilité. Estimation par EM.
HDBSCAN : extension hiérarchique de DBSCAN, robuste au choix d'epsilon.

Quand l'utiliser

DBSCAN/HDBSCAN : clusters de formes arbitraires, détection d'anomalies, géospatial. GMM : besoin d'une appartenance souple ou de modélisation probabiliste, distributions à composantes gaussiennes.

Pièges

DBSCAN dégrade sa performance en grande dimension (curse of dimensionality). GMM suppose des composantes gaussiennes ce qui n'est pas toujours vérifié — penser à la normalisation ou à des transformations préalables.

Analyse discriminante (AFD, LDA, QDA)

Supervisée descriptive

AFD (Analyse Factorielle Discriminante) : visualiser la séparation entre classes connues.
LDA (Linear Discriminant Analysis) : classification avec hypothèse d'égalité des matrices de covariance entre classes. Frontières linéaires.
QDA (Quadratic Discriminant Analysis) : sans hypothèse d'égalité des covariances. Frontières quadratiques mais plus de paramètres à estimer.

Hypothèses LDA
  • Variables explicatives quantitatives
  • Distribution normale multivariée dans chaque classe
  • Matrices de covariance égales entre classes (test M de Box)
Quand l'utiliser

Classification en présence de plusieurs classes, visualisation de la séparabilité, alternative à la régression logistique quand les hypothèses sont satisfaites (LDA est plus efficace dans ce cas).

t-SNE, UMAP, autoencoders

Réduction non linéaire

t-SNE : projection 2D/3D préservant les voisinages locaux. Excellent pour la visualisation mais ne préserve pas les distances globales.
UMAP : alternative plus rapide, meilleur compromis local/global, plus stable. Devenu la référence en visualisation depuis 2019.
Autoencoders : réseaux de neurones encodant les données dans un espace latent, puis les reconstruisant. Apprentissage de représentations non linéaires.

Quand l'utiliser

Visualisation de données complexes (textes embedés, génomique, images), exploration interactive, prétraitement avant clustering quand l'ACP est insuffisante.

Piège fréquent

Interpréter quantitativement les positions sur un plot t-SNE/UMAP. Ces méthodes sont des outils de visualisation, pas d'analyse quantitative. Les distances dans l'espace projeté ne reflètent pas les distances originales.

04

Tests d'hypothèses

Tester

Valider une hypothèse statistique : « ces deux groupes diffèrent-ils ? », « cette variable a-t-elle un effet ? ». Famille des tests inférentiels, à manier avec précaution — un test ne « prouve » pas, il quantifie un niveau d'évidence.

Test t de Student

Comparaison de moyennes

Famille de tests pour comparer des moyennes : test t à 1 échantillon (moyenne vs valeur de référence), test t pour échantillons indépendants (2 groupes), test t apparié (mêmes individus mesurés 2 fois).

Hypothèses
  • Normalité de la variable dans chaque groupe (peu critique si n > 30 grâce au TCL)
  • Indépendance des observations (sauf test apparié)
  • Homoscédasticité (variances égales) — sinon utiliser le test de Welch
Alternatives non paramétriques

Wilcoxon-Mann-Whitney pour 2 échantillons indépendants. Wilcoxon signé pour échantillons appariés. À privilégier sur petits échantillons ou distributions clairement non normales.

ANOVA et alternatives

Comparaison > 2 groupes

Extension du test t pour comparer les moyennes de plus de 2 groupes. Voir aussi section Modéliser. Si ANOVA significative, faire suivre de tests post-hoc (Tukey HSD, Bonferroni, Holm) pour identifier quelles paires diffèrent.

Alternatives
  • Welch's ANOVA si variances inégales
  • Kruskal-Wallis si non-normalité (non paramétrique)
  • Friedman pour mesures répétées sur plus de 2 conditions
Piège fréquent

Effectuer plusieurs tests t deux à deux au lieu d'une ANOVA → inflation du risque α. Avec 4 groupes et 6 comparaisons à 5%, on a ~26% de chances d'au moins un faux positif.

Tests de variances et de distributions

Validation d'hypothèses

Comparaison de variances : test F (sensible à la non-normalité), test de Levene (recommandé), test de Bartlett (très sensible à la non-normalité).
Tests de normalité : Shapiro-Wilk (le plus puissant, n < 5000), Anderson-Darling, Kolmogorov-Smirnov (peu puissant).
Test d'égalité de distributions : Kolmogorov-Smirnov à 2 échantillons.

Quand les utiliser

Avant un test t ou une ANOVA (vérification d'hypothèses), validation d'un modèle (normalité des résidus), comparaison de distributions issues de deux processus.

Piège fréquent

Surdimensionner l'importance des tests de normalité sur de gros échantillons : ils détectent des écarts mineurs à la normalité, peu pertinents pour la robustesse des tests t/ANOVA. Préférer les diagnostics graphiques (QQ-plot).

Test du chi² et tableaux de contingence

Variables qualitatives

Chi² d'indépendance : tester si deux variables qualitatives sont indépendantes.
Chi² d'ajustement : tester si une distribution observée correspond à une distribution théorique.
Test exact de Fisher : alternative au chi² sur petits échantillons.
Test de McNemar : test apparié pour variables binaires (avant/après).

Hypothèses du chi²
  • Indépendance des observations
  • Effectifs théoriques ≥ 5 dans 80% des cellules au moins (sinon Fisher)
  • Échantillon aléatoire représentatif
Mesures d'association

Le chi² indique s'il y a une association, pas son intensité. Pour quantifier : V de Cramer, coefficient phi (2×2), odds ratio, ou les résidus standardisés.

Tests modernes : permutation, bootstrap

Sans hypothèse forte

Tests par permutation : générer la distribution de la statistique de test sous H₀ en permutant les étiquettes des observations. Aucune hypothèse de distribution requise.
Bootstrap : rééchantillonnage avec remise pour estimer la distribution d'une statistique et construire des intervalles de confiance.
Approche bayésienne : voir section Modéliser.

Avantages

Aucune hypothèse paramétrique, applicable à n'importe quelle statistique (médiane, ratio, indicateur composite), intuitive et interprétable. Référence moderne en l'absence d'hypothèses fortes.

Quand l'utiliser

Petits échantillons, hypothèses de normalité non vérifiables, comparaisons sur des statistiques inhabituelles (médianes, percentiles), validation d'un modèle complexe.

+

Au-delà des statistiques classiques

Et le machine learning ?

Le ML prolonge la statistique, il ne la remplace pas. Une régression logistique est un modèle ML. Random Forest, XGBoost, réseaux de neurones, ou modèles de fondation (LLM) répondent souvent aux mêmes questions, avec d'autres compromis interprétabilité / performance.

ML supervisé : arbres, forêts, gradient boosting

Classification & régression

Arbres CART, Random Forest, Gradient Boosting (XGBoost, LightGBM, CatBoost) — méthodes très performantes sur données tabulaires, gérant nativement les variables qualitatives, les valeurs manquantes, les non-linéarités et les interactions. Moins interprétables qu'une régression mais souvent supérieures en prédiction.

Quand l'utiliser

Tabulaire avec données hétérogènes, besoin de performance prédictive maximale, non-linéarités attendues, prêt à utiliser des outils d'interprétabilité (SHAP, importance des variables).

Deep learning et IA générative

Texte, image, audio

Pour les données non structurées (textes, images, signaux), les réseaux de neurones profonds et les modèles de fondation (LLM, modèles multimodaux) sont devenus la référence. Architectures : CNN (images), RNN/Transformers (séquences), GANs et diffusion (génération).

Quand basculer vers le DL

Données non tabulaires, gros volumes (> 10k-100k échantillons), capacité de calcul GPU disponible, problème où l'ingénierie de variables manuelle est trop coûteuse.

Maîtriser ces méthodes en formation

Plus de 30 formations Stat4decision couvrent ces techniques en profondeur : statistiques descriptives, régression PLS, modèles mixtes, machine learning, IA générative — sur Python ou R, en inter, intra ou sur mesure.