*Approche PLS

Approche PLS (PLS Path Modeling)

Emmanuel Jakobowicz Mis à jour le : 17 décembre 2019 méthode Laissez un commentaire

Je vais vous parler d’une méthode d’analyse de données qui me tient spécialement à cœur, il s’agit de l’approche PLS. PLS pour moindres carrés partiels (Partial Least Squares). Cette méthode est une méthode qui se trouve à la croisée de plusieurs domaines du traitement de données. Elle permet d’étudier des concepts non observables qui peuvent être appelés variables latentes, facteurs ou composantes suivant votre background.

Principe de base

L’approche PLS a de nombreux noms, on la trouvera sous le nom de PLS-SEM, de PLS Path Modeling…

Prenons un exemple pour en décrire le principe. Dans le cadre des études sur les consommateurs, on essaye fréquemment de comprendre la satisfaction ainsi que l’intention de fidélité des consommateurs vis-à-vis d’un produit ou d’une marque. Le problème c’est que ces concepts de satisfaction et de fidélité ne peuvent pas être mesurés directement. Ainsi la satisfaction va dépendre de nombreux facteurs. De plus, la fidélité à une marque dépendra aussi de nombreux facteurs observables mais aussi de la satisfaction ou de l’image de la marque.

Pour obtenir des scores de satisfaction ou de fidélité qui prennent en compte tous ces liens, on va utiliser une méthode : l’approche PLS.

Comment ça marche ? Le cas de la satisfaction

Une analyse de la satisfaction va être basée sur des enquêtes. On va poser des questions à un échantillon d’individus et les questions vont être rassemblées par blocs de questions chacun sur un thème. Ces blocs vont nous permettre de calculer les scores en utilisant le modèle structurel. Voici un exemple de modèle structurel pour l’analyse de la satisfaction et de la fidélité des consommateurs :

Chaque ovale est un concept qui est mesuré grâce à de nombreux items d’un questionnaire. On voit par exemple que la fidélité est expliquée par l’image, la satisfaction et les réclamations. Ce modèle doit être défini en amont de vos analyses. Nous pourrons le modifier par la suite mais il faut une forte connaissance métier pour construire ce modèle.

Le principe de l’approche PLS est de calculer les poids associés à tous les liens du modèle en utilisant un algorithme itératif basé sur des estimations successives des scores des variables latentes en utilisant les variables observées. Les poids du modèles appelés loadings et coefficients structurels sont calculés à la fin de l’estimation.

Une fois l’application de l’algorithme terminée, on obtient des scores pour chaque variables latentes et des coefficients associés aux liens entre les variables latentes. Ces scores sont en fait des combinaisons linéaires des variables manifestes associées à la variable latente qui ont été « ajustés » en utilisant aussi les liens entre variables latentes.

Quand peut-on utiliser ce type d’analyse ?

Les analyses PLS ont des applications multiples notamment en marketing et en sciences sociales. Sa principale application aujourd’hui est l’analyse de la satisfaction des consommateurs. Si votre objectif est de caractériser vos clients, vous pourrez comprendre l’importance des facteurs influençant la satisfaction ou la fidélité des consommateurs et ainsi identifier les leviers d’amélioration de la satisfaction.

Le graphique suivant permet d’identifier les leviers obtenus à partir d’un modèle de satisfaction des consommateurs :

IPMA pour satisfaction PLS

On voit ici que le facteur le plus important pour caractériser la satisfaction est la qualité mais cette qualité a déjà une bonne performance sur cette marque. On pourra donc se concentrer sur les attentes (expectation) des clients qui tout en ayant une importance assez élevée ne performent pas très bien. Si vous voulez que nous vous aidions à mener ce type d’analyses, contactez-nous.

Rapport à l’analyse de données

L’approche PLS se rapproche fortement des méthodes d’analyse de données du type de l’analyse en composantes principales. En effet, il s’agit de construire des scores à partir de variables observées (on les appelle souvent variables manifestes) afin de caractériser des relations entre des variables non observables directement. Si on construit un modèle PLS sans liens entre les variables latentes, on obtiendra comme scores les composantes principales de l’analyse en composantes principales. D’ailleurs, l’approche PLS peut construire des composantes principales avec données manquantes en utilisant l’algorithme NIPALS.

Rapport aux modèles d’équations structurelles

Les modèles d’équations structurelles à variables latentes (structural equation models, SEM) constitue un pan entier de la statistique « classique », ils sont basés sur des estimations par le maximum de vraisemblance et ont pour objectif de valider une théorie en utilisant des tests statistiques. Les méthodes PLS ont souvent été associées aux SEM classiques pour des raisons évidentes de ressemblance des modèles. Mais il faut garder en tête que ces deux approches sont très différentes sur leurs principes et n’ont pas les mêmes objectifs.

L’approche PLS est basée sur des composantes, on construit des composantes à partir des données observées alors que les SEM sont basées sur des covariances, on ne calcule jamais de scores pour les variables latentes, on estime uniquement des covariances afin de vérifier la validité du modèle construit par l’expert. On peut dire que l’approche PLS est un modèle prédictif alors que les SEM sont des modèles confirmatoires.

Les outils

L’approche PLS est disponible dans R mais aussi dans des logiciels commerciaux tels que XLSTAT et SmartPLS. Dans R, il existe un package extrêmement complet pour l »analyse PLS : plspm

Conclusions

L’approche PLS ou PLS-SEM est une méthode d’analyse de données avec un fort aspect prédictif qui peut répondre à des problématiques complexes notamment sur l’étude de concepts latents difficiles à construire. Le marketing est un aspect important des applications mais des applications en industrie sont aussi possibles.

Cette méthode a eu pendant longtemps une image négative venant des utilisateurs de la statistique classique qui la considérait moins valide que les SEM (au même titre que l’ACP). Dans le contexte actuel de recherche de modèles prédictifs explicables, elle apparaît comme une approche qui a tout son sens en data science.

Vous voulez en savoir plus ?

Partager cet article

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.