| |
 |
StatEL : Analyse en Composantes Principales - ACP |
|
|
|
| |
Cette commande lance la procédure d'analyse d'un tableau de mesures (valeurs numériques présentées par un groupe d'individus ou d'observations pour une série de variables quantitatives) :

1 - Principe de l'Analyse en Composantes Principales :
La représentation graphique d'un tableau de mesures peut se faire très facilement dès lors qu'on dispose de peu de variables : elle sera plane s'il n'existe que 2 variables (l'une donnant l'abscisse de chaque point et l'autre l'ordonnée), elle sera dans l'espace si on y ajoute une 3ème variable (faisant office de côte). La représentation devient impossible si le nombre de variables est supérieur à 3, puisqu'il faudrait pouvoir dessiner un axe pour représenter chaque variable ("hyperespace").
Le principe de l'ACP est de synthétiser l'information contenue dans un tableau de mesures, quel qu'en soit le nombre de variables et d'observations, en détectant les grandes tendances de ce tableau, aussi bien du point de vue des variables que des observations.
L'ACP permet de détecter les axes (= composantes principales) selon lesquels le nuage de points s'éloigne le plus de son centre d'inertie. Ces axes "synthétiques" peuvent être la résultante de l'influence d'une ou plusieurs variables ou observations.
Ainsi, par projection des points (observations ou variables) sur les plans définis par ces nouveaux axes, on a une "photographie" du nuage de points sous l'angle le plus intéressant : celui qui apporte le plus d'informations.
Par analogie, imaginez que quelqu'un tente de vous faire deviner l'identité d'un animal dessiné sur une feuille de papier (à savoir un chameau) en ne vous montrant que sa silhouette vue de face. Rien ne vous garantit qu'il ne s'agit pas en fait d'un dromadaire, simplement parce que l'angle d'analyse n'est pas le plus informatif. Il vous aurait fallu disposer d'une vue de profil pour pouvoir conclure avec certitude qu'il s'agit bien d'un chameau. De la même manière, l'ACP vous fournit les axes (et donc les plans) susceptibles de vous renseigner au mieux sur la forme du nuage de points : ceux qui vous permettront les meilleures photographies.
D'un point de vue technique, il faut recourir au calcul matriciel et à la diagonalisation de la matrice d'inertie. On procède à la transformation du tableau de mesures de la façon suivante, soient :
- un tableau de mesures rassemblant n observations et k variables,
- xij est la mesure pour l'observation i sur la variable j,
- i varie de 1 à n, j varie de 1 à k,
- mj est la moyenne de la variable j considérée,
- Sdj est l'écart-type de la variable j considérée
On obtient ainsi une matrice Z (n, k) qui nous permet de calculer la matrice d'inertie des observations In en prémultipliant Z par sa transposée :
Nous ne détaillerons pas les détails de la diagonalisation de cette matrice d'inertie, mais l'utilisateur intéressé pourra se référer à de nombreux ouvrages qui présentent les techniques d'analyse de données multidimensionnelles, tels que :
- Initiation à l'analyse des données, Jean de Lagarde, 162p, Editions Dunod, 2000.
- Analyses factorielles simples et multiples, Brigite Escoffier et Jérôme Pagès, 284p, Editions Dunod, 2002.
- Analyses factorielles simples, Xavier Bry, 112p, Editions Economica, 1995.
- Analyses factorielles multiples, Xavier Bry, 112p, Editions Economica, 1996.
- etc...
De la diagonalisation, on extrait les x valeurs propres (λ) et la matrice des vecteurs propres (u) qui vont caractériser les nouveaux axes. Les vecteurs propres serviront à la projection des points sur les plans définis par les nouveaux axes, tandis que les valeurs propres (1 par axe) évaluent la quantité de variance (ou d'inertie) du nuage de points expliquée par chaque axe.
A l'issue de l'ACP, on pourra aussi bien représenter les points-observations dans l'espace des variables (représentation directe) que les points-variables dans l'espace des observations (représentation duale). Ces représentations serviront à détecter quelles variables et observations influencent le plus les axes extraits par l'ACP.
Les coordonnées F des observations dans la représentation directe se calculent de la façon suivante :

Les coordonnées des variables dans la représentation duale se calculent de la façon suivante :

La représentation duale a pour particularité que les coordonnées des variables dans l'espace des observations correspondent aux coefficients de corrélation de chaque variable pour les nouveaux axes. On peut ainsi être renseignés sur la signification des axes.
Il est également possible de pondérer les variables ou les observations (par défaut toutes égales à 1), ce qui implique que leur "importance" dans l'ACP s'en trouve modifiée. L'interprétation de l'ACP doit tenir compte de cette pondération.
Enfin, il est possible d'ajouter dans ces représentations des points-observations ou des points-variables supplémentaires ou illustratifs. Ces points ne sont pas utilisés pour définir les caractéristiques des nouveaux axes, mais injectés dans les représentations graphiques pour aider à l'interprétation des nouveaux axes.
Nota bene : l'ACP menée à partir d'un même jeu de données sur différents logiciels peut ne pas fournir les mêmes représentations graphiques, mais des représentations inversées sur certains axes. Il n'y a pas d'erreurs, tout résulte de la façon dont la procédure de diagonalisation a été menée et des hypothèses de calcul qui ont été posées au départ.
En dépit des différences dans l'allure générale des graphiques, vous noterez toutefois que les positions relatives des points restent rigoureusement les mêmes (de même que les résultats des calculs de corrélation,contribution, qualité et distance - cf. ci-après). La particularité d'une ACP est effectivement de procéder à l'analyse de données les unes par rapport aux autres. En analyse factorielle en général, tout est relatif, on n'apporte pas de conclusions à caractère absolu.
2 - Lancement de l'Analyse en Composantes Principales :
Il vous est d'abord demandé de préciser le nombre d'observations du tableau de mesures.
La boîte de dialogue se dévoile ensuite pour laisser apparaître un bouton vous permettant de procéder à la sélection de votre tableau de mesure.
Cliquez sur ce bouton et sélectionnez les variables que vous voulez étudier sans omettre le nom de chaque variable dans la première cellule de chaque colonne.
Vous pouvez sélectionner tout le tableau en une seule fois, ou bien si les colonnes de votre tableau sont disjointes, faîtes votre sélection en plusieurs fois en recliquant sur le bouton "Sélectionner une variable...".
Le nom des variables sélectionnées apparaît dans la liste de la boîte de dialogue qui, par ailleurs, se dévoile une fois de plus pour vous permettre de sélectionner les intitulés des observations.
De la même façon que précédement, cliquez sur le bouton "Sélectionner les intitulés..." et selectionnez les noms de vos observations, en laissant l'intitulé de la colonne en question, qui n'est d'aucun intérêt.
Ceux-ci viennent d'afficher dans la liste ad-hoc.

Sur les versions pour Windows vous noterez que dans les 2 listes (celle des variables et celle des intitulés des observations) une colonne de "1" s'affiche en face de chaque item : il s'agit du poids (= pondération) instauré par défaut. Vous avez la possibilité de modifier le poids d'un item en double-cliquant sur l'item en question, ce qui fait apparaître une nouvelle boîte de dialogue :
La case à cocher en bas à gauche de la boîte de dialogue initiale vous permet de substituer une donnée manquante par la moyenne de la variable considérée. A défaut, une observation pour laquelle une mesure est manquante, sera supprimée de l'analyse.
La case à cocher en bas à droite de la boîte de dialogue permet de dévoiler sa partie droite et offre ainsi la possibilité :
- de transformer une ou plusieurs variables ou observations en item supplémentaire (ou illustratif), il vous suffit pour cela de sélectionner la variable ou l'observation en question et de cliquer sur la flèche ">" pour le basculer en item supplémentaire,
- de choisir de procéder, à l'issue de l'ACP, à une Classification Ascendante Hiérarchique (cf. CAH de l'Aide StatEL_AD) des observations en utilisant leurs coordonnées dans la représentation directe.
3 - Résultats de l'Analyse en Composantes Principales :
Ceux-ci sont affichés dans une nouvelle feuille qui vient se placer juste après celle contenant les données que vous avez sélectionnées pour procéder à l'ACP.
Notez que certaines cellules sont munies de commentaires explicatifs du contenu des cellules concernées (triangle rouge).
En haut à gauche sont rappelés les détails de l'analyse :
- nb de variables,
- nb d'observations,
- nb de facteurs (axes) extraits de l'ACP,
- nb de variables supplémentaires,
- nb d'observations supplémentaires.
Au dessous de ces rappels sont affichées les caractéristiques des nouveaux axes ou facteurs issus de l'ACP, ainsi qu'un résumé de celles-ci sous forme de graphique.
Au centre de la feuille des résultats s'affichent les 2 représentations graphiques directe (des observations) et duale (des variables) selon le plan composé des 2 premiers facteurs de l'ACP. Vous remarquez qu'au dessus de ces graphiques, vous avez la possibilité de modifier les axes des représentations graphiques (abscisse et ordonnée) en agissant sur les flèches "Haut/Bas" (uniquement s'il y a plus que 2 facteurs extraits de l'ACP).
Une case à cocher vous permet d'afficher l'intitulé des points sur les 2 représentations graphiques. Par ailleurs, si vous avez défini certains points supplémentaires, une seconde case à cocher vous permet de les visualiser sur les représentations.
Sur la partie droite de la feuille des résultats sont affichés toutes les données numériques nécessaires à l'analyse des résutats de l'ACP :
- la matrice des coefficients de corrélation de Pearson entre les variables étudiées,
- la matrice des vecteurs propres issus de l'ACP,
- les données relatives à la représentation directe (i.e. des observations dans l'espace des variables),
- les données relatives à la représentation duale (i.e. des variables dans l'espace des observations).
Pour ces 2 derniers items, les données numériques sont de même nature :
- les coordonnées servent à la construction des graphiques,
- les contributions expriment l'importance que revêt chaque observation ou variable dans la variance de chaque facteur (ex : l'observation i intervient pour x% dans l'inertie de l'axe K),
- les qualités de représentation (ou cos²) informent sur l'angle que fait la droite reliant le centre du nuage et le point étudié, avec l'axe considéré. Si ce cos est proche de 1, cela implique que l'angle en question est proche de 0 ; donc si la projection du point est proche de l'axe, le point sera, dans l'espace, effectivement proche de l'axe. Il s'agit donc d'une information capitale dans l'interprétation des axes,
- les distances des points-observations et des points-variables par rapport au centre de gravité du nuage. Notez que les points-variables sont tous situés sur une sphère de rayon 1 dont le centre est le centre de gravité du nuage, tandis que les points-observations peuvent être n'importe où dans l'espace,
- l'inertie exprime le pourcentage de variance du nuage de points expliqué par le point-observation ou le point-variable considéré.

|
|
|
| |
Société
ad Science - 46, Rue Marx Dormoy, 75018 Paris |
|
|
|