Introduction à l'analyse exploratoire des données avec SPSS

C. Préparation des données : Transformer les données

1. Transformer les données

Avant d'effectuer des analyses statistiques, il est souvent nécessaire de modifier les données brutes :

recoder des items (regrouper des catégories, inverser le sens de l'échelle, etc.),
construire des indicateurs (calculer des scores d'échelles, des sous échelles, centrer et réduire un variable, etc.).

Quelques conseils au moment d'effectuer des transformations de données :

Après avoir éliminé les erreurs, gardez toujours un fichier des données brutes.
Avant d'effectuer des modifications, sauvegardez les données sous un autre nom pour conserver le fichier original!
Toutes les variables initiales restent dans le fichier. Les variables recodées obtiennent un nouveau nom.

Pour recoder une variable que ce soit pour regrouper des catégories ou inverser le sens de l'échelle, il faut passer par Transform | Recode | into different variables. Il faut éviter d'utiliser Recode | into same variables, parce que cette option écraserait votre variable initiale.

Exemple: dans la boîte de dialogue Transform | Recode | into different variables, choisissez une (ou plusieurs) variables . Ici on choisit ouv02 comme exemple (une variable tirée de la base de données data.sav).

Figure 18

Dans Output variable, on peut choisir le nouveau nom de la variable, ainsi que l'étiquette de la variable. Puis on sélectionne « change » pour que SPSS puisse faire le lien entre l'ancienne et la nouvelle variable (ouv02 ouv02r). Puis on sélectionne « Old and new values ». Une nouvelle boîte de dialogue s'ouvre où l'on peut préciser l'ancienne valeur à gauche et la nouvelle valeur à droite. A chaque changement de valeur, il faut appuyer sur « Add ».

Lorsqu'il y a des valeurs manquantes dans notre variable initiale, si rien n'est spécifié, alors SPSS attribuera également des valeurs manquantes (Sysmis) à la nouvelle variable.

Lorsque dans un questionnaire plusieurs variables d'une échelle sont codées dans le sens inverse des autres (par exemple ouv02 est un élément de l'échelle de mesure de l'ouverture, avec 1 pas du tout ouvert à 5 tout à fait ouvert, mais ouv02 (je suis bien installé dans mes habitudes) va de 1 tout à fait ouvert à 5 pas du tout ouvert), il est possible de recoder toutes les variables dont l'échelle est inversée pour une même dimension en une seule fois.

3. Construire les indicateurs

Pour construire une nouvelle variable à partir de plusieurs variables de départ, il faut passer par Transform | Compute. Une manière usuelle pour agréger différente variable, c'est d'utiliser la moyenne ou la somme des différentes variables initiales. Pour construire la sous-échelle d'expression de joie, nous allons utiliser la moyenne des deux éléments qui composent cette sous échelle : exp02 (joie) et exp08 (bonheur).

Figure 19

Pour cela, on va sous Transform | Compute. On obtient la boîte de dialogue ci-dessus. On définit le nom de la nouvelle variable (« target variable »), ainsi que le type, l'étiquette et les valeurs en cliquant en haut à gauche sous le nom de la variable. En haut à droite sous « numeric expression » on définit la transformation des variables initiales qu'on souhaite effectuer, ici une moyenne. Les transformations qui peuvent être effectuées sont définies en bas à droite dans « functions and special variables ». En cliquant sur une des fonctions, on obtient au centre de la boîte de dialogue une explication de ce que fait l'opération choisie et comment rentrer les variables initiales (qui se trouvent à gauche dans la boîte).

Au lieu de mettre dans « numerique expression » : MEAN(exp02,exp08), il est possible de calculer la moyenne des items seulement pour les personnes qui ont une valeur valable (non manquante) sur au moins « g » de ces items (sinon, la nouvelle valeur sera manquante). Pour cela il faut spécifier le nombre de valeurs valables après l'expression MEAN : MEAN.g(exp02,exp08). Par exemple, MEAN.2(exp02,exp08) ne fait la moyenne que s'il n'y a pas de valeur manquante. N.B. : Il est recommandé d'avoir au moins 80% de valeurs valables pour calculer le score (la moyenne) d'un échelle. Si on choisit MEAN(exp02,exp08), cela correspond à MEAN.1(exp02,exp08), c'est-à-dire qu'on fait la moyenne au moins une variable (mais pas forcément plus).

Attention : On pourrait aussi calculer la somme de tous les items d'une échelle (Sum). Cependant, il n'est pas évident comment gérer les valeurs manquantes en créant la somme des items - si on enlève tous les cas avec les valeurs manquantes on risque de fortement diminuer l'échantillon. Le remplacement des valeurs manquantes par la moyenne de l'échantillon est aussi problématique! C'est pour cela que calculer la moyenne est recommandé.

4. Transformer les données en utilisant la page syntaxe

Dans la boîte de dialogue d'un menu Transform | ... appuyez sur le bouton « Paste » au lieu de « Ok ». La commande exécutée s'inscrira sur la page de syntaxe.
La syntaxe est un fichier de texte qui peut être sauvegardé (extension .sps) et imprimé. Les commandes peuvent être copiées, collées et changées.
On peut ajouter du texte commentaire qui doit être précédé d'un astérisque et suivi par un point.
Pour exécuter les commandes, on la sélectionne et on envoie la syntaxe en appuyant sur le bouton .

Figure 20

Pourquoi travailler avec la page de syntaxe (cf partie A) :

Transparence : Les commandes peuvent être sauvegardées, imprimées, et contrôlées.
Les commandes enregistrées peuvent être réutilisées dans les séances de travail ultérieures.
Les règles les plus importantes à suivre :
Une commande se compose de son nom (p. ex. recode) et de ses spécifications (p. ex. noms des variables, règle de recodage).
Chaque commande doit débuter sur une nouvelle ligne et se terminer par un point.
Il n'y a pas de lignes vides à l'intérieur d'une commande.

Excercice 3 :

Si vous voulez tester votre connaissance, cliquez ici !

Début de page