Introduction à l'analyse exploratoire des données avec SPSS

C. Préparation des données : Transformer les données

1. Transformer les données

Avant d'effectuer des analyses statistiques, il est souvent nécessaire de modifier les données brutes :

Quelques conseils au moment d'effectuer des transformations de données :


2. Recoder les variables

Pour recoder une variable que ce soit pour regrouper des catégories ou inverser le sens de l'échelle, il faut passer par Transform | Recode | into different variables. Il faut éviter d'utiliser Recode | into same variables, parce que cette option écraserait votre variable initiale.

Exemple: dans la boîte de dialogue Transform | Recode | into different variables, choisissez une (ou plusieurs) variables . Ici on choisit ouv02 comme exemple (une variable tirée de la base de données data.sav).

Figure 18

Dans Output variable, on peut choisir le nouveau nom de la variable, ainsi que l'étiquette de la variable. Puis on sélectionne « change » pour que SPSS puisse faire le lien entre l'ancienne et la nouvelle variable (ouv02 ouv02r). Puis on sélectionne « Old and new values ». Une nouvelle boîte de dialogue s'ouvre où l'on peut préciser l'ancienne valeur à gauche et la nouvelle valeur à droite. A chaque changement de valeur, il faut appuyer sur « Add ».

Lorsqu'il y a des valeurs manquantes dans notre variable initiale, si rien n'est spécifié, alors SPSS attribuera également des valeurs manquantes (Sysmis) à la nouvelle variable.

Lorsque dans un questionnaire plusieurs variables d'une échelle sont codées dans le sens inverse des autres (par exemple ouv02 est un élément de l'échelle de mesure de l'ouverture, avec 1 pas du tout ouvert à 5 tout à fait ouvert, mais ouv02 (je suis bien installé dans mes habitudes) va de 1 tout à fait ouvert à 5 pas du tout ouvert), il est possible de recoder toutes les variables dont l'échelle est inversée pour une même dimension en une seule fois.


3. Construire les indicateurs

Pour construire une nouvelle variable à partir de plusieurs variables de départ, il faut passer par Transform | Compute. Une manière usuelle pour agréger différente variable, c'est d'utiliser la moyenne ou la somme des différentes variables initiales. Pour construire la sous-échelle d'expression de joie, nous allons utiliser la moyenne des deux éléments qui composent cette sous échelle : exp02 (joie) et exp08 (bonheur).

Figure 19

Pour cela, on va sous Transform | Compute. On obtient la boîte de dialogue ci-dessus. On définit le nom de la nouvelle variable (« target variable »), ainsi que le type, l'étiquette et les valeurs en cliquant en haut à gauche sous le nom de la variable. En haut à droite sous « numeric expression » on définit la transformation des variables initiales qu'on souhaite effectuer, ici une moyenne. Les transformations qui peuvent être effectuées sont définies en bas à droite dans « functions and special variables ». En cliquant sur une des fonctions, on obtient au centre de la boîte de dialogue une explication de ce que fait l'opération choisie et comment rentrer les variables initiales (qui se trouvent à gauche dans la boîte).

Au lieu de mettre dans « numerique expression » : MEAN(exp02,exp08), il est possible de calculer la moyenne des items seulement pour les personnes qui ont une valeur valable (non manquante) sur au moins « g » de ces items (sinon, la nouvelle valeur sera manquante). Pour cela il faut spécifier le nombre de valeurs valables après l'expression MEAN : MEAN.g(exp02,exp08). Par exemple, MEAN.2(exp02,exp08) ne fait la moyenne que s'il n'y a pas de valeur manquante. N.B. : Il est recommandé d'avoir au moins 80% de valeurs valables pour calculer le score (la moyenne) d'un échelle. Si on choisit MEAN(exp02,exp08), cela correspond à MEAN.1(exp02,exp08), c'est-à-dire qu'on fait la moyenne au moins une variable (mais pas forcément plus).

Attention : On pourrait aussi calculer la somme de tous les items d'une échelle (Sum). Cependant, il n'est pas évident comment gérer les valeurs manquantes en créant la somme des items - si on enlève tous les cas avec les valeurs manquantes on risque de fortement diminuer l'échantillon. Le remplacement des valeurs manquantes par la moyenne de l'échantillon est aussi problématique! C'est pour cela que calculer la moyenne est recommandé.


4. Transformer les données en utilisant la page syntaxe

Figure 20

Pourquoi travailler avec la page de syntaxe (cf partie A) :



Excercice 3 :

Si vous voulez tester votre connaissance, cliquez ici !



Début de page



This document was created by Elaine Tio | Last modified: 08/01/2007 | Valid HTML | CSS | Page Travaux