Introduction à l'analyse exploratoire des données avec SPSS

B. Entrer les données à partir du questionnaire

Il y a plusieurs manières d'entrer les données :

La base de données que nous allons utiliser pour toutes illustrations sera : data.sav.


1. Encoder le questionnaire

Il est recommandé de résumer les informations les plus importantes sur les variables rassemblées dans un « tableau de codage ». Ce tableau de codage à deux utilités à deux moments bien précis :

Le tableau de codage de notre base de données data.sav contient les informations suivantes :

Dans le cas d'une recherche expérimentale, il faut en plus coder la condition dans laquelle on a mesuré les variables dépendantes: variable pour les conditions expérimentales (p. ex. 1 = groupe expérimental, 2 = groupe de contrôle)

Exemple du tableau de codage de notre data.sav

Variable Variable label Value label
id Numéro d'identification
exp1-exp12 Expressivité*
  1. = jamais ou presque jamais
  2. = parfois
  3. = souvent
  4. = presque toujours ou toujours
bf1 - bf20 Big Five (adjectives)*
  1. = pas du tout
  2. = tout à fait
age Age
natio Nationalité
  1. suisse
  2. allemande
  3. français
  4. italien
  5. autre

* Pour une vue générale sur les variables qui sont mesurées dans une étude, il suffit de donner le nom du questionnaire dans le tableau de codage (p.e.x, « Big Five » pour les 20 items). Dans le fichier SPSS, on peut entrer le contenu de chaque item dans « Variable label » (p.ex., bf1: « amical », bf2: « chaleureux »).


2. Créer un nouveau fichier de données dans SPSS

Figure 11

3. Comment coder les réponses ?

Comment coder les variables alphanumériques/série de caractères ?

Exemple : Code d'un sujet (MAPRGE) dans des études longitudinales

Solution : entrez les caractères et définissez la variable comme chaîne de caractère (String)


Comment coder les réponses à réponses courtes ?

Exemple :

Quelle est votre nationalité ? _______________

Solution : Codez les réponses ouvertes avec des valeurs numérique (1 = suisse, 2 = française, etc.) en faisant une liste


Comment coder les réponses multiples ?

Exemple :

Quelles occupations/loisirs avez-vous régulièrement? (plusieurs réponses sont possibles)

Activités culturelles (expositions, concerts, lecture, université 3e âge, etc.)

Activités physiques (natation, marche, club de sport, etc.)

Bricolage (tricot, jardinage, etc.)

Animal domestique

Instrument de musique

Internet, e-mail

Autre : _____________________________________________________

Solution :


Comment coder les réponses ouvertes ?

Exemple :

Qu'est ce que ces loisirs vous apportent ?

_____________________________________________________________________________________________________________________________

_____________________________________________________________________________________________________________________________

Solution :


4. Comment coder les valeurs manquantes ?

Conseil et remarques :

5. Réduire les erreurs en entrant les données

Format de réponse -- - 0 + ++
sujet à erreur -2 -1 0 1 2
mieux 1 2 3 4 5

6. Eliminer et insérer des observations/variables dans la vue de données

7. Fusionner des fichiers de données

Ajouter des observations

On a deux fichiers contenant des variables similaires, mais des observations différentes (par exemple, saisie d'une moitié des questionnaires par Paul et saisie de l'autre moitié par Pierre avec pour but d'avoir un et un seul fichier à la fin). Pour cela il faut ouvrir le premier fichier, c'est-à-dire celui qui sera pour nous notre fichier de travail. A partir du menu, faites Data | Merge files | Add cases : cherchez votre deuxième fichier.

La boîte de dialogue qui apparaît vérifie si les deux fichiers contiennent les mêmes variables (avec les mêmes noms). Par défaut, toutes les variables de même nom seront incluses Si ce n'est pas le cas, les variables non appariées se trouvent dans la section « Unpaired Variables ».

Attention : Il est important que le nom des variables, ainsi que le type, l'étiquette et les valeurs et les données manquantes soient définis exactement de la même manière dans les deux fichiers, sinon SPSS définira une variable avec même nom comme « Unpaired variables » (fenêtre de gauche) - toujours vérifier que les variables communes aux deux fichiers qui nous intéressent se trouvent bien dans « Variables in new working data file ».


Figure 12

Les variables qui apparaissent seulement dans un fichier de données peuvent quand même être ajoutées en appuyant sur (les cas de l'autre fichier qui n'ont pas de valeurs à ces variables reçoivent des valeurs manquantes = Sysmis)

S'il y a des variables dans les deux fichiers qui mesurent la même chose mais qui ne portent pas le même nom (p.ex. par erreur), on peut les apparier. Pour faire cela, il faut sélectionner les deux variables (on sélectionne la deuxième variable en pressant sur la touche CTRL), puis appuyer sur « Paired », on obtient ainsi dans « Variables in new working data file », une nouvelle variable qui se nomme var1 et var2 (dans le fichier fusionné, la variable portera le nom du premier fichier (le fichier de travail)).

Une fois toutes les variables qui nous intéressent sélectionnées, il faut cliquer sur Ok, ce qui ajoute les observations du deuxième fichier au premier. On a maintenant un nouveau fichier de données. Si nous sauvons ce fichier en faisant File | Save, cela va écraser le premier fichier. Ce qu'il faut faire c'est File | Save as et on obtient ainsi une nouvelle base de données, différentes des deux initialement utilisées pour sa création.

Ajouter des variables

Si on a deux fichiers contenant les mêmes sujets, mais avec des variables différentes (par exemple, deux expériences différentes avec le même groupe de sujets avec pour but d'avoir des informations supplémentaires sur nos sujets venant de l'autre expérience). Pour cela il faut ouvrir le premier fichier, c'est-à-dire celui qui sera pour nous notre fichier de travail. A partir du menu, faites Data | Merge files | Add variables : cherchez votre deuxième fichier.

Pour pouvoir effectuer cette manipulation, il faut impérativement avoir une variable « clé » pour identifier les différentes observations (p. ex. par un code) et pouvoir fusionner les données. Les valeurs de cette variable clé doivent être identiques (p.ex. une variable alphanumérique doit être entrée de la même façon - par rapport aux majuscules/minuscules et nombre de caractères - attention aux espaces après les derniers caractères !)

Figure 13

Une fois toutes les variables qui nous intéressent sélectionnées, il faut cliquer sur Ok, ce qui ajoute les variables du deuxième fichier sélectionnées au premier. On a maintenant un nouveau fichier de données. Si nous sauvons ce fichier en faisant File | Save, cela va écraser le premier fichier. Il est beaucoup plus prudent de sélectionner File | Save as ... On obtient ainsi une nouvelle base de données, différentes des deux initialement utilisées pour sa création.

8. Utiliser Excel pour entrer les données dans SPSS

Créer une grille de données avec Excel

Importer les données dans SPSS

Figure 14

Figure 15

Figure 16

9. Utiliser un fichier texte pour entrer les données dans SPSS

Créer une grille de données avec un fichier texte

Importer les données dans SPSS

10. Eliminer les erreurs de l'entrée de données

Deux types d'erreurs possibles : a) la valeur fausse est une valeur dans l'étendue des valeurs valables ou b) la valeur fausse est une valeur en dehors de l'étendue des valeurs valables.

On peut repérer les erreurs du type (a) qu'en comparant les données vraies avec les données entrées. Mais cela est très coûteux, d'où l'importance d'être très minutieux en entrant les données ! Donc seules les erreurs de type (b) peuvent être repérées et éliminées après l'entrée des données.

Pour cela, il faut inspecter les valeurs minimales et maximales de toutes les variables en passant par Analyze | Descriptive Statistics | Frequencies. Il faut sélectionner toutes les variables numériques (en utilisant la souris ou les touches SHIFT et ) et ajoutez-les dans la section droite , puis cliquez dans « Statistics », choisissez « Minimum » et « Maximum ».

Figure 17

Dans la page des résultats, le tableau « frequencies » peut être pivoté en double-cliquant sur le tableau et cliquant sur le menu Pivot | Transpose rows and columns ce qui rend le tableau plus facile à lire.

S'il y a des valeurs dehors de l'étendue valable :

Attention : Après avoir trouvé la cellule avec une valeur fausse, il semble peut-être plus facile de noter le numéro de la ligne dans la grille de données (au lieu d'aller via le menu). Mais le numéro de la ligne ne doit pas être identique avec le numéro d'identification du cas !!! (p. ex. si le fichier a été trié par une autre variable ou si la variable d'identification a des valeurs manquantes)



Excercice 2 :

Si vous voulez tester votre connaissance, cliquez ici !



Début de page



This document was created by Elaine Tio | Last modified: 08/01/2007 | Valid HTML | CSS | Page Travaux