Upload
timothee-lamy
View
103
Download
0
Embed Size (px)
Citation preview
M1 2013/2014
Méthodes statistiques
Tableaux, population, échantillon
On rassemble les données dans des tableaux = individus * variables
Une ligne = un « individu statistique » (un interviewé, un abonné, un contrat d’assurance, etc)
Les colonnes = les variables
Population = l’ensemble des individus visés VS échantillon = une partie représentative de cette population cible
Exemple: Population : les consommateurs français, échantillon : les interviewés Plusieurs techniques d’échantillonnage: aléatoirement (c’est la clé de
l’échantillonnage). D’autres méthodes : calage sur marges (respect de certaines proportions en fonction de variable comme l’âge, le sexe, les tranches de revenus, etc)
Caractère = aspect particulier des individus. Qualitatif (non mesurable) ou quantitatif (mesurable : discret ou continu)
Modalités = différentes rubriques associés à un caractère qualitatif. Le sexe comporte deux modalités
Nomenclature = ensemble des modalités précédées d’un code de numéro
Type de données
Données qualitatives Données ne faisant pas l’objet d’une mesure Exemples: sexe, état matrimonial (célibataire, marié, veuf, divorcé)
Données nominales Nombre de cas dénombrables, codés pour distinguer les modalités, aucune
relation d’ordre entre les codes, opérateurs arithmétiques/mathématiques inapplicables
Exemples : CSP, région, civilité ou code produit des nomenclatures.
Données ordinales Nombre de cas dénombrables, codées pour distinguer les modalités, il
existe une relation d’ordre entre les modalités, mais les écart ne sont pas quantifiables, on peut appliquer des calculs
Exemple: satisfaction de 1 à 5, tranches de revenus
Données numériques ou continues quantitatives Nombre de cas théoriquement infini, il existe une relation d’ordre entre les
valeurs, les écarts sont quantifiables, calculs algébrique autorisés
Transformation des données
Chaque type de données possède des méthodes statistiques adaptée d’où la nécessité de faire des transformations préalables
Discrètes -> numériques: codage disjonction complet une nouvelle variable binaire 0/1 par modalité on perd toute notion d’ordre
Numériques -> discrètes : découpage ou discrétisation
Numériques -> numériques Obtenir des distributions plus « normales », correction des effets
d’échelles Standardisation = X – moyennes / écart type Log (), racine () …
Transformation des données
Fonction de répartition: F(x) = proportion d’individus dont la valeur du caractère est inférieure à x.
Transformation log Transformation racine carrée
SAS : premiers pas
Le journal (log), l’explorateur (explorer) et les résultats (output)
Les bibliothèques SAS La bibliothèque « work » est la bibliothèque par défaut de SAS,
les tableaux n’y sont enregistrés que de façon temporaire et disparaissent à la fermeture de la session
Créer un tableau de données – Etape Data A partir d’informations « papiers » À partir d’une autre table
Données manquantes, commentaires, majuscules, renommer des variables
Fusionner deux tables SAS Plusieurs méthodes