12
1 Le temps dans les analyses quantitatives de données Présentation pour le cours SOL6210, Analyse quantitative avancée © Claire Durand , 2018 2 P Tous les processus, accès à la jeunesse comme à l’âge adulte, modification des fonctions assumées, des perceptions, etc., se déroulent dans le temps. P Il est donc primordial et fort pertinent d’en tenir compte dans les analyses P Principe fondamental: Le changement s’explique par le changement Le temps ... en soi 3 P Lorsque l’on travaille avec le temps, il faut < Décider du “groupe à risque”, et par conséquent, de la “période à risque”. < Donc, non seulement auprès de qui on recueille les données mais à partir de quand et jusqu’à quand et... portant sur quelle période (données rétrospectives) Définir, recueillir, décider (1) Les décisions à prendre © Claire Durand, 11/15/2018, 1

Le temps dans les analyses quantitatives de données€¦ · Le temps peut être au niveau 2, par exemple, mois (niveau 2) avec résultats de sondages faits à chaque mois (niveau

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • 1

    Le temps dans les analysesquantitatives de donnéesPrésentation pour le cours SOL6210, Analyse

    quantitative avancée

    © Claire Durand, 2018

    2

    PTous les processus, accès à la jeunessecomme à l’âge adulte, modification desfonctions assumées, des perceptions, etc.,se déroulent dans le temps.

    P Il est donc primordial et fort pertinent d’entenir compte dans les analyses

    PPrincipe fondamental: Le changements’explique par le changement

    Le temps ... en soi

    3

    PLorsque l’on travaille avec le temps, il faut< Décider du “groupe à risque”, et par conséquent,

    de la “période à risque”.< Donc, non seulement auprès de qui on recueille

    les données mais à partir de quand et jusqu’àquand et... portant sur quelle période (donnéesrétrospectives)

    Définir, recueillir, décider (1)Les décisions à prendre

    © Claire Durand, 11/15/2018, 1

  • 4

    PPlusieurs types de données:< Données de type panel: les mêmes personnes

    interrogées à plusieurs reprises– Sur leur situation avant l’entrevue– Sur leur situation au moment de l’entrevue– Sur leur situation entre les moments d’entrevue

    < Données de type longitudinal comprenantplusieurs échantillons– Qui peuvent avoir été recueillis indépendamment

    (plusieurs sondages auprès d’échantillons différentsmais certaines questions identiques)

    – Qui peuvent être recueillies sous forme de sondageroulant (rolling cross-section): on met sur le terrain unnouveau sous-échantillon à chaque jour (pendant unecampagne électorale par exemple).

    Définir, recueillir, décider (2)Les types de données

    5

    < Données de type archive– Statistiques institutionnelles, – Données économiques, taux de chômage, évolution du

    PIB, des salaires, etc.– Données sur les taux de criminalité, de mortalité, etc.

    Définir, recueillir, décider (2)Les types de données (suite)

    6

    PDonnées manquantes à certains moments,censure et troncature< Personnes qui disparaissent, absence d’informations

    pour certaines unités à certains moments: il fautconnaître les raisons de l’absence de données ets’assurer que cette absence est aléatoire, que ça nebiaise pas les analyses

    PDépendance des données dans le temps,autocorrélation< Ce qui fait que le postulat de base des analyses de

    régression ordinaire n’est pas respecté à sa facemême. Ceci biaise l’estimation de la variance.

    Les problèmes associésDeux problèmes principaux

    © Claire Durand, 11/15/2018, 2

  • 7

    P Graphique des transitions (...) (DeGenne, LeBourdais,Renaud, etc. pour exemples)

    P Tapis (ex: Degenne (site du CIQSS): description del’évolution de la situation des finissants)

    P Tables de survie (Renaud, Durand,etc.)P Graphiques de séries chronologiques (Durand,

    Larochelle et Blais, 2005; Durand, 2008, 2011)P Régressions locales (Durand, à partir de 2014).P Classifications de trajectoires (Durand et Lacourse;

    Durand, Pelletier, Wutchiett)

    Que faire? (1)D’abord et avant tout décrire...Visualiser aide à se

    représenter la situation. A cette étape, on peutrepérer des problèmes

    8

    Activité post d.u.t (2 ans) De Genne (2003)

    Rose = CDD; Rouge = CDI; Violet = alternance; Bleu = intérim; Orange = stage; Jaune = Service national;Noir = chômage; Blanc = autre situation;

    Vert = études ; Cyan = non réponse ou inactivité

    9

    PQuel est, quels sont, les événementsd’intérêt?

    PQu’est-ce qui donne la mesure du temps?(jours, mois, années, essais)

    PLe temps est-il discret ou continu?PLes événements qui prédisent ou expliquent

    la variable dépendante se modifient-ils dansle temps?

    PQuelle est la forme de l’évolution dans letemps?

    Que faire (2)Quelques décisions importantes

    © Claire Durand, 11/15/2018, 3

  • 10

    PTables de survie et régressions de survie< S’utilisent quand on a des informations sur un

    événement d’intérêt qui survient à un moment donné;on s’intéresse à ce qui explique la rapidité detransition à l’état d’intérêt

    < Exemple: – Qu’est-ce qui explique la rapidité avec laquelle un immigrant

    se trouve un travail en arrivant dans un pays? A peu prèstous les immigrants finissent par se trouver un travail (d’oùpeu d’intérêt à la régression logistique); ce qui nousintéresse donc, c’est la rapidité d’accession. On peut aussise poser la question de la rapidité d’accession à un travail detel type, dans telle langue, etc.

    Que faire? (3)Multiples analyses disponibles selon la situation

    11

    Table de survie Renaud (1992)

    12

    Régression de survie, prédicteursrapidité d’accès à un emploi

    Renaud(1992)(voir suite p. Suivante)

    © Claire Durand, 11/15/2018, 4

  • 13

    Suite du tableau précédent (3èmecolonne)

    14

    P Séries chronologiques simples ou croisées< Les données sont des informations habituellement

    agrégées pour tous les moments de mesure . S’ilmanque des données à un moment, il y a desprocédures pour “intrapoler”.

    < On peut voir si une série est influencée par desévénements qui surviennent ou par d’autres sériesd’événements, si les séries se distinguent d’une unité --pays, etc.-- à une autre

    < Exemple: suite des taux de chômage pour chaquemois, suite des sondages pendant une campagneélectorale, suite de taux de chômage et de tauxd’inflation (relation entre les deux?), suite de taux devols dans les résidences, etc.

    Que faire? (4)Multiples analyses disponibles selon la situation

    15

    Évolution de l’intention de vote (Canada2011 au Québec), sondages publiés

    Séries chronologiques

    © Claire Durand, 11/15/2018, 5

  • 16

    Évolution de l’intention de voteRéférendum Écosse 2014

    après répartition non proportionnelle des discrets

    17

    Évolution de l’intention de vote pourQuébec Solidaire, selon l’âge

    18

    Évolution de l’intention de vote pour laCoalition Avenir Québec, selon l’âge

    © Claire Durand, 11/15/2018, 6

  • 19

    Une vue synthétique de l’évolution dela confiance institutionnelle par

    région du monde.

    • En moyenne, la confiance est stable• Plus élevée en Asie et en Afrique qu’en Amérique latine.• A diminué beaucoup depuis 2011 en Afrique du Nord &

    Asie de l’Ouest.

    20

    Confiance dans lesinstitutions politiques.

    • Trust lower inSouth/CentralAmerica &WANA.

    • Political parties,lowest in South/CentralAmerica &WANA.

    • Drop in trust ingvt in WANA, inState/President inAsia.

    21

    P Analyses multi-niveaux longitudinales< Dans ce cas, le temps est considéré comme un niveau: les

    diverses mesures prises sont “nichées” dans les individus quipeuvent eux-mêmes être nichés dans des unités (classes,équipes de travail, familles,...).

    < L’intérêt est la flexibilité de la méthode, entre autres parcequ’il n’est pas obligatoire d’avoir des mesures à chaquemoment et au même moment pour tous les sujets.

    < Il faut que le niveau supérieur (2 ou 3) soit un échantillon (n>40).

    < Exemple: évolution de l’emploi durant un certain temps,évolution de la confiance institutionnelle dans le temps pourun certain nombre de pays (échantillon de pays ou depériodes).

    Que faire? (5)Multiples analyses disponibles selon la situation

    © Claire Durand, 11/15/2018, 7

  • 22

    Modèle multiniveaux longitudinal

    P Le temps peut être au niveau 1, par exemple, personnes(niveau 2) avec mesures prises à divers moments (niveau 1)

    poll 1, p2, p3 p1 p2 p1 p2 …..etc.

    time t2

    t3

    t4

    etc. Level 2 Level 1

    poll 1, p2, p3

    time t2

    t3

    t4

    etc. Level 2 Level 1

    time t2

    t3

    t4

    etc. Level 2 Level 1

    Pers1 Pers2

    Pers3

    Pers4

    etc. Level 2 Level 1

    T1 t2 t3 t1 t2 t1 t3

    Le temps peut être au niveau 2, par exemple, mois(niveau 2) avec résultats de sondages faits à chaquemois (niveau 1)

    23

    Évolution de la confianceinstitutionnelle

    24

    Focus sur les niveaux 2 & 3• Individual level:

    ‚ Sex is not significant‚ Compared to middle age:

    • being less than 30: +.009;• being 60+: +.094 .

    ‚ Prop. Non-response:+.003.

    • Niveau pays-année: ‚ Le temps au carré est

    significatif.• Variance explained:

    minimal

    © Claire Durand, 11/15/2018, 8

  • 25

    PAnalyse des trajectoires< Il s’agit de faire une classification des trajectoires

    individuelles pour en arriver à des regroupementsde parcours.

    < Méthode en développement, relativement récentemais en voie d’être intégrée dans les principauxlogiciels.

    < Exemple: Les trajectoires de délinquance entrel’âge de 5 ans et 18 ans, au moyen de mesuressimilaires prises à divers moments durant cettepériode.

    < Problème: prédire le passé avec le futur.

    Que faire? (6)Multiples analyses disponibles selon la situation

    26

    Analyses de trajectoires,avant et après formation, avec

    groupe contrôle (bleu)

    Trajectoires deperformance (NCPI)des interviewers. Groupe rouge: bonneperformance, nonformésGroupe bleu: faibleperformance, nonformésGroupe gris: faibleperformance, formés

    27

    Analyse de trajectoires demesures

    L’évolution de certaines mesures dans le temps:http://www.mapageweb.umontreal.ca/durandc/Reche

    rche/Publications/confiance/WAPOR2018_CD.pdf

    © Claire Durand, 11/15/2018, 9

  • 28

    PAnalyse de variance pour mesures répétées< Analyse relativement traditionnelle en psychologie.

    D’une certaine manière, c’est la base.< L’idée est de faire une intervention et de mesurer la

    variable dépendante à divers moments fixés pouranalyser l’évolution entre les moments.

    < Exemple : – Mesure de la dépression à divers moments durant un

    processus thérapeutique, évolution de la performance enmathématique avant et après une intervention deremédiation, etc.

    < Problème: On ne peut garder que les cas pourlesquels on a de l’information à tous les temps demesure.

    Que faire? (7)Multiples analyses disponibles selon la situation

    29

    PPour la plupart des analyses, il est très importantde se demander quelle forme prend l’évolutiondans le temps en soi ou suite à un événement(voir Effet “Bouchard” pendant la campagneréférendaire de 1995 au Québec, Durand, 2008)

    PL’évolution peut être simplement linéaire mais ellepeut aussi être quadratique en “U”, cubique (enforme de dos de poisson), ...

    PL’effet d’un événement peut être de provoquer unsaut. Il peut aussi provoquer une modification del’évolution: accélération, plafonnement, etc.

    Quelle forme prend l’évolutiondans le temps?

    30

    PPour toutes ces procédures, plus ou moinsfacilement selon les logiciels utilisés, lesvariables indépendantes et dépendantespeuvent être de différents types.

    PLes variables indépendantes peuvent êtrefixes ou varier dans le temps.

    PPour toutes ces procédures, les variablesindépendantes peuvent être entréesensemble (régression standard) ou de façonhiérarchique/ séquencielle.

    Les types d’analyses de prédictionTypes de variables et modes d’entrée

    © Claire Durand, 11/15/2018, 10

  • 31

    PLe choix de l’analyse dépend de plusieursfacteurs, dont la question de recherche, letype de données, les finalités de l’analyse.

    PLa plupart du temps, le choix du typed’analyse est évident. Dans certains cas,plusieurs analyses sont possibles. Desinformations différentes seront mises enévidence selon le type d’analyse mais lesconclusions statistiques seront rarementdifférentes.

    Avantages et inconvénientsQuel type d’analyse choisir?

    32

    PDans les analyses de ce type, il est souventnécessaire de faire des interventions sur lesfichiers< Pour les analyses de survie (tables, régressions de survie),

    il faut “rectangulariser” le fichier (voir procédure restructurerde SPSS) (voir travail sur les fichiershttp://www.mapageweb.umontreal.ca/durandc/menuMethodesQuantitatives.html#travail_fichier).

    < Il faut parfois créer des variables qui indiquent le momentoù un événement survient.

    < Pour les analyses multi-niveaux avec HLM, il faut faire unfichier par niveau (procédures Agréger ou Restructurerdans SPSS)

    Avantages et inconvénientsInterventions sur les données

    33

    P Le logiciel STATA est probablement le plusapproprié pour les régressions de survie mais SPSSréussit généralement à faire la même chose. Stata ades modèles de risques simultanés (competingrisks): équivalent à logistique multinomiale de survie.

    PPour les analyses multi-niveaux, les logicielsspécifiques sont HLM, MLWin, et dans une moindremesure Lisrel, Stata, SPSS, SAS, M+ et R.

    P Le transfert de bases de données d’un logiciel à unautre est habituellement facile. Les logicielsspécifiques lisent les fichiers de SPSS, STATA, R ouSAS.

    Choix des logiciels

    © Claire Durand, 11/15/2018, 11

  • 34

    PAu départ, il peut être plus difficile detravailler sur les fichiers pour pouvoir faire lesanalyses appropriées, MAIS

    PLe jeu en vaut la chandelle. Une fois la basede données créée, tout devient nettementplus simple.

    PNe pas oublier que la première étape est dedécrire...

    Conclusion

    © Claire Durand, 11/15/2018, 12