Introduction à l'analyse des données longitudinales

Droits de reproduction et de diffusion réservés © Sciences Humaines 2003

1

Introduction à l’analyse des données longitudinales

Alain Degenne Directeur de recherche au CNRS

2 novembre 2001


2

Remerciements Marie-Odile Lebeaux est coauteur de plusieurs articles dont sont extraits certains des exemples utilisés. Elle en a assuré la mise en forme pour cet ouvrage. Elle a également été une lectrice attentive et critique du manuscrit. Qu’elle en soit ici vivement remerciée. Nos remerciements vont aussi à Dominique Beynier pour sa lecture du manuscrit et ses conseils.


3

Introduction

La plupart des enquêtes représentatives réalisées en France sont des enquêtes ponctuelles. Elles visent à étudier la situation des personnes interrogées ou leurs opinions à un moment donné. Pour ce type d’étude, on peut garantir l’anonymat aux enquêtés. Dans divers domaines cependant, on s’intéresse aux histoires personnelles c’est-à-dire à des successions d’événements qui concernent les personnes. C’est le cas par exemple des panels épidémiologiques. Actuellement, un grand nombre de femmes volontaires sont suivies médicalement afin de voir quelles sont celles qui développeront un cancer du sein. Outre que cette surveillance permettra un traitement rapide de l’affection pour celles qui en seront victimes, les nombreux renseignements recueillis sur leurs antécédents et leur mode de vie permettront peut-être de mieux comprendre les causes de la maladie. Dans un but d’administration, de nombreux fichiers sont constitués qui prennent en compte des histoires individuelles ou des séquences de vie. Les caisses de retraite enregistrent toute l’histoire professionnelle de leurs adhérents afin de pouvoir calculer le moment venu le montant de la pension. Les assurances automobiles tiennent un compte précis des accidents déclarés par leurs clients de manière à moduler leurs primes en fonction du principe du bonus-malus. Le ministère de l’Éducation nationale enregistre les histoires scolaires d’un grand nombre d’élèves de manière à mieux connaître les circonstances de la réussite et de l’échec scolaire des jeunes. Dans ces projets les personnes sont suivies nominalement. D’autres enquêtes qualifiées de rétrospectives sont réalisées ponctuellement mais portent sur des éléments d’histoires individuelles que l’on fait raconter aux personnes enquêtées.

Les sociologues connaissent bien les histoires de vie, ils en recueillent fréquemment par des entretiens, mais il est plus rare qu’ils disposent de données extensives qui tiennent compte du


4

temps et de l’évolution des phénomènes. Dans différents domaines, on a vu récemment se développer cette préoccupation et cela s’est accompagné d’un effort pour analyser ce que l’on appelle couramment des données longitudinales. Ce terme est un anglicisme mais il est tellement entré dans le langage courant que l’on a renoncé à lui substituer un mot mieux adapté à la langue française, qui pourrait être données diachroniques.

La description des phénomènes est une part essentielle et prépondérante dans ce travail. Il y a au moins deux raisons à cela :

- Peu d’enquêtes sont réalisées dans le but de tenir compte de la durée. On a donc une faible connaissance des faits sociaux pris sous cet angle.

- Les théories sont souvent très simplificatrices, c’est le cas par exemple pour le marché du travail qui nous servira d’exemple privilégié, il convient donc de bien décrire les phénomènes dans leurs enchaînements afin de proposer des hypothèses nouvelles.

Décrire, modéliser, expliquer sont les axes de cette présentation au demeurant très générale et qui vise à informer le lecteur afin qu’il s’oriente vers d’autres ouvrages plus complets ou vers des formations. Quelques ouvrages de base sont cités en bibliographie.

Dans un premier temps, nous présenterons à travers quelques

exemples, l’intérêt de la prise en compte de l’évolution des phénomènes dans le temps et nous montrerons que l’on peut ainsi éviter des interprétations fausses.

Dans un second temps nous présenterons de façon simple des procédures courantes d’analyse fondées sur une modélisation des observations.

La théorisation fait souvent défaut et c’est là que l’on mesure les faiblesses du travail sociologique sur des données longitudinales. L’expérience montre cependant qu’elles peuvent apporter beaucoup dans ce domaine. Paradoxalement les sociologues qui n’hésitent pas à parler de changement, à évoquer de nouvelles situations, une nouvelle


5

organisation sociale, utilisent très peu le temps dans leurs investigations. La plupart des concepts utilisés en sociologie concernent la structure sociale qu’ils permettent de décrire à un moment donné. Ce n’est que très récemment que l’on s’est intéressé à de grandes évolutions que les séries d’enquêtes constituées depuis la dernière guerre mondiale permettent d’appréhender. La démographie est bien considérée traditionnellement comme une branche de la sociologie mais les méthodes qu’elle a développées sont encore très peu enseignées dans le cursus de sociologie. La durée nécessaire pour qu’un phénomène se produise est en particulier rarement prise en compte. Nous allons ici montrer l’intérêt de ces approches et exposer de façon aussi peu technique que possible les principes de différentes méthodes d’analyse.

6

Chapitre 1 : Types de données Chapitre 1 : Types de données 1-1 Les grandes évolutions 1-1 Les grandes évolutions Nous ne prendrons qu’un exemple, celui de la structure socioprofessionnelle de la France et de son évolution depuis deux siècles. Marchand et Thélot (1997) ont reconstitué les chiffres qui permettent de suivre les transformations de la structure de la population active.

Nous ne prendrons qu’un exemple, celui de la structure socioprofessionnelle de la France et de son évolution depuis deux siècles. Marchand et Thélot (1997) ont reconstitué les chiffres qui permettent de suivre les transformations de la structure de la population active. On constate ainsi sur le graphique 1-1 qui donne une représentation schématique mais très suggestive, la diminution constante de la part du secteur agricole, l’augmentation du secteur industriel et du bâtiment jusque dans les années 1970 puis sa diminution et dans le même temps l’impressionnant accroissement de la part des services.

On constate ainsi sur le graphique 1-1 qui donne une représentation schématique mais très suggestive, la diminution constante de la part du secteur agricole, l’augmentation du secteur industriel et du bâtiment jusque dans les années 1970 puis sa diminution et dans le même temps l’impressionnant accroissement de la part des services. Il serait bien peu raisonnable de prétendre analyser la situation actuelle de notre pays sans avoir présent à l’esprit ce bouleversement qui affecte nécessairement toutes les relations professionnelles.

Il serait bien peu raisonnable de prétendre analyser la situation actuelle de notre pays sans avoir présent à l’esprit ce bouleversement qui affecte nécessairement toutes les relations professionnelles.

Graphique 1-1 : Population active par grands secteurs


0

10

20

30

40

50

60

70

80

1806 1831 1841 1851 1861 1872 1881 1891 1901 1911 1926 1936 1949 1962 1974 1985 1996

Années

Taux

Agriculture Industrie et Bâtiment Tertiaire


7

Le temps là n’est pris en compte que pour mettre en évidence des phénomènes globaux mais suivant le moment où les personnes sont nées et la période où elles ont vécu, leur histoire n’a pas été la même.

Le temps là n’est pris en compte que pour mettre en évidence des phénomènes globaux mais suivant le moment où les personnes sont nées et la période où elles ont vécu, leur histoire n’a pas été la même. Sur le graphique 1-2 nous avons représenté à partir des données de Marchand et Thélot l’évolution très schématisée de la courbe du taux d’activité des femmes en fonction de l’âge à trois époques : 1911, en 1962 et en 1990.

Sur le graphique 1-2 nous avons représenté à partir des données de Marchand et Thélot l’évolution très schématisée de la courbe du taux d’activité des femmes en fonction de l’âge à trois époques : 1911, en 1962 et en 1990. Les différents recensements ont permis de connaître le taux d’activité des femmes et des hommes dans chaque tranche d’âge. On voit clairement qu’en 1911, près de 70 % des jeunes femmes (moins de 25 ans) travaillent et que leur nombre décroît jusqu’à 35 ans où 45 % sont en emploi. Ce taux remonte ensuite très légèrement puis décroît à nouveau.

Les différents recensements ont permis de connaître le taux d’activité des femmes et des hommes dans chaque tranche d’âge. On voit clairement qu’en 1911, près de 70 % des jeunes femmes (moins de 25 ans) travaillent et que leur nombre décroît jusqu’à 35 ans où 45 % sont en emploi. Ce taux remonte ensuite très légèrement puis décroît à nouveau. On peut penser que certaines femmes quittent le marché du travail pour élever leurs enfants. Quelques-unes y reviennent et n’abandonnent leur activité qu’à la retraite.

On peut penser que certaines femmes quittent le marché du travail pour élever leurs enfants. Quelques-unes y reviennent et n’abandonnent leur activité qu’à la retraite. En 1962, la courbe est stable au départ, autour de 45 %, jusqu’à 55ans où elle décroît. Enfin dans la période récente, les jeunes femmes pénètrent le marché du travail entre 30 et 35 ans et y demeurent pour plus de la moitié d’entre elles. La courbe ressemble de plus en plus à celle que l’on obtient pour les hommes.

En 1962, la courbe est stable au départ, autour de 45 %, jusqu’à 55ans où elle décroît. Enfin dans la période récente, les jeunes femmes pénètrent le marché du travail entre 30 et 35 ans et y demeurent pour plus de la moitié d’entre elles. La courbe ressemble de plus en plus à celle que l’on obtient pour les hommes.

Graphique 1-2 : Taux d'activité des femmes selon l'âge

0

10

20

30

40

50

60

70

80

90

20 25 30 35 40 45 50 55 60 65 70

Age

%

1911 1962 1990

8

Ces courbes sont très instructives et montrent clairement les évolutions. Il faut cependant noter que l’on ne représente pas ici des histoires individuelles mais seulement ce que l’on appelle des stocks. Ce graphique n’indique pas les transformations du cycle de vie des femmes mais simplement la structure de la population active en fonction de l’âge. Ce n’est qu’une suite de photographies et l’on ne sait rien des histoires individuelles. On ne peut pas, avec des données de ce type, savoir si les femmes qui font des aller et retour sur le marché du travail sont nombreuses ou non.

Ces courbes sont très instructives et montrent clairement les évolutions. Il faut cependant noter que l’on ne représente pas ici des histoires individuelles mais seulement ce que l’on appelle des stocks. Ce graphique n’indique pas les transformations du cycle de vie des femmes mais simplement la structure de la population active en fonction de l’âge. Ce n’est qu’une suite de photographies et l’on ne sait rien des histoires individuelles. On ne peut pas, avec des données de ce type, savoir si les femmes qui font des aller et retour sur le marché du travail sont nombreuses ou non.

Graphique 1-3 : Diagramme de Lexis


0

10

20

30

40

50

60

70

80

90

1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010

Génération née en 1910Génération née en 1920Génération née en 1930


9

On rencontre ainsi l’intérêt qu’il y a à raisonner en termes de génération ou de cohorte. Une génération est l’ensemble des personnes qui sont nées dans un même intervalle de temps, par exemple entre 1900 et 1910. Une cohorte est un ensemble de personnes soumises à un même événement sur un même intervalle de temps (par exemple les personnes qui se sont mariées en 1992). Il existe évidemment une liaison simple entre la période de naissance des personnes, c’est-à-dire la génération à laquelle elles appartiennent et leur âge. Le diagramme dit de Lexis, du nom du démographe qui l’a proposé, rend compte de cette liaison et fait apparaître les différentes générations. On distinguera maintenant deux grandes catégories de données, les histoires individuelles et les enquêtes répétées. 1-2 - Les histoires individuelles Les histoires individuelles proviennent d’enquêtes qui fournissent des renseignements sur les mêmes individus à différents moments de leur existence. L’information peut être recueillie au cours du temps, à des instants proches des événements enregistrés ou en une seule fois de manière rétrospective. Dans ce cas on sollicite la mémoire de l’enquêté. Compte tenu des modèles que nous voulons présenter ici, nous supposerons toujours que les informations que nous traitons sont datées. Néanmoins, certaines caractéristiques individuelles comme par exemple les diplômes pourront être traitées comme ayant un effet indépendant du temps. Les histoires individuelles peuvent provenir d’informations recueillies pour des besoins d’administration ou de gestion des personnes. C’est par exemple ce qui se passe avec les déclarations que les entreprises sont tenues de faire à échéance régulière de leur personnel salarié. C’est aussi ce qui se passe avec les enfants scolarisés en France. Le service statistique du


10

ministère de l’Education nationale relève les informations recueillies dans les établissements scolaires sur chaque enfant. Il constitue ainsi au fil des années l’histoire du cursus de chacun. Dans ce cas c’est l’année scolaire qui sert de référence. Les enfants peuvent changer d’établissement mais la centralisation de la collecte permet de les suivre au cours de leurs migrations. C’est ce que l’on appelle les panels d’élèves. On obtient des données de nature sensiblement différente lorsqu’on recueille par exemple les informations enregistrées par des services d’assistance sur les personnes qui sont venues y déposer une demande. La demande peut être déposée par des personnes d’âge et de situation très différents. L’enregistrement de la demande est bien daté mais on dispose de très peu d’information sur les personnes et souvent on ne sait pas ce qu’elles deviennent ensuite. Il est néanmoins possible dans certains cas de s’intéresser à ce type de données car elles concernent des personnes qui ont en commun de connaître des difficultés, ce qui constitue une population qu’il n’est pas facile d’identifier par d’autres moyens.

Voici un exemple d’analyse qui requiert la prise en compte des “ carrières individuelles ”, c’est-à-dire qu’il suppose que l’on connaisse la situation des mêmes individus au cours du temps.

Ces résultats ont été mis en forme par Gabriel Langouët et Alain Léger (1991) à partir des données des panels d’élèves réalisés par les services du ministère de l’Éducation nationale.

Observons la proportion des élèves qui fréquentent l’enseignement privé à un moment donné. Elle varie peu comme le montre le tableau ci-dessous :

Tableau 1-1 : Pourcentages d’élèves dans l’enseignement privé Années 1960-1961 1970-1971 1975-1976 1980-1981 1985-1986 Elémentaire 15,8 14,1 13,7 13,9 14,2 Secondaire 22,6 20,1 19,5 20,1 21 Source : Langouët et Léger, 1991


11

Mais le panel d’élèves permet de voir que le choix du type d’établissement varie au cours du temps. Certains élèves passent du public au privé ou du privé au public, cependant que d’autres font toute leur scolarité dans le public ou dans le privé. Langouët et Léger ont utilisé les données permettant de suivre les élèves entrés en 6ème en 1973 d’une part et en 1980 d’autre part. Comme le montre le tableau ci-dessous, si l’on compte tous les usagers de l’enseignement privé, on atteint presque 35 % des élèves dans le dernier panel.

Tableau 1-2 : Part des différentes carrières scolaires

1 2 3 4 2+4 2+3+4 Tout public Transfert en

public Tout privé Transfert en

privé Total des transferts

Total des usagers du

privé

Ensemble

Panel 1973-74

67,2 7,3 9,9 15,6 22,9 32,8 100 % (25 007)

Panel 1980

65,1 8,4 9,6 17,0 25,4 34,9 100 % (20 222)

Source : Langouët et Léger, 1991

Ces pourcentages varient en particulier en fonction de la catégorie sociale du chef de famille et de la région dans laquelle se trouve la famille. Les transferts ont aussi une signification stratégique : “ A l’arrivée en seconde, 41,6 % des transfuges sont en retard contre 30,6 % des élèves stables. Dans le panel 1973-74, ces taux étaient respectivement de 45,9 % contre 32,4 %. Les transferts en cours de cursus restent donc bien un comportement de recours en cas d’échec. ” En travaillant non plus sur les élèves mais sur les fratries, les auteurs montrent que le pourcentage de familles qui utilisent les deux formes d’enseignement est d’autant plus élevé que les parents ont eux-mêmes été “ transfuges ” pendant leur scolarité. On voit donc ici l’apport spécifique de l’approche longitudinale. Elle permet de classer les familles en fonction de leurs stratégies scolaire à long terme et non plus seulement du système dans


12

lequel sont les élèves à un instant donné. Ceci permet d’aborder autrement la question de la réussite scolaire (redoublements, rattrapage, etc.) et du rôle des deux types d’enseignement.

1-3 Les enquêtes ponctuelles répétées Obtenir des informations sur les mêmes personnes à des dates différentes soulève, on l’a vu, de gros problèmes. Il est plus facile de faire des enquêtes similaires à des périodes successives mais en tirant à chaque fois un nouvel échantillon. En France il existe en gros deux catégories d’enquêtes répétitives, les enquêtes d’opinion qui sont réalisées sur de petits échantillons et les grandes enquêtes nationales telles que celles de l’Insee ou de certains ministères. Un bon exemple est fourni par l’enquête Formation, qualification professionnelle de l’Insee. La première a été réalisée en 1964 auprès de 22 782 personnes. Elle fut suivie de quatre autres FQP2 auprès de 37 843 personnes en 1970, FQP3, 39 000 personnes en 1977, FQP4, 39 200 personnes en 1985 et 18 300 en 1993. Par sa répétition, environ tous les 7 ou 8 ans, l’enquête donne donc une série de photographies et permet ainsi de connaître l’évolution de grandes catégories sociales, mais on demande également aux personnes interrogées quelle était leur situation professionnelle 5 ans avant l’enquête. On a donc ici une combinaison de deux méthodes qui permet d’avoir en plus une idée de l’évolution des carrières des personnes. L’enquête FQP est particulièrement bien conçue pour étudier les transformations de la structure de la population active mais aussi la mobilité professionnelle puisque le questionnaire enregistre depuis 1964 la situation professionnelle du père au moment où l’enquêté quitte le système scolaire. Ultérieurement la demande s’est étendue aux deux parents puis aux grands-pères et au beau-père (Vallet,1999).

13

Regardons le graphique ci-dessous, il est inspiré d’un article de Christian Baudelot (1982, Baudelot et Gollac, 1997) et montre l’évolution des salaires mensuels moyens des ouvriers en fonction de l’âge. Ces salaires sont extraits d’un échantillon permanent constitué à partir des déclarations annuelles de salaires effectuées par les entreprises.

Regardons le graphique ci-dessous, il est inspiré d’un article de Christian Baudelot (1982, Baudelot et Gollac, 1997) et montre l’évolution des salaires mensuels moyens des ouvriers en fonction de l’âge. Ces salaires sont extraits d’un échantillon permanent constitué à partir des déclarations annuelles de salaires effectuées par les entreprises.

Graphique 1-4 : Evolution des salaires mensuels moyens des ouvriers en fonction de l'âge


21-25 ans 26-30 ans 31-35 ans 36-40 ans 41-45 ans 46-50 ans 51-55 ans 56-60 ans

Génération née entre 1955 et 1940

Génération née entre 1925 et 1930 Génération née entre

1920 et 1925

Observation en 1970

Observation en 1965

Observation en 1960

Observation en 1955

Observation en 1950

Salaires

Observation en 1975

On observe dans chaque enquête que le salaire dépend de l’âge et qu’il commence par croître pour décroître ensuite. Cette baisse du salaire au-delà de 45 ans a de quoi surprendre. Elle a d’ailleurs longtemps posé problème aux analystes qui cherchaient à l’expliquer en termes de perte de compétitivité par exemple.

On observe dans chaque enquête que le salaire dépend de l’âge et qu’il commence par croître pour décroître ensuite. Cette baisse du salaire au-delà de 45 ans a de quoi surprendre. Elle a d’ailleurs longtemps posé problème aux analystes qui cherchaient à l’expliquer en termes de perte de compétitivité par exemple. Il faut considérer que les ouvriers qui avaient entre 21 et 25 ans en 1950 avaient entre 26 et 30 ans en 1955 et entre 31 et 35 ans en 1960, etc. Si nous joignons les points correspondants pour dessiner la courbe qui représente le salaire moyen de chaque cohorte d’ouvriers en fonction de l’âge, nous constatons que celui-ci ne diminue pas. Il est constamment croissant. En réalité,

Il faut considérer que les ouvriers qui avaient entre 21 et 25 ans en 1950 avaient entre 26 et 30 ans en 1955 et entre 31 et 35 ans en 1960, etc. Si nous joignons les points correspondants pour dessiner la courbe qui représente le salaire moyen de chaque cohorte d’ouvriers en fonction de l’âge, nous constatons que celui-ci ne diminue pas. Il est constamment croissant. En réalité,


14

à âge égal, dans cette période que l’on a appelé les trente glorieuses, la croissance était telle que chaque génération gagnait à âge égal un peu plus que la génération précédente. Ce graphique montre clairement le bénéfice que l’on peut tirer d’enquêtes répétées. On ne connaît pas ici d’histoires individuelles mais on peut suivre des classes d’âge et cela est suffisant pour éviter une interprétation erronée.

Il s’agit bien entendu de salaires moyens et ceci n’empêche pas non plus que certains ouvriers gagnent moins à la fin de leur vie professionnelle que quelques années plus tôt.

La prise en compte du temps évite donc un véritable contresens sur le rapport entre âge et salaire chez les ouvriers.


15

Chapitre 2 : Effet d’âge, effet de génération

L’enquête Emploi du temps réalisée par l’INSEE en 1985-86 permet de mesurer le temps que les personnes enquêtées consacrent à certaines activités ménagères. On constate par exemple (voir tableau ci-dessous) que le temps passé par les femmes en couple sans enfant au ménage et à la préparation des repas augmente avec l’âge. Nous n’avons retenu que les femmes en couple sans enfant car le temps consacré à ces tâches dépend fortement du nombre d’enfants.

Tableau 2-1 : Temps passé aux activités ménagères en 1985-1986 (en minutes

par jour) Classes d’âges <31 31-43 44-56 57-69 70-82 83 et + Années de naissance Après 1954 1943-54 1931-42 1919-30 1907-18 Avant 1907

471 161 407 857 264 41 44,81 50,82 73,84 89,03 99,28 92,66 31,62 35,62 53,19 62,84 64,25 45,99

N Cuisine Ménage Repassage 8,90 11,14 13,32 14,77 13,37 5,50 D’après l’enquête Emploi du temps de l’INSEE 1985-1986 La même enquête a été reprise en 1997-1998 et nous permet de voir quel temps les femmes en couple sans enfant consacrent à ces deux catégories d’activité douze ans plus tard.

Tableau 2-2 : Temps passé aux activités ménagères en 1997-1998 (en minutes par jour) Classes d’âges <31 31-43 44-56 57-69 70-82 83 et + Années de naissance Après 1966 1955-66 1943-54 1931-42 1919-30 Avant 1919

297 99 434 662 601 72 35,59 50,04 64,92 80,28 91,21 86,22 38-52 42,83 61,16 72,31 72,25 66,74

N Cuisine Ménage Repassage 7,01 10,99 18,09 19,50 15,65 4,86 D’après l’enquête Emploi du temps de l’INSEE 1997-1998

Chacune de ces deux enquêtes permet de voir que les femmes jusqu’à 70 ans au moins passent d’autant plus de temps à préparer les repas qu’elles sont plus âgées. Le même constat peut être fait pour le ménage.

16

S’agit-il d’un effet de l’âge, c’est-à-dire qu’une même génération de femmes consacre de plus en plus de temps en vieillissant à ces travaux, ou est-ce plutôt un effet de génération, c’est-à-dire que les personnes nées en 1910 ou 1920 auraient pris des habitudes qui font qu’elles passeraient plus de temps aux tâches ménagères que les jeunes femmes nées trente ans après ?

S’agit-il d’un effet de l’âge, c’est-à-dire qu’une même génération de femmes consacre de plus en plus de temps en vieillissant à ces travaux, ou est-ce plutôt un effet de génération, c’est-à-dire que les personnes nées en 1910 ou 1920 auraient pris des habitudes qui font qu’elles passeraient plus de temps aux tâches ménagères que les jeunes femmes nées trente ans après ? Si c’est un effet de l’âge, ce peut être une évolution du comportement liée au cycle de vie. Cette hypothèse s’argumenterait par exemple en disant que l’expérience acquise au cours de la vie donne aux femmes des compétences, une efficacité qui les rendent plus performantes et leur rend aussi ces tâches plus faciles voire plus agréables. Une autre hypothèse serait que, bien que ces tâches leur apparaissent contraignantes, les femmes obtiennent de leur entourage lorsqu’elles les exécutent, des gratifications symboliques qui font que peu à peu elles s’habituent à les faire régulièrement. On peut imaginer d’autres hypothèses pour argumenter un effet d’âge. Mais peut-être est-ce plutôt un effet de génération. Ceci signifierait pour la cuisine par exemple qu’il y a un changement dans les mœurs, que l’on se nourrit autrement, en particulier en achetant des plats tout préparés qu’il suffit de réchauffer au micro-ondes et que ceci touche particulièrement les jeunes, dans ce cas il n’y aurait pas lieu de s’attendre à ce que les jeunes femmes d’aujourd’hui consacrent plus de temps à la préparation des repas en vieillissant.

Si c’est un effet de l’âge, ce peut être une évolution du comportement liée au cycle de vie. Cette hypothèse s’argumenterait par exemple en disant que l’expérience acquise au cours de la vie donne aux femmes des compétences, une efficacité qui les rendent plus performantes et leur rend aussi ces tâches plus faciles voire plus agréables. Une autre hypothèse serait que, bien que ces tâches leur apparaissent contraignantes, les femmes obtiennent de leur entourage lorsqu’elles les exécutent, des gratifications symboliques qui font que peu à peu elles s’habituent à les faire régulièrement. On peut imaginer d’autres hypothèses pour argumenter un effet d’âge. Mais peut-être est-ce plutôt un effet de génération. Ceci signifierait pour la cuisine par exemple qu’il y a un changement dans les mœurs, que l’on se nourrit autrement, en particulier en achetant des plats tout préparés qu’il suffit de réchauffer au micro-ondes et que ceci touche particulièrement les jeunes, dans ce cas il n’y aurait pas lieu de s’attendre à ce que les jeunes femmes d’aujourd’hui consacrent plus de temps à la préparation des repas en vieillissant. La représentation que nous proposons ci-dessous, à partir des données dont nous disposons permet de répondre au moins partiellement à cette question.

La représentation que nous proposons ci-dessous, à partir des données dont nous disposons permet de répondre au moins partiellement à cette question.

Age Graphique 2-1 : Effet d'âge et de génération


20

30

40

50

60

70

80

90

Années 1985 1987 1989 1991 1993 1995 1997

92,7

99,3

89,0

73,8

50,8

44,8

86,2

91,2

80,3

64,9

50,0






Temps passé à la cusine en 1985-86

Temps passé à a cuisine 1997-98

35,6


17

Il s’agit d’un diagramme de Lexis qui présente les données concernant le temps passé à préparer les repas. En abscisse figure le temps, en ordonnée l’âge. Les traits pleins relient les points correspondants dans chaque enquête à une même génération. Par exemple, la génération née en 1950 a 35 ans en 1985 et 47 ans en 1997. Les traits pointillés mettent en relation les points correspondant à des personnes de même âge dans chacune des deux enquêtes. Dans un cas comme dans l’autre, il ne s’agit pas de courbes, les points intermédiaires entre les deux enquêtes n’ont pas de signification. Les temps passés à faire la cuisine dans les deux enquêtes sont donnés pour chaque catégorie d’âge. Lorsqu’on considère les temps passés à faire la cuisine pour les femmes de chaque génération en 1985 d’une part et en 1997 d’autre part, on constate qu’il augmente pour les femmes nées en 1960, 1948, 1936, 1924. Il diminue un peu pour les générations les plus anciennes. Donc pour les personnes de 30 à 60 ans, avec douze ans de plus, elles passent plus de temps à faire la cuisine. L’augmentation est de 6 à 14 minutes. Comparons maintenant les générations entre elles mais à âge égal, c’est-à-dire suivons les lignes pointillées. A 37 ans l’enquête de 1985 nous indique que celles qui sont nées en 1948 consacrent 50,8 minutes par jour à la cuisine et l’enquête de 1997 indique que celles qui sont nées en 1960 y consacrent 50,04 minutes. C’est à peu près le même temps. Si nous regardons les générations précédentes, nous constatons que l’on passe de 74 à 65 minutes, de 89 à 80, de 99 à 91. Donc d’une génération à celle qui la suit douze ans plus tard, le temps passé à faire la cuisine diminue légèrement.

18

Les deux phénomènes semblent se renforcer : en vieillissant chaque génération consacre plus de temps à la cuisine et les jeunes femmes passent moins de temps que leurs grandes sœurs ou leur mère à cette tâche.

Les deux phénomènes semblent se renforcer : en vieillissant chaque génération consacre plus de temps à la cuisine et les jeunes femmes passent moins de temps que leurs grandes sœurs ou leur mère à cette tâche. Le lecteur pourra se rendre compte en construisant lui-même le graphique correspondant à partir du tableau 3-2 que l’on observe un effet différent pour le ménage. Il y a bien un effet d’âge qui fait que l’on consacre un peu plus de temps à cette activité lorsqu’on avance en âge mais il y a aussi un effet de génération qui fait que les jeunes générations y passent plus de temps que leurs aînées.

Le lecteur pourra se rendre compte en construisant lui-même le graphique correspondant à partir du tableau 3-2 que l’on observe un effet différent pour le ménage. Il y a bien un effet d’âge qui fait que l’on consacre un peu plus de temps à cette activité lorsqu’on avance en âge mais il y a aussi un effet de génération qui fait que les jeunes générations y passent plus de temps que leurs aînées. Avec un autre mode de représentation, peut-être plus courant qui s’apparente à ce que l’on a vu au chapitre 1 pour les salaires des ouvriers, on peut illustrer les courbes qui correspondraient à un pur effet de génération ou à un pur effet d’âge. Voici une illustration de ce que serait un pur effet de génération. Dans ce cas, le temps passé à préparer les repas ne dépend absolument pas de l’âge des personnes. Il y a trois générations. Les personnes nées en 1900 ont 20 ans en 1920 et 80 ans en 1980. Celles qui sont nées en 1920 ont 20 ans en 1940 et 60 ans en 1980. Le temps consacré à la préparation des repas est constant quel que soit l’âge dans chaque génération mais il varie d’une génération à l’autre.

Avec un autre mode de représentation, peut-être plus courant qui s’apparente à ce que l’on a vu au chapitre 1 pour les salaires des ouvriers, on peut illustrer les courbes qui correspondraient à un pur effet de génération ou à un pur effet d’âge. Voici une illustration de ce que serait un pur effet de génération. Dans ce cas, le temps passé à préparer les repas ne dépend absolument pas de l’âge des personnes. Il y a trois générations. Les personnes nées en 1900 ont 20 ans en 1920 et 80 ans en 1980. Celles qui sont nées en 1920 ont 20 ans en 1940 et 60 ans en 1980. Le temps consacré à la préparation des repas est constant quel que soit l’âge dans chaque génération mais il varie d’une génération à l’autre. Pur effet de génération : Pur effet de génération :


60

65

70

75

80

85

90

95

100

105

1910 1920 1930 1940 1950 1960 1970 1980 1990 2000

Génération née en 1900



Temps consacré à la cuisine en minutes par jour

Femmes de 20 ans

Femmes de 40 ans

Femmes de 60 ans

Graphique 2-2 : Pur effet de génération


19

Pur effet d’âge : Pur effet d’âge :

Le temps passé à préparer les repas varie en fonction de l’âge mais les courbes correspondant à des générations successives sont identiques et se déduisent l’une de l’autre par translation dans le temps.

Le temps passé à préparer les repas varie en fonction de l’âge mais les courbes correspondant à des générations successives sont identiques et se déduisent l’une de l’autre par translation dans le temps.

Effets d’âge et de génération combinés : Effets d’âge et de génération combinés :

75

80

85

90

95

100

105

1910 1920 1930 1940 1950 1960 1970 1980 1990

Temps passé à la cuisine en minutes par jour


Génération née en 1910 Génération née

en 1920

Femmes de 20 ans

Femmes de 30 ans

Femmes de 40 ans

Femmes de 50 ans

Graphique 2-3 : Pur effet d'âge

70

75

80

85

90

95

100

105

110

115

1910 1920 1930 1940 1950 1960 1970 1980 1990 2000

Temps passé à la cuisine en minutes par jour




Femmes de 30 ans

Femmes de 40 ans

Femmes de 50 ans

Femmes de 60 ans

Graphique 2-4 : Effets d'âge et de génération combinés


20

Dans l’hypothèse représentée sur le graphique ci-dessous, il y a diminution du temps passé à préparer les repas d’une génération à celle qui la suit mais augmentation en fonction de l’âge dans une même génération. Nous ne pouvons pas présenter des courbes aussi lisibles sur notre exemple parce que nous ne disposons que de deux enquêtes en 1985 et 1997 ce qui fait que les courbes se réduisent à deux points. L’effet d’âge et l’effet de génération peuvent aussi se combiner avec des effets de période. Un événement comme une guerre ou une épidémie, voire même une mode passagère, peuvent affecter des courbes d’évolution en touchant les personnes en fonction de leur âge et de leur génération mais seulement pour un temps limité. Le lecteur pourra se reporte, pour un exemple à Blossfeld (1986).


21

Chapitre 3 : Étude descriptive des durées 3-1 Fonction de survie et quotients instantanés

Considérons pour fixer les idées une épidémie dans un village.

Elle touche d’abord peu de personnes puis s’étend plus rapidement. Ensuite, elle ralentit au fur et à mesure que la population non touchée se raréfie. On peut représenter en fonction du temps le nombre des personnes non encore victimes de l’épidémie. C’est une courbe décroissante que l’on appelle fonction de survie, Ces termes viennent en fait de la démographie et en particulier du calcul actuariel où l’on s’intéresse à la survie des individus, par exemple pour calculer des primes d’assurances.

Soit donc S(t) la fonction de survie qui est définie comme la probabilité pour que l’instant T auquel l’individu décède soit supérieur ou égal à t :

S t P T t( ) ( )= ≥ avec 0<t<∞ S(0)=1 S(∞)=0.


22

Graphique 3-1 : Fonction de survie

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 1 2 3 4 5 6 7 8 9

temps

%

Dans bien des applications, il ne s’agit pas de mort et de survie mais du temps qu’il faut pour qu’un événement quelconque survienne. En particulier, les exemples que nous présentons ici concernent le plus souvent le marché du travail. La courbe de survie représentera donc le pourcentage des chômeurs qui n’ont pas encore trouvé un emploi à l’instant t ou qui n’ont pas encore perdu leur emploi à l’instant t. Nous nous conformons dans ce qui suit à l’usage qui est de raisonner en proportions plutôt qu’en pourcentages. On s’intéresse alors à la rapidité avec laquelle la fonction de survie décroît. Celle-ci correspond à la pente de la tangente à chaque instant t. La fonction qui la représente en fonction du temps est appelée densité de probabilité et se définit lorsqu’on suppose le temps continu par : f t dS t

dt( ) ( )

=

Pour simplifier notre illustration, nous remplaçons dans le tableau ci-dessous les variations instantanées par les écarts

23

∆S(t)=S(t+1)-S(t). Les courbes continues que nous représentons sont ainsi déduites d’une succession de points mais elles donnent une bonne idée de la forme que l’on obtiendrait si l’on travaillait avec un découpage plus fin du temps.

∆S(t)=S(t+1)-S(t). Les courbes continues que nous représentons sont ainsi déduites d’une succession de points mais elles donnent une bonne idée de la forme que l’on obtiendrait si l’on travaillait avec un découpage plus fin du temps. t = t = 0 0 1 1 22 33 44 55 6 6 7 7 88S(t) S(t) 1

,0

1,0

0,97

0,97

0,91

0,91

0,80

0,80

0,65

0,65

0,35

0,35

0,15

0,15

0,05

0,05

0,02

0,02

∆S(t) 0,03

0,06

0,09

0,15

0,3

0,2

0,1

0,03

∆S(t)/S(t)=h(t)

0,03

0,07

0,11

0,23

0,85

1,33

2 1,5

Cumuls : H(t)

0,03

0,11

0,22

0,55

1,40

2,73

4,73

6,23

Graphique 3-2 : Quotients instantanés et quotients cumulés


0

0 1 2 3 4 5 6 7 8 9

Quotients cumulés

Quotients instantanés

7

6

5

4

3

2

1


24

On appelle quotient instantané le rapport entre f(t) et S(t). Ce n’est pas une probabilité, il peut dépasser 1. Il représente néanmoins, pour chaque instant t, la chance que l’on a d’être touché par le phénomène, compte tenu du fait qu’on ne l’a pas encore été.

h t f tS t

dS tdt

S t( ) ( )

( )

( )

( )= =

Ce quotient instantané qui est aussi appelé fonction de hasard (hazard function) est la base de la plupart des analyses. C’est en effet sur son évolution que l’on formule en général des hypothèses. Cependant ses variations peuvent être assez désordonnées, c’est pourquoi on préfère en général représenter les quotients cumulés, comme ci-dessus. On note H(t) la fonction des quotients cumulés. Le temps étant supposé continu, H(t)=-LogS(t) Voici un exemple qui concerne la sortie du chômage de personnes inscrites pour la première fois à l’ANPE en 1993 (Degenne, Lebeaux, 1999). Pour chacune, l’instant 0 est le moment de son inscription comme demandeur d’emploi. La fonction de survie montre donc la proportion de personnes toujours dans le fichier au bout d’un temps donné. Les hommes sortent plus vite que les femmes. Cette fonction permet aussi de voir que la moitié de la population sort de cette période de chômage en 6 mois environ, 5 mois pour les hommes et 7 mois pour les femmes. Ce sont les valeurs qui correspondent pour l’une et l’autre courbe à une ordonnée égale à 50 %.


25

Graphique 3.3 – Fonction de survie par sexe – Première période de chômage

0 ,0

0 ,2

0 ,4

0 ,6

0 ,8

1 ,0

1 ,2

0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 0 2 2 2 4 2 6 2 8 3 0 3 2 3 4 3 6 3 8 4 0 4 2 4 4 4 6 4 8 5 0 5 2 5 4 5 6 5 8

H o m m e sF e m m e sT o ta l

Source - Fichier historique de l’ANPE (au 1/10ème) – Entrants entre juillet 93 et juin 94 La courbe des quotients cumulés est plus lisible. Elle permet de mieux distinguer les différences entre les deux catégories.


26

Graphique 3-4 – Fonction de risque cumulé par sexe – Première période de chômage

-1 ,0

0 ,0

1 ,0

2 ,0

3 ,0

4 ,0

5 ,0

0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 0 2 2 2 4 2 6 2 8 3 0 3 2 3 4 3 6 3 8 4 0 4 2 4 4 4 6 4 8 5 0 5 2 5 4 5 6 5 8

H o m mF e m mT o ta l

Source - Fichier historique de l’ANPE (au 1/10ème) – Entrants entre juillet 93 et juin 94 Comment se présente alors une analyse ? Une idée simple consiste à comparer la courbe de quotients cumulés pour des populations caractérisées par des valeurs différentes d’une variable “ explicative ”, c’est-à-dire d’une variable qui est supposée avoir un effet sur le phénomène. Nous traiterons ce cas au chapitre suivant. Il est toujours possible de chercher à faire ainsi des comparaisons purement descriptives entre des catégories d’individus. C’est une logique qui s’apparente à celle des tableaux croisés, mais il y a plusieurs sortes de problèmes qui peuvent conduire à compliquer le modèle. Nous en aborderons deux : la troncature ou censure d’une part et le fait que les populations étudiées sont hétérogènes par rapport au comportement étudié d’autre part. Repérons d’abord les problèmes.


27

3-2 La troncature ou censure : l’estimateur de Kaplan-Meier Dans le cas des sorties du chômage le problème est assez simple. Pour tous ceux qui trouvent un travail avant le moment où l’on fait l’étude, on connaît exactement la durée de la période de recherche d’emploi, mais pour ceux qui ne trouvent pas d’emploi dans la période d’observation, on ne sait pas combien de temps ils mettront. On peut envisager bien sûr d’éliminer ces cas mais ceci n’est envisageable que s’ils sont peu nombreux. Il y a une autre cause qui affecte la qualité de l’information, c’est que certains individus disparaissent du fichier et que l’on ne sait pas quel est leur sort. S’ils changent de région ou cessent d’être en contact avec l’agence, nous ne savons pas s’ils retrouvent du travail ni à quel moment. D’autre part, comme on suit une cohorte, en fin de processus, le nombre d’individus soumis au risque de connaître l’événement étudié devient faible dans le cas général et les quotients instantanés peuvent alors connaître des fluctuations ininterprétables. Si l’on veut alors calculer une durée moyenne ou ajuster une fonction à ces courbes et en estimer les paramètres, cette troncature à droite va fausser les estimations. La moyenne par exemple sera systématiquement sous-estimée. Le problème de la troncature est généralement plus compliqué que dans le cas présent. Jean-Claude Ray, par exemple, évoque (Ray, 1988) le cas des études de marketing où, quand on cherche à savoir quand un bien semi durable a été acheté, les personnes enquêtées se déclarent incapables de le dire. Il y a troncature à gauche, on sait que l’événement a eu lieu avant la période où a commencé l’observation mais on n’en connaît pas la date. Le cas général peut se représenter de la manière suivante :


28

Graphique 3-5

t=0 t=66

Individu 1Individu 2

Individu 3

Individu 5Individu 4

Individu 7

Individu 6

Le traitement des troncatures à droite est relativement aisé parce qu’on dispose d’information sur le rythme auquel les événements surviennent pour certaines personnes au moins. On peut donc utiliser cette information pour faire une estimation approximative des données manquantes. C’est mieux que de ne rien faire du tout. Le traitement des troncatures à gauche est plus délicat parce qu’on ne dispose d’aucune information sur ce qui se passe avant la période d’observation. Certaines méthodes ont cependant été proposées (Courgeau, Lelièvre, 1989) mais nous n’aborderons pas cette question. Voyons le traitement le plus simple des troncatures à droite. La manière la plus générale de poser le problème est de considérer que l’on observe des individus à partir d’un instant t0 et que l’on cherche à savoir à savoir à quel moment un événement va se produire, par exemple le fait qu’il trouve un emploi. C’est une situation classique dans un panel. Pour tous ceux qui trouveront un emploi pendant la période d’observation, le problème est simple, nous enregistrons la date de l’événement. Mais au cours du temps d’observation, différentes personnes vont disparaître de l’échantillon, soit par décès, soit par départ, soit par refus de continuer à participer au panel. Pour celles-ci, la date de l’événement n’est pas connue. D’autres ne connaîtront pas non


29

plus l’événement avant la fin de l’observation. Ceci change simplement le taux de chômage résiduel estimé à cette date. Soit t0 l’instant initial, c’est-à-dire le début des observations, et tf l’instant final. Nous supposerons ici que cette période d’observation (t0 , tf ) est divisible en intervalles aussi petits que l’on veut de telle sorte que chacun d’entre eux ne contienne qu’un seul des événements observés – une seule sortie de chômage dans le cas qui nous occupe. Soit Ni le nombre des individus au chômage juste après l’instant ti-1. Ce sont les individus soumis au risque de sortir du chômage à ce moment-là, c’est-à-dire dans l’intervalle élémentaire ]ti-1,ti] qui contient ti mais pas ti-1. Notons qi-1 la probabilité de sortir du chômage précisément dans l’intervalle ]ti-1,ti]. Puisque nous avons supposé que cet intervalle est suffisamment petit pour qu’une seule sortie de chômage puisse s’y produire, par définition,

1/Ni si c’est l’un des intervalles où se produit une sortie de chômage qi-

1=

0 sinon

La probabilité de ne pas sortir du chômage dans cet intervalle est donc

Ni-1/Ni si c’est l’un des intervalles où se produit une sortie de

chômage pi-1= 1-qi-1=

1 sinon

On estime alors la fonction de survie à l’instant ti, c’est-à-dire la probabilité de sortir du chômage après l’instant ti, par


30

110 ....)( −= ii ppptS Pour tous les intervalles ]tj-1,tj] où il n’y a pas de sortie du chômage, pj-1 est égal à 1. Donc la prise en compte de ces intervalles ne change rien dans la formule ci-dessus. Il suffit de considérer dans l’ordre les intervalles où il y a une sortie de chômage.

Pour tous les intervalles ]t

Ainsi, en supposant qu’il y a K sorties de chômage et donc K instants correspondants : Ainsi, en supposant qu’il y a K sorties de chômage et donc K instants correspondants :

j-1,tj] où il n’y a pas de sortie du chômage, pj-1 est égal à 1. Donc la prise en compte de ces intervalles ne change rien dans la formule ci-dessus. Il suffit de considérer dans l’ordre les intervalles où il y a une sortie de chômage.

- Pour tous les instants antérieurs à la première sortie du chômage : - Pour tous les instants antérieurs à la première sortie du chômage : S(t) = 1 S(t) = 1 - Pour chacun des K-1 instants ti correspondant aux K-1 premières sorties du chômage : - Pour chacun des K-1 instants t

i correspondant aux K-1 premières sorties du chômage :

NjNjptS

ij

jj

ij

j

1)(11

−== ∏∏

=

=

=

=

- Pour tous les instants postérieurs à l’avant-dernière sortie, c’est-à-dire pour l’instant de la dernière sortie et pour tous les instants suivants :

- Pour tous les instants postérieurs à l’avant-dernière sortie, c’est-à-dire pour l’instant de la dernière sortie et pour tous les instants suivants :

NjNjptS

Kj

jj

Kj

j

1)(11

−== ∏∏

=

=

=

=

Cette procédure d’estimation de Kaplan-Meier pour la courbe de survie à l’instant t s’obtient comme le produit des probabilités correspondant aux instants où il y a apparition du phénomène observé, c’est-à-dire aux instants où quelqu’un trouve un emploi. On voit aisément que l’hypothèse que deux événements successifs ne se produisent pas sur le même intervalle

Cette procédure d’estimation de Kaplan-Meier pour la courbe de survie à l’instant t s’obtient comme le produit des probabilités correspondant aux instants où il y a apparition du phénomène observé, c’est-à-dire aux instants où quelqu’un trouve un emploi. On voit aisément que l’hypothèse que deux événements successifs ne se produisent pas sur le même intervalle


31

élémentaire ne complique pas le calcul. Par exemple si deux sorties de chômage se produisent au même instant tj, nous aurons un premier facteur

élémentaire ne complique pas le calcul. Par exemple si deux sorties de chômage se produisent au même instant t

j, nous aurons un premier facteur

j

jj N

Np

1−=

qui sera multiplié par un second facteur qui sera multiplié par un second facteur

12

−

−=

j

jj N

Np

en définitive nous pourrons utiliser à cet instant directement en définitive nous pourrons utiliser à cet instant directement

j

jj N

Np

2−=

et d’une façon plus générale si nj individus sortent du chômage à cet instant et d’une façon plus générale si n

j individus sortent du chômage à cet instant

j

jjj N

nNp

−=

Supposons à titre d’exemple que l’on observe pendant 20 mois 12 jeunes sortant du système scolaire. On note le moment où ils trouvent leur premier emploi. Certains disparaissent, on ne retrouve plus leur adresse.

Supposons à titre d’exemple que l’on observe pendant 20 mois 12 jeunes sortant du système scolaire. On note le moment où ils trouvent leur premier emploi. Certains disparaissent, on ne retrouve plus leur adresse. Quatre individus quittent le panel, respectivement au deuxième, au troisième, au cinquième et au huitième mois, d’autres trouvent Quatre individus quittent le panel, respectivement au deuxième, au troisième, au cinquième et au huitième mois, d’autres trouvent


32

du travail, un au premier mois, un au quatrième mois, deux au septième mois, un au quinzième mois et un au dix-huitième mois. du travail, un au premier mois, un au quatrième mois, deux au septième mois, un au quinzième mois et un au dix-huitième mois. A chaque instant on va donc d’abord estimer pi puis S(t) comme produit. A chaque instant on va donc d’abord estimer p

i puis S(t) comme produit.

tj =Mois où des individus trouvent un emploi

t Nj = nombre d’individus soumis au risque

N nj= nombre d’individus qui trouvent un emploi à l’instant considéré

n qj=nj/Nj pj= pNj-nj/Nj

S(t)= probabilité pour que l’instant t de sortie du chômage soit supérieur à tj

1 1 12 12 1 1 0,08 0,08 0,92 0,92 0,92 0,92 4 4 9 9 1 1 0,11 0,11 0,89 0,89 0,82 0,82 7 7 7 7 2 2 0,29 0,29 0,71 0,71 0,58 0,58 15 15 4 4 1 1 0,25 0,25 0,75 0,75 0,44 0,44 18 18 3 3 1 1 0,33 0,33 0,67 0,67 0,29 0,29 20 20 2 2 0 0 0 0 1 1 0,29 0,29

j =Mois où des individus trouvent un emploi

j = nombre d’individus soumis au risque

j= nombre d’individus qui trouvent un emploi à l’instant considéré

qj=nj/Nj j= Nj-nj/Nj

S(t)= probabilité pour que l’instant t de sortie du chômage soit supérieur à tj

Graphique 3-6 : Courbe de survie (Estimation de Kaplan-Meyer Graphique 3-6 : Courbe de survie (Estimation de Kaplan-Meyer 1 0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Temps t

S(t)

Estimation de Kaplan- Meyer

Estimation sans prise en compte des censures


33

Ce principe d’estimation est celui de Kaplan-Meyer. Il suppose le temps discontinu mais lorsqu’il y a un grand nombre d’événements ou de disparitions intervenant à des instants quelconques sa mise en œuvre peut s’avérer lourde.

Ce principe d’estimation est celui de Kaplan-Meyer. Il suppose le temps discontinu mais lorsqu’il y a un grand nombre d’événements ou de disparitions intervenant à des instants quelconques sa mise en œuvre peut s’avérer lourde. L’estimation actuarielle qui repose sur l’idée d’un temps continu s’inspire des mêmes principes mais se fonde sur des intervalles. L’estimation de S(t) se fait par :

L’estimation actuarielle qui repose sur l’idée d’un temps continu s’inspire des mêmes principes mais se fonde sur des intervalles. L’estimation de S(t) se fait par :

⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛

−−∏=

≤ii

i

tti mN

ntS

i

21

1)(/

où ni est le nombre d’événements durant l’intervalle, Ni la population soumise au risque au début de l’intervalle et mi le nombre d’observations interrompues durant cet intervalle.

où n

La plupart des programmes informatiques proposent les deux méthodes d’estimation exposées. Il en existe d’autres mais nous n’entrerons pas ici dans le détail, c’est le principe de l’opération qui doit surtout être retenu.

La plupart des programmes informatiques proposent les deux méthodes d’estimation exposées. Il en existe d’autres mais nous n’entrerons pas ici dans le détail, c’est le principe de l’opération qui doit surtout être retenu.

i est le nombre d’événements durant l’intervalle, Ni la population soumise au risque au début de l’intervalle et mi le nombre d’observations interrompues durant cet intervalle.

L’estimation est non paramétrique, elle ne fait aucune hypothèse sur la forme des distributions des quotients instantanés, elle se contente de tenir compte du fait que certains individus sont sortis de l’échantillon.

L’estimation est non paramétrique, elle ne fait aucune hypothèse sur la forme des distributions des quotients instantanés, elle se contente de tenir compte du fait que certains individus sont sortis de l’échantillon.

3-3- L’hétérogénéité de la population. 3-3- L’hétérogénéité de la population. En considérant les deux courbes d’accès à l’emploi on peut se demander si une partie des jeunes femmes ne sont pas dans une situation différente des autres. Même si la qualification peut évoluer, le niveau de formation initiale et le fait d’avoir un diplôme au moins égal au Baccalauréat donne de bien meilleures chances de trouver un emploi.

En considérant les deux courbes d’accès à l’emploi on peut se demander si une partie des jeunes femmes ne sont pas dans une situation différente des autres. Même si la qualification peut évoluer, le niveau de formation initiale et le fait d’avoir un diplôme au moins égal au Baccalauréat donne de bien meilleures chances de trouver un emploi. Si l’analyse mélange les deux populations, on va systématiquement surestimer le temps moyen d’accès au premier Si l’analyse mélange les deux populations, on va systématiquement surestimer le temps moyen d’accès au premier


34

emploi et la proportion des moins qualifiés va être de plus en plus importante dans la partie de la population soumise au risque, au fur et à mesure que le temps passe. Les quotients vont donc diminuer au bout d’un certain temps. On pourra ainsi faire une interprétation erronée si l’on en déduit que la probabilité d’accès à l’emploi diminue à partir d’un certain temps. En fait elle peut être stable et d’un certain niveau pour une partie de la population et d’un autre niveau, plus faible, pour le reste. La conséquence est que la simple description du phénomène étudié demande une certaine modélisation et que, sauf cas particulier, on ne peut pas se contenter de faire le calcul sans tenir compte des facteurs d’hétérogénéité les plus importants. Cependant l’analyse descriptive la plus poussée est toujours très utile avant de se lancer dans une modélisation.


35

Chapitre 4 : Mise en relation de phénomènes

Les courbes de survie et de risques cumulés fournissent une description du rythme avec lequel les phénomènes se produisent, mais on cherche en général à atteindre une explication, c’est-à-dire à mettre en rapport ce rythme avec des caractéristiques individuelles ou encore avec d’autres phénomènes du même type. Nous avons vu que le chômage ne touche pas de la même manière les hommes et les femmes puisque les courbes ne se confondent pas. C’est donc une première manière pour aborder l’explication que d’étudier les courbes de survie en éclatant la population en fonction de certaines caractéristiques observées. Nous verrons une seconde méthode, proposée par Courgeau et Lelièvre, qui consiste à étudier chaque fois que c’est possible les interactions entre des phénomènes qui manifestement ne peuvent pas être indépendants, c’est-à-dire que l’intervention de l’un modifie les conditions d’apparition de l’autre. La troisième méthode, la régression, va requérir un plus grand effort de modélisation. On écrira que le quotient instantané concernant l’apparition d’un phénomène dépend d’un certain nombre de paramètres, mais comme par définition il dépend du temps, on sera amené à faire des hypothèses sur cette dépendance pour que l’estimation des paramètres soit possible. 4-1 L’hétérogénéité observée La méthode est d’une grande simplicité et s’apparente à ce que l’on fait lorsqu’on construit des tableaux croisés de variables, on compare simplement les courbes de survie et de quotients cumulés pour des sous-populations. L’exemple ci-dessous illustre cette démarche : il concerne la durée du premier emploi après la première période de chômage enregistrée dans le fichier historique par l’ANPE. On a construit les courbes de survie d’une


36

part et de quotients cumulés d’autre part par catégories de diplômes. On observe ainsi deux phénomènes : d’une part le risque de perdre son emploi est fortement dépendant du diplôme ; les diplômes du supérieur protègent nettement contre le risque et ce d’autant plus qu’ils sont de niveau élevé. Le baccalauréat n’apparaît que peu protecteur. D’autre part il apparaît un net effet des contrats à durée déterminée d’un an en particulier. A 12 mois en effet on voit une inflexion de la courbe. Ce phénomène dû en partie aux contrats soutenus par les mesures gouvernementales touche beaucoup moins les diplômés du supérieur que les autres catégories.


37

Graphique 4-1 - Fonction de survie par niveau de formation

Durée de l’emploi après la période de chômage des entrants 07/93-06/94

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58

S

Sup+Sup1BacNiv5ANiv5B6

Source : Fichier Historique de l’ANPE (au 1/10ème)

Graphique 4-2 - Fonction de risque cumulé par niveau de formation

Durée de l’emploi après la période de chômage des entrants 07/93-06/94


38

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58

H

Sup+Sup1BacNiv5ANiv5B6

Source : Fichier Historique de l’ANPE (au 1/10ème)

Jusqu’à maintenant, nous sommes restés dans la description des phénomènes. Nous allons présenter deux voies pour aller plus loin en abordant des calculs qui visent à intégrer des variables explicatives. La première étudie les interactions entre deux événements, la seconde introduit des variables explicatives que l’on va mettre en relation avec les paramètres d’un modèle à travers une régression. 4-2 Les événements en interaction Daniel Courgeau et Eva Lelièvre ont analysé les données de l’enquête “ Triple biographie ” qu’ils ont réalisée à l’Ined. Cette enquête rétrospective a permis de connaître, pour chaque famille enquêtée, les dates des événements familiaux (mariages, naissances, etc.), les dates des migrations (déménagements,


39

déplacements) et les dates des événements importants survenus dans l’exercice professionnel. C’est une source très riche qui permet la mise en relation, dans un esprit longitudinal, d’événements de natures diverses.

déplacements) et les dates des événements importants survenus dans l’exercice professionnel. C’est une source très riche qui permet la mise en relation, dans un esprit longitudinal, d’événements de natures diverses. Ces auteurs étudient (Courgeau, Lelièvre, 1986) l’influence réciproque du mariage et de la sortie de l’agriculture pour les hommes et les femmes. Leur question peut se résumer ainsi : Est-ce que l’événement « quitter l’agriculture » va se produire plus vite une fois que les agriculteurs ou les agricultrices se sont mariés que quand ils ne le sont pas, et inversement est-ce que le mariage interviendra plus vite chez les agriculteurs ou les agricultrices que chez ceux ou celles qui ont quitté la terre. Le principe est l’étude des distribution des quatre catégories de quotients instantanés que l’on voit figurés sur le graphique ci-dessous.

Ces auteurs étudient (Courgeau, Lelièvre, 1986) l’influence réciproque du mariage et de la sortie de l’agriculture pour les hommes et les femmes. Leur question peut se résumer ainsi : Est-ce que l’événement « quitter l’agriculture » va se produire plus vite une fois que les agriculteurs ou les agricultrices se sont mariés que quand ils ne le sont pas, et inversement est-ce que le mariage interviendra plus vite chez les agriculteurs ou les agricultrices que chez ceux ou celles qui ont quitté la terre. Le principe est l’étude des distribution des quatre catégories de quotients instantanés que l’on voit figurés sur le graphique ci-dessous. Graphique 4-3 Graphique 4-3

Agriculteurs et agricultrices célibataires

Anciens agriculteurs et agricultrices

Agriculteurs et agricultrices mariés

Anciens agriculteurs et agricultrices mariés

Mariage Mariage

Départ de l’agriculture

La méthode consiste donc à comparer le temps mis pour se marier (courbe de survie dans le célibat) par d’anciens agriculteurs ou d’anciennes agricultrices qui ont quitté la terre avec celui des hommes et des femmes restés agriculteurs. De même, on compare les courbes de survie dans le métier d’agriculteur des hommes et des femmes suivant qu’ils sont ou

La méthode consiste donc à comparer le temps mis pour se marier (courbe de survie dans le célibat) par d’anciens agriculteurs ou d’anciennes agricultrices qui ont quitté la terre avec celui des hommes et des femmes restés agriculteurs. De même, on compare les courbes de survie dans le métier d’agriculteur des hommes et des femmes suivant qu’ils sont ou


40

non mariés. Les auteurs commentent leurs résultats en ces termes : “ Pour les femmes, nous n’avons décelé aucune influence du départ de l’agriculture sur leur nuptialité, cela à tous les âges. En revanche, une fois mariées dans le monde agricole, elles vont y rester beaucoup plus que les célibataires. [...] Pour les autres femmes, les plus nombreuses, la stratégie sera de quitter le monde agricole. Dans ce cas elles se marient indifféremment avant ou après le départ de l’agriculture. Pour les hommes, nous avons mis en évidence une dépendance locale opposée à celle des femmes. Leurs chances de se marier sont multipliées par deux lorsqu’ils sortent du monde agricole. Ce sont donc bien les contraintes de l’agriculture qui viennent réduire leur nuptialité. Dans l’autre sens, le fait qu’ils soient mariés ou non influe très peu sur leur départ de l’agriculture. ” Cet exemple est remarquable par la méthode utilisée qui est dans son principe d’une grande simplicité et qui, parce qu’elle joue sur la succession des événements, prend un caractère d’analyse de causalité que ne permettent pas d’atteindre les méthodes fondées sur la régression. Les auteurs poursuivent leur travail d’élaboration des instruments d’estimation pour des cas plus complexes où interviennent plus de deux événements en interaction et l’on peut dire que, ce faisant, ils développent tout en s’inspirant de modèles classiques, une innovation importante. Plus simplement, et sans modéliser les durées conditionnelles, il est possible d’examiner les types de parcours. C’est ce que fait Anne Solaz (2000). Nous avons appliqué la même méthode à des données d’une enquête de cheminement auprès de jeunes qui ont obtenu un diplôme d’IUT ou de Technicien supérieur (BTS) en 1998 et qui ont été interrogés en 2000. Nous nous sommes intéressés à l’interaction entre le premier emploi et la mise en couple. On peut ainsi représenter la manière dont ces deux événements se combinent ou se succèdent


41

Graphique 4- : Mise en couple et premier emploi chez les hommes titulaires d’IUT et de BTS dans le Calvados. Situation deux ans après l’obtention du diplôme

Premier emploi

Mise encouple

Pas d'événement

100 %

9,9 %

Un événement : l'emploi

80,7 % 63,5 %

3,5 % 5,9 %

En même temps

Un événement : lamise en couple

0,9 %

2,6 %

Deux événements :l'emploi et la mise en

couple25,7 %

Source : ORFS, Hommes, Sortants DUT et BTS, 2000

17,2 %


42

Graphique 4-4 : Mise en couple et premier emploi chez les femmes titulaires d’IUT et de BTS dans le Calvados. Situation deux ans après l’obtention du diplôme.

Premier emploi

Mise encouple

Pas d'événement

100 %

4,9 %

Un événement : l'emploi

73,2 % 47,6 %

9,0 % 12,9 %

En même temps

Un événement : lamise en couple

1,4 %

7,6 %

Deux événements :l'emploi et la mise en

couple46,1 %

Source : ORFS, Femmes, Sortants DUT et BTS, 2000

25,6 %

Les femmes sont plus nombreuses que les hommes à se mettre en couple avant d’avoir un emploi. Elles sont au bout de deux ans presque deux fois plus nombreuses que les hommes à avoir connu les deux événements. 4-3 L’explication par un modèle de régression La méthode consiste à écrire un modèle qui fait dépendre le quotient instantané d’apparition du phénomène d’un certain nombre de paramètres qui sont des variables observées sur les individus concernés. On supposera ici qu’ils ne dépendent pas du temps. Cette méthode est très intéressante pour confronter les

43

effets des différentes variables dont on pense qu’elles peuvent contribuer à expliquer le phénomène. Toutefois sa mise en œuvre requiert quelques précautions. On distingue deux grandes catégories de modèles : les modèles paramétriques et les modèles semi-paramétriques. Dans les modèles paramétriques, on fait une hypothèse sur la forme du lien entre le phénomène observé et le temps, ce qui permet d’estimer les autres paramètres.

Xn ethxxxfthXth β)(),...,,()();( 0210 ==

h0(t) représente ici l’hypothèse sur la forme de la dépendance temporelle. Les xi représentent les caractéristiques individuelles dont on cherche à mesurer l’influence. Ces facteurs sont supposées avoir des effets multiplicatifs. Les différentes formes de modèles usuels correspondent aux hypothèses que l’on fait sur les quotients instantanés - Si le quotient instantané est supposé constant : log h(t) = k, le modèle est exponentiel. C’est le cas le plus simple.

Graphique 4-4 : Fonction exponentielle


0

0,2

0,4

0,6

0,8

1

1,2

0 2 4 6 8 10 12

Fonction de survie Densité de probabilité


44

- Si le logarithme du quotient instantané varie comme une fonction linéaire du temps, le modèle est du type Gompertz. - Si le logarithme du quotient instantané varie en fonction du logarithme du temps, c’est-à-dire moins vite que dans le cas précédent, le modèle est du type Weibul. On utilise également d’autres modèles dont la définition est un peu plus complexe comme dans le modèle log-logistique. Le choix des modèles se fait à partir de l’examen de la forme de la distribution des quotients instantanés. Certains auteurs donnent des exemples de forme des distributions classiques pour aider à ce choix (Courgeau, Lelièvre, 1989). Dans les modèles semi-paramétriques, on ne fait pas d’hypothèse a priori sur la forme de la dépendance temporelle et l’on estime simultanément les paramètres de la liaison temporelle et ceux de la dépendance des facteurs d’hétérogénéité de la population. En fait l’estimation porte directement sur e X

thXth β=)();(

0

Lorsqu’on utilise ces modèles, les données sont ajustées en tenant compte de la censure et l’on calcule les paramètres du modèle par la méthode du maximum de vraisemblance. Dans leur principe, leur définition est simple et ne fait guère problème. On trouvera des introductions à ces techniques dans le petit ouvrage de Paul D. Allison (1984) ou dans Courgeau et Lelièvre, 1989. Ensuite, il faut se familiariser avec l’un des programmes qui permettent de réaliser les estimations et de tester l’importance des effets des différentes variables. Même si les hypothèses que l’on fait portent sur les quotients instantanés, les programmes courants modélisent la durée nécessaire à l’apparition de l’événement, ce qui facilite l’interprétation des résultats. Il est possible aussi de poser que certaines des variables entrant dans l’équation prennent des valeurs qui dépendent du temps. On écrit alors des équations de la forme suivante : log h(t) = a + b1x1+b2x2 +ct


45

ou encore log h(t) = a + b1x1 + b2x2 + c log t Les programmes tiennent compte des censures et redressent les estimations en conséquence. Reprenons l’exemple de sortie du chômage du chapitre précédent. Voici une analyse de régression qui fait intervenir comme variables explicatives du temps mis pour sortir du chômage, le sexe, l’âge, ici en classes fines, les circonstances de la perte d’emploi, le niveau d’instruction, la qualification, la nationalité et la région, en grands groupes. 268 259 individus sortent du fichier avant la fin de la période d’observation et ne sont donc pas censurés. 4564 sont censurés. Dans cet exemple, on a utilisé une distribution de Weibul. A cause de ce choix d’une certaine distribution de référence, le modèle est dit paramétrique. Pour chaque variable, une des modalités est prise en référence. C’est par rapport à elle que l’on apprécie l’effet des autres modalités de la même variable ; autrement dit l’effet mesuré n’est pas absolu mais relatif et la modalité de référence sert de point de comparaison. La première ligne correspond à la constante a dans le modèle. La première colonne du tableau indique le nombre de degrés de liberté correspondant à chaque caractéristique. La seconde colonne indique le coefficient de régression et la troisième l’écart type de cette estimation. La troisième colonne correspond à la contribution au χ2

de chaque item et la colonne suivante indique la probabilité qu’une telle valeur de χ2

aurait d’être dépassée sous l’hypothèse d’indépendance. C’est cette colonne qui permet de décider si l’effet correspondant est considéré ou non comme significatif.


46

Nous dirons qu’il est significatif si cette probabilité est inférieure à 0,01. La dernière colonne fournit une indication plus intuitive : elle donne le rapport des chances entre la modalité correspondante de la variable et la modalité de référence. Par exemple, pour la variable sexe, la modalité de référence est “ hommes ”. On peut ainsi lire que les femmes ont une plus faible probabilité que les hommes de sortir du chômage et cela dans le rapport de 0,817 contre 1. Les jeunes de 16-17 ans ont 1,8 fois plus de chances de sortir du chômage que ceux qui ont 30-31 ans, groupe qui constitue la modalité de référence.


47

Tableau 4-1 Modèle paramétrique Variables à expliquer : Log de la durée de la première période de chômage

Variables Dl Coefficient β Erreur standard

χ2 Pr>χ2 Rapport des chances

Constante 1 2.18022407 0.010477 43303.73 0.0001 Hommes (réf.) Femmes 1 0.1933963 0.004204 2116.703 0.0001 0.817 16-17 1 -0.5682302 0.018342 959.6933 0.0001 1.812 18-19 1 -0.4984859 0.010471 2266.477 0.0001 1.685 20-21 1 -0.4169744 0.009211 2049.43 0.0001 1.547 22-23 1 -0.3197611 0.009019 1256.934 0.0001 1.397 24-25 1 -0.1951142 0.009224 447.4156 0.0001 1.227 26-27 1 -0.0971934 0.009617 102.1322 0.0001 1.107 28-29 1 -0.0441713 0.009987 19.5626 0.0001 1.047 30-31 (réf.) 32-33 1 0.03883473 0.010859 12.78948 0.0003 0.960 34-35 1 0.06609906 0.011275 34.37005 0.0001 0.933 36-37 1 0.09581869 0.011571 68.56992 0.0001 0.905 38-39 1 0.10776655 0.011923 81.70199 0.0001 0.893 40-41 1 0.12774174 0.012211 109.4429 0.0001 0.875 42-43 1 0.19531385 0.012506 243.9212 0.0001 0.815 44-45 1 0.20358319 0.012809 252.6135 0.0001 0.808 Lic. économique 1 0.22074852 0.006661 1098.279 0.0001 0.794 Lic. autre 1 0.21452524 0.007211 885.1399 0.0001 0.799 Démission 1 -0.1362495 0.008442 260.4591 0.0001 1.153 Fin contrat (réf.) Fin intérim 1 -0.0306424 0.010568 8.407707 0.0037 1.033 Autres 1 0.09540754 0.006697 202.9704 0.0001 0.905 Primo 1 0.07412305 0.005912 157.1822 0.0001 0.925 Reprise activité 1 0.11414424 0.007671 221.4304 0.0001 0.887 Conv. 1 0.24595179 0.011681 443.3671 0.0001 0.773 Niv5B6 1 0.20661143 0.006714 946.9805 0.0001 0.806 Niv5A 1 0.09795297 0.00575 290.164 0.0001 0.903 Bac (réf.) Sup1 1 -0.1171066 0.007675 232.7837 0.0001 1.130 Sup+ 1 -0.0858058 0.009906 75.03152 0.0001 1.094 Manœuvre 1 0.14812501 0.012133 149.0339 0.0001 0.856 OS 1 0.06715781 0.007319 84.20187 0.0001 0.932 OQ1 1 -0.0449941 0.006548 47.22088 0.0001 1.048 OQ2 1 -0.152061 0.008706 305.0964 0.0001 1.172 ENQ 1 0.08721268 0.005645 238.7015 0.0001 0.913 EQ (réf.) Tech 1 -0.0397503 0.008622 21.25615 0.0001 1.042 Agent Maîtrise 1 -0.050574 0.014573 12.04282 0.0005 1.054 Cadre 1 -0.0409044 0.010621 14.83227 0.0001 1.044 Français (réf.) Europe Nord 1 -0.133522 0.022623 34.83487 0.0001 1.150 Europe Sud 1 -0.0028616 0.012228 0.054766 0.8150 1.003 Afr. Nord 1 0.08172578 0.010287 63.11773 0.0001 0.918 Afr. Noire 1 0.02273152 0.018708 1.47638 0.2243 0.976


48

Asie 1 0.0294124 0.025054 1.3782 0.2404 0.970 Autre 1 -0.0403228 0.036022 1.253035 0.2630 1.043 Région parisienne (réf.) Nord-Ouest 1 0.09450171 0.006302 224.838 0.0001 0.906 Nord-Est 1 0.05506874 0.006002 84.18672 0.0001 0.944 Sud-Est 1 0.06046275 0.00582 107.9342 0.0001 0.939 Sud-Ouest 1 0.10064605 0.006975 208.1954 0.0001 0.900 DOM 1 0.49602168 0.010812 2104.712 0.0001 0.595 Scale 1 0.95565246 0.001386 α=1.046 Note : La dernière colonne correspond au risque de sortie du chômage à durée égale.

Dans le cas présent, tous les effets ou presque sont significatifs. Ce résultat est dû au très grand nombre d’individus considérés. Les effets les plus importants sont dus à l’âge : les jeunes sortent plus vite du chômage que leurs aînés. Le mode d’entrée au chômage est aussi très important. Le licenciement économique et la fin de contrat à durée déterminée sont handicapants ; la démission et la fin d’une période d’intérim sont plus favorables. Les diplômes et la qualification professionnelle élevés constituent une protection. Le fait d’habiter les départements d’Outre mer est nettement défavorable.


49

Chapitre 5 : Un système fini d’états

5-1- Une représentation des évolutions : le « chronogramme » Les méthodes ci-dessus apportent une incontestable rigueur dans l’analyse de la durée avant qu’un événement se produise ou de la durée entre des événements. Elles constituent certainement une ligne de recherche très prometteuse. Lorsqu’on observe une certaine variété d’événements de types différents, on peut cependant souhaiter comparer des biographies entre elles et utiliser pour cela des méthodes descriptives. Nous aborderons cette question à partir d’un exemple, celui des calendriers de l’enquête de cheminement réalisée par le Céreq en décembre 1993 auprès de jeunes sortis des niveaux VI, V bis et V, en cours ou en fin d’année scolaire 1988-89. 13 161 questionnaires ont été recueillis. Le questionnaire contenait un calendrier qui donnait, mois par mois pendant 6 ans, la situation du jeune vis-à-vis de l’emploi. Pour homogénéiser les situations et les faire partir de l’entrée effective sur le marché du travail, nous avons retenu finalement 52 mois. Dans cet exemple nous nous intéresserons au cas des filles. C’est pourquoi nous ne retenons pas la catégorie service national. Nous avons donc regroupé les situations possibles en 8 états : 1- CDI : Contrat à durée indéterminée, Fonctionnaire, 2- CDD : Contrat à durée déterminée, Intérimaire (les catégories saisonnier, et service national pour les filles ont été ajoutées dans ce groupe du fait de leur très faible effectif), 3- Contrats : Contrat de qualification, d’adaptation et SIVP, 4- CES : CES, TUC, CIO et autres, 5- Apprentissage, 6- Formation, 7- Inactivité, 8- Chômage. L’observation des statistiques donnant les pourcentages des individus qui se trouvent dans les différents états fournit déjà une


50

information intéressante. On la trouve résumée dans le graphique 1 par une représentation assez suggestive appelée chronogramme : les 52 mois figurent sur l’axe horizontal. Verticalement nous portons pour chaque mois la distribution des jeunes filles dans les différents états possibles. En joignant les points obtenus, on obtient des zones dont la largeur représente le pourcentage d’individus qui se trouvent dans l’état correspondant. - Sur la période le nombre des jeunes filles qui sont en CDI croît régulièrement de presque 0 à 40 % de la population. - Le pourcentages de personnes en CDD est à peu près stable et fluctue entre 12 et 15 %. - La part des contrats reste modeste. Elle croît jusque vers 5 % et diminue lentement. - Globalement, les mesures sont surtout utilisées au début. - L’apprentissage n’est présent que sur les 29 premiers mois. - L’inactivité qui démarre à près de 22 % décroît rapidement pour atteindre 4 % après 8 mois. Ensuite elle remonte assez régulièrement jusqu’à 7,5 %. - Le chômage atteint 33 % de la population en début de période. Il diminue rapidement pour se stabiliser autour de 19 % jusqu’au 24ème mois. Ensuite il remonte en fluctuant entre 22 et 25 %. On constate donc clairement un effet d’insertion qui aboutit à ce qu’en fin de période, en stock, plus de 50 % des jeunes filles ont un travail, stable ou non, un tiers n’en a pas. Les autres, c’est-à-dire un quart, évoluent entre les différentes formes de mesures, les contrats et l’apprentissage. La méthode est fondée sur l’idée que, à classes de trajectoires voisines, nous serons en mesure de faire correspondre des histoires et des rôles semblables. On adopte donc une démarche inductive : reconnaître des régularités pour ensuite tenter de les expliquer.

51

Graphique 5-1 : Ensemble des filles (N=4504)

CCMS


CDI

CDD

Contrats aidés

Mesures

Apprentissage Formation

Inactivité

Chômage

0

10

20

30

40

50

60

70

80

90

100

06/89

08/89

10/89

12/89

02/90

04/90

06/90

08/90

10/90

12/90

02/91

04/91

06/91

08/91

10/91

12/91

02/92

04/92

06/92

08/92

10/92

12/92

02/93

04/93

06/93

08/93

%

Source : Céreq - Enquête sur le devenir professionnel des jeunes en 1989 (Niveaux V, Vbis et VI) Source : Céreq - Enquête sur le devenir professionnel des jeunes en 1989 (Niveaux V, Vbis et VI)

Pour comprendre des données aussi complexes, il faut accepter de les résumer et donc de perdre de l’information. Réduisons tout d’abord le nombre des états en regroupant dans une catégorie « mesures » toutes les catégories d’emplois aidés par les mesures gouvernementales. Regroupons de même toutes les personnes sans emploi dans une même catégorie. Une première image nous est donnée par l’évolution de la distribution de la population dans ces catégories.

Pour comprendre des données aussi complexes, il faut accepter de les résumer et donc de perdre de l’information. Réduisons tout d’abord le nombre des états en regroupant dans une catégorie « mesures » toutes les catégories d’emplois aidés par les mesures gouvernementales. Regroupons de même toutes les personnes sans emploi dans une même catégorie. Une première image nous est donnée par l’évolution de la distribution de la population dans ces catégories.

t0 t0 + 6 t t0 + 12 t t0 + 18 t t0 + 24 t t0 + 30 t t0 + 36 t t0 + 42 tt0 0 + 6 0 + 12 0 + 18 0 + 24 0 + 30 0 + 36 0 + 42

DI 4,4 11,4 16 22 27 33,2 37,2 39,7 DD, Intérim 13,8 12,7 14,5 15,2 17,9 18,4 20,9 17,7 esures 7,3 28,5 35,7 25,6 23 16,5 13,1 10,6

ans emploi 74,4 47,4 33,9 37,2 32,1 31,8 28,8 32

La proportion des jeunes sans emploi diminue jusqu’à un palier autour de 30 %. Les emplois stables augmentent régulièrement


52

au cours du temps jusqu’à atteindre environ 40 %. Après avoir augmenté, la part des mesures diminue. Ceci donne une vue globale, qui est un résumé des données du graphique 5-1. 5-2 Le modèle des chaînes de Markov On garde un peu plus d’information si l’on s’intéresse aux matrices successives dans lesquelles on fait apparaître la probabilité de passage d’un état à l’autre. Le premier tableau concerne les passages entre le premier et le sixième mois, le second les passages entre le trente-sixième et le quarante-deuxième mois. Dans chaque ligne, on fait apparaître le pourcentage de ceux qui étaient dans un état donné au départ et qui se retrouvent dans un autre état à l’arrivée. La ligne et la colonne Total contiennent les effectifs sur lesquels sont calculés ces pourcentages.

Mois 1 vers 6

CDI CDD, interim Mesures Sans emploi Total CDI 85,3 1,4 4,9 8,4 143

CDD, interim 11,4 38,6 18,3 31,7 448 Mesures 5,0 5,0 83,2 6,7 238

Sans emploi 7,6 9,3 26,4 56,7 2413 Total 369 411 925 1537 3242

Mois 36 vers 42

CDI CDD, interim Mesures Sans emploi Total CDI 91,45 2,6 0,75 5,2 1205

CDD, intérim 10,3 58,5 1,9 29,3 679 Mesures 9,6 6,6 56,0 27,8 425

Sans emploi 7,8 12,5 9,0 70,6 933 Total 1286 573 344 1039 3242

Dans ces matrices les cases diagonales ont été mises en gras. Le premier enseignement est que cette matrice de passage change au


53

cours du temps. La stabilité croît dans les CDI, les CDD et les sans-emploi. Elle décroît dans les mesures. Si l’on fait l’hypothèse que les jeunes femmes s’insèrent sur le marché du travail dans cette période où elles sortent de l’école et qu’elles apprennent peu à peu leur métier, qu’elles trouvent leur place en fonction de leur qualification et que celles qui veulent rester hors du marché du travail se stabilisent aussi dans cet état, on est conduit à penser que la matrice va devenir de plus en plus stable et que les variations observées peuvent être considérées comme des effets aléatoires des mouvements sur le marché. Simplifions le problème en considérant simplement deux états : état A = au travail qui regroupe les trois premières catégories et état B = sans emploi. Regardons alors les matrices à partir du dix-huitième mois.

instant 24 État A État B Instant 18 État A 84,8 15,2 État B 21,2 78,8 instant 30 État A État B Instant 24 État A 85,2 14,8 État B 24,4 75,16 instant 36 État A État B Instant 30 État A 88,4 11,6 État B 25,7 74,3 instant 42


54

État A État B Instant 36 État A 84,9 15,1 État B 19,1 80,9

A première vue les valeurs semblent se stabiliser. Supposons que le processus soit stable, c’est-à-dire que les valeurs dans le tableau ne changent pas. Pour simuler une telle situation prenons une moyenne grossière des quatre périodes :

instant t+1 État A État B Instant t État A 86 14 État B 23 77

Cette matrice représente les probabilités de passage du processus que l’on peut illustrer de la manière suivante :

A B

P(A,B)

P(A,A)P(B,A)

P(B,B)

Si l’on suppose par exemple qu’au départ la proportion de jeunes filles qui travaillent (A) est de 25 % et que donc la proportion de celles qui ne travaillent pas (B) est de 75 %, on déduit qu’à l’instant suivant les proportions seront :


55

0,25

0,75

0,86

0,14

0,23

0,77

A

B

A

B

A

B

A : 0,25x0,86 + 0,75x0,23 = 0,39

B : 0,25x0,14 + 0,75x077 = 0,61

Travaille Travaille

Ne travaille pas Ne travaille pas

Partant de 25 % de jeunes filles au travail, on passe ainsi à 39 %. Prenons les notations suivantes et regardons ce qui se passe au bout de deux étapes consécutives :

instant t+1 État A État B Instant t État A p11 p12 État B p21 p22


56

A

B

A

B

A

B

p11

p11

p11

AA : p11p11 + p12p21A

B

A

B

A

B

A

B

AB : p11p12 + p12p22

BA : p21p11 + p22p21

BB : p21p12 + p22p22

p22

p21

p12

p21

p22

p22

p12

p21

p22

On voit ainsi que l’on peut calculer une matrice qui permet d’obtenir directement la transformation des proportions initiales au bout de deux étapes. On dira que c’est le carré de la matrice précédente. De la même manière on obtiendra le cube de la matrice et, en poursuivant, n’importe quelle puissance. On démontre alors une propriété remarquable : au bout d’un certain temps, la matrice ne change plus quand on la multiplie par elle-même et ses lignes sont identiques. Il en résulte que les valeurs contenues dans les lignes sont les proportions en A et en B, qui elles non plus ne changent plus et qui donc ont atteint une limite. Si l’on appelle M la matrice de départ, voici ce que donnent quelques unes de ses puissances. Il faut arriver à la onzième pour obtenir la stabilité.

M M2 M4 M8 M11

0,86 0,14 0,77 0,23 0,68 0,32 0,63 0,37 0,62 0,38 0,23 0,77 0,37 0,63 0,52 0,48 0,61 0,39 0,62 0,38

et voici la succession des valeurs obtenues pour la répartition des jeunes filles entre celles qui travaillent et celles qui ne travaillent pas, lorsqu’on utilise les matrices précédentes comme multiplicateur.


57

0 1 2 4 8 11 Travaille 0,25 0,39 0,47 0,56 0,61 0,62 Ne travaille pas 0,75 0,61 0,53 0,44 0,39 0,38

Autrement dit, quelles que soient les probabilités de passage d’un état à l’autre, si l’on peut faire l’hypothèse qu’elles ne varient pas au cours du temps, on observera au bout d’un temps assez long un système complètement stable et une distribution dans les états qui ne change plus. Ce modèle de circulation dans un certain nombre d’états, avec des probabilités de passage stables, est connu sous le nom de chaîne de Markov. Il conduit à un résultat très fort par rapport auquel on peut situer ce que l’on observe. Autrement dit, même si la chaîne de Markov ne représente pas bien la réalité observée, elle constitue une sorte de repère dans le champ des possibles. L’hypothèse de stabilité des probabilités de passage est cependant très exigeante et c’est ce qui limite les applications du modèle dans l’analyse des phénomènes sociaux. Le chapitre 6 présente une technique de typologie d’itinéraires qui est résolument descriptive et qui permet de prendre en compte une grande proportion de l’information disponible.


58

Chapitre 6 : Typologies d’histoires Il existe un grand nombre de méthodes pour construire une classification. Une méthode simple mais difficile à appliquer à un grand nombre d’individus consiste à calculer un indice de ressemblance et à construire à partir de là une classification arborescente. Un indice de ressemblance très simple mais un peu fruste se calculerait en comptant le nombre de mois où les deux individus sont exactement dans la même situation. Ici nous avons adopté une autre stratégie comme l’analyse du chapitre précédent nous y invite. Afin de tenir compte de l’évolution, la période de 52 mois est divisée en 9 séquences (8 de 6 mois et une de quatre mois). Dans chaque séquence, nous avons retenu le nombre de mois passé dans chaque état et les transitions d’un état à l’autre. C’est à partir de cette représentation des itinéraires qu’une classification hiérarchique a été construite. Il existe d’autres possibilités. Sans changer fondamentalement la méthode, il est possible de faire varier l’importance respective du temps passé dans un état et des changements d’état. Quoi qu’il en soit de l’affinage de la méthode de classification, examinons maintenant les résultats obtenus. La classification arborescente laisse l’analyste libre de choisir une partition parmi toutes celles qui se déduisent de l’arbre hiérarchique. Voici ici une solution en 21 classes. Elle sont, pour la plupart, bien homogènes, nettement caractérisées et bien distinctes comme en atteste le tableau 6-1 (Degenne, Lebeaux, Mounier, 1996).

59

Tableau 6-1 : Temps moyens (en mois) passés par les jeunes filles dans les différents états

Tableau 6-1 : Temps moyens (en mois) passés par les jeunes filles dans les différents états

Classes Classes Effectif Effectif Nombre

états Nombre états

CDI CDI CDD CDD Contrats Contrats Mesures Mesures Appren. Appren. Form. Form. Inact. Inact. Chôm. Chôm.

1 106 2.31 0.83 0.98 0.13 1.18 0.08 0.78 45.96 2.05 2 141 4.04 1.58 2.35 0.51 4.00 3.38 0.86 29.61 9.71 3 351 4.90 2.34 8.22 0.32 3.17 24.81 0.64 1.18 11.33 4 292 3.33 22.62 1.03 0.20 0.24 24.87 0.40 0.52 2.12 5 30 4.37 2.20 3.67 1.37 2.63 33.17 0.83 2.57 5.57 6 15 4.27 4.93 3.07 0.87 0.73 27.13 1.47 2.27 11.53 7 139 4.94 10.71 3.38 24.99 1.73 0.43 1.27 1.16 8.33 8 73 3.73 2.33 2.01 19.42 0.27 24.79 0.19 0.62 2.36 9 68 5.50 3.00 4.41 21.90 7.31 0.15 2.47 1.62 11.15 10 581 3.12 44.61 1.88 0.07 2.05 0.10 0.31 0.83 2.15 11 348 5.11 27.35 12.91 0.36 2.21 0.22 0.30 0.78 7.87 12 173 5.98 26.29 6.91 0.24 2.23 0.07 1.32 1.27 13.68 13 92 5.58 27.51 3.72 9.38 1.67 0.26 0.48 1.57 7.41 14 125 5.74 2.42 3.49 0.76 5.00 4.98 23.57 1.52 10.27 15 123 6.15 11.24 6.83 0.59 3.22 0.21 17.39 2.10 10.43 16 157 6.72 6.08 5.27 0.36 8.80 0.44 13.72 2.13 15.20 17 364 6.65 2.71 32.19 0.43 4.49 0.19 0.79 1.05 10.14 18 449 5.44 4.88 4.47 0.24 31.12 0.21 1.30 0.93 8.85 19 125 6.75 5.04 8.34 0.75 5.33 0.43 0.98 15.71 15.41 20 397 6.76 1.51 4.15 0.41 18.34 0.17 1.13 1.06 25.23 21 355 5.75 1.73 6.54 0.73 2.23 0.36 1.30 1.05 38.07 Source : Céreq - Enquête sur le devenir professionnel des jeunes(Niveaux V, Vbis et VI), 1993

Voici la représentation de quelques unes des classes les plus intéressantes.

Graphique 6-1 : Classe 1 (N=106)


CDICDD

MesuresFormation

Inactivité

Chômage

0

10

20

30

40

50

60

70

80

90

100

06/89

08/89

10/89

12/89

02/90

04/90

06/90

08/90

10/90

12/90

02/91

04/91

06/91

08/91

10/91

12/91

02/92

04/92

06/92

08/92

10/92

12/92

02/93

04/93

06/93

08/93

%


60

Les jeunes femmes rassemblées dans cette classe sont inactives sur toutes la période et ne cherchent pas d’emploi. Ce sont souvent des femmes au foyer qui ont des enfants.

Les jeunes femmes rassemblées dans cette classe sont inactives sur toutes la période et ne cherchent pas d’emploi. Ce sont souvent des femmes au foyer qui ont des enfants.

Les jeunes femmes de cette classe cherchent un emploi pendant un à deux ans puis se découragent ou choissent l’inactivité. Les jeunes femmes de cette classe cherchent un emploi pendant un à deux ans puis se découragent ou choissent l’inactivité.


CDI

CDD

Contrats aidés

Mesures

Apprentissage

Formation

Inactivité

Chômage

0

10

20

30

40

50

60

70

80

90

100

06/89

08/89

10/89

12/89

02/90

04/90

06/90

08/90

10/90

12/90

02/91

04/91

06/91

08/91

10/91

12/91

02/92

04/92

06/92

08/92

10/92

12/92

02/93

04/93

06/93

08/93

%


CDI

CDD

Mesures

Inactivité

Chôm age

0

10

20

30

40

50

60

70

80

90

100

06/89

08/89

10/89

12/89

02/90

04/90

06/90

08/90

10/90

12/90

02/91

04/91

06/91

08/91

10/91

12/91

02/92

04/92

06/92

08/92

10/92

12/92

02/93

04/93

06/93

08/93

%

61

Ici nous avons une classe de jeunes femmes qui s’insèrent très vite sur des contrats à durée indéterminée. Dans le graphique suivant on voit que le fait d’obtenir un contrat à durée indéterminée n’est pas toujours une garantie de stabilité définitive de l’emploi.

Ici nous avons une classe de jeunes femmes qui s’insèrent très vite sur des contrats à durée indéterminée. Dans le graphique suivant on voit que le fait d’obtenir un contrat à durée indéterminée n’est pas toujours une garantie de stabilité définitive de l’emploi.

G ra p h iq u e 6 -4 : C la s s e 1 2 (N = 1 7 3 )

C D I

C D D

M e s u re s

F o rm a t io nIn a c tiv ité

C h ô m a g e

0

1 0

2 0

3 0

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0

06/89

08/89

10/89

12/89

02/90

04/90

06/90

08/90

10/90

12/90

02/91

04/91

06/91

08/91

10/91

12/91

02/92

04/92

06/92

08/92

10/92

12/92

02/93

04/93

06/93

08/93

%

G raphique 6-5 : Classe 17 (N=364)


CDI

CDD

Contrats aidés

Mesures

Form ation

Inactivité

Chôm age

0

10

20

30

40

50

60

70

80

90

100

06/89

08/89

10/89

12/89

02/90

04/90

06/90

08/90

10/90

12/90

02/91

04/91

06/91

08/91

10/91

12/91

02/92

04/92

06/92

08/92

10/92

12/92

02/93

04/93

06/93

08/93

%

62

Cette classe montre que certaines jeunes filles parviennent à être en emploi pendant près de 80 % de leur temps tout en étant toujours sur des contrats à durée déterminée. Le graphique suivant montre une classe de jeunes femmes qui connaissent de grandes difficultés d’insertion.

Cette classe montre que certaines jeunes filles parviennent à être en emploi pendant près de 80 % de leur temps tout en étant toujours sur des contrats à durée déterminée. Le graphique suivant montre une classe de jeunes femmes qui connaissent de grandes difficultés d’insertion.



CDI

CDDContrats aidés

Mesures

App. Formation

Inactivité

Chômage

0

10

20

30

40

50

60

70

80

90

100

06/89

08/89

10/89

12/89

02/90

04/90

06/90

08/90

10/90

12/90

02/91

04/91

06/91

08/91

10/91

12/91

02/92

04/92

06/92

08/92

10/92

12/92

02/93

04/93

06/93

08/93

%

Si l’on avait pu considérer qu’un contrat à durée déterminée était un état dont on ne sort pas une fois qu’on y a accédé, on aurait pu modéliser le temps qu’il faut pour obtenir ce type de contrat mais on voit bien que ce ne serait qu’une approximation puisqu’on a pu isoler une classe de jeunes femmes qui commencent leur histoire professionnelle avec un contrat à durée indéterminée et qui perdent ou quittent cet emploi pour retrouver une situation différente (chômage ou contrat à durée déterminée).

Si l’on avait pu considérer qu’un contrat à durée déterminée était un état dont on ne sort pas une fois qu’on y a accédé, on aurait pu modéliser le temps qu’il faut pour obtenir ce type de contrat mais on voit bien que ce ne serait qu’une approximation puisqu’on a pu isoler une classe de jeunes femmes qui commencent leur histoire professionnelle avec un contrat à durée indéterminée et qui perdent ou quittent cet emploi pour retrouver une situation différente (chômage ou contrat à durée déterminée). Une fois réalisée une telle classification, il est tout à fait possible de considérer l’appartenance à une classe de trajectoire comme une nouvelle caractéristique individuelle que l’on pourra alors croiser avec d’autres caractéristiques.

Une fois réalisée une telle classification, il est tout à fait possible de considérer l’appartenance à une classe de trajectoire comme une nouvelle caractéristique individuelle que l’on pourra alors croiser avec d’autres caractéristiques.


63

Une représentation individualisée des itinéraires peut être obtenue en représentant chaque individu par une ligne dans laquelle chaque mois est figuré par un tiret de couleur. Les différentes couleurs correspondent aux différents états dans lequel l’individu peut se trouver.(études, travail, chômage etc.). Dans le graphique de la page suivante, qui illustre les itinéraires des étudiants sortis avec un IUT ou un BTS en 1998 dans le Calvados, le rouge correspond au travail en CDD, le rose au travail en CDI, le vert aux études le jaune à la formation en alternance, le bleu au chômage, le blanc au service national. Les individus ont été regroupés en classes et rangés dans chaque classe en fonction de la situation au moment de l’enquête.


64

Itinéraires d’insertion des étudiants sortis de DUT dans le Calvados en 1998

N= 510 Légende : Rose CDD Rouge CDI Violet Alternance Bleu foncé Intérim Orange Stage Jaune Service National Noir Recherche d’emploi Vert Études Blanc Autre


65

Chapitre 7 : Les enquêtes par panel et les enquêtes

rétrospectives 7-1- Les Panels Des enquêtes sont spécialement réalisées pour suivre des personnes au cours du temps. On les appelle des “ panels ”. La procédure consiste à choisir un échantillon, en général représentatif d’une certaine population, et à interroger plusieurs fois ces mêmes personnes, par exemple une fois par an. C’est ce que l’on appelle des vagues d’enquête. De telles enquêtes sont réalisées dans le domaine de la consommation mais aussi par rapport à l’emploi. En matière de santé publique, des échantillons de personnes sont également suivis mais l’enquête comporte là des examens médicaux de manière à effectuer des dépistages ou à suivre l’évolution de certaines maladies. La Communauté Européenne demande à ses États membres de réaliser un panel socioéconomique qui comporte une sorte de tronc commun de manière à comparer les situations dans ces pays. Ce panel est consacré à l’étude de l’emploi, des revenus et des conditions de vie. On voit bien la difficulté de ce type d’enquête : il est difficile et coûteux de retrouver les mêmes personnes d’une vague sur l’autre. Il y a beaucoup de mobilité, surtout en milieu urbain ou chez les plus jeunes. Bien entendu les personnes ne prennent pas l’initiative de prévenir l’institut de sondage quand elles déménagent. De plus certains se lassent et au bout de deux ou trois interrogations, ils ne veulent plus répondre. On observe donc ce que l’on appelle un phénomène d’attrition. L’échantillon se réduit au cours du temps, de telle sorte que l’opération finit par n’avoir plus de sens.


66

Voici par exemple l’évolution de l’échantillon du panel socio-économique allemand de 1984 à 1988.

Première

vague 1984

Deuxième vague 1985

Troisième vague 1986

Quatrième vague 1987

Cinquième vague 1988

Effectif 5921 5184 4798 4783 4624 % par rapport à la vague précédente 100 87,5 90,1 94 92 % par rapport à la première vague 100 87,5 81 80,8 78

Dans ce cas la perte n’est pas considérable mais on ne pourrait probablement pas faire durer l’expérience indéfiniment. Remarquons que l’attrition la plus importante se trouve entre la première et la deuxième vague et qu’ensuite elle diminue. C’est un phénomène général. Les personnes qui refusent l’opération dans la durée ont tendance à le faire au début. Ceux qui acceptent la deuxième vague sont plus enclins à accepter les suivantes. Il y a plusieurs manières d’apporter une réponse à ce problème : - Intéresser les personnes à l’enquête. Le plus simple est de les payer mais évidemment cela coûte cher et on ne sait pas quelle est l’incidence de cette pratique sur les résultats. On utilise également des loteries. On peut aussi, plus simplement, créer un lien en diffusant par exemple une lettre d’information. Le premier intérêt est de pouvoir repérer rapidement les personnes qui ont déménagé, du fait que la lettre ne trouve pas son destinataire. On peut alors, sans attendre, essayer de les retrouver. Cette technique peut aussi faire naître un intérêt pour l’enquête qui limitera les refus de répondre. Les meilleurs résultats sont obtenus par des efforts réguliers et constants et l’utilisation de moyens variés (Magnusson et Bergman, 1990). - Limiter la durée du panel. Il est rare que l’on puisse conserver un nombre suffisant de personnes pendant plus de 5 ans. - Compenser les pertes en introduisant dans l’échantillon de nouvelles personnes. Ceci pose évidemment des problèmes de représentativité auxquels on peut apporter une solution. Dans le panel socio-économique allemand, les responsables ont choisi d’injecter à chaque vague un certain nombre de nouveaux


67

ménages (ils n’apparaissent pas dans le tableau ci-dessus qui ne concerne que les ménages échantillonnés à la première vague). Un autre exemple intéressant est celui de l’échantillon du panel Lorrain qui a existé en France de 1985 à 1990 pour étudier les conditions de vie des ménages. Suivre des ménages pose d’emblée un problème : les ménages se modifient au cours du temps, des grands enfants partent, de nouvelles naissances arrivent, des parents âgés peuvent venir cohabiter, le ménage lui-même peut se dissocier et de nouvelles unités se reconstituer autour des personnes qui le composaient initialement. Comment faire ? Les responsables de l’enquête ont choisi de prendre des individus comme base de l’échantillon et de considérer à chaque vague les ménages dont ils font partie. Voici comment ils décrivent la procédure (Jeandidier, 1992) : “ L’échantillon lorrain a été constitué à partir d’un tirage de 2500 Lorrains de la base de sondage que constitue en France l’Échantillon démographique permanent de l’Insee. Ces individus tirés, appelés individus-panels, conduisent à un ménage (logement) dans lequel (s’il s’agit d’un ménage ordinaire) tous les individus sont interrogés et deviennent individus-échantillon (environ 7500 individus), c’est-à-dire des individus qui seront toujours suivis dans le temps et interrogés chaque année s’ils restent dans le champ de l’enquête, et cela même s’ils quittent leur ménage pour en créer un nouveau ou pour en rejoindre un autre. Au cours du temps tout autre individu venant cohabiter avec un individu-échantillon sera également interrogé, sans pour autant devenir lui-même individu échantillon (sauf les naissances qui elles le deviennent). Ces nouvelles personnes ne seront plus interrogées si elles quittent l’individu-échantillon avec qui elles étaient venues cohabiter. L’échantillon permanent est régénéré d’une part par les naissances survenant dans les ménages enquêtés et, d’autre part, par ré-injection de nouveaux ménages (à partir d’individus de l’échantillon démographique permanent


68

nés dans l’année en cours et à partir d’individus immigrants en Lorraine et connus de l’Insee par l’enquête annuelle Emploi). ” L’échantillon démographique permanent de l’INSEE dont il est question ici constitue aussi un cas intéressant (cf. le dossier présenté par Héran, 1998). En Europe, il existe deux solutions pour suivre les évolutions de la population et connaître les déplacements : les registres de population et les échantillons démographiques. En Belgique, Allemagne, Italie, Espagne, Pays-Bas, Danemark, Norvège, Suède, Finlande, il existe un registre de population. Les citoyens doivent déclarer tout changement de résidence aux autorités locales. La composition de chaque foyer est enregistrée au niveau de la commune. En France et au Royaume-Uni on ne dispose pas d’un tel registre. C’est pourquoi, à peu près à la même époque, à la fin des années 60, ces deux pays ont mis en place un échantillon démographique permanent. Il est issu des recensements. L’Insee conserve et met à jour un échantillon d’individus au 1/100 de la population résidant en métropole. Cette base statistique contient les bulletins des recensements successifs (1968,1975,1982,1990,1999). Pour compléter ces informations qui ne représentent que des photographies assez éloignées les unes des autres dans le temps, on y ajoute les informations de la biographie familiale enregistrées par l’état civil : naissances, mariages, décès, reconnaissances. On met à jour à ces occasions les informations sur la commune de résidence et la profession. L’échantillon démographique permanent présente donc l’avantage d’être de grande taille et de suivre les personnes sur la longue durée malgré le petit nombre des informations recueillies. L’enquête Emploi réalisée chaque année par l’Insee utilise une formule d’un autre type : le panel glissant. Dans ce cas on ne suit les unités statistiques que pendant un temps assez court (trois ans) mais on renouvelle l’échantillon ce qui garantit mieux sa représentativité à chaque instant. L’échantillon est renouvelé par tiers chaque année.


69

Première année 1er tiers 2ème tiers 3ème tiers Deuxième année 1er tiers 2ème tiers 3ème tiers

Troisième année 1er tiers 2ème tiers 3ème tiers Quatrième année 1er tiers 2ème tiers 3ème tiers Cinquième année 1er tiers 2ème tiers 3ème tiers

A partir de la troisième année, on crée ainsi un panel qui dure trois ans sur un tiers des ménages de l’échantillon. Les États-Unis ont retenu une méthode de ce type pour leur panel sur les revenus. Il existe cependant un inconvénient de ce panel de l’enquête Emploi, c’est qu’on n’échantillonne pas des personnes ou des ménages mais des logements. Il arrive donc que d’une année sur l’autre l’occupant ait changé. La représentativité La question de la représentativité se pose en des termes particuliers dans les panels. On peut en effet chercher à privilégier la représentativité longitudinale, c’est-à-dire par rapport à l’échantillon initial, ou la représentativité transversale, qui fait référence à la population mère à chaque instant. Les deux objectifs sont contradictoires. La recherche de la représentativité transversale va conduire à réinjecter de nouvelles personnes dans l’échantillon pour respecter la composition de la population qu’on veut représenter. La représentativité longitudinale conduit plutôt à “ cylindrer ” l’échantillon c’est-à-dire à n’exploiter sur l’ensemble de la période que l’échantillon intersection des différentes vagues. Dans chaque cas, on utilise différentes pondérations qui permettent de se rapprocher de l’objectif visé. Nous n’entrerons pas ici dans les détails de ces méthodes. Concrètement il s’agit le plus souvent d’un compromis entre les deux exigences. Signalons un ouvrage intéressant sur les enquêtes par panel : Rose (2000).


70

7-2- Les enquêtes rétrospectives Dans une enquête rétrospective, les personnes qui composent l’échantillon sont interrogées sur leur passé. On leur demande de se souvenir des événements qui ont par exemple composé leur vie professionnelle. Cette méthode se heurte évidemment à la défaillance de la mémoire. On peut penser que l’âge de la personne au moment de l’événement joue un rôle ; si elle était très jeune, elle peut ne pas l’avoir bien mémorisé. La durée de mémorisation peut jouer également ainsi que l’âge de la personne au moment de l’enquête. Mais les chercheurs ne peuvent pas séparer complètement ces trois sources de variation dans la mesure où il existe entre elles une liaison : âge au moment de l’événement + durée de mémorisation = âge au moment de l’enquête. La construction des questionnaires rétrospectifs suppose que l’on soit attentif à certaines tendances naturelles que les chercheurs en psychologie sociale ont bien repérées. La datation en particulier pose des problèmes délicats. Pour obtenir de bons résultats, il faut inciter les personnes interrogées à faire des associations entre les événements qu’elles ont vécus. Nadia Auriat y a consacré sa thèse et relève en particulier les points suivants (Auriat, 1996) : - Déterminer une durée rétrospective raisonnable, adaptée à la périodicité de l’événement. - L’ancienneté du phénomène que l’on veut faire dater influence la qualité de l’information, mais le rythme est plus important encore. Quand on demande par exemple “ depuis un an, combien de fois avez-vous consulté le médecin ? ” ceci n’a de sens que si la personne n’est pas astreinte à le consulter plusieurs fois par mois. Il faut adapter la période de référence au rythme moyen de l’événement dans la population visée. Pour des événements anciens, l’erreur de datation est souvent d’une année. - Certains chercheurs ont fait l’hypothèse qu’il y avait un effet systématique de rapprochement des événements. On aurait


71

tendance à voir les événements que l’on se remémore comme plus proches qu’ils ne sont en réalité. Janson (1990) rapporte que dans une étude auprès de 433 employés du gouvernement britannique auxquels il était demandé de déclarer leurs périodes de maladie sur une période de cinq mois, 55 d’entre eux ont donné une date postérieure à la date réelle et 27 une date antérieure. On ne trouve cependant pas systématiquement confirmation de cette hypothèse dans les résultats des expériences nombreuses qui ont été faites. En revanche il y a un effet d’inclusion dans la période de référence d’événements qui se sont produits avant. - Le temps passé dans une situation ou le temps consacré à une activité a une influence sur la mémorisation. Les personnes enquêtées ont tendance à ne pas mentionner des périodes courtes de leur vie. - La mémorisation utilise des repères qui peuvent être des événements publics (par exemple les événements de mai 1968) ou des événements de la vie personnelle et familiale (déménagements, voyages, changements d’emploi, maladies, etc.). Il est recommandé d’utiliser au maximum de tels repères qui font sens par rapport au vécu des personnes. Il est intéressant de juxtaposer des repères qui font référence à des rythmes différents. Les anniversaires, par exemple, aident à retrouver les mois mais pas les années. L’enquête Triple biographie de Daniel Courgeau dont il a été question au chapitre 4 explore simultanément la vie professionnelle, la vie personnelle et les migrations. Cette approche qui peut paraître de nature à compliquer l’enquête apporte au contraire les meilleures chances de recueillir de bonnes datations car ces différentes facettes de la vie servent mutuellement de repères pour l’enquêté. - En particulier pour les événements familiaux, il vaut mieux s’adresser aux femmes. Peut-être parce qu’elles sont plus concernées que les hommes par la vie familiale, elles mémorisent mieux les dates. Pour aider à situer les événements les uns par rapport aux autres dans le temps, on utilise souvent la technique du calendrier. Ci-


72

dessous le schéma d’un calendrier proche de celui utilisé par le Centre d’études et de recherche sur les qualifications (Céreq) pour les jeunes gens qui ont quitté le système scolaire en juin 1989 et interrogés en 1993. On a supposé ici qu’il couvrait la période 1999-2001. Les 4 premières colonnes définissent le type de situation dans laquelle le jeune se trouve, s’il n’est pas en situation d’emploi. Dans le cas contraire, on utilise les 5 colonnes suivantes pour décrire certaines caractéristiques de cet emploi. Bien entendu la description qui est faite sur ce calendrier est succincte, il s’ajoute un questionnaire qui permet d’obtenir des informations complémentaires sur les périodes de travail ou de non travail ainsi repérées. Une colonne supplémentaire pourrait être réservée pour enregistrer les principaux événements de la vie personnelle. Leur date est en général bien mémorisée et ceci permet de dater les autres événements et de reconstruire le passé. Il y a là bien sûr un risque d’erreur entraîné par l’exigence de cohérence liée au calendrier.


73

Type de situation Hors emploi Situation d’emploi, contrat Année

Mois

Ecole Apprentis, Formation

Service national

Recherche d’emploi Chômage

Inactif sans recherche

CDI, fonction-naire

CDD Intérim Autres A son compte

Mai Juin Juillet Août 1999 Septembre Octobre Novembre Décembre Janvier Février Mars Avril Mai 2000 Juin Juillet Août Septembre Octobre Novembre Décembre Janvier Février 2001 Mars Avril etc.

Des données de ce type sont particulièrement homogènes parce qu’elles concernent des personnes ayant quitté le système scolaire au même moment et ayant donc eu le même temps pour s’insérer sur le marché du travail. Cependant Nadia Auriat recommande de ne pas utiliser ce type de calendrier pour le recueil de l’information ; elle craint en effet


74

que le calendrier les détourne du travail d’introspection qui permet de se remémorer les événements. En revanche le calendrier est un bon instrument de contrôle qui peut aider à situer les événements les uns par rapport aux autres. 7-3- Panel ou enquête rétrospective ? Un panel, lorsqu’on le met en place ne donne de l’information qu’au bout d’un certain temps, en général plusieurs années. Il est vrai qu’on peut exploiter les informations contenues dans la première vague mais pas de manière longitudinale. L’enquête rétrospective donne immédiatement des informations longitudinales. L’échantillon du panel va se réduire au cours du temps mais celui de l’enquête rétrospective ne contiendra pas ceux qui sont morts ou ont disparu de la population étudiée entre le début de la période de référence et l’enquête. Plus le panel est long, plus il va falloir créer un lien fort entre l’équipe de recherche et les personnes interrogées. Cette relation peut avoir un effet sur les réponses, c’est ce que l’on appelle l’effet panel qui est assez mal connu mais dépend certainement du type d’information recherché. Il n’y a pas d’effet panel avec une enquête rétrospective. Le panel produit en principe de l’information fiable. En tout cas, les défaillances de la mémoire ne peuvent pas être invoquées pour expliquer les faiblesses éventuelles. Les panels coûtent très cher parce qu’il faut réaliser une succession d’enquêtes et que l’entretien de la relation avec les personnes constituant l’échantillon est coûteux également. C’est pourquoi les panels sont souvent réalisés par de grands instituts. Il sera plus aisé à une petite équipe de réaliser une enquête rétrospective. Les données recueillies pour les besoins de l’administration constituent souvent d’excellents panels car les informations sont fiables et rassemblées régulièrement. On a vu le cas des panels


75

d’élèves réalisés par l’Éducation nationale française au chapitre 1. Les caisses de retraite disposent aussi d’informations très riches sur leurs adhérents. Ces données ne sont cependant pas toujours disponibles pour la recherche. Nous ne donnerons donc pas ici de réponse à la question posée en titre du paragraphe. Bien des éléments interviennent dans le choix d’une procédure. Il faut connaître les inconvénients et les avantages de chaque méthode et faire ensuite un choix éclairé. Lorsqu’on dispose d’observations dans la durée, il est clair que l’on accède à un niveau d’explication et d’interprétation beaucoup plus fin que lorsqu’on n’a que des observations ponctuelles. On l’a bien vu sur l’exemple des rôles respectifs de l’enseignement public et de l’enseignement privé ou sur l’effet de l’âge sur la durée du chômage. Même lorsqu’il n’est pas possible de suivre les mêmes individus pendant longtemps, il y a beaucoup d’information à retirer de l’exploitation d’enquêtes successives réalisées à partir d’échantillons indépendants les uns des autres mais avec le même questionnaire. On est assez naturellement tenté de vouloir allonger la période d’observation. Ainsi voit-on des auteurs souhaiter que l’entrée des jeunes sur le marché du travail soit observée pendant dix ans. En fait cette attitude n’est pas forcément juste car les observations perdent alors de leur homogénéité et de leur comparabilité. Des variations dans les comportements liées au cycle de vie changent la nature des conclusions auxquelles on peut aboutir. Cinq ans n’est pas du tout une durée sans intérêt de ce point de vue et c’est pourquoi pour beaucoup de phénomènes, un dispositif de panel glissant tel que celui qui est mis en place dans l’enquête emploi de l’Insee présente un grand intérêt. Ceci nous conduit à plaider pour la constitution de banques de données pour la recherche. En institutionnalisant la collecte et la conservation des enquêtes, on peut constituer des séries plus ou moins longues et préparer pour l’avenir des matériaux statistiques riches de possibilités d’analyse. L’organisation du


76

partage des données statistiques apparaît ainsi comme une impérieuse nécessité que l’on mesure d’autant mieux quand on constate le retard pris par la France dans ce domaine par rapport aux pays comparables. C’est donc tout un dispositif qui permettra que se généralise l’exploitation en sociologie des données longitudinales et que changent les attitudes à l’égard de ces matériaux.


77

Bibliographie

Allison P.D., 1984, Event history analysis, Regression for longitudinal event data, Beverly Hill, Sage. Allison P.D. 1995, Survival Analysis Using the SAS System ; A practical Guide, Cary,N.C., SAS Institute Inc. Auriat N., Les défaillances de la mémoire humaine ; aspects cognitifs des enquêtes rétrospectives, Paris INED-PUF Courgeau D., Lelièvre E., 1989, Analyse démographique des biographies, Paris, Éditions de L’INED. Franck Cadier C., 1990, Démographie, Paris, Economica. Glenn N. D., 1977, Cohort Analysis, Newbury Park, Sage. Leridon H., Toulemon L., 1997, Démographie, Paris, Economica. Lelièvre E., Bringé A., 1998, Manuel pratique pour l’analyse statistique des biographies, Paris, PUF-INED Magnusson D., Bergman L.R., 1990, Data quality in longitudinal research, Cambridge, Cambridge University Press. Rose D. (Ed.), 2000, Researching Social and Economic Change; The uses of household panel studies. London : Routledge.

Logiciels Pour une présentationde quelques logiciels récents, se reporter à Courgeau et Lelièvre 1989 et à Lelièvre et Bringé, 1998.

Autres références Baudelot C., 1982, L’évolution des salaires : une nouvelle approche, Economie et statistique, 149, 3-11.


78

Baudelot C., Gollac M., 1997, Le salaire du trentenaire : question d’âge ou de génération ? Economie et statistique, 304-305, 17-35. Blossfeld H.P., 1992, Les trajectoires professionnelles en RFA : étude des effets de cohorte, de période et de position dans le cycle de vie in Laurence Coutrot et Claude Dubar (eds.), Cheminements professionnels et mobilités sociales, Paris, La Documentation Française. Courgeau D., Lelièvre E., 1986, Nuptialité et agriculture, Population, 2,1986, 303-326. Degenne A., Lebeaux M.-O., Mounier L., 1996, Typologies d’itinéraires comme instrument d’analyse du marché du travail, in A. Degenne, M. Mansuy, G. Podevin, P. Werquin (eds.), Typologie des marchés du travail, suivi et parcours, Marseille, Céreq, Document Céreq n°115, 27-42. Degenne A., Lebeaux M.-O., 1999, Étude sur les sorties du chômage, comparaison jeunes et adultes, Rapport pour le Commissariat Général du Plan, Caen. Lasmas. Héran F., 1998, La mobilité sociale et professionnelle à la lumière de l’échantillon démographique permanent : six approches longitudinales. Économie et Statistique, 6/7, n° 316-317. Janson C. G., 1990, Retrospective data, undesirable behavior and the longitudinal perspective, in Magnusson D., Bergman L.R., 1990, Data quality in longitudinal research, Cambridge, Cambridge University Press. Jeandidier B., 1992, Présentation de l’enquête socio-économique auprès des ménages lorrains, Nancy,ADEPS. Langouët G., Léger A., 1991, Public ou privé : trajectoires et réussites scolaires, La Garenne-Colombes, Publidix. Marchand O., Thélot C., 1997, Le travail en France, Paris, Nathan.


79

Ray J.C. 1988, Données censurées et modèles de durée, Recherches et applications en marketing, vol III, n°2,77-88. Vallet L.A., 1999, Quarante années de mobilité sociale en France, Revue Française de Sociologie, XL-1, 5-64.

Documents

Introduction à l'analyse des données longitudinales