Infolab : les prénoms, une donnée populaire

Preview:

DESCRIPTION

Extrait de l'infolab consacré aux prénoms, une donnée (ouverte) populaire par Simon Chignard (présentation du 11/04/2013 lors de la réunion du groupe national Infolab avec la Fing)

Citation preview

Les prénoms, une donnée populaire Simon Chignard - @schignard

simonchignard@mac.com www.donneesouvertes.info

1

Atelier «Prénoms»Sommaire

Découverte du sujet 1/ Dans la presse quotidienne régionale : les 1ers bébés de l’année2/ En vidéos : la Saint Méthode (1964), Attention aux prénoms farfelus (2003)3/ Les premières perceptions : un bien de mode, la recherche de l’extravagance

Les données disponibles 1/ Sur les portails Open Data des collectivités2/ Le fichier Insee3/ Les prénoms des candidats au bac

Lecture critique des données disponibles1/ Périmètre et constitution du fichier2/ N = ? 3/ Où êtes-vous vraiment nés ?

Des réutilisations possibles1/ La diversité des prénoms et l’évolution dans le temps2/ Les effets de mode et l’influence d’évènements extérieurs3/ Le prénom un indicateur social ?4/ Les prénoms et la crise

Le lien entre matière première disponible et réutilisations possibles

1

2

3

4

52

Découverte du sujet13

Presse Océan2/01/2013

4

Le Telegramme 2/01/2013

5

Le Pays Malouin 3/01/13

6

Découverte du sujet

Les prénoms comme un bien de mode

Le Top des prénoms : Emma et Matthis

«Le retour de Lola, face à l’indétronable Enzo»

L’influence d’évènements extérieurs : les stars de cinéma, les chanteurs, etc...

Les prénoms farfelus

Attention aux prénoms farfelus ! Loréal, Ikea, Tartempion, MJ, ...

les premières perceptions du phénomène

7

Les données disponibles2

8

Les jeux de données disponibles

Sur les portails Open Data des collectivités ou data.gouv.fr

BordeauxCoulommiersLa RochelleNantesRennesMontpellierParisSarlat-la-CanédaDigne-les-BainsToulouse...

Le fichier prénoms de l’INSEE

Soumis à redevance mais disponible en ligne sur nosdonnees.fr

Sur demande auprès de l’état-civil

en application de la loi CADA

Poitiers

Le fichier des candidats au bac 2011 et 2012

compilé par Baptiste Coulmont à partir du site web de l’Education nationale

Un recensement rapide

9

Lecture critique des données3

10

Lecture critique des données

Qui figure dans le fichier ?

Comment est-il constitué ?

Le fichier représente-t-il l’ensemble des naissances ?

Les premières questions

11

Lecture critique des donnéesN=?

Le fichier prénoms de l’INSEE

N = naissances enregistrées (bulletin de naissance) sur le territoire y compris DOM de 1900 à 2009, à l’exception des enfants portant un prénom donné moins de 3 fois au cours d’une année (prénoms «rares».

Le fichier de Paris en Open Data

N = naissances à la date d’enregistrement à l’état-civil sur le territoire de Paris, à l’exception des enfants portant un prénom donné moins de 5 fois au cours de l’année

Le fichier des candidats au bac en 2012

N = candidats au bac 2012 ayant accepté la publication de leurs résultats

12

Des réutilisations possibles4

13

Relativiser la part des prénoms figurant dans le Top

Comment illustrer la courbe de distribution de type longue traîne ?

(Loi de Zipf)

Montrer la diversité dans le temps

Indicateur : nombre de prénoms nécessaires pour nommer la moitié d’une classe d’âge

Indicateur : pourcentage des enfants qui portent un prénom du Top 50 (les plus donnés)

Indicateur : pourcentage des enfants recevants un prénom unique dans une ville

a - Montrer la diversité des prénomsDes réutilisations possibles

Sources : étude Insee Bretagne, publiée dans la revue Octant en 2002,«La sociologie des prénoms», Baptiste Coulmont, éditions La Découverte

«scoring prénoms»

en marketing

14

La mode des prénoms courts

Enrichissement du fichier : nombre de lettres dans le prénom

Attention : Tom et Léa, 3 lettres chacun !

Les terminaisons à la mode

Enrichissement du fichier : prénoms ayant une terminaison en -a ou -ah(Léa, Sarah, Emma, ...)vs.

prénoms ayant une terminaison en -ette (Bernadette)

b - Le prénom, un bien de modeDes réutilisations possibles

L’influence d’un évènement externe

Un fait diversUne chanteuse à la mode...

La recherche d’éventuelles spécificités locales

Est-on plus originaux à Paris, La Rochelle ou Nantes ?

15

b - Le prénom, un bien de modeL’influence d’un évènement externe : un fait divers

% d

es n

aiss

ance

s (g

arço

ns) p

orta

nt le

pré

nom

5700

2200

16

b - Le prénom, un bien de modeL’influence d’un évènement externe : une chanteuse

% d

es n

aiss

ance

s (fi

lles)

por

tant

le p

réno

m 1200

550

17

Les mentions au bac en fonction du prénom (Baptiste Coulmont)

c - Le prénom, un indicateur socialDes réutilisations possibles

18

Le carnet du Figaro

Enrichissement du fichier : prénoms figurant dans le carnet du Figaro

Attention : Justin !

(Parenthèse juridique)

Selon la licence choisie pour le jeu de données initial, on devra republier ces enrichissements selon les mêmes conditions... (ODbL)

Ilustration concrète du partage à l’identique (share-alike).

c - Le prénom, un indicateur socialDes réutilisations possibles

19

d - Le prénom en période de criseDes réutilisations possibles

20

Le lien entre la matière première disponible et les réutilisations possibles5

21

Une très grande hétérogénéité des jeux disponibles

Analyse de Charles Népote sur les jeux disponibles : contenu du fichier, plage temporelle, licence, le troncage réalisé

La comparaison entre territoires est très difficile.

Un troncage lié à leur ouverture

Les prénoms rares ne figurent pas dans les fichiers. Or ils sont indispensables pour répondre à certaines questions :

«Je veux donner à mon enfant un prénom qui n’a jamais été donné dans cette ville»

La matière disponible détermine les réutilisations possibles

Certains phénomènes relèvent du temps long

Un prénom revient à la mode suivant un cycle de 80 à 120 ans.

Les fichiers publiés couvrent des périodes temporelles beaucoup plus limitées...

22