Upload
simon-chignard
View
1.364
Download
4
Embed Size (px)
DESCRIPTION
Extrait de l'infolab consacré aux prénoms, une donnée (ouverte) populaire par Simon Chignard (présentation du 11/04/2013 lors de la réunion du groupe national Infolab avec la Fing)
Citation preview
Les prénoms, une donnée populaire Simon Chignard - @schignard
[email protected] www.donneesouvertes.info
1
Atelier «Prénoms»Sommaire
Découverte du sujet 1/ Dans la presse quotidienne régionale : les 1ers bébés de l’année2/ En vidéos : la Saint Méthode (1964), Attention aux prénoms farfelus (2003)3/ Les premières perceptions : un bien de mode, la recherche de l’extravagance
Les données disponibles 1/ Sur les portails Open Data des collectivités2/ Le fichier Insee3/ Les prénoms des candidats au bac
Lecture critique des données disponibles1/ Périmètre et constitution du fichier2/ N = ? 3/ Où êtes-vous vraiment nés ?
Des réutilisations possibles1/ La diversité des prénoms et l’évolution dans le temps2/ Les effets de mode et l’influence d’évènements extérieurs3/ Le prénom un indicateur social ?4/ Les prénoms et la crise
Le lien entre matière première disponible et réutilisations possibles
1
2
3
4
52
Découverte du sujet13
Presse Océan2/01/2013
4
Le Telegramme 2/01/2013
5
Le Pays Malouin 3/01/13
6
Découverte du sujet
Les prénoms comme un bien de mode
Le Top des prénoms : Emma et Matthis
«Le retour de Lola, face à l’indétronable Enzo»
L’influence d’évènements extérieurs : les stars de cinéma, les chanteurs, etc...
Les prénoms farfelus
Attention aux prénoms farfelus ! Loréal, Ikea, Tartempion, MJ, ...
les premières perceptions du phénomène
7
Les données disponibles2
8
Les jeux de données disponibles
Sur les portails Open Data des collectivités ou data.gouv.fr
BordeauxCoulommiersLa RochelleNantesRennesMontpellierParisSarlat-la-CanédaDigne-les-BainsToulouse...
Le fichier prénoms de l’INSEE
Soumis à redevance mais disponible en ligne sur nosdonnees.fr
Sur demande auprès de l’état-civil
en application de la loi CADA
Poitiers
Le fichier des candidats au bac 2011 et 2012
compilé par Baptiste Coulmont à partir du site web de l’Education nationale
Un recensement rapide
9
Lecture critique des données3
10
Lecture critique des données
Qui figure dans le fichier ?
Comment est-il constitué ?
Le fichier représente-t-il l’ensemble des naissances ?
Les premières questions
11
Lecture critique des donnéesN=?
Le fichier prénoms de l’INSEE
N = naissances enregistrées (bulletin de naissance) sur le territoire y compris DOM de 1900 à 2009, à l’exception des enfants portant un prénom donné moins de 3 fois au cours d’une année (prénoms «rares».
Le fichier de Paris en Open Data
N = naissances à la date d’enregistrement à l’état-civil sur le territoire de Paris, à l’exception des enfants portant un prénom donné moins de 5 fois au cours de l’année
Le fichier des candidats au bac en 2012
N = candidats au bac 2012 ayant accepté la publication de leurs résultats
12
Des réutilisations possibles4
13
Relativiser la part des prénoms figurant dans le Top
Comment illustrer la courbe de distribution de type longue traîne ?
(Loi de Zipf)
Montrer la diversité dans le temps
Indicateur : nombre de prénoms nécessaires pour nommer la moitié d’une classe d’âge
Indicateur : pourcentage des enfants qui portent un prénom du Top 50 (les plus donnés)
Indicateur : pourcentage des enfants recevants un prénom unique dans une ville
a - Montrer la diversité des prénomsDes réutilisations possibles
Sources : étude Insee Bretagne, publiée dans la revue Octant en 2002,«La sociologie des prénoms», Baptiste Coulmont, éditions La Découverte
«scoring prénoms»
en marketing
14
La mode des prénoms courts
Enrichissement du fichier : nombre de lettres dans le prénom
Attention : Tom et Léa, 3 lettres chacun !
Les terminaisons à la mode
Enrichissement du fichier : prénoms ayant une terminaison en -a ou -ah(Léa, Sarah, Emma, ...)vs.
prénoms ayant une terminaison en -ette (Bernadette)
b - Le prénom, un bien de modeDes réutilisations possibles
L’influence d’un évènement externe
Un fait diversUne chanteuse à la mode...
La recherche d’éventuelles spécificités locales
Est-on plus originaux à Paris, La Rochelle ou Nantes ?
15
b - Le prénom, un bien de modeL’influence d’un évènement externe : un fait divers
% d
es n
aiss
ance
s (g
arço
ns) p
orta
nt le
pré
nom
5700
2200
16
b - Le prénom, un bien de modeL’influence d’un évènement externe : une chanteuse
% d
es n
aiss
ance
s (fi
lles)
por
tant
le p
réno
m 1200
550
17
Les mentions au bac en fonction du prénom (Baptiste Coulmont)
c - Le prénom, un indicateur socialDes réutilisations possibles
18
Le carnet du Figaro
Enrichissement du fichier : prénoms figurant dans le carnet du Figaro
Attention : Justin !
(Parenthèse juridique)
Selon la licence choisie pour le jeu de données initial, on devra republier ces enrichissements selon les mêmes conditions... (ODbL)
Ilustration concrète du partage à l’identique (share-alike).
c - Le prénom, un indicateur socialDes réutilisations possibles
19
d - Le prénom en période de criseDes réutilisations possibles
20
Le lien entre la matière première disponible et les réutilisations possibles5
21
Une très grande hétérogénéité des jeux disponibles
Analyse de Charles Népote sur les jeux disponibles : contenu du fichier, plage temporelle, licence, le troncage réalisé
La comparaison entre territoires est très difficile.
Un troncage lié à leur ouverture
Les prénoms rares ne figurent pas dans les fichiers. Or ils sont indispensables pour répondre à certaines questions :
«Je veux donner à mon enfant un prénom qui n’a jamais été donné dans cette ville»
La matière disponible détermine les réutilisations possibles
Certains phénomènes relèvent du temps long
Un prénom revient à la mode suivant un cycle de 80 à 120 ans.
Les fichiers publiés couvrent des périodes temporelles beaucoup plus limitées...
22