56
Atelier Rechercher & Réutiliser les données de la recherche Christine Silvy (Inra) et Dominique Fournier (Inra) Agropolis International, 28 mars 2017

Atelier 28 mars 2017 : Rechercher et réutiliser les ... · Entrepôt de données définition, finalité ... Agrégateur de contenus dans le domaine de l’environnement –36 entrepôts,

Embed Size (px)

Citation preview

Atelier

Rechercher & Réutiliser

les données de la recherche

Christine Silvy (Inra) et Dominique Fournier (Inra)

Agropolis International, 28 mars 2017

Objectifs de l’atelier

• Rechercher des données sur une thématique

• Vérifier les droits d’accès et de réutilisation de ces données

• [ Analyser, exploiter et s’approprier ces données pour leur donner un

nouveau sens, une nouvelle interprétation à travers une nouvelle publication,

la création de services, …]

• Citer ces données en cas de réutilisation

Atelier

http://www.inist.fr/donnees/co/module_Donnees_recherche_7.html

Quelques exemples de réutilisations

DOI: 10.1111/nph.13253

Quelques exemples de réutilisationshttp://www.gbif.org/newsroom/uses

DOI: 10.1038/srep31605

Et vous ? Votre expérience ?

Comment trouver des données ?

• Les sources bibliographiques classiques (bases de

données, archives ouvertes, réseaux sociaux, moteurs de

recherche) intègrent quasiment pas ou très peu de

datasets

• En pratique, les données sont le + souvent repérées à

partir de l’article qui mentionne un lien vers le jeu de

données utilisé (hébergement par la revue ou dans un

entrepôt)

Où trouver les jeux de données ?

• Entrepôts multidisciplinaires

• Entrepôts thématiques

• Annuaires d’entrepôts

• Moteurs de recherche

Entrepôt de données définition, finalité

• Un entrepôt de données (Data repository, digital

repository) est un réservoir constitué majoritairement de

données de recherche, brutes ou élaborées, qui sont

décrites par des métadonnées de façon à pouvoir être

retrouvées.

“Repository (aka Data Repository or Digital Data Repository) is a searchableand queryable interfacing entity that is able to store, manage, maintainand curate Data/Digital Objects.” Définition du groupe d’intérêt RDA Data Foundation and Terminology Interest Group http://smw-rda.esc.rzg.mpg.de/index.php/Repository

Entrepôts de données : fonctionnalités, services

Différents entrepôts de donnéesNom Entrepôt Thématiques Propriétaire Volume dataset

(source OpenDOAR et/ou re3data)

GenBank Séquences ADN US National Institutes of Health 199 341 377 séquences ADN

(re3data)

PANGAEA Sciences de

l’environnement

Institutions publiques (Allemagne) 290 000

(09/2015)

Zenodo Pluridisciplinaire Commission Européenne / CERN 190 564

(03/2017)

VizieR Physique et

Astronomie

Centre de Données astronomiques

de Strasbourg

30 587

(03/2017)

IFREMER Données marines IFREMER 16 855 (03/2017)

ADA Pluridisciplinaire Australian Data archive 2 000 dataset

Dryad Pluridisciplinaire Organisation à but non lucratif 11 595 (03/2016)

FigShare Pluridisciplinaire Digital Science 5 000 (02/2016)

Gene Expression

Omnibus

Génomique

fonctionnelle

US National Institutes of Health 3 341 (re3data)

Registry of Open Access Repositories http://roar.eprints.org/Directory of Open Access Repositories http://www.opendoar.org/Registry of Research Data Repositories Re3data http://www.re3data.org/

Les entrepôts de confiance

• Dans le contexte de l'ouverture des données de la recherche,

l'entrepôt de données doit aussi permettre la traçabilité (via une

identification unique et pérenne) et la curation (archivage et

préservation) des données.

• Un entrepôt de confiance (« trusted repository ») est un entrepôt

de données qui répond à un certain nombre de critères

concernant le dépôt et l'accès aux données, la pérennité de

l'entrepôt et les services associés.

Statut juridique des données de la recherche

• A l'heure actuelle, l'environnement juridique entourant les

données reste flou. Les données brutes ne sont a priori pas

protégées par le droit d'auteur.

• Sous certaines conditions, le droit protégeant les bases de

données peut s'appliquer.

• Il est donc important que les producteurs de données protègent

leurs données par des licences prédéfinies.

• Les utilisateurs de données doivent appliquer les conditions

d’utilisation mentionnées dans ces licences

“Ouverture des données de recherche. Guide d’analyse du cadre juridique en France”

http://prodinra.inra.fr/record/382263

Les licences utilisées pour la publication et diffusion des jeux de données

CC0 permet aux producteurs de données de les placer dans le domaine public, sans aucune restriction de

réutilisation. La citation n’est pas obligatoire mais fortement conseillée d’un point de vue éthique et scientifique.

(imposée par Dryad, BioMed Central et Nature Publishing Group)

CC-by 4.0 permet de partager, copier, distribuer et communiquer les données par tous moyens et sous tous

formats, de les réutiliser pour créer de nouveaux jeux de données. Toutes les utilisations, y compris

commerciales, sont possibles, sous réserve de créditer les données à leurs créateurs (obligation d’attribution).

(préconisée par la majorité des entrepôts)

Licence ouverte (Etalab) autorise la réutilisation, la reproduction, la modification, la redistribution des

données et leur exploitation à titre commercial sous réserve de mentionner a minima le nom du producteur et

la date de dernière mise à jour (utilisée sur la plateforme de données publique data.gouv.fr)

Les licences Creatives Commons

Les licences de l’Open Knowledge Fondation (OKF) basées sur le droit anglo-saxon et orientées bases de

données, peuvent être appliquées aux bases de données et aux données qu’elles contiennent prises isolément

Licence ouverte

La licence ODC-by impose d’indiquer le nom de l’auteur/créateur de la base de données

originale (obligation d’attribution) (utilisée par l’éditeur Pensoft)

La citation : élément clé pour la réutilisation des données

• Le DOI (Digital Object Identifier) est un identifiant pérenne et unique permettant de référencer, citer et fournir un lien stable vers un objet scientifique et sa citation.

• Le DOI peut être attribué à tout objet scientifique que l’on souhaite rendre citable.

• DataCite (consortium international) opère comme une agence d’enregistrement des DOI, en s’appuyant sur un réseau d’institutions membres dans différents pays (INIST-CNRS, mise en place de services attribution DOI dans établissements)

10.15454/1.481273124091092E12

• DataCite Metadata Search : recherche des métadonnées associées aux jeux de données enregistrées dans DataCite

Comment citer des données dans un article ?

• Recommandations par la revue du format de citation– Oui : suivre la recommandation

– Non

• l’entrepôt de stockage de la donnée recommande un format de citation– Oui: suivre la recommandation

– Non

• la donnée est identifiée par un DOI– Oui: utiliser le service DOI formatter de Datacite pour générer un

format de citation dans le style qui convient

– Non

• construire la citation en s’appuyant sur le format standard de Datacite– Creator (Publication Year) Title, Publisher, Identifier

Comment citer des données ?

• La plupart des entrepôts propose plusieurs formats classiques de citations

des données

• Dans EndNote, il existe un type de document « dataset »

• Dans Zotero, "itemType: dataset" prévu

Exemple « Cite » dans DataCite

Zenodo

• Créé par OpenAIRE et le CERN et financé par la Commission européenne,

ZENODO est un entrepôt qui permet aux chercheurs de partager leurs

publications, leurs posters, leurs vidéos, leurs présentations, les données de

leurs recherches.

• Une mise à jour majeure de Zenodo a été lancée le 12/09/2016

– rapidité augmentée,

– recherche améliorée,

– espace de stockage de 50GB par défaut au lieu de 2 GB,

– liaison avec les projets H2020

Zenodo – datasets agriculture

Zenodo – datasets agriculture

Entrepôt multidisciplinaire - Dryad

http://datadryad.org/

Entrepôt de données scientifiques et médicales liées à des publications

Géré par une organisation à but non lucratif

Dépôt des données : 120 $ de charges de publication et supplément si > 20GB

Service d’attribution de DOI aux données déposées

Dryad – recherche de données

Dryad – réutilisation des données

• un ou plusieurs fichiers (package)

• licence CC-0 imposée

• aucune restriction pour la réutilisation des

données, la citation n’est pas obligatoire mais

conseillée

http://datadryad.org/resource/doi:10.5061/dryad.k5c8v/2

Se rapporter à l’article

(autosomal microsatellite Loci)

Entrepôt thématique – PANGAEA https://www.pangaea.de/

• Entrepôt hébergé par the Alfred Wegener Institute, Helmholtz Center for

Polar and Marine Research (AWI) and the Center for Marine Environmental

Sciences, University of Bremen (MARUM).

• World Data Center PANGAEA member du World Data System (WDS) of the

International Council for Science (ICSU)

• Entrepôt de données géo-référencées, brutes ou liées à des publications

• Pas de frais pour le dépôt des données

• Service attribution de DOI

• Possibilité de protéger par mots de passe le temps d’un projet

PANGAEA – recherche

• Par Topics et possibilité de filtre (par facette)

PANGAEA – réutilisation des données

• Licence CC-By (obligation d’attribution)

Entrepôt institutionnel Ifremer

https://data.ifremer.fr/

Annuaires d’entrepôts

• Re3Data (re3data.org) multidisciplinaire, répertorie 1 500

entrepôts de données

• OpenDOAR http://opendoar.org/

• Réseau Quetelet (données sciences sociales)

• Liste d’entrepôts recommandés par un éditeur

Annuaire Re3datahttp://www.re3data.org/

1 571 entrepôts disciplinaires

467 entrepôts institutionnels

189 autres

Re3Data - recherche

OpenDOAR (http://opendoar.org )

Réseau Quetelet – données sciences sociales

Liste d’entrepôts recommandés par un éditeur

List of trusted data repositories

Moteurs de recherche

• Elsevier DataSearch (10 sources)

• DataCite MetaData Search

• OpenAire+ (6 128 entrepôts, 44 970 datasets)

• BASE (5 300 sources, + 3 millions datasets)

• Agrégateurs / métamoteurs

Google ?

• pas encore de recherche spécifique sur les jeux de données

• Google indexe des datasets que l’on peut retrouver si on

connait le titre exact

• Possibilité de préciser le format du fichier dans la requête

(mais fiabilité des sites ? )

filetype:csv ou filetype:xlsx

Elsevier Datasearch

https://datasearch.elsevier.com

Type de données:

tabular data, file set,

raw data et statistical data

Syntaxe de recherche :

Par défaut OR

Utiliser « », AND, OR, NOT

Troncature par défaut

Recherche approchée

agriculture agricultural

DataSearch(recherche Montpellier puis file set)

https://search.datacite.org

• Moteur gratuit de DataCite

• Recherche de jeux de données à partir des métadonnées

Opérateurs booléens

Par défaut : AND

Utiliser AND, OR, AND NOT, « »

Troncature *

Infrastructure européenne OpenAire+ et Zenodo

Possibilité de rechercher dans « Research Data » ou

d’affiner par type de document « dataset »

Opérateurs booléens

Par défaut : OR

Utiliser AND, OR, NOT

Pas de troncature

BASE (Bielefeld Academy Search Engine)www.base-search.net

Interrogation de 5 300 sources, 3 236 524 datasets

Opérateurs booléens

Par défaut : AND

Utiliser AND, OR, NOT

Troncature * ou cocher

« autre forme du mot »

Agrégateurs & Outils de découverte

• Initiative DataOne : Agrégateur de contenus dans

le domaine de l’environnement

– 36 entrepôts, 951 000 data files

• Entrepôts de données Biodiversité (GBIF)

– 1 186 data publishers, 31 975 datasets

• Research Data Discovery Service (JISC, UK)

– 14 entrepôts (dont UK Data Service), 16 850 datasets

• ISIDORE : Sciences Humaines et Sociales

– 4 242 sources SHS, 5 034 données enquêtes

DataOne

• Application Web qui permet d’interroger les contenus des

entrepôts de données des membres du projet

Biodiversité

http://ckan.data.alpha.jisc.ac.uk/dataset

ISIDOREhttps://www.rechercheisidore.fr

• ISIDORE est une plateforme de recherche permettant l'accès aux données numériques

des sciences humaines et sociales (SHS).

• Ouverte à tous et en particulier aux enseignants, chercheurs, doctorants et étudiants, elle

s'appuie sur les principes du web de données et donne accès à des données en accès

libre (open access).

• ISIDORE est une réalisation de la très grande infrastructure de recherche Huma-Num

(CNRS, Aix-Marseille Université, Campus Condorcet).

Data Citation Index Index de citation de jeux de données

Base de données payante de Clarivate Analytics (ex-Thomson Reuters)

Indexe plus de 3 millions d'enregistrements issus de 300 entrepôts de données

scientifiques en ligne.

Data Citation Index

• 3 types de données indexées : – Entrepôts de données (Repositories)

– Jeux de données (Datasets)

– Données issues d'études (Data Studies)

• Recherche par type de document, auteur, affiliation, titre, année, langue, sujet, source de financement ou DOI

• Chaque résultat affiché est associé à un résumé, au lien internet (Source URL) vers le jeu ou l’entrepôt de données référencé, et à sa référence bibliographique (How to cite this Resource).

Chaque résultat est accompagné du nombre de citations reçues à partir d’autres jeux de données et des publications indexées dans les bases de données de Thomson Reuters (Data Citation Index, Web of Science CoreCollection, BIOSIS Citation Index, SciELO Citation Index).

Exemple dataset

Exemple dataset

Exemple data study

Associated data

Data citation index

• Descriptor « agriculture » et adresses France

• 10 dataset

• 3 data study

Conclusion

Des questions ?

ResearchGate

Dépôt de données limité à 512MB

Pas de possibilité de rechercher des

jeux de données avec le moteur de

ResearchGate

Google data site:researchgate.net

Mendeley.data

• Dépôt gratuit

• Les données sont archivées dans DANS (Data Archive and Networking Services)

• Pour l’instant, pas de module de recherche (uniquement Browse)