43
Planes de Gestión de Datos en Humanidades y Ciencias Sociales Isabel Bernal DIGITAL.CSIC Seminario, CSIC-CCHS, Madrid 20 junio 2019

Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Planes de Gestión de Datos en Humanidades y Ciencias Sociales

Isabel Bernal DIGITAL.CSIC

Seminario, CSIC-CCHS, Madrid 20 junio 2019

Page 2: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Características de los datos de Humanidades/Ciencias Sociales

Gran diversidad de datos primarios para la investigación

• Yacimientos arqueológicos

• Artefactos

• Textos

• Mapas

• Manuscritos

• Fotografías, censos…

• Encuestas, censos… Gran diversidad en métodos de recolección, análisis y difusión

• Se requiere un enfoque disciplinar

• Heterogeneidad de estándares y protocolos

• Repositorios temáticos, infraestructuras de redes y agregadores, bibliotecas digitales, revistas, proyectos de Humanidades Digitales ..

Tratamiento de datos personales/sensibles y licencias específicas

• Muchos investigadores recelan de usos comerciales y/o de obras derivadas de sus datos

• Necesidad de conocer licencias y estándares específicos para Humanidades/Ciencias Sociales

Page 3: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

¿Por qué compartir los datos de investigación?

• Promueve la investigación y el debate • Promueve la innovación y nuevos usos para los datos • Da paso a nuevos tipos de colaboraciones entre los creadores

y los usuarios de los datos • Aumenta la transparencia y la rendición de cuentas de los

proyectos • Permite el análisis de las conclusiones de las investigaciones • Anima a mejorar y validar los métodos de investigación • Reduce el coste de la duplicación en la recolección de datos • Aumenta el impacto y la visibilidad de la investigación • Da crédito a los creadores de los datos • Proporciona nuevos recursos educativos/de investigación

Page 4: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Ejemplos interesantes

https://huni.net.au/#/search

https://data.worldbank.org/

HUMANIDADES CIENCIAS SOCIALES

Page 5: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Variedad de datos de investigación en institutos CCHS

• Datos numéricos que habitualmente los tenemos en forma de tablas

en Excel o Access • Imágenes que se almacenan individualmente en formato tiff o jpg • Fotografías, fotogrametrías • Modelos 3D • Bases de datos • Fragmentos audiovisuales • Grabaciones sonoras • Todo tipo de fuentes documentales • Tablas • Dataciones • Bibliografías • Mapas de reconstrucción geomorfológica y de paisajes en el pasado • ¿Qué más?

Page 6: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

TIPOS DE DATASETS EN DIGITAL.CSIC

Page 7: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Si buscas otros repositorios/infraestructuras…

Page 8: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Principales motivaciones para depositar datos de investigación en

DIGITAL.CSIC

Publicación de datos de

investigación Asignación de DOIs

Cumplimiento de políticas de datos

de revistas

Cumplimiento de políticas de

agencias financiadoras

Almacenamiento y descripción de datasets según

estándares

Page 9: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Los datos de investigación en el mandato institucional de acceso abierto

• Solicita que las referencias bibliográficas (…) de los datasets asociados a artículos de revistas sean hechas públicas de manera permanente en DIGITAL.CSIC desde el momento de la aceptación para su publicación de los artículos asociados.

• Solicita que se ofrezcan en modalidad de

acceso abierto en DIGITAL.CSIC aquellos datasets asociados a publicaciones siempre y cuando no se den legítimas razones de confidencialidad, propiedad intelectual y/o seguridad. Estos datasets en acceso abierto deben ser FAIR (“findable, accessible, interoperable, reproducible”) e ir acompañados de una licencia estándar que explícitamente indique las condiciones de uso y favorezca la reproducibilidad científica (por ejemplo, Creative Commons y Open Data Commons)

• Solicita el depósito público de los metadatos de los datasets asociados a artículos de revistas desde el momento de su aceptación

• Acceso abierto a los datasets asociados a artículos de revistas en DIGITAL.CSIC tan pronto como sea posible (a menos que haya excepciones)

• DIGITAL.CSIC no es una infraestructura de big data

• Los metadatos de los datasets deben estar bien descritos según estándares internacionales y los datasets debe llevar licencias de uso estándar para que sean FAIR

• Alineamiento con la política EOSC (European Open Science Cloud) de la Comisión Europea

• FAQS del mandato: http://digital.csic.es/handle/10261/181729

Page 10: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

El papel de la Comisión Europea en impulsar la planificación y la difusión

de los datos FAIR

Page 12: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Recomendaciones para los investigadores • Define las responsabilidades para la gestión de datos entre los miembros del

equipo en el plan de gestión de datos • Acuerda el uso de estándares comunes para recoger, almacenar y describir datos • Asegúrate de que todos los datos resultantes del proyecto se comparten en una

plataforma común y segura entre todos los miembros del equipo • Documenta la metodología usada en la recogida de datos y las decisiones de una

manera sistemática, por ejemplo, usando plantillas comunes • Usa estándares comunes para denominar a los ficheros, formatos, estructura de los

contenidos • Pon por escrito cómo se gestionan los datos y se comparten entre los miembros del

equipo • Establece qué datos son de uso interno para los miembros del equipo y cuáles se

difundirán públicamente • Deposita los datos en un repositorio que permite el acceso a los revisores de las

publicaciones resultantes del proyecto • Elige licencias de uso estándares para los datos resultantes del proyecto • Asigna un identificador persistente (DOI, Handle, PURL…) a los datos resultantes

para que puedan ser encontrados, reutilizados y citados • Publica información (METADATOS) sobre los datos resultantes en repositorios

Page 13: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Las preguntas que debes hacerte para que tus datos sean FAIR

• ¿Tiene el dataset un identificador persistente (handle, DOI)? • ¿Hay documentación/metadatos que permitan entender los

datos adecuadamente? • ¿Los metadatos están accesibles? • ¿Se ha aplicado al dataset una licencia de uso? ¿Es una licencia

estándar? ¿Impone algún tipo de restricciones? ¿Permite explícitamente la reutilización?

• ¿Los ficheros del dataset se encuentran en formatos abiertos o en formatos propietarios ampliamente soportados?

• ¿Están el dataset/metadatos codificados según algún estándar global?

• ¿Está el dataset enlazado a otros datasets u otros resultados de investigación? ¿Cómo?

Page 14: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Generadores de Planes de Gestión de Datos

https://ds-wizard.org/ En fase demo: a través de un cuestionario en torno a diversas cuestiones se guía a los creadores de datos a lo largo del proceso para generar un plan de gestión Design of experiment Data design and planning Data Capture/Measurement Data processing and curation Data integration Data interpretation Information and insight

Herramienta de facto para preparar planes para proyectos H2020 https://dmponline.dcc.ac.uk/ https://dmponline.dcc.ac.uk/public_plans

Page 15: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

CESSDA: Plantilla para hacer un plan de gestión de datos

https://www.cessda.eu/content/download/4302/48656/file/TTT_DO_DMPExpertGuide_v1.2.pdf

https://www.cessda.eu/content/download/4304/48666/file/TTT_DO_DMPExpertGuideEditVersion_v1.2.docx

Page 17: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Elementos comunes en todos los Planes de Gestión de datos

• Roles y responsabilidades • Descripción, volumen, estructura,

estándares, formatos de los datos • Recogida y procesamiento de datos • Esquema de Metadatos • Propiedad intelectual y licencias de

uso • Consideraciones éticas • Acceso, publicación y reutilización

de los datos • Selección del repositorio • Seguridad y almacenamiento • Preservación a largo plazo • Presupuesto

Page 18: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Planes de gestión de software

• ¿Qué software se ha desarrollado? • ¿Cuáles son sus usuarios potenciales? • ¿Cómo se facilitará su disponibilidad a

los usuarios? • ¿Qué tipo de ayuda se dará a los

usuarios potenciales? • ¿Cómo contribuye este software a la

investigación? • ¿Cómo se relaciona el software con otros

resultados del proyecto y otros softwares?

• ¿Cómo se analizará el impacto del software en la investigación?

• ¿Dónde se depositará el software para garantizar su accesibilidad a largo plazo?

• https://zenodo.org/record/2159713#.XHl7AvlKi1s

Page 19: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Formatos y esquemas de metadatos estándares (1/2)

Formatos usados frecuentemente por la comunidad científica Usan especificaciones abiertas Independientes de software/empresas específicas

Iniciativa internacional de voluntarios para crear un directorio de esquemas de metadatos que son estándares internacionales

Page 22: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Herramienta para calcular costes en la gestión de datos

Herramienta de la Universidad Técnica de Delft para ayudar a los investigadores y personal institucional a definir las necesidades de personal extra y costes en la gestión de datos de un proyecto

Guía de la Universidad de Utrecht para identificar posibles gastos en la gestión de datos a través de todo el ciclo del proyecto de investigación

Page 23: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

GESTIÓN DE COPYRIGHT. CUESTIONES ÉTICAS. DUDAS FRECUENTES, RECURSOS

Page 24: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Hacia protocolos comunes (1/2)

• Both Cultural Heritage Institutions and Researchers agree to share content and knowledge equally with each other, making use of data centres and research infrastructures.

• Cultural Heritage Data will be made accessible in a form that facilitates reuse of the data for research. Formats should work and be interoperable for both scholars and CHIs.

• Cultural Heritage data and any resulting research need to be fully citable to increase their visibility and impact. Relevant data citation standards should be applied.

• Cultural Heritage data should be shared under an open license whenever possible, taking into account existing copyright and any restrictions due to national legislation and privacy issues.

• Long-time preservation, persistence, accessibility and legibility of cultural heritage data should be a priority.

• The provenance of Cultural Heritage data and any consequent research should be clear, up to date, openly available and therefore trustworthy.

• https://datacharter.hypotheses.org/77

Page 25: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Hacia protocolos comunes (2/2)

• RightsStatements.org provee doce declaraciones de derechos diferentes que pueden ser utilizadas por las instituciones culturales patrimoniales para comunicar al público el estado de derecho de autor y de reutilización de objetos digitales.

• No son licencias de uso, sino que estas declaraciones deben ir acompañadas de la licencia correspondiente

• https://rightsstatements.org/page/1.0/?language=es

Page 27: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Si piensas combinar datos sujetos a distintas licencias de uso..no todo es

posible

Page 28: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Usos permitidos de contenidos para licencia CC-BY-ND

Page 30: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Hoja informativa previa al consentimiento informado

An information sheet should cover the following topics: • Purpose of the research • What is involved in participating • Benefits and risks of participating • Procedures for withdrawal • Usage of the data during research, dissemination,

storage, publishing and archiving • Strategies for assuring ethical use of the data:

procedures for safeguarding personal information, maintaining confidentiality and anonymising data, especially in relation to data archiving and reuse

• Details of the research: funding source, sponsoring institution, name of project, contact details for researchers, how to file a complaint.

• Más ejemplos

https://ukdataservice.ac.uk/media/622381/ukdaesrcinfosheet.pdf

Page 31: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

SERVICIOS DE DIGITAL.CSIC

Page 32: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Política de datos en DIGITAL.CSIC

Page 33: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Condiciones para usar DIGITAL.CSIC como repositorio de datos resultantes de proyecto

H2020 (u otro)

Informa a la Oficina Técnica del repositorio tan pronto

como sea posible

No hay límite en dimensión de ficheros pero

DIGITAL.CSIC no es una infraestructura de big data

Ten preparada información preliminar sobre: formato y

volumen de datos, expectativas en gestión de los datos

Recuerda que la colaboración de los investigadores para describir los datos

es fundamental

DIGITAL.CSIC no impone ningún tipo de licencia de uso

Preferencia por datos de investigación en acceso abierto/embargado

VER PRESENTACIÓN ESPECÍFICA EN http://digital.csic.es/handle/10261/164332

Page 35: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Descripción de datasets según estándares

http://digital.csic.es/handle/10261/81323

• La plantilla se basa en el esquema de Dublin Core Cualificado con extensiones de DataCite (por ejemplo, Vocabulario de Tipos de Contribución) y formato estándar de citación de FORCE11

• Marca un mínimo común denominador para la descripción de datasets de cualquier disciplina

Page 36: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Exportación en formato DataCite <?xml version='1.0' encoding='utf-8'?>

<resource xmlns="http://datacite.org/schema/kernel-4" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4.1/metadata.xsd">

<creators>

<creator>

<creatorName>Marzán, Ignacio</creatorName>

<creator>

<creatorName>Martí, David</creatorName>

</creator>

<creator>

<creatorName>Torné, Montserrat</creatorName>

</creator>

<creator>

<creatorName>Ruiz Fernández, Mario</creatorName>

</creator>

<creator>

<creatorName>Carbonell, Ramón</creatorName>

</creator>

</creators>

<publicationYear>2014</publicationYear>

<dates>

<date dateType="Issued">2014-01-30</date>

</dates>

<alternateIdentifiers>

<alternateIdentifier alternateIdentifierType="Handle">http://hdl.handle.net/10261/179856</alternateIdentifier>

</alternateIdentifiers>

<descriptions>

<description descriptionType="Other">The data acquisition contract was awarded to ENRESA and took place in January 2014. Seismic data was successfully collected in the Záncara river basin (Cuenca, Spain). This is a high-resolution seismic tomography survey to obtain a full 3-D P-wave seismic velocity image of the studied area. A regular and dense grid of 676 shots and 1200 receivers was used to image a 500 m x 500 m area of the shallow surface. A 240-channel system and a seismic source, consisting of an accelerated weight drop, were used in the acquisition. Half a million travel-time picks were inverted to provide the 3-D seismic velocity distribution up to 120 m depth. The 3-D survey was acquired in five swaths, each one consisting on five receiver lines, resulting in a total of 3380 shot gathers. Technical specifications of the profiles: Receiver number: 240, Receiver interval: 2 m, Source accelerated weightdrop: 250 kg, Source interval: 6 m, Sample rate: 1 ms, Record time: 4 s.</description>

</descriptions>

<descriptions>

<description descriptionType="Abstract">A high-resolution seismic tomography survey was acquired to obtain a full 3-D P-wave seismic velocity image of the Záncara river basin (eastern Spain). The study area consists of lutites and gypsum from a Neogene sedimentary sequence. The project also targeted the geometry of the underground structure with emphasis on defining the lithological contacts but also the presence of cavities and faults or fractures. An extensive drilling campaign provided uniquely tight constraints on the lithology; these included core samples and wireline geophysical measurements. The analysis of the well log data enabled the

Por defecto, los registros bibliográficos de DIGITAL.CSIC se generan sobre el esquema Dublin Core Cualificado

Page 37: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Asignación de DOIs a través de DataCite

La creación del DOI es posterior a la subida del dataset en DIGITAL.CSIC Se asigna DOI a los items que llevan determinados valores en dc.type

Con la asignación del DOI se pueden explotar diversos servicios de valor añadido, como: -Agregación en el buscador DataCite -DataCite Event Data service -Alimentación de ORCIDs -Exportación en diversos estilos

Page 38: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Licencias en datasets de DIGITAL.CSIC

Licencias Creative Commons

Licencias Open Data Commons

Licencia estándar de DIGITAL.CSIC

• CC BY 4.0

• CC BY NC SA

• CC BY SA

• Para datasets de estructura compleja

• Ejemplo

• Acceso gratuito a los datasets para uso personal/investigación

Page 39: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Cómo elegir una licencia de uso para datos/software

Page 40: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Una herramienta para aclarar políticas editoriales

https://digital.csic.es/sites/permisos_editoriales/

Page 41: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

Políticas de revistas para datos de investigación asociados

• PLOS One All data and related metadata underlying the findings reported in a submitted manuscript should be deposited in an appropriate public repository, unless already provided as part of the submitted article. Repositories may be either subject-specific (where these exist) and accept specific types of structured data, or generalist repositories that accept multiple data types

• Quaternary International This journal requires and enables you to share data that supports your research publication where appropriate, and enables you to interlink the data with your published articles. Research data refers to the results of observations or experimentation that validate research findings. To facilitate reproducibility and data reuse, this journal also encourages you to share your software, code, models, algorithms, protocols, methods and other useful materials related to the project. If you have made your research data available in a data repository, you can link your article directly to the dataset.

Page 43: Presentación de PowerPointdigital.csic.es/bitstream/10261/184580/1/Planes_Datos_Humanidade… · •Heterogeneidad de estándares y protocolos •Repositorios temáticos, infraestructuras

GRACIAS [email protected]