Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
14/04/2016
1
+
Gestión de datos de investigaciónUniversidad de Alicante (18-19/04/2016)11-15; 16-19; 9-14
Xavier García Massó (Universitat de València)Fernanda Peset (Universitat Politècnica de València)
+
Fernanda Peset
Xavier García Massó
90’s doctorado+biblioteca académica
2002 E-LIS sobre Biblioteconomía y documentación. Desde 2007=otros proyectos relacionados con información abierta
2011 Linked open data
2012-2016 DATASEA http://www.datasea.es I+D. 2016-2018 DATASEA extended
2016- MAREDATA E Abadal dir.
Doctorado 2012
Publicaciones en salud y educación física.
Master en Ingeniería Biomédica
Editor Académico revista Medicine
https://www.researchgate.net/profile/Xavier_Garcia-Masso
14/04/2016
2
+
• Comunicación científica: revistas, evaluación de la ciencia, redes académicas, normalización de nombres
• Archivos abiertos open Access: Fotografía; E-LIS eprints in library and information science
• Web semántica para patrimonio: MUGI; Vestigium
• Opendata y transparencia: UAL; TransparencyScience.es
• Datos abiertos de investigación: consultor FAO; DATASEA.es
+Open research data
OPENDATASCIENCE, centro de recursos para la preservación y gestión de datos abiertos de investigación*", CS02012-39632-C02-02 http://www.datasea.es DATASEA extended 2016-2018
MAREDATA
Peset, F y González, LM (2014). Gestión de datos científicos: RDM research data management. SEDIC, marzo 2014 http://www.sedic.es/f_cursosvirtuales-14-2tr1.asp
González , Luis-Millán and Peset, Fernanda Datos de investigación: reflexiones sobre su acceso abierto., 2013 . In International Open Access Week 2013, 21 de octubre de 2013 http://hdl.handle.net/10760/22576
Nina-Alcocer, Victor; Blasco-Gil, Yolanda; Peset, Fernanda (2013). Los inicios del datasharing: guía práctica para compartir datos de investigación. El profesional de la información, noviembre-diciembre, v. 22, n. 6, pp. 562-568.http://eprints.rclis.org/20907/1/datasharing.pdf
González, Luis-Millán; Saorín, Tomás; Ferrer-Sapena, Antonia; Aleixandre-Benavent, Rafael; Peset, Fernanda (2013). Gestión de datos de investigación: infraestructuras para su difusión. El profesional de la información, vol. 22, n. 5, pp. 415-423http://eprints.rclis.org/20912/
NO INSISTO:http://www.datasea.es/dt/index.php?option=com_content&view=article&id=24&Itemid=119
Colaboración con científicos:
Xavi García Massóárea de salud y ejercicio físico
14/04/2016
3
+
¿Quiénes sois vosotros?
¿Cuántos habéis hecho el curso de Tibbo y Jones (Coursera)?
Research Data Management and Sharing
+¿Cómo se ha diseñado este curso?
Experiencias previas: Cádiz, conferencias parciales profesionales y de investigación, UPV, FAO 1ª y 2ª, … CSUC
La importancia del ciclo de vida: Guía DATASEA
Implantación de un Servicio de datos (UCA)
14/04/2016
4
+Bibliotecario embebido
El bibliotecario académico no puede quedar al margen de lo que hacen sus usuarios
Menos aún en estos temas limítrofes con la producción científica
Ergo: colaboración con nuestros usuarios
Evolución
Desde las instancias políticas, pasando por
cada una de las administraciones, hasta
los sectores académicos están
interesados en conocerlos y analizarlos.
información DATOS
lectura ANALISIS
cerrado ABIERTO
adquisición ACCESO
14/04/2016
5
+Datos en crecimiento
Breve historia del almacenamiento de datos visto desde una perspectiva socio empresarial + sus soluciones tecnológicas
http://www.winshuttle.es/big-data-historia-cronologica/
+
Contexto Generar nuevas formas de negocio a partir de los datos,
fomentando la reutilización, especialmente los procedentes del sector público (Public Sector Information-PSI)
Encontrar nuevas formas de analizar datos para que aporten nuevo conocimiento, con la investigación en técnicas de data mining, ya sea con fuentes de datos sociales (twitter) o científicos (bibliometría)
Corroborar de forma concreta lo que se toma como cierto, que se manifiesta en el auge del periodismo de datos; de los movimientos sociales que exigen la participación de los ciudadanos en las decisiones de los gobiernos; y la demanda de las evidencias que aseguran la reproducibilidad de los experimentos
Open y no open…
negocio
conocimiento
validación
14/04/2016
6
+
A taxonomy of openess. Boulton, 2013
Ecosistema
+
Ergo…
Arraigo en
Open data (ogov)
Open access
14/04/2016
7
OD
BIG DATAWEB
SEMANTICARESEARCH
DATAOPEN GOV
W3C
Ecosistema de los datos
Sci 2.0
+
De hecho, el gráfico proporcionado por LinkedIn sobre los trabajos que antes no existían reflejan el Data Scientist y el Analista de BigData (LinkedIn, 2014).
14/04/2016
8
+
¿Qué ha de saber un “asesor” en datos?
De qué hablamos exactamente
El contexto y los agentes involucrados
Los perfiles de trabajo involucrados para planificar un Servicio de datos
Las herramientas
+Estará condicionado a las respuestas de:
¿Tenéis repositorio?
¿Tenéis cuantificada la producción científica UA?
¿Hay demanda de este tipo de servicios?
14/04/2016
9
+
Con ello las bibliotecas podrán ofrecer servicios a la medida de sus
investigadores.
Este curso fija el contexto donde estos conocimientos tienen valor profesional y los flujos de su producción y almacenamiento
+En este curso obtendréis
Contexto: teoría y reflexión
Pensar en formato datos: práctica, diseñar un plan de investigación
Saber ayudar en planes de gestión de datos: práctica, DMPonline
Esbozar la planificación de un servicio completo de datos: práctica, planificación del DCC
Redactar una/s guía/s: práctica, modelos DCC
Asesorar para licenciar datos: práctica, licencias
Saber dónde y cómo pueden almacenarlos: práctica, bancos
14/04/2016
10
+
Estructura
1. De qué hablamos exactamente : definición, openess, beneficios
2. El contexto y los agentes involucrados
3. Los perfiles de trabajo involucrados para planificar un Servicio de datos
4. Las herramientas
+
De qué hablamos exactamente El contexto y los agentes involucradosLos perfiles de trabajo involucrados para planificar un Servicio de datosLas herramientas
14/04/2016
11
+
En algunas definiciones y herramientas de gestión/preservación (OCDE o Zenodo) no se distingue entre publicaciones y datos de investigación. Pero en el campo de las publicaciones se ha avanzado y en el de los datos menos
Cuando hablemos de datos, nos referiremos a datasets u otro material suplementario, por contraposición a las publicaciones
+
Definiciones Orden: -O a +O
Los datos son “una representación reinterpretable de información de una manera formalizada, adecuada para la comunicación, la interpretación o el procesamiento”
“datos de investigación [es] todo aquel material que ha sido registradodurante la investigación, reconocido por la comunidad científica y que sirvepara certificar los resultados de la investigación que se realiza. […] debeprovenir de una fuente única y deben ser difíciles o imposibles de obtener de nuevo” (NIH)
(Torres–Salinas; Robinson–García; Cabezas–Clavijo, 2012)
“Los datos de la investigación son hechos, observaciones o experiencias en que se basa el argumento, la teoría o la prueba. […] incluyen: cuadernos de laboratorio, cuadernos de campo, datos de investigación primaria (incluidos los datos en papel o en soporteinformático), cuestionarios, cintas de audio, vídeos, desarrollo de modelos, fotografías, películas, y las comprobaciones y las respuestasde la prueba”. RECOLECTA (2012) de Universidad de Melbourne
Tantas…
Datos como evidencias
Como muestra de la complejidad asociada
a su publicación, consumo, métricas…
ISO/IEC 2382-1, de Economía próspera (2014)
14/04/2016
12
+
…factual records (numerical scores, textual records, images and sounds) used as primary sources for scientific research, and that are commonly accepted in the scientific community as necessary to validate research findings. A research data set constitutes a systematic, partial representation of the subject being investigated.
La OECD (2007) recalca que son los necesarios para validar los resultados de una investigación:
+
¿Qué significa comunicar los datos de forma abierta?
14/04/2016
13
Open data de Royal Society
Royal Society, apertura inteligente/competitiva.
“Accesibles (accessible): los datos deben estar depositados de tal manera que puedan ser inmediatamente encontrados y en una forma en que puedan ser usados.
Evaluados/certificados (asessable): asegurando que se ha realizado una evaluación sobre la credibilidad de los datos. Los datos han de proporcionar una suma de los resultados de un trabajo científico que es inteligible a quienes desean entenderlo o examinarlo.
Inteligibles (intelligible): deben ser entendidos por quienes desean examinarlos. Los grupos de interés necesitan ser capaces de emitir juicios o recomendaciones sobre lo que se comunica. Necesitarán juzgar la naturaleza de las declaraciones realizadas. Deberían ser capaces de juzgar la competencia y la credibilidad de quienes hacen las declaraciones. La evaluación también incluye declarar cualquier factor sobre su desarrollo que pudiera influir en la confianza del público.
Reutilizable (useable). Los datos han de estar en un formato en el que otros puedan usar esta información. Deben permitir que sean reutilizados, amenudo para diferentes propósitos, y por tanto requieren la información necesaria para ello y los metadatos. La usabilidad de los datos también dependerá de quién desee utilizarlos.” (Peset y González, en prensa)
En la actualidad son elementos de estudio las definiciones de datos abiertos y datos de investigación (Open definition).
+Lo libre, lo open… recordemos
Gratuito. Sólo implica el acceso sin coste, pero no otras dimensiones de reutilización y difusión. “Free” tiene esa acepción.
Libre. A menudo se mantiene en su forma española para diferenciarlo de lo simplemente gratis. En realidad este es el término que acoge otras connotaciones como la reutilización del contenido sin restricciones.
Abierto. Desde su semántica inicial, de código accesible y manipulable, incluye actualmente la posibilidad técnica y legal de transformarse.
14/04/2016
14
+ A efectos prácticos…
Unión Europea (2013) “los beneficiarios deben: a) depositar en un repositorio abierto de datos de investigación: los datos necesarios para validar las publicaciones de investigación, con sus metadados, tan pronto como sea posible; y otros datos, con sus metadatos, dentro del plazo previsto en sus planes de gestión de datos así como el momento de liberación que indicaron”.
National Science Foundation (2010) “Espera que los investigadores compartan los datos primarios y otros materiales creados”
+Veamos los Principios Panton (OKF, 2010)
“En el ámbito de la ciencia, por datos abiertos nos referimos a su disponibilidad gratuita en Internet permitiendo a cualquier usuario descargarlos, copiarlos, analizarlos, volverlos a procesar, transferirlos a un software, o utilizarlos para cualquier otro propósito, sin barreras económicas, legales o técnicas fuera de aquellas que son inseparables del acceso a Internet. … Con este fin, los datos asociados a las publicaciones científicas debieran ser explícitamente colocados en el dominio público.”
¿Se adaptan al sistema social de la ciencia?
14/04/2016
15
+
Beneficios
Algunos nuevos/propios responder de forma rápida y mucho más eficiente ante las
emergencias (pandemias, climáticas)
capacidad potencial de señalar los fraudes (datos inventados: reciente polémica del artículo de Science) o las malasprácticas (tensionar la integridad del sistema o de laspersonas).
estimula nuevas y altamente creativas formas de colaboracióncientífica
estimula un movimiento social hacia la ciencia, quizáfundamental para el cambio de las dinámicas científicas: Galaxy Zoo, Fold-it, Ash-Tag, etc.
en definitiva es un ejercicio de transparencia ante los ciudadanos que la financian con sus impuestos.
Boulton, 2013
14/04/2016
16
Ejemplo, Galaxy zoo
Tim Gowers, matemático, planteó un problema en su blog y fue resuelto por la comunidad —crowdsourcing— de manera inauditamente veloz.
Otro ejemplo
14/04/2016
17
Beneficios de gestionar y compartir los datos:
incrementa el impacto de la investigación,
ahorra tiempo y recursos,
preserva a largo plazo los datos y asegura su integridad,
atrae financiación externa,
promueve nuevos descubrimientos y apoya lo abierto.
(MIT)
Useful Research
Publishable
Accessible Credibilty?
Source: michaelnielsen.org
14/04/2016
18
En resumen…
los ciudadanos, quienes pagan con sus impuestos la ciencia, demandan cada vez más las evidencias que dan lugar a las políticas que se les acaban imponiendo en todos los órdenes sociales
única forma de afrontar retos globales que implican a toda la sociedad: cambio climático, crisis energética, las pandemias o residuos mundiales.
!!!Potenciar la innovación (buzzword en H2020)!!!
Uso intensivo de herramientas tecnológicas y de comunicación: e-ciencia
Producción de datos en aumento y por ende de herramientas de análisis de éstos: data y text mining sobre big data y linked data…
14/04/2016
19
+Objetivos
Producir nuevo conocimiento a partir de datos previos Remezclar
Mostrar patrones ocultos con las antiguas técnicas
Inventar/intentar nuevas aproximaciones
Visualizaciones
Explorar
Refrescar nuestras ideas
Equivocarse!! …
+Herramienta de análisis
KRDS Benefits Analysis Toolkit http://beagrie.com/krds-i2s2.php
14/04/2016
20
+ Increasing research productivity
No loss of future research opportunities
Input for future research
Motivating new research
Stimulating new networks and collaborations
New research opportunities
Short-term re-use of well curated data
Lower future preservation costs
No re-creation of data
New research funding
Value to current researchers and students
Re-purposing data for new audiences
No data lost from Post Doc turnover
Enhancement of research tools and software by testing on a range of well-curated datasets
Secure storage for data intensive research
Knowledge transfer to other sectors
Increasing economic growth
Verification of research/research integrity
Availability of data underpinning published findings
Increased visibility/citation x
Protecting returns on earlier investments
Secures value to future researchers and students x
Adds value over time as collection grows and develops critical mass
Planned management from an early stage in the research life-cicle is ultimately more cost -effective than late intervention (providing proper selection of what to keep is done)
Scholarly communication/access to data
Use by new audiences
Re-purposing methodologies
Long-term re-use of well curated data x
knowledge transfer to industry
Increasing skills base of researchers/students/staff
Fulfilling organisational mandate(s) x
Fulfil research grant obligations x
Commercialising research
Catalysing new companies and high skills employment
+Ejercicio
Señalemos los 5 beneficios que consideráis más importantes para vuestra institución
Primero leemos y luego seleccionamos
14/04/2016
21
Resumen
Nos planteamos las preguntas esenciales:
Qué y cómo son
Cómo se distribuyen
Cuál es su función
• Heterogéneos y variables• Cerrados y abiertos• Criterios de liberación bastante costosos
+
De qué hablamos exactamente
El contexto y los agentes involucradosLos perfiles de trabajo involucrados para planificar un Servicio de datosLas herramientas
14/04/2016
22
+Realidad
Ergo, ya en la década del 2000 se valoran y comienzan a preservarse
igual que las publicaciones cuyo acceso ya está encarrilado, pero ¿y los datos?
Mismos agentes que en OA productores de datos que se convierten en usuarios financiadores Servicios en la gestión de datos. editores científicos (organizaciones públicas y privadas de diverso tamaño)
los datos de investigación, el “nuevo” petróleo de la ciencia (y de la economía)
+Agentes y roles Derechos Responsabilidades Relaciones
Investigador: creación y uso de los datos
De primer uso.Para ser reconocido.Esperar que los derechos de propiedad sean reconocidos.Recibir formación de datos y asesoramiento
Gestión de datos para la vida de los proyectos.Cumplir con las normas de buenas prácticas.Cumplir con las políticas de datos financiador / institucionales y respetar derechos de propiedad intelectual de otros.Trabajar los datos para su uso por parte de otros.
Con la institución como empleado.Con la comunidad relacionada temáticamenteCon el centro de datos.Con el financiador de trabajo
Institución : tratamiento y acceso a los datos
Para ser ofrecido una copia de los datos.
Establecer la política interna de gestión de datos.Administrar los datos a corto plazo.Cumplir con las normas de buenas prácticas.Proporcionar formación y asesoramiento para apoyar a los científicos.Promover el servicio de depósito.
Con los científicos como trabajadores.Con el centro de datos a través de personal experto.
Centro de datos:tratamiento y acceso alos datos
Para ofrecer una copia de los datos.Para seleccionar los datos de valor a largo plazo.
Gestión de datos a largo plazo.Cumplir con las normas de buenas prácticas.Proporcionar capacitación para el depósito.Promover el servicio de depósito.Proteger los derechos de los proveedores de datos.Proporcionar herramientas para la reutilización de los datos.
Con los científicos como "clientes"Con las comunidades de usuarios.Con las instituciones a través de personal especializado.Con los financiadores de servicio.
Usuario: uso de losdatos de terceros
Volver a utilizar los datos (de licencia no exclusiva).Acceder a los metadatos de calidad para informar a la usabilidad.
Cumplir con las condiciones de la licencia.Reconocer los creadores de datos / curadores.Gestionar eficazmente los datos derivados.
Con el centro de datos como proveedor.Con la institución como proveedor.
Financiador:establecer/ reaccionara impulsores depolíticas públicas
Poner en práctica las políticas de datos.Exigir a los que financian cumplir con las obligaciones políticas.
Considerar la perspectiva y necesidades de las partes interesadas de la política pública de forma más amplia.Participar en la estrategia de coordinación.Desarrollar políticas con las partes interesadas.Participar en la coordinación de políticas, la planificación conjunta y la prestación de servicios de fondos.Vigilar y hacer cumplir las políticas de datos.La gestión de datos de recursos post- proyecto a largo plazo.Actuar como defensor de la custodia de información y fondo experto servicio(s) de asesoramiento.Apoyar el desarrollo de la capacidad laboral de los curadores de datos.
Con el científico como fuente de financiaciónCon la institución.Con el centro de datos como fuente de financiación.Con otros proveedores de fondos.Con otros actores como el responsable político y financiador de los servicios.
Editor: mantener la integridad del registro científico
Esperar que están disponibles para apoyar la publicación de datos.Solicitar el depósito de datos previa a la publicación en el depósito a largo plazo.
Involucrar a las partes interesadas en el desarrollo de normas de publicación.Enlace a datos para apoyar las normas de publicación.Supervisar y hacer cumplir las normas de publicación.
Con el científico como creador, autor y lectorCon los centros de datos e instituciones comoproveedores.
14/04/2016
23
+
Vuestros usuarios
Xavi García-Massó
•Collaborate•Conceive •Design •Experiment •Publish •Expose•Analyse
14/04/2016
24
+
“Lo importante en la ciencia no es tanto obtener nuevos datos, sino descubrir nuevas formas de pensar sobre ellos.”
William Lawrence Bragg
OPEN DATA DESDE EL PUNTO DE VISTA DEL INVESTIGADOR
Dr. Xavier García MassóProfesor ayudante doctor
Academic Editor in Medicine (http://journals.lww.com/md-journal/Pages/default.aspx)Departamento de Didáctica de la Expresión Musical, Plástica y Corporal. Universidad
de ValenciaAv/ dels Tarongers, 4
Valencia, 46022 (Spain)
+¿QUIÉN SOY?
FORMACIÓN ACADÉMICA PUBLICACIONES
EDITOR/REVISOR
Dr. Xavier GarcíaMassó
Profesor ayudante doctor
Universidad de Valencia
• Licenciado en CC AF y Deporte
• Diplomado en Fisioterapia
• Doctor en CC AF y el Deporte
• Master en Ing Biomédica
• 32 artículos indexados enel WOS en la actualidad
• 11 están publicados en elprimer cuartil (Q1)
• Impacto acumulado =58,037
• índice-h es de 7 con unpromedio de citas porartículo de 4,82
Editor Académico en la revista MEDICINE
Revisor en la revista BIOMED RES INT
Revisor en la revista AM J PHYS MED REHABIL
Revisor en la revista ARCH PHYS MED REHABIL
Revisor en la revista INT J SPORT MED
Revisor en la revista MED SCI SPORT EXER
14/04/2016
25
+¿TENGO INTERÉS REAL EN COMPARTIR? DATOS?
• Personalmente, no tengo interés en compartir mis datos(“raw data”) con otros investigadores.
• Sí me interesa compartir datos procesados como materialsuplementario en artículos porque puede dar un valorañadido a la publicación
• Me interesa que otros grupos compartan datos (“raw data”)conmigo.
ANECDOTA
Pauling pidió en varias ocasiones a Crick y
Watson que le dejasen ver las fotografías de
fibras de ADN obtenidas por difracción de
rayos X en las que basaron su trabajo (y que
fueron tomadas por Rosanlind Franklin),
pero la respuesta siempre fue negativa.
El confidencial
El hombre, es un fin en sí mismo, no el medio para losfines de otros. Debe existir por sí mismo y para sí mismo,sin sacrificarse por los demás ni sacrificando a otros. Labúsqueda de su propio interés racional y su felicidad es elmás alto propósito moral de su vida.
Ayn Rand
+MIEDO 1: ME ROBAN LAS IDEAS
Gente hay que tiene sus ideas por originales como si nadie las hubiese
tenido antes, como si el mundo estuviera recién terminado y el hombre aún no hubiese tenido
tiempo de pensar
Honoré de Balzac (1799-1850)
14/04/2016
26
+MIEDO 2: OTROS INVESTIGADORES ENCUENTRAN ERRORES EN MIS PROCEDIMIENTOS
En septiembre de 1999, la sonda MarsClimate, diseñada y enviada paraestudiar la superficie y la atmósfera delplaneta vecino, se estrelló contra él,dejando a la NASA boquiabierta yciertamente en ridículo. Según lasexplicaciones que dio después laagencia espacial estadounidense, elaccidente fue culpa de un fallo de
coordinación.
El confidencial
+¿TENGO INTERÉS REAL DE COMPARTIR DATOS?
Lucha interna entre la ética en la investigación y el egoísmo individual de conseguir metas laborales
14/04/2016
27
+ EN CASO DE VENCER LA ÉTICA EN CIENCIA…
Se debería de tener en cuenta los estándares publicados en las revistas sobre los datos necesarios a adquirir cuando se investigan determinados aspectos
+PRODUCCIÓN DE DATOS
SELECCIÓN DEL DISEÑO APARATOS DE MEDIDA PROTOCOLO DE MEDICIÓN
1. Pruebas realizadas
2. Tiempo de medición
3. Tiempo de descanso
4. Frecuencia de muestreo
5. Posición de los pies y del resto del cuerpo
6. Posición de los marcadores
7. Posición de los electrodos
8. Limpieza de la piel
9. …
Estudio descriptivo transversal de comparación
de grupos
1. Grupo personas con normo-peso
2. Grupo personas con obesidad
14/04/2016
28
+PRODUCCIÓN DE DATOS
RAW DATA Datos procesados Parámetros estadísticos
+¿QUÉ INFORMACIÓN NECESITARÍA UN INVESTIGADOR SI COMPARTIMOS LOS DATOS?
1. Características de los participantes: edad, género, altura, peso e IMC. Criterios de inclusión y de exclusión.
2. Características del protocolo de medición:
o Pruebas realizadas: bipodal ojos abiertos, ojos cerrados…
o Tiempo de duración de la prueba
o Tiempo de recuperación entre pruebas
o Posición de los participantes
o Instrucciones que recibieron los participantes
o Aparataje empleado (modelo de la plataforma de fuerzas)
o Frecuencia de muestreo
14/04/2016
29
+¿QUÉ INFORMACIÓN NECESITARÍA UN INVESTIGADOR SI COMPARTIMOS LOS DATOS?
3. Señales (‘Raw data’) o datos procesados: si proporcionan los datos procesados son necesarias las características del procesado:
o Preprocesado: filtro digital empleado para eliminar ruido
o Segmentación: trozo de la señal empleado para el cálculo de las variables
o Extracción de características: que variables se calculan y como se hace.
+¿QUE INFORMACIÓN NECESITARÍA UN INVESTIGADOR SI COMPARTIMOS LOS DATOS?
• Dependiendo del estudio realizado y de la rama de conocimiento serán necesariosunos datos u otros.
• Por tanto es imprescindible que se creen grupos de trabajo para cada área deconocimiento en los que se incluyan expertos en gestión de datos para crearestándares para compartir los datos con otros investigadores.
14/04/2016
30
+Experiencias propias en la gestión de datos
1. Estructurar y organizar los datos
2. Requisitos y formatos
• Nombrar y organizar por carpetas los ficheros de datos
• Problemas al compartir datos por falta de información
• Problema compartir datos por idioma
+Nombrar y organizar por carpetas los ficheros de datos
Motivaciones:
1. Gran volumen de datos
2. Varios estudios diferentes
3. Empleo de diferentes aparatajes
4. Análisis de datos automatizados
REUNIÓN DE VARIAS HORAS DE LOS INVESTIGADORES DEL GRUPO
Se adoptaron las siguientes normas:
1. Cada estudio tiene una carpeta con su nombre (e.g.,
equilibrio y obesidad infantil).
2. Dentro de cada carpeta están todos los ficheros de datos,
con independencia del sujeto o el aparato empleado.
3. El nombre de los ficheros se compone de 4 partes: código
del sujeto, aparato empleado, número de prueba, momento
de medición.
Algunos ejemplos:
S01_ACC_01_02
S11_EMG_03_01
S32_VO2_07_02
S20_COP_04_01
Sujeto 1, acelerómetro, prueba 1, segundo momento de medición
Sujeto 11, electromiografía, prueba 3, primer momento de medición
Sujeto 32, consumo de oxígeno, prueba 7, segundo momento de medición
Sujeto 20, centro de presiones, prueba 4, primer momento de medición
14/04/2016
31
+Problemas al compartir datos por falta de información
• Como consecuencia de la realización de una estancia de investigación en
Université de Pau et des Pays de l'Adour comencé a colaborar con un grupo de
investigación centrado en el análisis del control postural.
• Debía realizar el análisis de unos datos cinemáticos para saber cómo se mueven
las articulaciones del miembro inferior para mantener el equilibrio.
• Los siguientes extractos de correo electrónico indican las dificultades que
tuvimos para compartir los datos debido a una falta de protocolos y estándares
para ello.
+
Comparte los ficheros utilizando Google Drive
Necesito más información para poder hacer el análisis
Me envía lo que le pido…
14/04/2016
32
+Nomenclature kinematic markers:
L_ACR: Left Acromion (real marker)
R_ACR: Right Acromion (real marker)
I_ACR: centre of left and right acromions (virtual marker)
L_PSIS: Left posterior superior iliac spine (real marker)
R_PSIS: Right posterior superior iliac spine (real marker)
I_PSIS: centre of left and right PSIS (virtual marker)
L_TROCH: Left great Trochanter (virtual marker)
R_TROCH: Right great Trochanter (virtual marker)
I_TROCH: centre of left and right great Trochanter (virtual marker)
L_LFE: Left _ Tip of the lateral femoral epicondyle (virtual marker)
R_LFE: Right _ lateral femoral epicondyle (virtual marker)
L_MFE: Left_ medial femoral epicondyle (virtual marker)
R_MFE: Right_ medial femoral epicondyle (virtual marker)
L_IFE: Left_interfemoral epicondyle point (virtual marker)
R_IFE: Right_interfemoral epicondyle point (virtual marker)
L_MM: Left_medial malleolus (virtual marker)
R_MM: Right_medial malleolus (virtual marker)
L_IM: Left_intermalleolus point (virtual marker)
R_IM: Right_intermalleolus point (virtual marker)
L_Meta5: Left_ fifth metatarsal head (real marker) Only at the left side since I had planned to conduct the analysis in the sagittal plane on the left side.
+
Encuentro algunas diferencias entre lo que me ha mandado y los documentos explicativos
Algunos datos no se han registrado correctamente y no disponemos de esa información
14/04/2016
33
+Problema compartir datos por idioma
Después de la publicación de un artículo en la revistaSpinal Cord un investigador Noruego se puso encontacto con nosotros…
+Problema compartir datos por idioma
14/04/2016
34
+Problema compartir datos por idioma
Además, como se ha podido observar, decido no compartir los datos con él hasta que haya terminado de explotarlos. Esto viene motivado por los 2 miedos
que hemos visto que tenemos los investigadores a la hora de compartir los datos
¿qué hace y piensa un investigador?
Su trabajo
Sus intereses
Nuevas obligaciones
ProducciónExplotaciónNetworkng/Datasharing
ReconocimientoFinanciaciónRapidez
Preservación Compartir
No siempre coinciden los intereses de las organizaciones con los del investigador
14/04/2016
35
+
• A una amplia mayoría les gustaría utilizar los datos de investigación recogidos por otrosinvestigadores.
• La principal amenaza a sus datos declarada es la restricción de acceso y uso relacionada con la propiedad intelectual.
• El principal motivo para desarrollar una política de datos fue la necesidad de la propiainvestigación en todas las áreas excepto en Arte y Humanidades, área en la que la complejidad o el volumen de datos asociados con el proyecto fue el motivo principal.
Encuesta DATASEA. (607) La opinión y los hábitos de los investigadores
Ferrer-Sapena, A. y R. Aleixandre-Benavent (2016). La opinión y los hábitos de los investigadores sobre los datos de investigación. Seminario Gestión de Datos de Investigación. Univ. de Barcelona 19/1/2016 http://bd.ub.edu/grups/ccd/seminari_maredata
+ ¿Le gustaría utilizar datos de investigación de otros investigadores?
%0 10 20 30 40 50 60 70 80 90 100
Arts & Humanities
Life Sciences & Biomedicine
Physical Sciences
Social Sciences
Technology
Sí No
14/04/2016
36
+ En relación a la disponibilidad de los datos
7. No comparto mis datos y no quiero hacerlo en el futuro8. Otros
1. Mis datos están disponibles en abierto para mi disciplina científica
2. Mis datos están disponibles en abierto para todo el mundo
3. Mis datos están disponibles mediante el pago de una tasa
4. Mis datos están disponibles para mi grupo de investigación y/o colegas colaboradores en la investigación
5. Mis datos podrían estar disponibles con los cambios apropiados (por ejemplo: datos clínicos anónimos o con la obligación de citarlos)
6. No comparto mis datos pero me gustaría hacerlo en un futuro
0 10 20 30 40 50 60 70
1.
2.
3.
4.
5.
6.
7.
8.
%
+Qué le preocupa a la hora de compartir los datos en
un servicio externo
0 5 10 15 20 25 30
Cuestiones legales: confidencialidad / derechos de propiedad intelectual
Mal uso o interpretación de los datos
Miedo a perder la delantera en investigación
No conozco archivos digitales (repositorios o centros de documentación) a los quepueda enviar datos
No creo que mis datos de investigación estén seguros en un centro dedocumentación; web de una revista o repositorio
No se prevén problemas
Otros
Perder tiempo haciéndolos disponibles
Pérdida de autoría
Technology Social Sciences Physical Sciences Life Sciences & Biomedicine Arts & Humanities
14/04/2016
37
+ Motivos por los que se desarrolla una política de gestión de los datos
%
0 5 10 15 20 25 30
Ausencia de una política institucional de gestión de datos
Complejidad o volumen de los datos asociados con elproyecto (p.ej. formatos múltiples)
Ley de protección de datos por el comité de ética.
Necesidad de la investigación paraacceder/analizar/anotar los datos de otros
Requisito del ente financiador del proyecto
Tamaño del equipo del proyecto (p.ej. múltiples creadoresde datos)
Un día perdimos todos los datos o no podemos utilizardatos de antiguos proyectos por falta de software o…
NS/NC
Otros
Agentes y roles Derechos Responsabilidades
Investigador: creación y uso de los datos
De primer uso.Para ser reconocido.Esperar que los derechos de propiedad sean reconocidos.Recibir formación de datos y asesoramiento
Gestión de datos para la vida de los proyectos.Cumplir con las normas de buenas prácticas.Cumplir con las políticas de datos financiador / institucionales y respetar derechos de propiedad intelectual de otros.Trabajar los datos para su uso por parte de otros.
Usuario: uso delos datos deterceros
Volver a utilizar los datos (de licencia no exclusiva).Acceder a los metadatos de calidad para informar a la usabilidad.
Cumplir con las condiciones de la licencia.Reconocer los creadores de datos / curadores.Gestionar eficazmente los datos derivados.
14/04/2016
38
+
Agencias de financiación y empleadores (públicos)
Aprovechemos el potencial desaprovechado de los datos aislados (sin compartir)
financiadores de la investigación: mediante convocatorias competitivas o bien sea empleando a los científicos (ej. MINECO o UPV). La mejora de la eficiencia de la investigación y el retorno de la inversión : los mandatos, las políticas o las recomendaciones sobre los datos.
Los datos abiertos pueden ser el combustible de la innovación, crecimiento y creación de trabajo (Neelie Kroes, com. Agenda Digital)
Plan de gestión de datos en las solicitudes
+
Agentes y roles Derechos Responsabilidades
Institución : tratamiento y acceso a los datos
Que le ofrezcan una copia de los datos.
Establecer la política interna de gestión de datos.Administrar los datos a corto plazo.Cumplir con las normas de buenas prácticas.Proporcionar formación y asesoramiento para apoyar a los científicos.Promover el servicio de depósito.
Financiador:establecer/ reaccionara impulsores depolíticas públicas
Poner en práctica las políticas de datos.Exigir a los que financian cumplir con las obligaciones políticas.
Considerar la perspectiva y necesidades de las partes interesadas de la política pública de forma más amplia.Participar en la estrategia de coordinación.Desarrollar políticas con las partes interesadas.Participar en la coordinación de políticas, la planificación conjunta y la prestación de servicios de fondos.Vigilar y hacer cumplir las políticas de datos.La gestión de datos de recursos post- proyecto a largo plazo.Actuar como defensor de la custodia de información y fondo experto servicio(s) de asesoramiento.Apoyar el desarrollo de la capacidad laboral de los curadores de datos.
14/04/2016
39
+ PGD=DMP
• Demuestra que la investigación es viable y se hace un uso responsable de los fondos.
• Útil para la formación de los investigadores noveles
+Tarea: un posible trabajo de investigador novel
Proponemos saber qué países no tienen revistas en los primeros 500 puestos de Scimago Journal &Country Rank con MyMaps.
Descargad datos http://www.scimagojr.com/journalrank.php
Con Excel dejad sólo las primeras 501 filas y las columnas Country, Rank y Title
Entrad en https://www.google.es/maps/d/?msa Nuevo mapa
Asignad Título e Importar archivo
14/04/2016
40
+
+
¿Para qué esta tarea?: ahora pensemos con el modo datos ON para estructurar este ejercicio como una investigación
14/04/2016
41
Data Management Plan (UK)Postgraduate Research Project
Definir los datos ¿Cómo los obtienes e
instrumentos? ¿Cuánto se actualizan? ¿Cuántos generas y en qué
formatos? ¿Cuántas versiones almacenas?
Controlar ¿Cuánta información adicional es
necesaria para entenderlos? ¿Dónde los almacenas? Directorios y nombres de archivos Copias de seguridad ¿cómo y
cuándo? ¿testeas?
Compartir ¿De quién es la propiedad? ¿Quién puede usarlos y quién podría? ¿Qué compartes y qué no? ¿por?
Archivo de datos ¿Qué debe ser archivado? ¿Por cuánto tiempo y dónde? ¿Cuándo pasan al estado “archivo”? ¿Quién es el responsable de moverlos? ¿Quién tendrá acceso? Condiciones
Supervisión del plan ¿Quién es responsable? ¿Con qué frecuencia se actualizará? …
Univ. Bath
+Definir los datos
¿De dónde proceden?
¿Con qué frecuencia se obtienen nuevos datos?
¿Cuántos datos se genera?
¿Qué formatos de datos utiliza?
14/04/2016
42
+Cuidar/gestionar
¿Qué versiones diferentes de cada archivo se crea?
¿Qué información adicional se requiere para entender cada archivo de datos?
¿Dónde se almacenan los datos?
¿Cómo estructuras y nombras las carpetas y archivos?
¿Cómo es la copia de seguridad de los datos?
¿Cómo probarás si se puede restaurar desde las copias de seguridad?
+Compartir
¿De quién es la propiedad de los datos que generan?
¿Quién más tiene derecho a ver o utilizar estos datos?
¿Quién más debería razonablemente tener acceso?
¿Cuáles debe / no debe ser compartidos y por qué?
14/04/2016
43
+Archivar
¿Qué se debería archivar más allá del final del proyecto?
¿Durante cuánto tiempo debe almacenarse?
¿Dónde se almacena el archivo?
¿Cuándo se pueden enviar los archivos al archivo?
¿Quién es responsable de enviar los datos al archivo y mantenerlo?
¿Quién debe tener acceso y bajo qué condiciones?
+Ejecutar
¿Quién es responsable de asegurarse de que se siga este plan?
¿Con qué frecuencia será revisado y actualizado?
¿Qué acciones se han identificado desde el final de este plan?
¿Qué otra información necesita para llevar a cabo estas acciones?
14/04/2016
44
+
Break 13 h.?
+
Vosotros
14/04/2016
45
+ Servicios de apoyo (Bibliotecas, OTRI,
Vicerrectorados de investigación, Informática)
Entender el trabajo de los científicos: producción y ciclo de vida
Colaborar
Prepararnos y conocer
Asesorar
Apoyar
+ En su disciplina, ¿quién proporciona guías o recomendaciones para preservar datos?
La opinión y los hábitos de los investigadores sobre los datos de investigación.
0 5 10 15 20 25 30 35 40 45 50
Editoriales (revistas)
Gobierno
Mi propia organización
Ninguno de los de arriba
No lo sé
Organizaciones financiadoras
Sociedades científicas / Asociaciones profesionales
Arts & Humanities Life Sciences & Biomedicine Physical Sciences Social Sciences Technology
14/04/2016
46
+ Su organización le ayuda con la preservación de datos
La opinión y los hábitos de los investigadores sobre los datos de investigación.
0 10 20 30 40 50 60 70 80 90 100
Arts & Humanities
Life Sciences & Biomedicine
Physical Sciences
Social Sciences:
Technology:
No Sí
+
Agentes y roles Derechos Responsabilidades
Institución : tratamiento y acceso a los datos
Para que les ofrezcan una copia de los datos.
Establecer la política interna de gestión de datos.Administrar los datos a corto plazo.Cumplir con las normas de buenas prácticas.Proporcionar formación y asesoramiento para apoyar a los científicos.Promover el servicio de depósito.
Centro de datos:tratamiento y acceso a losdatos
Para ofrecer una copia de los datos.Para seleccionar los datos de valor a largo plazo.
Gestión de datos a largo plazo.Cumplir con las normas de buenas prácticas.Proporcionar capacitación para el depósito.Promover el servicio de depósito.Proteger los derechos de los proveedores de datos.Proporcionar herramientas para la reutilización de los datos.
14/04/2016
47
+ En qué etapas se puede ayudar y cómo
En los inicios: planes de gestión de las solicitudes de financiación: costes de las actividades de gestión y herramientas online. INDIVIDUALIZADO
Durante el proyecto: la documentación, los formatos y los estándares sobre reutilización de los datos; y sobre almacenamiento, gestión y análisis de los datos de acuerdo con prácticas ya probadas (+fuentes de datos). ESTANDAR
Una vez terminado: qué datos tendrán valor en el futuro; ayuda para visibilizar y hacer disponibles los datos para varios tipos de grupos de interés. MIXTO
Recomendaciones concretas
servicios de consultoría para el desarrollo de los planes de gestión,
acceso web a las políticas y buenas prácticas,
información y apoyo práctico sobre infraestructura de almacenamiento y repositorios de datos,
acceso a los recursos informáticos y herramientas para gestionar sus propios datos,
acceso a los datos de investigación…
CLIR (2013)
14/04/2016
48
Ecosistema de la ciencia es un sistema social
complejidad de la infraestructura sociotécnica de la ciencia individuos (investigadores, agrupados o no)
instituciones (sus universidades, por ejemplo)
y empresas (que distribuyen la información).
Autores y organismos se pliegan a los criterios de evaluación (patentes e impacto) mientras quefinanciadores y otros agentes claman por hacerdisponibles los datos.
Son necesarios factores políticos, tecnológicos, orgánicoso lo que se llama science facilities para desbloquear la capacidad de generar valor de los datos y contribuir a la economía (Thomson Reuters, 2013; Halbert, 2013; Erway, 2013).
tensiones de adaptación y contradicciones (dr. Jekyll y mr. Hyde)
sin reconocimiento, ¿habrá liberación?
(Ball y Duke, 2015; Nosek et al. 2015; Borgman, 2015).
Resumen
http://www.evidencebased-management.com/blog/2011/11/04/new-evidence-on-big-bonuses/
+
Conozcamos los procesos
14/04/2016
49
+
Life cycle model (DCC)
Panorama de toda la organización, con sus grupos, tareas, roles…
+Data curation
“any services related to the organization, management, or long-term preservation of data developed through scholarly research. These services encompass a range of activities, including consultations on creating data management plans and strategies, physical or electronic archiving of datasets, and workshops”
Ergo: asesoría, depósito, apostolado
(Deards, 2013).
14/04/2016
50
+
MANTRA de Edina. http://datalib.edina.ac.uk/mantra/
Preservación/curation (DCC lifecycle)
Conceptualización del plan para la creación de objetosdigitales (incluye procesos de captura de datos y almacenamiento)
Creación: producción de objetos digitales con los metadatos.
Acceso y uso: asegurar que los usuarios puedenacceder fácilmente, sean abiertos o no.
Evaluación y selección: de los que requierenpreservación. Contempla los requisitos legales sobresu propiedad intelectual y otros derechos de acceso y uso. También crea las copias digitales de alta calidad.
14/04/2016
51
Preservación/curation (DCC lifecycle)
Expurgo: de los no seleccionados.
Alimentación/ Inclusión en el repositorio, centro de datos (data curation center) o similares. Crea metadatos para asegurar la gestión, interoperabilidad, semantización, enriquecimiento y conservación.
Preservación: acciones para garantizarla a largo plazo.
Reevaluación: de los que no cumplen los procedimientos de validación
Almacenamiento.
Acceso y reutilización.
Transformación: crear nuevos objetos digitales a partir de los originales.
+
14/04/2016
52
+
¿Capaces de opinar sobre la universidad española/graficar UA?
+Modelos: requerimientos vs. ciclo RO
New England course
Data during the research life-cycle. In the lifecycle diagram above, stages essential for all health and medical research are represented in blue, whilst additional research type specific processes are indicated in green. http://www.nhmrc.gov.au/grants-funding/policy/nhmrc-statement-data-sharing
14/04/2016
53
+Resumen
Equipos mixtos
Entender a los “productores” de ciencia
Conocer nuestra organización y la externa (editoriales, financiadores…)
Pensar en modelos integradores ¿en España?
+Agentes y roles Derechos Responsabilidades Relaciones
Investigador: creación y uso de los datos
De primer uso.Para ser reconocido.Esperar que los derechos de propiedad sean reconocidos.Recibir formación de datos y asesoramiento
Gestión de datos para la vida de los proyectos.Cumplir con las normas de buenas prácticas.Cumplir con las políticas de datos financiador / institucionales y respetar derechos de propiedad intelectual de otros.Trabajar los datos para su uso por parte de otros.
Con la institución como empleado.Con la comunidad relacionada temáticamenteCon el centro de datos.Con el financiador de trabajo
Institución : tratamiento y acceso a los datos
Para ser ofrecido una copia de los datos.
Establecer la política interna de gestión de datos.Administrar los datos a corto plazo.Cumplir con las normas de buenas prácticas.Proporcionar formación y asesoramiento para apoyar a los científicos.Promover el servicio de depósito.
Con los científicos como trabajadores.Con el centro de datos a través de personal experto.
Centro de datos:tratamiento y acceso alos datos
Para ofrecer una copia de los datos.Para seleccionar los datos de valor a largo plazo.
Gestión de datos a largo plazo.Cumplir con las normas de buenas prácticas.Proporcionar capacitación para el depósito.Promover el servicio de depósito.Proteger los derechos de los proveedores de datos.Proporcionar herramientas para la reutilización de los datos.
Con los científicos como "clientes"Con las comunidades de usuarios.Con las instituciones a través de personal especializado.Con los financiadores de servicio.
Usuario: uso de losdatos de terceros
Volver a utilizar los datos (de licencia no exclusiva).Acceder a los metadatos de calidad para informar a la usabilidad.
Cumplir con las condiciones de la licencia.Reconocer los creadores de datos / curadores.Gestionar eficazmente los datos derivados.
Con el centro de datos como proveedor.Con la institución como proveedor.
Financiador:establecer/ reaccionara impulsores depolíticas públicas
Poner en práctica las políticas de datos.Exigir a los que financian cumplir con las obligaciones políticas.
Considerar la perspectiva y necesidades de las partes interesadas de la política pública de forma más amplia.Participar en la estrategia de coordinación.Desarrollar políticas con las partes interesadas.Participar en la coordinación de políticas, la planificación conjunta y la prestación de servicios de fondos.Vigilar y hacer cumplir las políticas de datos.La gestión de datos de recursos post- proyecto a largo plazo.Actuar como defensor de la custodia de información y fondo experto servicio(s) de asesoramiento.Apoyar el desarrollo de la capacidad laboral de los curadores de datos.
Con el científico como fuente de financiaciónCon la institución.Con el centro de datos como fuente de financiación.Con otros proveedores de fondos.Con otros actores como el responsable político y financiador de los servicios.
Editor: mantener la integridad del registro científico
Esperar que están disponibles para apoyar la publicación de datos.Solicitar el depósito de datos previa a la publicación en el depósito a largo plazo.
Involucrar a las partes interesadas en el desarrollo de normas de publicación.Enlace a datos para apoyar las normas de publicación.Supervisar y hacer cumplir las normas de publicación.
Con el científico como creador, autor y lectorCon los centros de datos e instituciones comoproveedores.
14/04/2016
54
+
Break 14 h.
+
De qué hablamos exactamente El contexto y los agentes involucrados
Los perfiles de trabajo involucrados para planificar un Servicio de datosLas herramientas
14/04/2016
55
+Estructura de los perfiles en una biblioteca
En los 90’s Por funciones: Proceso técnico/circulación/información
Por productos: Catálogo/bases de datos/repositorio
Ahora ?¿?¿? ayudadme!
+Creemos que vosotros podéis
1. Asesorar y evangelizar desde la biblioteca
2. Integraros en grupos de investigación
3. Participar con vuestra universidad en preparar servicios de gestión datos
14/04/2016
56
+En varios niveles
1. Para la biblioteca: Cuestiones de estandarización o buenas prácticas en metadatos, herramientas y fuentes, nociones de propiedad intelectual, procesosde control, integridad de los datos y gestión del riesgo, almacenamiento y de seguridad y acceso
2. Para los grupos científicos: Aspectos de reconocimiento del trabajo científico y de análisis/manipulación de datos. Nociones de las vías de Publicación científica(Data publication) y de las solicitudes de financiación (h2020 e I+D)
3. Para la institución: Tendencias mundiales, workflows (proyectos concretos comoPREPARDE y RI) e implantación de un servicio de datos
+
14/04/2016
57
+
Según la figura de habilidades (skills), ¿en qué cuadrante nossituaríamos?
Resaltad las que podáis identificar con un círculo
Comentémoslas
IHMO En mi opinión…
14/04/2016
58
+ EDINA and Data Library, University of Edinburgh. DIY Research Data MANTRA Training Kit for Librarians
Mínimos conocimientos que proponen para un bibliotecario
Plan de gestión de datos Organizar y documentar los datos Almacenar los datos y seguridad Aspectos éticos y de propiedad intelectual Compartir datos, preservación y licencias
http://datalib.edina.ac.uk/mantra/libtraining.html
+ Algo más ambicioso…
Intentemos montar un servicio de datos, es decir, adquirir nuestras competencias orientándolas al nivel de nuestra institución, subsumiendo lo que propone EDINA MANTRA
14/04/2016
59
+
+Planificación
Estrategia y normativa de gestión de datos
Plan de negocio y sostenibilidad
Guías, formación y asesoría
Plan de gestión de datos
Gestión de datos activos
Selección de datos y depósito
Repositorios de datos y Catálogos de datos
DCC, How to develop RDM serviceshttp://www.dcc.ac.uk/resources/how-guides/how-develop-rdm-services
14/04/2016
60
+
+Axioma
La responsabilidad en la redacción del plan del servicio de datos ha de ser colaborativa entre: autoridades académicas,
servicios administrativos y de apoyo (biblioteca, los departamentos de tecnologías y comunicaciones, los archivos y la gestión de la investigación como OTRIs o Vicerrectorados)
y los investigadores.
Las bibliotecas no pueden recorrer solas este camino, pero para asesorar a las universidades hay que conocer y las bibliotecas académicas
tienen un rol de investigación en su campo
14/04/2016
61
+0. Análisis de requerimientos
España: RECOLECTA-FECYT Informe preliminar para la conservación y reutilización de los datos científicos en España y CSIC; CEACS; UPF
Podemos aprender y adaptar de otros países: DCC, RDA, ANDS, …
Encuestas nacionales o internacionales: DATASEA (UPV, UM, UV, HSO y subiendo!!) y CSIC; CSUC; Tenopir y Liber; Austria
Collaborative Assessment of Research Data Infrastructures and Objectives-CARDIO. Estudia las necesidades en el nivel organizacional, tecnológico y de recursos.
+
• cread una cuentahttp://cardio.dcc.ac.uk/
• escoged New assessment• comenzad a completar
preguntas sobre un solo proyecto/dpto/grupo, Update y continuar ALGUNOS pasos
Ejercicio CARDIO
14/04/2016
62
+
+
14/04/2016
63
+1. Estrategia y normativa
1 entender la situación de partida; factores internos y externos van a tener influencia. Entre ellos encontramos las normas para la
investigación, las políticas de financiación, la legislación nacional e internacional o los acuerdos que se firman con otras instituciones para el intercambio de datos.
2 Desarrollar una estructura básica: definir dónde queremos llegar; roles…
y 3 programar la actividad para efectuar la transición: respaldo, consultas e implementación
Contextos de los requerimientos
A. Financiadores
B. Revistas
C. InstitucionesDonnelly, M. (2014) “Five Steps to develop a RDM Policy”http://www.dcc.ac.uk/resources/policy-and-legal/five-steps-developing-research-data-policy/five-steps-developing-research
+Políticas, mandatos, recomendaciones…
La Fair Access to Science and Technology Research Act (FASTR) provocó que el director de la U.S. Office of Science and Technology Policy–OSTP, Holdren, instase a publicar una política de acceso abierto a los resultados de investigación (publicaciones y datos) a todas las agencias federales de financiación públicas (Halbert 2013; Berman y Cerf, 2013). Grant Proposal Guide y Award and administration, Other Post Award Requirements and Considerations, especifica las obligaciones del beneficiario: datos primarios y otros materiales de apoyo (Dissemination).
H2020, también menciona los planes de gestión de datos. Pero solo son obligatorios si se forma parte del programa Open Research Data Pilot
Los planes deben incluirse en la información técnica, parte B de la propuesta. Son evaluados bajo el criterio Impacto, pues con la liberación de datos se espera acelerar la innovación, construir la ciencia sobre resultados previos evitando la duplicación y fomentando la difusión y la transparencia a los ciudadanos.
Los beneficiarios deben depositar los datos en un repositorio:
(a) depositar en un repositorio abierto de datos de investigación: los datos necesarios para validar las publicaciones de investigación, con sus metadados, tan pronto como sea posible; y otros datos, con sus metadatos, dentro del plazo previsto en sus planes de gestión de datos así como el momento de liberación que indicaron;
(b) ofrecer información en el repositorio sobre las herramientas para validar la investigación e incluso, si es posible, proporcionarlas
A. Financiadores
14/04/2016
64
+
Akers, Katherine G., et al. (2014). Building Support for Research Data Management: Biographies of Eight Research Universities. DOI: 10.2218/ijdc.v9i2.327
En España, la Ley 14/2011 de la Ciencia, la Tecnología y la Innovación con respecto a datos no incluye referencia ninguna
Plan Estatal de Investigación Científica y Técnica y de Innovación 2013-2016:
Relaciona ResearchData con la Ley 18/2015, de 9 de julio, por la que se modifica la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público.
obligaciones en el área de estudios oceanográficos, polares y de ciencias sociales.
ARCES (ARChivo de Estudios Sociales) es un archivo de datos de encuestas en investigación social www.arces.cis.es/, basado en el Centro de Investigaciones Sociológicas y un Plan de Depo ́sito Inicial http://www.cis.es/cis/opencms/ES/PlanDepositoInicial/ .
Proyectos europeos (mandatos):
RECODE
PASTEUR4
OPENAIRE2020
España
+
Modelos de publicación
Recomendaciones de revistas (extranjeras); recomendaciones de NISO de 2013 sobre material suplementario (Integral vs. Adicional)
Directorio ODiSEA
B. Revistas
14/04/2016
65
+
C. Instituciones
+ Formas de desarrollar una normativa (Jones, 2011)
Extender una política ya existente (e.g. Hertfordhsire)
Proporcionar una declaración de intenciones, un compromiso (e.g. Oxford)
Implementar un número corto de reglas bien definidas (e.g. Edinburgh)
Mezclar requerimientos con detalles de los procedimientos y el apoyo que existe (e.g. Northampton & Southampton).
http://www.dcc.ac.uk/sites/default/files/documents/resource/policy/DCC_policy_briefing_2011.pdf
Ejemplos explicados brevemente en DCC http://www.dcc.ac.uk/webfm_send/705
14/04/2016
66
+ Research Data Management Policy (U Edimburgo, 2011)
1. Research data will be managed to the highest standards throughout the research data lifecycle as part of the University’s commitment to research excellence.
2. Responsibility for research data management through a sound research data management plan during any research project or programme lies primarily with Principal Investigators (PIs).
3. All new research proposals [from date of adoption] must include research data management plans or protocols that explicitly address data capture, management, integrity, confidentiality, retention, sharing and publication.
4. The University will provide training, support, advice and where appropriate guidelines and templates for the research data management and research data management plans.
5. The University will provide mechanisms and services for storage, backup, registration, deposit and retention of research data assets in support of current and future access, during and after completion of research projects.
Univ. de Edimburgo http://www.ed.ac.uk/schools-departments/information-services/about/policies-and-regulations/research-data-policy
+ Research Data Management Policy (2011)
6. Any data which is retained elsewhere, for example in an international data service or domain repository should be registered with the University.
7. Research data management plans must ensure that research data are available for access and re-use where appropriate and under appropriate safeguards.
8. The legitimate interests of the subjects of research data must be protected.
9. Research data of future historical interest, and all research data that represent records of the University, including data that substantiate research findings, will be offered and assessed for deposit and retention in an appropriate national or international data service or domain repository, or a University repository.
10. Exclusive rights to reuse or publish research data should not be handed over to commercial publishers or agents without retaining the rights to make the data openly available for re-use, unless this is a condition of funding
14/04/2016
67
+
¿Sería aplicable en UA o no,
en vuestra opinión?
(¿hay una gestión integral? ¿Se controlan todas las propuestas a ese nivel?...)
Añade algún punto específico para UA
+
14/04/2016
68
+2. Plan de negocio
Modelos de costes no están todavía claros. LERU ofrece un par de casos para ilustrar estos aspectos. La
Univ. de Oxford y el University College London Collaboration to clarify the costs of curation
http://4cproject.eu/summary-of-cost-models
Para rentabilizar los costes se recomienda una fuerteselección de los datos y el uso de economías de escala con respecto a las infraestructuras
Costos en España suelen subsumirse, no ser explícitos
Check list: http://www.data-archive.ac.uk/media/247429/costingtool.pdf
+
14/04/2016
69
+3. Plan de gestión de datos
Profundicemos lo que vimos en Financiadores
Obligan a explicitar qué datos serán creados y cómo, de qué forma se compartirán o cualquier restricción de uso
Los investigadores están familiarizados con la solicitud de subvenciones, así que confían en los beneficios. No suelenconocer los servicios de apoyo en su institución, ni lasbuenas prácticas y estándares a utilizar.
Deben justificar las elecciones que se hacen Deben dar cuenta de la necesidad de crear esos datos y por tanto de financiar esa
investigación
+ Beneficios
Planificar la gestión demanda una reflexión previa que afecta al diseño
Buscar datos existentes evita duplicar trabajos recolectándolos de nuevo y promociona la colaboración con otros grupos de investigación y la cita de datos, tanto los propios como los ajenos.
Convierte al investigador en consumidor de otros datos, para lo que debe conocer, por ejemplo, las fuentes
documentar los datos que genera un proyecto lo dota de sostenibilidad si los recursos humanos cambian (Jones, 2011).
14/04/2016
70
Cubre generalmente (Kerry EDINA MANTRA)
i. Tipos de datos, formatos, estándares y métodos de captura
ii. Aspectos éticos y propiedad intelectualiii. Acceso, compartido y reutilizacióniv. Almacenamiento a corto plazo y gestión de los datos
(lo veremos en su apartado correspondiente)v. Depósito y preservación a largo plazo (lo veremos en
su apartado correspondiente)vi. Recursos necesarios
i. Tipos de datos, formatos, estándares y métodos de captura
Volumen, tipo, contenido, calidad y formato. Se prefieren formatos abiertosVideo: MOV, MPEG; Audio: WAVE, MP3; Numéricos: csv, ASCII, SAS; Imagenes: TIFF, JPEG 2000; Texto: PDF/A, ASCII
Metadatos, documentación y otro material de soporte para interpretarlos, ya que facilitará que otros los descubran. Ha de explicar el porqué y el cómo se han creado http://rd-alliance.github.io/metadata-directory/
DDI http://rd-alliance.github.io/metadata-directory/standards/ddi-data-documentation-initiative.html
Estándares y métodos para recolectarlos y gestionarlos. Se relacionan desde los identificadores y formas de denominarlos hasta los formatos de los archivos y esquemas de metadatos
Relaciones con otros datos disponibles, por ejemplo en repositorios públicos
14/04/2016
71
• El concepto de DDI surge de la comunidad de archiveros de datos en Ciencias Sociales• En 1995 financiación de ICPSR comienza a formar una organización que finalmente en
2003 se llama DDI Alliance con el objetivo de de crear y mantener un estándar. • DDI Alliance está compuesto por miembros de archivos de datos y bibliotecas
internacionales y organizaciones como Statistics Canada, World Bank, WHO y Transport for London.
• Tras las primeras versiones, la más actual es DDI 3 basada en el concepto del ciclo de vida de los datos
DDI (Martínez-Uribe)
ii. Implicaciones éticas y de propiedad intelectual
Demuestra conocimiento
Explicita los consentimientos informados, o la anonimización
Detalla con contundencia las restricciones para el intercambio (periodos de embargo) o las etapas hasta ponerlos en abierto
Declarar el propietario de los datos. Si se compran licencias para la reutilización de datos ajenos deben tenerse en cuenta para el posterior intercambio y construcción de los datos nuevos.
14/04/2016
72
iii. Acceso, intercambio y reutilización
¿Dónde se almacenarán (usando infraestructuras existentes indicando sus requisitos de calidad, estándares, metadatos) y cómo accederán otros investigadores (quién-puede-hacer-qué)?
Calendario para liberarlos: cuando se publique como mínimo.
Cómo posibilitará colaboraciones o las dificultades que se prevén para su intercambio, con indicación de las posibilidades estudiadas antes de aplicar cualquier restricción de uso.
Licencias (ver más adelante)
+
IV. Almacenamiento a corto plazo y gestión de los datos (lo veremos en su apartado correspondiente)
V. Depósito y preservación a largo plazo (lo veremos en su apartado correspondiente)
14/04/2016
73
[…] vi. Recursos necesarios
indicar las capacidades técnicas necesarias, el apoyo y formación y cómo va a ser conseguido todo ello incluso si lo proporciona la institución
No subestimar que documentar información es costoso en tiempo.
utilidad para calcular los costes de estas actividades de conservación (no hay guía para España) D3.1—Evaluation of Cost Models and Needs & Gaps http://4cproject.eu/d3-1
http://www.data-archive.ac.uk/media/247429/costingtool.pdf
+Casos de estudio
a) crear plantillas —checklist del DCC para un Data Management Plan—, guías, ejemplos —ICPSR para ciencias socialeshttp://www.icpsr.umich.edu/icpsrweb/content/datamanagement/dmp/framework.html —;
b) proporcionar herramientas como DMPonline o DMPTool (en USA), que pueden ser adaptadas a cadainstitución; PAGODA para España
c) ofrecer formación y asesoramiento —Scientific Data Consulting de la Univ. de Virginia está dirigida a bibliotecarios http://data.library.virginia.edu/data-management/dmp-support/— .
d) CPI2020
14/04/2016
74
+
http://www.dcc.ac.uk/sites/default/files/documents/resource/DMP/DMP_Checklist_2013.pdf
+Horizon2020 (UE)
En el artículo 29.3 del Agreement
Open Research Data Pilot: mejorar el acceso y reutilización. Se prevé que se implante para todos
Los beneficiarios deben: (a) depositar en un repositorio abierto de datos de investigación:
los datos necesarios para validar las publicaciones de investigación, con sus metadados, tan pronto como sea posible; y otros datos, con sus metadatos, dentro del plazo previsto en sus planes de gestión de datos así como el momento de liberación que indicaron;
(b) ofrecer información en el repositorio sobre las herramientas para validar la investigación e incluso, si es posible, proporcionarlas
14/04/2016
75
+Info de un dataset
+Ejercicio
Vamos a hacer una solicitud ficticia para conocer la herramienta y los formularios que incluye
Objetivo: Describir para H2020 el dataset de SJR modificado
14/04/2016
76
+
Break 17:30 h.?
+
14/04/2016
77
+ 4. La gestión de datos activos: IV. Almacenamiento a corto plazo y gestión de los datos
a) Organizar y documentar datos (S.Macdonald)
b) Almacenamiento y seguridad (Alastair F. Brown)
c) Aspectos éticos y de propiedad intelectual (Robin Rice)
EDINA MANTRA
+ a) Organizar y documentar datos (S.Macdonald EDINA MANTRA)
Naming conventions make life easier!
Control de Versiones (redactar manuales para nombrarficheros ayuda al descubrimiento y a saber cuál es la últimaversión)
Es imprescindible identificar las diferentes versiones, especialmente si el dataset es actualizado por múltiplesusuarios. Usar un sistema de número secuencial: v1, v2, v3, etc.o fecha que ayuda a ordenar
No utilizar nombres confusos: revision, final, final2, etc.
Registrar todos los cambios, incluso los pequeños
Descartar versiones obsoletas (nunca la raw)
Usar backups automáticos
Evitar nombres largos y carácteres especiales
Softwares: Bazaar, TortoiseSVN, SubVersion
14/04/2016
78
+ Tarea
¿Parece correcta la organización?
¿Cómo lo harías?
Lamar Soutter Library, University of Massachusetts Medical School
+
Wigham (2014)
14/04/2016
79
• Documentar DatosPara recordar, ayudar a otros, verificar, replicar, archivar,
reclamar autorías…Indicar: quién, qué, dondé, cuándo y el porqué de los datos
(recordad ejemplo de investigación)
Ejemplos: cuadernos de laboratorio, notas de campo, metodologías cualitativas
• Nivel de Proyecto: documentar la base del estudio, métodos, instrumentos, hipótesis de trabajo
• Nivel de archivo o dataset: formatos, relaciones entre archivos
• Nivel de variable o item: como fue generada la variable y descripción de los campos
a) Organizar y documentar datos (S.Macdonald)
Metadata – ‘data about data
A diferencia de la documentación, los metadatos serán procesados por máquinas. Son especialmente necesarios para el intercambio y exposición
Tipos DC:
Descriptivos: title, author, abstract
Administrativos: de preservación, derechos, formatos
Estructurales – Describe las relaciones entre ellos o entre tablas en las bases de datos
a) Organizar y documentar datos (S.Macdonald)
14/04/2016
80
b) Almacenamiento y seguridad (Brown y New England course)
Cuando es casi manual, en los dispositivos de los proyectos: pérdida de datos o de su integridad
Pero todos los medios son vulnerables-> revisiones
¿Dónde almacenar? (esto no es datasharing)
Local, Network (institución), Cloud
Jahnke y Asher (2013) destapan el coste escondido de la externalización del almacenamiento: hay que estudiar y negociar con los proveedores privados de servicios las condiciones de seguridad, licencias de uso, en estos momentos todavía no muy transparentes tanto en Google, como Dropbox… Aumenta costes de gestión legal para el mantenimiento de contratos o litigios
Considerar la capacidad, y proporcionar acceso en cualquier momento y desde cualquier dispositivo; permitir copia y sincronizaciones; posibilidades de compartir e incluso preservar a largo plazo
Soluciones de almancenamiento
Ventajas Desventajas Adecuado para
PC Siempre disponible
Transportable
• Puede romperse o perderse/robarse
• No es accesible si estamos fuera
Almacenamiento temporal
Unidad de red Copias de seguridad y mantenimiento habitual
Seguro
Centralizado
• Costes
• Puede no ser accessible para todos o desde cualquier lugar
Copias maestras si elespacio lo permite
Dispositivos USB Coste moderado
Transportable
• Puede romperse o perderse/robarse
• Inseguro
Almacenamiento temporal
Nube – Dropbox, Figshare,SkyDrive etc.
Sincronización automática (algunos servicios)
Fácil acceso
• No está claro que sea seguro
• No hay control sobre los procedimientos de backup
Data sharing
Wigham, Mari (2014)
14/04/2016
81
b) Almacenamiento y seguridad (Brown)
¿Cómo asegurar los backup? • copias previstas 3 (cómo, cuándo y dónde).
Seguridad e integridad de los datos • Pérdidas o archivos corruptos (hardware failure or data deletion)
• Confidencialidad y propiedad intelectual(personal or intellectual property)
• si el grupo de trabajo es disperso, el acceso debe ser remoto con mecanismos que controlen la calidad de los datos, ya que son accedidos desde diferentes puntos. Limitado wireless
• niveles de seguridad diferentes para los datos generados frente a los datos licenciados o comprados. Usuarios según rol
Original
Externa Local Externa Remota
http://en.wikipedia.org/wiki/Comparison_of_online_backup_services
+¿Qué está sucediendo? Clouding
Opciones habituales: dropbox, drive, pero también es posible en Figshare o Dataverse (caso de uso IFPRI https://www.youtube.com/watch?v=nnL3LaIuT0k )
El peso de la nube http://vimeo.com/95970374 Varioscientíficos reflexionan sobre los cambios que estásuponiendo la e-ciencia y el trabajo con grandes masas dedatos (Fuente: exposición Big Bang Data)
Otras opciones: muchos proyectos crean plataformas a medida (¿es necesario?)
Datacentermap.com
14/04/2016
82
+ c) Aspectos éticos y de propiedad intelectual
Las soc. Científicas tienen sus propias guías y consentimientos informados
Cuando participan animales o personas o se hacen referencias individuales
Acuerdos de confidencialidad obligan a cuidar de los datos (evitar envíos no encriptados…)
(Rice)
+Propiedad intelectualRetener la propiedad sobre los datos es una cuestión crítica en investigación
Intellectual Property Rights (IPR) son inealineables al trabajo de los autores excepto que renuncien expresamente. Están limitados en el tiempo. Permiten publicar, licenciar la distribución y defenderlos
Los datos gozan de una protección peculiar: sólo se aplica a los que hayan sido procesados de alguna manera. Esto significa que los raw data puros, los generados por los aparatos, tienen el tratamiento de texto plano y no pueden ser amparados en la ley de propiedad intelectual ni industrial españolas. Son intrínsecamente libres, abiertos.
(Rice)
14/04/2016
83
+ ¿Quién es el propietario?
El financiador
La institución (Ley de la Ciencia)
Soy Investigador principal o un estudiante en un laboratorio
Trabajo solo
+
14/04/2016
84
+5. Selección de datos (publicados) y depósitoV. Depósito y preservación a largo plazo
La selección toma tiempo pero ahorra costes de preservación y limita los riesgos a la institución (obligaciones legales)
El servicio debe ayudar a identificar qué datasets van a tener valor a largo plazo (no demasiados) y cómo se van a preservar
Identificar al personal adecuado de los repositorios o centros de datos para conocer los requisitos
+DataSharing (Anne Donnelly)
“… the practice of making data used for scholarly research available to others (sin ayuda del productor original).” [Wikipedia]
EDINA MANTRA
Involucra a: productor de los datos, el repositorio y el personal de apoyo, y el usuario que los consume
Consideraciones: pensar en el futuro (formatos, software, anonimización/ética/confidencialidad, documentación); descripción y documentación; futura gestion de derechos y licencias; infraestructura
14/04/2016
85
+Historia del DataSharing (NewEnglandCourse)
Lo que había
• Compartir de uno en uno• Compartir en un pequeño equipo
de investigación• Compartir con compañeros y
estudiantes• Compartir unos pocos resultados,
bastante tratados (tablas, diagramas) en el context de una publicación
Lo nuevo
• Compartir con un número extenso de investigadores externos fuera de nuestro equipo
• Compartir los datos con entidad propia, no como suplemento al artículo
• Amplia diseminación via internet• Compartir con todos
+ La selección (individualizada desde DMP)
NERC Environmental Data Centres publica una checklist para decidir el valor que pueden tener y también existe un borrador de UK Data Service
Existen pasarelas entre los CRIS y el repositorio, como DataFlow, SWORD-ARM, y utilidades para generar metadatos o enviar al depósitomás fácilmente desde programas como Excel: DepositMOre o DataUp.
14/04/2016
86
+ Criterios DCC. How to Select and Appraise Research Data for Curation
1. Relevancia para la misión de la institución o financiador, incluyendo aquí si existen obligaciones legales (underlying data)
2. Valor científico o histórico, lo que indica que puede usarse en el futuro para la investigación o la formación
3. Unicidad y riesgo de pérdida
4. Potencial para la redistribución
5. Replicabilidad casi imposible
6. Costos de preservación razonables o justificables
7. documentación completa
http://www.dcc.ac.uk/resources/how-guides/how-develop-rdm-services#Selection-criteria
+
Basadas en Creative Commons, y en las que Open Knowledge Foundation (ScienceCommons)
Declaran qué se permite hacer: la publicación y reutilización
Permiten el uso de los datos automáticamente para generar productos que no sean datos
Licencias
14/04/2016
87
+ Panton (insisto, ¿es apropiado? ¿raw?):
“En el momento de publicar los datos o colecciones de datos es fundamental que dicha publicación esté acompañada de una declaración clara y explícita de los deseos y expectativas de quienes los publican con respecto a la reutilización, y propósitos de uso de los elementos individuales de los datos, de la colección completa así como de subconjuntos dentro de la colección.
Son apropiadas las licencias del ‘Creative Commons’ (CCZero) y Licencia al Dominio Público (Public Domain Dedication & Licence PDDL-OKF). Se desaconseja ENCARECIDAMENTE el uso de licencias que limitan la reutilización comercial o la producción de obras derivados”
+Las licencias para datos tratados (BD-xls) Open Data Commons
OpenDataCommons Attribution License (ODC-BY), solo obliga a atribuir/reconocer el propietario original. Permite la copia, distribución y uso para producir obras derivadas sobre ella y modificar, transformar y construir sobre ella para cualquier propósito.
PDDL, Public Domain Dedication and License, similar a la CC más permisiva (CC0) sin atribución ni limitación geográfica de uso.
Open Database License, ODbL, es más restrictiva, pero permite compartir –copiar, distribuir y usar la base de datos—, producir trabajos sobre ella y modificar, transformar y construir otros productos sobre la base de datos. Mantiene la (Attribution y obliga a ceder el nuevo producto con esta misma licencia (Share-Alike). Añade condiciones a las bases de datos derivadas y puede aplicar restricciones tecnológicas (DRM) a los datos originales o los derivados. Por tanto, reduce la interoperabilidad y la reutilización
14/04/2016
88
+Ejercicio
Pensar en un tipo de dataset para cada licencia
¿En los equipos internacionales habrá problemas? Ball, A. (2012). ‘How to License Research Data’. DCC How-to Guides. Edinburgh: Digital Curation Centre. http://www.dcc.ac.uk/resources/how-guides/license-research-
data#sthash.8lNAxLqj.dpuf
+
Día 19
14/04/2016
89
+
+ 6. Repositorios de datosV. Depósito y preservación a largo plazo
No existe consenso en cómo preservar y compartir los datos, y parece que las soluciones mixtas entre los servicios universitarios y los externos
Requisitos: Garantizar la procedencia, la persistencia de los identificadores, la utilización de estándares para los metadatos y formatos de citación y periodos de embargo, así como aspectos técnicos derivados de las posibilidades de recombinarlos, analizarlos automáticamente, migrarlos de un formato a otro, o los métodos de almacenamiento
Herramientas en el próximo apartado
14/04/2016
90
+Formas de compartir (Donnelly)
Repositorio de los financiadoresESRC Data Store-Reshare Zenodo
Repositorio InstitucionalEdinburgh DataShare Digital.CSIC
Repositorio por Disciplina/Formato PangeaDirectorios: Databib (con Re3data)
Figshare
(Y… en las revistas ODiSEA)
+ La citación
Crucial en el contexto de la ciencia
Algunos repositorios la producen automáticamente más (DRYAD) o menos(Figshare) bien
Se está asignando DOI (Datacite o ANDS), pero en ocasiones se está utilizando el del artículo. Será un problema para la identificación, trazabilidad y métricas de producción y reutilización
En ocasiones se utilizan materiales opendata, no derivados de la investigación(PSI) ¿cómo citar?
Data Citation Index en el Web of Knowledge lanzado en 2013 bajo pago. Recombina sus propios datos de artículos con el posible material depositado en repositorios abiertos. Es decir, los resultados de las búsquedas mostrarán los Associated records, incluidos datasets, si la publicación tiene archivados datos en uno de los 69 repositorios indexados (2013). Ahora mismo con 300 pero sin acceso
14/04/2016
91
+
+7. Catálogos de datos
Es el servicio de datos de una institución o de varias
Ojalá en España pueda ofrecerse algo similar a UK, quizá se vinculen a los catálogos opendata
14/04/2016
92
+
+ 8. Guías generales, de formación y específicas
DCC
University of Bath - Research data webpagesConcisas para : planificar un proyecto, trabajar en un proyecto, finalizarlo, uso por terceros…
University of Glasgow-Data management support for researchersFAQ style : de varios temas y con videos
London School of Hygiene and Tropical Medicine - Research data managementCobertura muy amplia: consultoría, organización de los datos, mantener seguridad, documentarlos, preservarlos, compartir, citar…
14/04/2016
93
+Aspectos que deben abordarse
Almacenamiento de los datos activos y aspectos de seguridad
Organizar y documentar los datos
Aspectos éticos y de propiedad intelectual
Expurgos, compartir datos, preservación y licencias
Edina/MANTRA
+Hicimos en UCA y ahora Datasea:
14/04/2016
94
+
Guías DATASEA
Lista mínima de servicios (MIT…), poster en LIBER Helsinki 16: Research data services in academic libraries: the essential list
Encuestas Tenopir
LEARN (Liber)(LEaders Activating Research Networks) will raise awareness of research data management and policy issues to institutions
EU— Bielefeld— Edinburgh— Oxford— TU Delft— U Vienna
US— Indiana— MIT— Purdue— Stanford— UC San Diego
+Claves. Hodson y Jones (2013)
Entender cómo se están manejando los datos en la institución: auditarlas
Construir un ejemplo y apoyarlo: trabajar desde la práctica
Definir la posición de la institución: normativa y estrategia
Asegurarse que los investigadores conozcan los servicios de apoyo: guías
Proporcionar un servicio de almacenamiento de datos fácil y robusto
Hacer descubribles y citables los datos a otros
ir a la cabeza del movimiento creando servicios de gestión
14/04/2016
95
+Resumen
Costoso
Nuevo para las bibliotecas
Capacidades nuevas
Equipos mixtos como técnicos de laboratorio
Bibliotecario especializado
+
De qué hablamos exactamente El contexto y los agentes involucradosLos perfiles de trabajo involucrados para planificar un Servicio de datos
Las herramientas
14/04/2016
96
+Liberar datos no es fácil
Selección/Expurgo siempre difícil (quizá incluso más para quien los produce)
Características de la producción condiciona los metadatos de preservación
Licencias y confidencialidad
Herramientas heterogéneas (otras generalistas como Zenodo)
Pero sobre todo… time-consuming!
+Herramientas: especializadas y huérfanos
Figshare, Dryad, Dataverse o Zenodo
Pangaea https://www.pangaea.de/
Pisos desiguales:
Boulton, 2013
14/04/2016
97
+Consejo….
Monash University “adopta, adapta y en último término desarrolla”
“Developing a new product may be expensive, costly to support, and could split researchers from their community.”
La lealtad de los científicos con su comunidad es mayor que con su institución.
+DRYAD http://datadryad.org/
Admite datos relacionados con publicaciones, incluso durante la fase de revisión si la revista está asociada a Dryad. Se trata de un proyecto colaborativo en Dspace, que comenzó en el área de salud vinculado con el mundo de las bibliotecas, sociedades científicas y editores. Admite textos, hojas de cálculo, video, fotografías, código de
software. Es de uso gratuito hasta 10Gb por fichero y asigna como DOI el del artículo. Garantiza la preservación de los datos al participar en CLOCKSS. Destaca la corrección de la cita bibliográfica, algo muy apreciado por los investigadores, y que cuenta con un proceso de validación adicional.
14/04/2016
98
+Zenodo https://zenodo.org/ y colección
Desarrollado como repositorio huérfano por el CERN sobre Invenio. Recientemente ha sido relanzado para todo tipo de datos dentro el proyecto europeo OpenAIREplus y probado con datasets del Wellcome Trust (Príncipe, 2013).
Conectado con Dropbox para el proceso de subida. Admite todo tipo de ficheros, cada uno con sus propias licencias: publicaciones (libros, secciones de libros, documentos de conferencias, artículos de revistas, patentes, pre-impresiones informes, tesis, notas técnicas, documentos de trabajo), posters, presentaciones, imágenes (figuras, dibujos técnicos, diagramas, fotos), audio y videos.
Permite hasta 1Gb de manera gratuita, pero existirán otras opciones para los grandes productores. Cabe destacar varios aspectos en diferentes momentos de la gestión de datos: verifica que los ficheros estén relacionados con una investigación; asegura un control descentralizado de los datos; y por último permite crear comunidades de usuarios finales.
14/04/2016
99
+
+Figshare http://figshare.com/
Es un proyecto que permite publicar los datos de investigación en abierto iniciado por un estudiante de doctorado y ahora está apoyado por Digital Science–Macmillan Publishers Company. Observamos que se va posicionando en el mercado de las aplicaciones, estando presente en el Forum establecido por Thomson Reuters y es tomada en cuenta su opinión en el DCC.
Orientada a quien deposita la información, el investigador, preocupado especialmente por no perder el reconocimiento de su trabajo.
Lo destacable de este repositorio son los tipos de licencias que utiliza: publica todo bajo la licencia CC-BY, pero distribuye los datasets con la CC0. También está asociado a CLOCKSS. Si los ficheros se depositan en abierto, el espacio disponible es ilimitado; en caso contrario proporciona un 1 Gb. Otro aspecto que cabe mencionar es que interopera con ORCID para el registro de un nuevo usuario. Una vez subido el fichero, del que se demandan escasos metadatos, no hay ninguna validación posterior
14/04/2016
100
+
+Dataverse Colección http://thedata.harvard.edu/dvn/
Alojado en el Institute for Quantitative Social Science (IQSS) de la Universidad de Harvard. Desde 2006 se encuentra disponible para todas las disciplinas, aunque la idea se remonta a 1987.
Es una aplicación de código abierto para publicar, compartir, citar, extraer y analizar los datos de investigación. Garantiza la utilización de protocolos estandarizados —asunto no trivial en la gestión de información— y pone el énfasis en el reconocimiento de la autoría de los datos. Sin embargo no se trata de una única base de datos, como es Figshare. Se organiza por colecciones creadas por cada uno de los usuarios, entre los que se encuentran numerosas instituciones que utilizan la plataforma de servicios en lugar de desarrollar la suya propia. En origen las instituciones se organizaban por Comunidades, pero actualmente un investigador individual puede tener su comunidad siempre que los contenidos queden en abierto. Permite la administración completa de los Dataverses, gestionando roles y privilegios de colaboradores, curators y administradores. Ofrece flujos para trabajar de manera regular, abierta y en modo wiki. Además, permite la gestión de versiones. Las licencias son propias y destacan algunos servicios adicionales como la tabulación del datasets subido en otros sistemas estadísticos, su análisis y mediciones. También, Dataverse genera una citación formal de datos con un identificador persistente, URL y UNF (Universal Numerical Fingerprint) para la verificación del dataset.
14/04/2016
101
+
+
Break 11:30 h.?
14/04/2016
102
+
Fuentes
+Datasets
Fuente de los datos
656713 Gene Expression Omnibus
512571 Uniprot Knowledgebase
447617 Pangaea
358984 U S Census Bureau Tiger Line Shapefiles
151263 Crystallography Open Database
81759 Protein Data Bank
72637 Inter University Consortium For Political And Social Research
60158 Sioexplorer
51794 Human Metabolome Database
47496 Aspergillus Genome Database
25477 U S National Oceanographic Data Center
25384 Roper Center for Public Opinion Research
23566 Emage Gene Expression Database
18227 Mirbase
18196 Candida Genome Database
17072 Noaa National Geophysical Data Center
16196 Institute for Quantitative Social Science
12223 Bacterial Carbohydrate Structure Database
10516 Odum Institute Data Archive
9838 Figshare
9413 Ieda Marine Geoscience Data System
8987 Chemical Effects in Biological Systems
8962 Nmrshiftdb2
8790 The Cell an Image Library
7449 Noaa Paleoclimatology
6702 Dryad
6483 Drugbank
6043 Cancer Models Database
5928 Nucleic Acid Database
5461 The Association of Religion Data Archives
5366 Eurostat
Repositorios más numerosos en DCI 2013
14/04/2016
103
+ Tarea final: nos atrevemos a… Borrador del servicio UA
Definid en grupos:
Demandas y necesidades de los investigadores
Politica institucional con indicación de las responsabilidades de los servicios de apoyo
Principales / urgentes acciones
Ejemplos:Servicios de asesoría y técnicos de Tenopir et al.Consulting with faculty, staff, or students on data management plans (costs, standards, storage, …)
Consulting with faculty, staff, or students on data and metadata standards
Outreach and collaboration with other research data services (RDS) providers either on or off campusAnotar si se ofrece desde un servicio no biblioteca
Providing reference support for finding and citing data / data sets
Creating web guides and finding aids for data / data sets / data repositories
Directly participating with researchers on a project (as a team member)Discussing research data services (RDS) with other librarians, or other people on campus, or RDS professionals, on a semiregularfrequency
Training coworkers in your library, or across campus, on research data services (RDS)
Providing technical support for research data services (RDS) systems (e.g., a repository, access and discovery systems) where can I release my data?
Deaccessioning / deselection of data / data sets for removal from a repository
Preparing data / data sets for deposit into a repository (formats, organizing, documentation, legal aspects, integrity…)
Creating or transforming metadata for data or data sets
http://datacentrum.3tu.nl/en/home/
+
En conclusión
14/04/2016
104
+Royal Society y ThomsonReuters
Desechar una cultura donde se contemplan los datos como un bien privado
Aumentar los criterios usados en la evaluación de la carrera de los investigadores para reconocer el esfuerzo que supone la liberación de datos útiles y las nuevas formas de colaboración, tal y como recomienda la San Francisco Declaration on Research Assessment, Putting science into the assessment of research
Desarrollar estándares comunes para comunicar esos datos, también incluyendo criterios de calidad de los datos y cuestiones relacionadas con las licencias y derechos
+Royal Society y ThomsonReuters
Ordenar mandatos que promuevan la liberación de los datos relevantes de las publicaciones científicas
Reforzar el número de científicos de datos que son necesarios para gestionar y apoyar el uso de los datos digitales (lo que es también crucial para el sector privado de análisis de los datos y las estrategias open data de los gobiernos), sobre todo en las tareas de evaluación, que garantizan la calidad de los datos
Desarrollar y utilizar nuevas herramientas de software para automatizar y simplificar la creación y explotación de conjuntos de datos, proporcionando un acceso uniforme a la variedad de outputs de la investigación
14/04/2016
105
Nada más¿Cómo lo ven?
http://www.datasea.es
y
[email protected] en nombre del Grupo DataSEA
Peset, F. (2014). Datasea. https://polimedia.upv.es/visor/?id=a48abcad-21bc-ab4a-ac6a-af987b3e7f1a