37
EL ARCHIVO DE LA WEB ESPAÑOLA BIBLIOTECA NACIONAL DE ESPAÑA Mar Pérez Morillo Jefe del Servicio Web de la BNE

El Archivo de la Web Española. Mar Pérez Morillo

Embed Size (px)

DESCRIPTION

Presentada en la Jornada Internacional sobre Archivos Web y Depósito Legal Electrónico, en la Biblioteca Nacional de España (BNE), el día 9 de julio de 2013.

Citation preview

Page 1: El Archivo de la Web Española. Mar Pérez Morillo

EL ARCHIVO DE LA WEB ESPAÑOLA

BIBLIOTECA NACIONAL DE ESPAÑA

Mar Pérez MorilloJefe del Servicio Web de la BNE

Page 2: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA2

ContextoMisión del bibliotecarioOtras instituciones patrimonialesMarco normativo

Historia del proyecto:Colaboración con Internet Archive

Estado actual:El Archivo de la Web EspañolaConvenio de colaboración con Red.es

Próximos pasos:Traslado de la colecciónDiseño arquitectura técnica proyectoIdentificación del patrimonio digital Recolecciones de la web española con medios propiosCreación de un portal web específico de acceso a la colección

El Archivo de la Web Española

ÍNDICE

Page 3: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA3

EL RIESGO DE UNA EDAD OSCURA DIGITAL

El Archivo de la Web Española

Page 4: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA4

Contenidos volátiles en la red

Imposibilidad de abrir y leer archivos digitales en el futuro

Redes sociales: fundamentales para entender nuestro tiempo

1ª mención → IFLA, 1997

Bibliotecas: primeras aludidas para tratar de salvar este peligro

El Archivo de la Web Española

EDAD OSCURA DIGITAL

Page 5: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA5

Proteger tesoro documental en línea

Evolución: internet → nuevo medio de producción de contenidos

Bibliotecario: intermediario entre contenidos y usuario

Preservación de la web → ventana para investigar el hoy en el futuro

El Archivo de la Web Española

CONTEXTO: MISIÓN DEL BIBLIOTECARIO

Page 6: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA6

El Archivo de la Web Española

CONTEXTO: INSTITUCIONES PATRIMONIALES

Page 7: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA7

Pioneras internacionalmente:

• BN Australia

• Biblioteca Alexandrina (Egipto)

• Internet Archive

• BN Suecia

En España:

• PADICAT

• ONDARENET

El Archivo de la Web Española

CONTEXTO: INSTITUCIONES PATRIMONIALES

Page 8: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA8

Alerta de los riesgos de pérdida de patrimonio

Insta a tomar medidas urgentes:“Es preferible actuar, aunque no sea de manera exhaustiva ni impecable, a no hacer nada.”

Insta a la colaboración entre todos los sectores:“La preservación del patrimonio digital exige un esfuerzo constante por parte de gobiernos, creadores, editoriales, industriales del sector e instituciones que se ocupan del patrimonio.”

Pide legislación para ello:“Hacer que la legislación … se aplique al patrimonio digital ha de ser un elemento esencial de la política nacional de preservación.”

El Archivo de la Web Española

CONTEXTO: DIRECTRICES UNESCO

Page 9: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA9

International Internet Preservation Consortium

Fundado en 2003 por 11 bibliotecas nacionales y el Internet Archive

Aglutina principales proyectos de archivado web en el mundo

Ámbito de colaboración internacional

Plataforma de desarrollo de herramientas

El Archivo de la Web Española

CONTEXTO: IIPC

Page 10: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA10

CONTEXTO: MARCO NORMATIVO

El Archivo de la Web Española

Page 11: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA11

Directivas UE sobre digitalización y accesibilidad en línea del material cultural

Ley de Depósito Legal

Ley de Propiedad Intelectual

Ley de Protección de Datos

El Archivo de la Web Española

CONTEXTO: MARCO NORMATIVO

Page 12: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA12

Instituciones patrimoniales:

• Manos a la obra, aunque la realidad vaya más deprisa que la tecnología

Gobiernos:

• Elaboración de legislación sobre DLe

El Archivo de la Web Española

DOBLE CAMINO

Page 13: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA13

ARCHIVOS WEB: BASE DEL DLe

El Archivo de la Web Española

Page 14: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA14

Posibilitan:

• Recolección contenidos en internet

• Preservación

• Acceso a largo plazo

Uso de herramientas, técnicas y normas comunes →abre camino al DLe

No se pueden aplicar preservación tradicional

Contenidos transfronterizos

Convergencia internacional de los proyectos

Legislación DLe protege contenidos en líneaEl Archivo de la Web Española

ARCHIVOS WEB: BASE DEL DLe

Page 15: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA15

REAL DECRETO SOBRE PUBLICACIONES EN LÍNEA

Promulgación Ley DL 3/2011 → punto de partida

Colaboración entre centros de conservación y editores

Preservación del acceso al patrimonio digital

Propósito de ámbito legal de amplia cobertura

Protección de:

• Propiedad intelectual

• Datos personales

El Archivo de la Web Española

Page 16: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA16

COLABORACIÓN CON INTERNET ARCHIVE

El Archivo de la Web Española

2 contratos desde 2009Fórmula híbrida de captura de contenidos:

Recolecciones masivas (8)Recolecciones selectivas (2):

• Elecciones Generales 20-N 2011• Humanidades

85 TB → ± 130 TB:Selectiva elecciones: 9,2 TBSelectiva Humanidades: 6,5 TB

Pasos de una recolección:Crawl de pruebaCrawl en producciónCrawl de parcheadoAnálisis de la recolección

Page 17: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA17

ARCHIVO DE LA WEB ESPAÑOLA

El Archivo de la Web Española

Robot Heritrix

Datos se guardan en formato W/ARC (ISO 28500:2009):

Comprime los datos

Guarda todo en un solo archivo, enlaces incluidos

Paquetes de herramientas distintos (toolkits):

Web Curator Tool

NetArchive Suite

Elementos de los toolkits:

Robot: Heritrix

Indización: NutchWAX, Solr

Recuperación: Wayback Machine

Page 18: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA18

ARCHIVO DE LA WEB ESPAÑOLA

El Archivo de la Web Española

Page 19: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA19

CÓMO SE VE UNA PÁGINA ARCHIVADA

El Archivo de la Web Española

Page 20: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA20

RECOLECCIONES MASIVAS DOMINIO .ES

El Archivo de la Web Española

Page 21: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA21

RECOLECCIÓN SELECTIVA HUMANIDADES

El Archivo de la Web Española

Page 22: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA22

RECOLECCIÓN SELECTIVA ELECCIONES 20N

El Archivo de la Web Española

Page 23: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA23

CONTENIDOS DESAPARECIDOS EN WEB VIVA

El Archivo de la Web Española

Page 24: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA24

PÁGINAS WEB YA DESAPARECIDAS

El Archivo de la Web Española

Page 25: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA25

PÁGINAS WEB YA DESAPARECIDAS

El Archivo de la Web Española

Page 26: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA26

CONVENIO CON RED.ES

El Archivo de la Web Española

Page 27: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA27

CONVENIO CON RED.ES (2012)

El Archivo de la Web Española

Desarrollo conjunto de actuaciones

Almacenamiento y acceso a publicaciones en línea

Construcción de un repositorio compartido

Marco de colaboración con CC.AA.

Desarrollo de infraestructuras para

• Recolectar

• Preservar

• Dar acceso

Construcción de arquitectura técnica eficaz

Page 28: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA28

PRÓXIMOS PASOS

El Archivo de la Web Española

Traslado de la colección

Identificación del patrimonio digital

Diseño arquitectura técnica proyecto

Recolecciones con medios propios

Portal de acceso a la colección

Page 29: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA29

NETARCHIVE SUITE

El Archivo de la Web Española

Page 30: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA30

NETARCHIVE SUITE

El Archivo de la Web Española

Conjunto de herramientas para recolectar la web

Pruebas de la BNE para poder recolectar

Software de código abierto

Desarrollado por la BN de Dinamarca

Utilizado por la BnF y la BN de Austria

Page 31: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA31

COMUNIDADES AUTÓNOMAS

El Archivo de la Web Española

Page 32: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA32

FLUJO DE TRABAJO

El Archivo de la Web Española

Trabajo intrainstitucional:

• Informáticos

• Conservadores de contenido (bibliotecarios)

Colaboración con CC.AA. en el ámbito del CCB

Colaboración con organismos internacionales (IIPC)

Colaboración con otras entidades nacionales (Red.es)

Centros de investigación colaboradores

Page 33: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA33

COLABORACIÓN EN PROYECTOS INTERNACIONALES

El Archivo de la Web Española

Page 34: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA34

OTROS ÁMBITOS INTERNACIONALES DE COOPERACIÓN

El Archivo de la Web Española

ISO: Informe Técnico sobre “Estadísticas y aspectos

de calidad de los archivos web”

SEDDOCH:

• Proyecto en evaluación por la Comisión Europea

• Con bibliotecas nacionales de Eslovenia, Reino

Unido y Holanda

• Fijar criterios de selección de contenidos en línea

Page 35: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA35

NECESIDAD DE COLABORACIÓN

El Archivo de la Web Española

Interna

Productores

Institucional

Nacional

Internacional

Page 36: El Archivo de la Web Española. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA36

EN NOMBRE DEL EQUIPO, GRACIAS POR VENIR

El Archivo de la Web Española

Page 37: El Archivo de la Web Española. Mar Pérez Morillo

Mar Pérez MorilloJefe del Servicio Web

BIBLIOTECA NACIONAL DE ESPAÑ[email protected]

[email protected]

Pº de Recoletos 20-22 28071 Madrid

EspañaT +34 915 167928

www.bne.es