22
1 Metadata och datastrukturer för långtidslagring …och dessutom lite om PDF/A Magnus Wåhlberg [email protected] Mål Migreringshuset Metadata Datastrukturer PDF/A-1

Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

1

Metadata och datastrukturerför långtidslagring

…och dessutom lite om PDF/A

Magnus Wå[email protected]

Mål

� Migreringshuset� Metadata� Datastrukturer� PDF/A-1

Page 2: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

2

MigreringshusetFörvaltning

Metadata

Teckentabell

Fysikt medium

Filformat

Struktur Ledning

XM

L

Teknisk driftmiljö

Strategi

Digitala signaturer

Metadata

Page 3: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

3

Vad är metadata?

Några typdefinitioner:� ”Data över data”.� Data + Metadata = Information� Data + Metadata + Tolkning = Förståelse� ”Beskrivande information som understödjer

tolkning av data.”� och hundratals andra definitioner...

Olika former av metadata

� Kan vara i textform. Ex. termkataloger, definitioner.

� Kan vara i modellform. Ex. begreppsmodeller. � I olika former av strukturer såsom trädstrukturer,

grafer (noder och kanter)... Ex. kategorisering med biblioteksschema.

� Andra visuella eller textmässiga former. Ex. bilder, 3D-virtuella världar.

� Matematiska beskrivningar. Ex. E=mc2

Page 4: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

4

Metadata for Records

Meta Data Register (Repository)

Modellering

Metadata och ISO-standarder

� ISO 19501:2005 ”Information technology -- Open Distributed Processing -- Unified ModelingLanguage (UML) Version 1.4.2”

� ISO 19502:2005 ”Information technology -- Meta Object Facility (MOF)”

� ISO 19503:2005 ”Information technology -- XML Metadata Interchange (XMI)”

Modelleringsstandarder

Page 5: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

5

ISO 23081Metadata for Records

� Principer för skapande och hanterande av metadata runt handlingar (“Records”)

� Metadata om:– själva handlingen (“record”)– affärsregler (“business rules”)– aktörer (“agents”)– verksamheter och process (“business activities or

processes”)– dokumenthanteringsprocessen– det metadata som tillhör handlingen

� Innehåller inget specifikt metadataschema

ISO 23081-1:2004 forts.

Handlingar

Processer

Aktörer

Affärsregler, styrinstrument...

Page 6: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

6

� Är en standard för att beskriva och utbyta information runt metadatamodeller, metadata, beskrivning av dataelement o.s.v.

� Metadata lagras enligt en metadatamodell.

� Se även kompletterande ISO 20943 “Information technology -- Metadata Registries Interoperabilityand Bindings (MDR-IB)” som är under utveckling. För mappning mellan olika metadatamodellermed mera.

ISO 11179 Metadata registries (MDR)

Metadata for Records

Meta Data Register (Repository)

Modellering

Metadata ochISO-standarder

Page 7: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

7

Olika syften med metadata

Exempelvis:� För automatisk ärendehantering.� För att kunna föra över information mellan organisationer.� För att möjliggöra återsökning och återanvändning.� För att kunna presentera information beroende på olika

målgrupper.

� För att kunna långtidslagra handlingar.

Syften med metadata för långtidslagring

� Unik identifiering, kategorisering och avgränsning avhandling.

� Bevarande av innehåll och struktur.� Öka förståelsen för lagrad information genom att

dokumentera kontextuellt metadata.– Förklaringar för koder, historik, systemdokumentation...

� Garantera autenticitet.� Möjliggöra återsökning.� Begränsa tillgång (Access).� Hanteringshistorik för handling.� Möjliggöra förvaltning.

– Gallring (disposal), konvertering, debitering, prestandabalansering, uppföljning...

Page 8: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

8

Exempel: OAIS Information Package

PackageDescription (PD)

Information för återsökning

(ex. arkivförteckning)

PackagingInformation (PI)

Paketbeskrivande metadata

(ex. mediatyp)

PreservationDescription

Information (PDI)Beskrivande metadata

för CI

ContentInformation (CI)

Data

beskriver

beskriver

Information Package IP

beskriver

Metadata för olika nivåer 1

� Arkivbildare (EAC)– Myndighet, organisation

� Arkiv (EAD)

� Ramobjekt– Akt, Mapp, Projekt, (Del)process,

Handlingslag(Informationstyp), Dossier, System, Ärende, Organisation(sdel), Verksamhet, Funktion

Page 9: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

9

Metadata för olika nivåer 2� Objekt

– Informationsinnehåll, identitet...

� Representation– Fil (Lagrad eller som ström)– Dynamisk presentation (Dynamiska hemsidor exempelvis)– Statisk presentation (På papper exempelvis)

� Fysiskt medium1. Papper, pergament, papyrus, sten, COM, kisel- och

metallskivor...2. Digitala media (optiska skivor, magnetband...)3. Hologram, DNA-strukturer...4. Rumsstrukturer...

Exempel: Informationsmodell vid SKV

- ID

O b jek t

2 *

R ela t io n stypR elat io n

*

R ep resen ta t io n / A vb ild n in g

M etad ata + Å tersö kn in g

1..*

1..*

R am o b jekt

*

M etad ata fö r Å tersö kn in g

1..*

R elat io nR elat io n styp

2

*

*

-T y p {Ä rende , S er ie, D os s ier ...}

R am o b jekttyp

*

Page 10: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

10

Metadatavokabulärer 1

� W3C RDF (Resource Description Framework)� ISO 15836:2003 DC (Dublin Core) med/utan W3C

RDF� LoC:s EAD (Encoded Archival Description)� LoC:s PREMIS (Preservation Metadata:

Implementation Strategies)� LoC:s METS (Metadata Encoding and Transportation

Standard),� LoC:s MODS (Metadata Object Description Schema),� LoC:s EAC (Encoded Archival Context),

� VERS (Victorian Electronic Records Strategy) Metadata Scheme,� NAA:s Recordkeeping Metadata Standard for Commonwealth

Agencies (inkl. AGLS Metadata Standard),� NAA:s XML RFC:er för långtidslagring,� UK GovTalk e-Government Metadata Standard (Dublin Core-

extension) och ERMS metadata (ytterligare extensions),� South Australian Recordkeeping Metadata,� PRISM,� Med flera...

Metadatavokabulärer 2

Page 11: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

11

� CURL Exemplars in Digital Archives project (CEDARS) vid Leeds University (1998-2002)

� National Library of Australia (NLA) Preservation Metadata for Digital Collections (1999)

� Networked European Deposit Library (NEDLIB) (2000)

� Harvard University's Digital Repository Services (DRS) (Aktivt)

Andra metadataarbeten

Exempel: VictorianElectronic Records Strategy

Page 12: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

12

Datastrukturer

Datastrukturer och långtidslagring

1. Metadata och data lagras i datastrukturer.

2. Datastrukturer är uppbyggda av olika dataelement som exempelvis identifikatorer (ID), relationer och strängar.

3. Vid långtidslagring dokumenteras använda datastrukturer.

Page 13: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

13

Identifikatorer (ID)

� Identifierar en resurs/ett objekt unikt i förhållande till någon form av kontext.– Om det inte är en unik identifiering är det frågan om

kategorisering/typindelning.

� Nivåer av identifiering– Universell (inom universum): ???– Globala identifikatorer: UUID, Fullständig postadress, ISO 2108

(ISBN)– Nationella: NAD-koder, Postnummer, Social insurance number– Regionala: Telefonnummer utan regionprefix– Lokala: Medlemsnummer i Asketräsks fiskeförening

Exempel: Identifikatorer

� URI– Kan vara exempelvis

organisationsnummer, fysiska adresser, social security number, ISBN, URL ...

� URL– URL är en form av URI– Tips: Använd relativa länkar

(/data/data.txt) vid långtidslagring– Undvik absoluta länkar

(http://www.a.a/data/data.txt)

Page 14: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

14

Relationer

� Relation mellan två objekt

� Relation mellan ett till många objekt

� Beskrivning av relation– ID/namn för relation– Referenser till refererade objekt– Riktning– Tids- och rumsaspekt– Beteende vid traversering

� Exempelvis: Länkar, beroenden, katalogindex...

Exempel på ISO-standarderför dataelement 1

� ISO 639 för språkkoder– Ex. ”sv”

� ISO 3166 för landskoder– Ex. ”SE”, ”SWE”

� ISO 4217 för valutor– Ex. ”SEK” och ”EUR”.

� ISO 5218 för kön– “SEX”: 0 = not known, 1 = male, 2 = female, 9 = not specified.

� ISO 6709 för latitud, longitud och höjd� ISO 8601 för datum och tider

– Ex. ”1964-04-15T21:00-10:00” för att beteckna den femtonde april år 1964 kl. 21 Australian Eastern Standard Time.

– Ex. ”2001-03-01/2001-05-11” för att beteckna perioden 1 mars till 11 maj år 2001. Notera att det också med fördel kan användas två fält istället för ett för att beteckna perioder.

– Ej ISO-standard: -/YYYY eller YYYY/-.

Page 15: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

15

� ISO 9362 ”Banking - Banking telecommunication messages- Bank identifier codes” – innehåller formatet för Bank Identifier Codes (BIC), även kallat SWIFT-

koder efter förvaltningsorganisationen SWIFT.

� (Tidigare ISO 11180 ”Postal addressing”, Redrawn)

� CEN ” EN 00331015 Postal Services Address data bases”, se TC331

� ISO 13616 International Bank Account Number (IBAN) för bankkontonummer– IBAN format för Sverigr: SEkk BBBB AAAA AAAA AAAA AAAA där B

står för bankkontor/clearingnr och A för kontonummer.

Exempel på ISO/CEN-standarder för dataelement 2

HR-XML

Har metadatastrukturer för:� Personer� Postadresser� Elektroniska adresser� m.m.

Page 16: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

16

Svenska de facto-standarder?� Personnummer

– Lagras som YYYYMMDDXXXX. (12 siffror.)� Organisationsnummer

– Lagras som XXXXXXVVVVVV. (12 siffror.)� Postnummer

– Lagras som XXXXX (5 siffror)� Adress

– Bostadsadress contra Utdelningsadress� Postadress

– Adressat, utdelningsadress, c/o adress, förortsnamn, postnummer, ortnamn, landnamn

� Fysiska namn– Ofta i formen ”Efternamn, Förnamn”– Tilltalsnamn markeras ibland med versaler– Dubbla efternamn delas ibland upp i efternamn och

mellannamn� Juridiska namn� SerieID (punktnotation)

– SerieID byggs upp av siffror och skiljetecken såsom ”.,/_-”

Tips: Filnamn, katalognamn, ID...

Vid långtidslagring:� Använd inte åäöÅÄÖ� Ersätt ”mellanslag” med ”underline”, Ex.

”a_a.txt”� Ersätt ”punkt” med ”p” eller ”underline”, Ex

”version1_1.txt”� Undvik gärna specialtecken som exempelvis

?\/*+%¤$%&#”’~,.:;� Notera:

– Vissa äldre operativsystem (MS DOS) kan inte skilja mellan små och stora tecken

– Många operativsystem och medialagringsstrukturer sätter begränsningar för namnlängder

Page 17: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

17

Vad ska man dokumentera?

Dokumentera exempelvis:� Begränsningar för fält, strukturer

– Tillåtna intervaller– Tillåtna värden– Multiplicitet– Ev. syntax/grammatik

� Datatyp� ID� Relationer� Dokumentera kodförklaringar� Dokumentera förkortningar� Kommentarer� Användningsperiod

PDF/A-1

Page 18: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

18

PDF/A-1 (ISO 19005-1)

� Baseras på PDF Reference 1.4� Måste ingå:

– Inbäddade typsnitt.– Applikationsoberoende färgschema. (Finns flera olika.)– Viss XMP metadata.

� Får inte ingå:– Kryptering.– Komprimering.– Inbäddade filer.– Referenser till externa filer.– Multimedia.– Script och kodanrop.– Operationer i formulärfält

PDF/A-1 Metadata

� XMP (Adobe Extensible Metadata Platform)– XML för att dokumentera visst metadata.– Stödjer Dublin Core.– Obligatoriska element:

• Filidentifierare (Ex. ISBN, UUID, nationella ID.)• Filens ändringshistorik. (Ex. När konvertering skedde, när

filen skapades.)

� Andra XML-metdatastruktur kan bäddas in i filen för att göra ett dokument självbeskrivande.

Page 19: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

19

PDF/A-1 Användningsområden

� Vektoriserad grafik. (Ex. CAD)� Rastrerad grafik. (Ex. vid scanning)

– Tar i många fall mindre minnesutrymme än TIFF.

� Texter med inbäddade typsnitt.� Statiska kontorsdokument. (Ordbehandling,

kalkyl, presentation…)� Inbäddade digitala signaturer tillåts (om typsnitt

och applikationsoberoende färger används).

PDF/A-1 Conformance levels

� PDF/A-1b, ”Minimally conforming”– Garanterar ursprungligt utseende.

� PDF/A-1a, ”Fully conforming”– Ytterligare dokumentation av textstruktur för underlätta

återsökning och återanvändning.– Mappning av använda typsnitt till Unicode.– Bevarar ursprunglig textstruktur såsom styckesindelning,

förklaringar av förkortningar och språkmarkeringar.

Page 20: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

20

Leverantörsexempel 1

� Acrobat Standard/Professional 8.0 kan lagra i PDF/A-1

� PDF Tools AG. Konvertering från olika filformat till PDF/A-1 m.m., se http://www.pdf-tools.com/

� Compart Systemhaus GmbH Exempelvis konvertering från PDF till PDF/A-1 se http://www.compart.net/

� Apago, se www.apagoinc.com� Visioneer, se www.visioneer.com� Callas, se www.callassoftware.com

Leverantörsexempel 2

Page 21: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

21

PDF/A-2 (under utveckling)

� Baseras på PDF 1.6.� Kommer ev. att ingå:

– Ytterligare stöd för digitala signaturer.– 3D grafik.– Multimediastöd.– OpenType typsnitt.

� Migreringshuset� Metadata� Datastrukturer� PDF/A-1

Sammanfattning

Page 22: Metadata och datastrukturer för långtidslagringprivat.bahnhof.se/wb671350/pdf/AAS_Metadata.pdf · 2012-10-16 · Bevarande av innehåll och struktur. Öka förståelsen för lagrad

22

Frågor?

Länkexempel

LoC’s Digital preservation program:http://www.digitalpreservation.gov/

LoC’s Standarder EAD, PREMIS...:www.loc.gov/standards/

Victorian Electronic Records Strategy (VERS):http://www.prov.vic.gov.au/vers/standard/version2.htm

State Records of South Australia:http://www.archives.sa.gov.au/management/index.html

National Archives of Australia:http://www.naa.gov.au/recordkeeping/preservation/digital/summary.html

UK GovTalk:http://www.govtalk.gov.uk/