Filformat och Långtidslagring - Bahnhofprivat.bahnhof.se/wb671350/pdf/AAS_Filformat_PA4.pdf ·...

Preview:

Citation preview

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Filformat och Långtidslagring

2005

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Filformat och långtidslagring

• Termer runt L-lagring• Trestegsraketen• Orientering runt L-strategier• Migreringshuset• Teckentabeller• Filformat• Exempel

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Allmänt om långtidslagring

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Termer

BevarandeAtt göra en viss informationsmängd

(handlingar) tillgänglig för all framtid.

LångtidslagringAtt göra digitalt lagrad information

tillgänglig för framtida generationer.

Arkivteori

Praktik(IT-term)

kontra

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Termer forts. KonverteringOmvandling från ett filformat till ett annat, eller från en mediatyp

till en annan, eller omvandling från en teckentabell till en annan.

MigreringEn serie av konverteringar som görs över tiden efter eller utan en

migreringsplan.

TransformeringAtt omvandla från en informationsstruktur till en annan. Ex. från

en XML-struktur till en annan XML-struktur.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Trestegsraketen

• Medvetenhet hos ledning.• Resurser tilldelas.• Kunskap finns.

Alternativ: Skriv ut på COM/papper och göm problemet i en källare. S.k. ”Print and forget”.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Olika Långtidslagringsstrategier

• Utskrift till relativt stabila media• Mikrofilm, papper, sten, metallskivor, lertavlor

• Totalbevarande/”Tekniskt museum”• Hårdvara och mjukvara

• Emulering (Mjukvara och datafiler i originalformat)• Virtuell maskin (Emulering av ursprunglig hård- och mjukvara)

• ”Elektroniska paket” (Teoretisk lösning)• Metadatainkapsling med ”ryska dockor” (Teoretisk lösning)

• Migrering (Löpande konvertering)• Konvertering till aktuella och stabila format

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Varför migreringsstrategin?

• Kräver löpande förvaltning, dock mindre än ”Tekniskt museum”

• Viss löpande utveckling behövs, dock mindre än vid emulering

• Bevarar information med låga eller inga informationsförluster jämfört med utskrift

• Bättre för återsökning och återanvändning jämfört med utskrift

Filformat och långtidslagring • Magnus Wåhlberg • 051102

En typisk livscykel för filer/handlingar/dokument

Skapandefas

Gallring/rensning

Långtidslagringav slutversion

Arbetsmaterialfas(flera versioner)

Filformat och långtidslagring • Magnus Wåhlberg • 051102

MigreringshusetO

rganisation

Metadata för styrning och beskrivning

Teckentabell

Hårdvara (exkl. medium)

Filformat (inkl. inre struktur)

Struktur mellan filerV

erksamhetsprocess

XM

L

Medium

TIFF

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Teckentabeller och Filformat

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Teckentabeller

Använd någon av följande teckentabeller:1. ISO 8859-1 (Western Latin I).2. UTF-8 eller UTF-16 utifrån ISO 10646-1:2000.

(Unicode 3.0 eller senare är helt kompatibelt med andra utgåvan av ISO 10646-1:2000, Universal Character Set.)

I andra hand kan man använda Windows ANSI.

Undvik IBM EBCDIC, PC-DOS och MacRoman.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Stabila kontra instabila format

• Stabila format (100-5000 år)• Ex. Lertavlor, stentavlor, metallskivor,

papper, COM…• Inga digitala filformat är stabila!

• Semistabila format (10-50 år)• Ex. ”Ren text” (”ASCII”), statisk XHTML,

JPEG, TIFF, PDF/A…

• Instabila format (1-10 år)• Ex. MS Office, HTML, PDF…

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Eftersom det inte finns några stabila digitala filformat…

• …bör man ha en migreringsplan.• …måste man löpande kvalitetsgranska,

övervaka och konvertera digitalt lagrad information.

Med andra ord krävs det en aktiv förvaltning som löpande hanterar långtidslagringen av organisationens information.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Vanliga rekommendationer

• Under arbetsmaterialfasen kan instabila format användas. Ex. i MS Word.

• När en handling fastställts/låst/”blivit allmän handling” så konverteras den till ett semistabilt format. Ex. till PDF/A.

• Ev. Görs dubbellagring i ett semistabilt och ett instabilt leverantörsformat. Ex. i CGM och AutoCAD DWG.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Livscykeln igen

InitieringInstabila format

Gallring/rensning

LångtidslagringSemistabilt format

HandläggningInstabila format

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Kontorsdokument

Semistabila• ISO 19005-1:2005 PDF/A, ”Ren text/ASCII”, XHTML.

Instabila• MS Office-formaten (inkl. MS Office-XML), WordPerfect,

HTML…

Bubblare• SXW/SXC/SXD… (OpenOffice.org zippade XML-filer),

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Scanning (300 dpi) och rastrerad grafikSemistabila• TIFF* 6.0 CCITT T.6/”grupp 4” för s/v.• TIFF* 6.0 LZW (Lempel-Ziv-Welch) för färg/grå – lossless.• Ev. TIFF* 6.0 Uncompressed Bitmap för färg/grå.• Ev. PDF/A.• Ev. JFIF (JPEG File Interchange Format) med ISO 10918

JPEG.• JPEG är egentligen endast en komprimeringsalgoritm.• Filändelser: .jfif, .jpg, .jpeg• Lossy och lossless

Instabila• Leverantörsformat såsom PDF, GIF 89a, FDF (Adobe Form

Data Format), IBM AFP…

Bubblare• ISO 15444-1:2004 JPEG 2000 (filändelse: .jp2, .jpf, .jpm,

j2c…), W3C SVG, ISO 15948:2004 PNG*Se även ISO-standarder som ISO 12369:2004 ”Graphic Technology --Prepress digital data exchange -- Tag image file format for image technology (TIFF/IT)”.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

CAD och GIS (vektoriserade format)Semistabila• GML (Geography Markup Language) för 2D och 3D.• CGM (Computer Graphics Metafile ISO/IEC 8632) för 2D.• (I vissa fall kan även TIFF 6.0 användas för 2D.)

Instabila• Leverantörsformat såsom AutoCAD DWG(Standard)/ DWF(Drawing

Web Format), DXF (Drawing eXchange Format)…

Bubblare• WebCGM för 2D• SVG (Scalable Vector Graphics) för 2D• PDF/E för 2D/3D• X3D från Web3D Consortium för 3D

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Video, ljud, virtuella format…Semistabila• ISO 11172:1993 MPEG-1

• MP3 = MPEG-1 layer 3 • 13818:1995 MPEG-2

Mellan instabila och semistabila• ISO 14772-1:1997 VRML• AU (NeXT/Sun sound file format)• WAVE LPCM (MS Waveform Audio File Format with Linear PCM

bitstream) – Används av European Broadcast Union

Instabila• Quicktime, AVI (MS-Video), Macromedia, AIFF, Real-formaten,

Macromedia Flash SWF...

Bubblare• X3D från Web3D Consortium, MPEG-4.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Affärsprocesser, finans…Semistabila• ebXML-ramverket,• XBRL (eXtensible Business Reporting Language),• FpML (Financial products Markup Language),• OAGIS-ramverket (Open Applications Group).

Instabila• Leverantörsformat

På väg bort?• EDIFACT

Filformat och långtidslagring • Magnus Wåhlberg • 051102

NaturvetenskapSemistabila• MathML (Mathematical Markup Language)

Mellan Semistabila och instabila

Extensible Data Format)• CML (Chemical Markup Language)

Instabila• Leverantörsformat.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Systemutveckling och Teknik

Semistabila• ISO 19503 XMI (XML Metadata Interchange)• DocBook• STEP-ramverket• SOAP

Instabila• I princip alla programspråk och alla leverantörsformat…

Bubblare• W3C ECMAScript, STEPml, WfXML…

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Metadata och arkivSemistabila• EAD (Encoded Archival Description)• ISO 15836:2003 DC (Dublin Core) med/utan W3C RDF• e-Government Metadata Standard inom UK eGov/GovTalk• W3C RDF (Resource Description Framework)

Instabila• Leverantörsformat.

Bubblare• PRISM, NARA:s RFC:er för långtidslagring, EAC (Encoded Archival

Context), MODS (Metadata Object Description Schema), METS (Metadata Encoding and Transportation Standard), VERS (Victorian Electronic Records Strategy), MOREQ, ISO 23081-1:2004 Records management processes - Metadata for records…

MARC-formaten (ex. NAD) på väg att ersättsmed MARC XML eller EAD?

Filformat och långtidslagring • Magnus Wåhlberg • 051102

AllmäntSemistabila• TEI (Text Encoding Initiative)• IPTC NewsML• XHTML

Mellan semistabila och instabila• HL7 (komplext), DICOM, HR-XML, CSS level 1,

W3C XML Signature, OEBPS (Open eBook Forum PublicationStructure), IPTC NITF (News Industry Text Format)

Instabila• Leverantörsformat.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

PDF/A jämfört med PDF

• Audio och video tillåts inte.• Inga script och ingen programkod är tillåten.• Typsnitt ska vara inbäddade.• Colourspaces i oberoende format. • Ingen kryptering.• Metadata.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Typiska konverteringspunkter

Informationspaket (DIP, SIP, AIP):

Producer

OAIS

Consumer

Query

Report/Result Set/Assistance

Order

IP

IP

IPKonverteringspunkt

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Livscykeln da capo

InitieringInstabila format

Gallring/rensning

LångtidslagringSemistabilt format

HandläggningInstabila format

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Exempel 1. Ordbehandling

• Skapa i leverantörsformat.(Ex. MS Word/WordML, Star/OpenOffice SXW…)

• Arbeta och spara arbetskopior i leverantörsformat.

• När handling fastställts konvertera/spara slutversion i PDF/A-format. (Jmf arkivläggning.)

• Långtidslagra PDF/A-versionen i filsystem eller i OAIS-system.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Exempel 2. CAD

• Skapa i PowerCAD, MicroStation, AutoCAD eller liknande.

• Arbeta i leverantörsformat. Ex. DWG.• När ritning fastställts konvertera till CGM och

spara en kopia i leverantörsformat om ritningen behöver ändras i framtiden.

• Långtidslagra ritning i CGM och leverantörsformat.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Exempel 3. Scanning

• Scanna i 300 dpi s/v och lagra i TIFF CCITT T.6. Lägg metadata i XML-fil. (Ex. PRISM, RDF/DC, OAGIS, eDok eller liknande.)

• Arbeta med TIFF-fil i handläggningsprocess. Ändra metadata i XML-fil.

• Långtidslagra TIFF-fil och tillhörande metadata XML-fil i OAIS-system.

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Sammanfattning• Termer runt L-lagring• Trestegsraketen• Orientering runt L-strategier• Migreringshuset• Teckentabeller• Filformat• Exempel

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Länkexempelhttp://www.digitalpreservation.gov/

http://www.digitalpreservation.gov/formats/

http://www.loc.gov/

http://www.govtalk.gov.uk/

http://www0.esd.org.uk/standards/egms/viewer/viewer.aspx

Filformat och långtidslagring • Magnus Wåhlberg • 051102

Frågor?

Recommended