Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Filformat och Långtidslagring
2005
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Filformat och långtidslagring
• Termer runt L-lagring• Trestegsraketen• Orientering runt L-strategier• Migreringshuset• Teckentabeller• Filformat• Exempel
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Allmänt om långtidslagring
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Termer
BevarandeAtt göra en viss informationsmängd
(handlingar) tillgänglig för all framtid.
LångtidslagringAtt göra digitalt lagrad information
tillgänglig för framtida generationer.
Arkivteori
Praktik(IT-term)
kontra
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Termer forts. KonverteringOmvandling från ett filformat till ett annat, eller från en mediatyp
till en annan, eller omvandling från en teckentabell till en annan.
MigreringEn serie av konverteringar som görs över tiden efter eller utan en
migreringsplan.
TransformeringAtt omvandla från en informationsstruktur till en annan. Ex. från
en XML-struktur till en annan XML-struktur.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Trestegsraketen
• Medvetenhet hos ledning.• Resurser tilldelas.• Kunskap finns.
Alternativ: Skriv ut på COM/papper och göm problemet i en källare. S.k. ”Print and forget”.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Olika Långtidslagringsstrategier
• Utskrift till relativt stabila media• Mikrofilm, papper, sten, metallskivor, lertavlor
• Totalbevarande/”Tekniskt museum”• Hårdvara och mjukvara
• Emulering (Mjukvara och datafiler i originalformat)• Virtuell maskin (Emulering av ursprunglig hård- och mjukvara)
• ”Elektroniska paket” (Teoretisk lösning)• Metadatainkapsling med ”ryska dockor” (Teoretisk lösning)
• Migrering (Löpande konvertering)• Konvertering till aktuella och stabila format
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Varför migreringsstrategin?
• Kräver löpande förvaltning, dock mindre än ”Tekniskt museum”
• Viss löpande utveckling behövs, dock mindre än vid emulering
• Bevarar information med låga eller inga informationsförluster jämfört med utskrift
• Bättre för återsökning och återanvändning jämfört med utskrift
Filformat och långtidslagring • Magnus Wåhlberg • 051102
En typisk livscykel för filer/handlingar/dokument
Skapandefas
Gallring/rensning
Långtidslagringav slutversion
Arbetsmaterialfas(flera versioner)
Filformat och långtidslagring • Magnus Wåhlberg • 051102
MigreringshusetO
rganisation
Metadata för styrning och beskrivning
Teckentabell
Hårdvara (exkl. medium)
Filformat (inkl. inre struktur)
Struktur mellan filerV
erksamhetsprocess
XM
L
Medium
TIFF
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Teckentabeller och Filformat
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Teckentabeller
Använd någon av följande teckentabeller:1. ISO 8859-1 (Western Latin I).2. UTF-8 eller UTF-16 utifrån ISO 10646-1:2000.
(Unicode 3.0 eller senare är helt kompatibelt med andra utgåvan av ISO 10646-1:2000, Universal Character Set.)
I andra hand kan man använda Windows ANSI.
Undvik IBM EBCDIC, PC-DOS och MacRoman.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Stabila kontra instabila format
• Stabila format (100-5000 år)• Ex. Lertavlor, stentavlor, metallskivor,
papper, COM…• Inga digitala filformat är stabila!
• Semistabila format (10-50 år)• Ex. ”Ren text” (”ASCII”), statisk XHTML,
JPEG, TIFF, PDF/A…
• Instabila format (1-10 år)• Ex. MS Office, HTML, PDF…
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Eftersom det inte finns några stabila digitala filformat…
• …bör man ha en migreringsplan.• …måste man löpande kvalitetsgranska,
övervaka och konvertera digitalt lagrad information.
Med andra ord krävs det en aktiv förvaltning som löpande hanterar långtidslagringen av organisationens information.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Vanliga rekommendationer
• Under arbetsmaterialfasen kan instabila format användas. Ex. i MS Word.
• När en handling fastställts/låst/”blivit allmän handling” så konverteras den till ett semistabilt format. Ex. till PDF/A.
• Ev. Görs dubbellagring i ett semistabilt och ett instabilt leverantörsformat. Ex. i CGM och AutoCAD DWG.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Livscykeln igen
InitieringInstabila format
Gallring/rensning
LångtidslagringSemistabilt format
HandläggningInstabila format
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Kontorsdokument
Semistabila• ISO 19005-1:2005 PDF/A, ”Ren text/ASCII”, XHTML.
Instabila• MS Office-formaten (inkl. MS Office-XML), WordPerfect,
HTML…
Bubblare• SXW/SXC/SXD… (OpenOffice.org zippade XML-filer),
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Scanning (300 dpi) och rastrerad grafikSemistabila• TIFF* 6.0 CCITT T.6/”grupp 4” för s/v.• TIFF* 6.0 LZW (Lempel-Ziv-Welch) för färg/grå – lossless.• Ev. TIFF* 6.0 Uncompressed Bitmap för färg/grå.• Ev. PDF/A.• Ev. JFIF (JPEG File Interchange Format) med ISO 10918
JPEG.• JPEG är egentligen endast en komprimeringsalgoritm.• Filändelser: .jfif, .jpg, .jpeg• Lossy och lossless
Instabila• Leverantörsformat såsom PDF, GIF 89a, FDF (Adobe Form
Data Format), IBM AFP…
Bubblare• ISO 15444-1:2004 JPEG 2000 (filändelse: .jp2, .jpf, .jpm,
j2c…), W3C SVG, ISO 15948:2004 PNG*Se även ISO-standarder som ISO 12369:2004 ”Graphic Technology --Prepress digital data exchange -- Tag image file format for image technology (TIFF/IT)”.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
CAD och GIS (vektoriserade format)Semistabila• GML (Geography Markup Language) för 2D och 3D.• CGM (Computer Graphics Metafile ISO/IEC 8632) för 2D.• (I vissa fall kan även TIFF 6.0 användas för 2D.)
Instabila• Leverantörsformat såsom AutoCAD DWG(Standard)/ DWF(Drawing
Web Format), DXF (Drawing eXchange Format)…
Bubblare• WebCGM för 2D• SVG (Scalable Vector Graphics) för 2D• PDF/E för 2D/3D• X3D från Web3D Consortium för 3D
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Video, ljud, virtuella format…Semistabila• ISO 11172:1993 MPEG-1
• MP3 = MPEG-1 layer 3 • 13818:1995 MPEG-2
Mellan instabila och semistabila• ISO 14772-1:1997 VRML• AU (NeXT/Sun sound file format)• WAVE LPCM (MS Waveform Audio File Format with Linear PCM
bitstream) – Används av European Broadcast Union
Instabila• Quicktime, AVI (MS-Video), Macromedia, AIFF, Real-formaten,
Macromedia Flash SWF...
Bubblare• X3D från Web3D Consortium, MPEG-4.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Affärsprocesser, finans…Semistabila• ebXML-ramverket,• XBRL (eXtensible Business Reporting Language),• FpML (Financial products Markup Language),• OAGIS-ramverket (Open Applications Group).
Instabila• Leverantörsformat
På väg bort?• EDIFACT
Filformat och långtidslagring • Magnus Wåhlberg • 051102
NaturvetenskapSemistabila• MathML (Mathematical Markup Language)
Mellan Semistabila och instabila
Extensible Data Format)• CML (Chemical Markup Language)
Instabila• Leverantörsformat.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Systemutveckling och Teknik
Semistabila• ISO 19503 XMI (XML Metadata Interchange)• DocBook• STEP-ramverket• SOAP
Instabila• I princip alla programspråk och alla leverantörsformat…
Bubblare• W3C ECMAScript, STEPml, WfXML…
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Metadata och arkivSemistabila• EAD (Encoded Archival Description)• ISO 15836:2003 DC (Dublin Core) med/utan W3C RDF• e-Government Metadata Standard inom UK eGov/GovTalk• W3C RDF (Resource Description Framework)
Instabila• Leverantörsformat.
Bubblare• PRISM, NARA:s RFC:er för långtidslagring, EAC (Encoded Archival
Context), MODS (Metadata Object Description Schema), METS (Metadata Encoding and Transportation Standard), VERS (Victorian Electronic Records Strategy), MOREQ, ISO 23081-1:2004 Records management processes - Metadata for records…
MARC-formaten (ex. NAD) på väg att ersättsmed MARC XML eller EAD?
Filformat och långtidslagring • Magnus Wåhlberg • 051102
AllmäntSemistabila• TEI (Text Encoding Initiative)• IPTC NewsML• XHTML
Mellan semistabila och instabila• HL7 (komplext), DICOM, HR-XML, CSS level 1,
W3C XML Signature, OEBPS (Open eBook Forum PublicationStructure), IPTC NITF (News Industry Text Format)
Instabila• Leverantörsformat.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
PDF/A jämfört med PDF
• Audio och video tillåts inte.• Inga script och ingen programkod är tillåten.• Typsnitt ska vara inbäddade.• Colourspaces i oberoende format. • Ingen kryptering.• Metadata.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Typiska konverteringspunkter
Informationspaket (DIP, SIP, AIP):
Producer
OAIS
Consumer
Query
Report/Result Set/Assistance
Order
IP
IP
IPKonverteringspunkt
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Livscykeln da capo
InitieringInstabila format
Gallring/rensning
LångtidslagringSemistabilt format
HandläggningInstabila format
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Exempel 1. Ordbehandling
• Skapa i leverantörsformat.(Ex. MS Word/WordML, Star/OpenOffice SXW…)
• Arbeta och spara arbetskopior i leverantörsformat.
• När handling fastställts konvertera/spara slutversion i PDF/A-format. (Jmf arkivläggning.)
• Långtidslagra PDF/A-versionen i filsystem eller i OAIS-system.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Exempel 2. CAD
• Skapa i PowerCAD, MicroStation, AutoCAD eller liknande.
• Arbeta i leverantörsformat. Ex. DWG.• När ritning fastställts konvertera till CGM och
spara en kopia i leverantörsformat om ritningen behöver ändras i framtiden.
• Långtidslagra ritning i CGM och leverantörsformat.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Exempel 3. Scanning
• Scanna i 300 dpi s/v och lagra i TIFF CCITT T.6. Lägg metadata i XML-fil. (Ex. PRISM, RDF/DC, OAGIS, eDok eller liknande.)
• Arbeta med TIFF-fil i handläggningsprocess. Ändra metadata i XML-fil.
• Långtidslagra TIFF-fil och tillhörande metadata XML-fil i OAIS-system.
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Sammanfattning• Termer runt L-lagring• Trestegsraketen• Orientering runt L-strategier• Migreringshuset• Teckentabeller• Filformat• Exempel
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Länkexempelhttp://www.digitalpreservation.gov/
http://www.digitalpreservation.gov/formats/
http://www.loc.gov/
http://www.govtalk.gov.uk/
http://www0.esd.org.uk/standards/egms/viewer/viewer.aspx
Filformat och långtidslagring • Magnus Wåhlberg • 051102
Frågor?