Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
v/ René Mittå
Specialkonsulent
Bevaring og udvikling af krav til elektroniske arkivalier,
herunder evaluering af formater, medier mv.
PDF som bevaringsformat?
Status for anvendelse af PDF
• SA benytter ikke PDF, men overvåger formatet
• Indsamler viden om PDF gennem diverse artikler, seminarer og
workshops
• Har ikke udelukket PDF/A, men er fortsat kritiske primært pga.
formatets kompleksitet
• Fastholder indtil videre anvendelsen af TIFF
TIFF bestanddele
Standard
• Baseline 6.0 (uændret siden 1992)
Indeholder
• Metadata TAGS (Baseline & Private)
• Bitmap
• Evt. Alpha kanal (maske / transparens)
Opbygning
• En simpel struktur …
TIFF simpel seriel struktur
Fil header
Metadata (Tags)
Bitmap
Fil slut info
Højde, bredde, kompression,
dato, software etc.
Side i dokumentet
~
Identifikator
~
Fordele • Sideorienteret
• Single og multipage
• Simpelt og robust
• Udbredt og bredt understøttet gennem > 20 år
• Velbeskrevet og licensfrit
• 14 bitdybder og flere kompressions metoder
• Anvendelse: fax, skan, foto, trykkeri, arkiver, museer og private
• Velegnet til dokumenter med høj kontrast (fx tekst som kan
komprimeres effektivt)
Ulemper • TIFF som multipage dokumentformat er relativt dårligt
understøttet og svært at tilgå for almindelige brugere
TIFF fordele og ulemper
PDF (mulige) bestanddele • Metadata (standard og/eller udvidet)
• Fonte (fx TrueType)
• Unicode
• Bitmap (evt. med transparens/maske)
• Vektor grafik (fx SVG)
• Lyd
• Video
• Lag
• CAD
• 3D
• Hyperlink
• Scripts
PDF hierarkisk struktur
PDF Basis format
PDF/A Archiving (3 versioner med undertyper)
PDF/X Printing (10-15 undertyper)
PDF/E Engineering (3D)
PDF/UA Universal Accessibility
PDF/VT Printing ICC (flere undertyper)
PDF/H Healthcare (primært guidelines)
PDF undertyper
PDF 1.4 opbygning
Vektor grafik
ASCII,
ANSI
XMP
metadata
Font
embedded
ICC farve profiler
Digital signatur Raster grafik
Lyd
Video
Hyperlinks
Java
Scripts
Struktur
Lag
Transparens
Unicode
Kryptering LZW
PDF 1.4
PDF/A opbygning
PDF/A-1a
PDF/A-1b
ASCII,
ANSI
Font
embedded
Digital signatur Raster grafik
Lyd
Video
Hyperlinks
Java
Scripts
Struktur
PDF 1.4
Lag
Transparens
Unicode
Kryptering LZW
Vektor grafik
XMP
metadata
ICC farve profiler
PDF manglende font
PDF/A kræver at fonte indlejres
Part 1 PDF/A-1 PDF 1.4 Fonte indlejret og væsentligt
begrænset i forhold til alm. PDF
2005
Part 2 PDF/A-2
ISO 32000-1 OpenType fonts, JPEG2000, LZW,
Annotations, Transparens, Lag,
PDF samling
2011
Part 3 PDF/A-3 ISO 32000-1 Indlejring af andre filtyper uden
begrænsning!
2012
PDF/A versioner
Fordele • Udbredelse
• Understøttelse & tilgængelighed
• Skalerbar (gælder ikke skanninger)
• Relativ lille filstørrelse (gælder ikke skanninger)
Fordele & Ulemper (?) • Et større antal undertyper dækker forskellige behov (fx PDF/X)
• Bagud kompatibelt (flere versioner)
• Flere typer af fonte og Unicode
• Funktionalitet og underformater (fx vektor grafik, lag, forms)
Ulemper • Kompleksitet
• Sårbar overfor dårlig SW
• Ikke muligt at validere 100%
PDF fordele og ulemper
PDF kompleksitet Økonomiske interesser kvalitet vs. kompleksitet?
PDF kompleksitet
Et par eksempler på fejl …
Kompleksitet transparens
)* =
- 8 =
;
=
), $
Nedenstående PDF/A kan IKKE konverteres til fx Word !
Kompleksitet fonte
Kompleksitet fonte
Kompleksitet fonte
Kompleksitet lag
PDF Association lavede en række undersøgelser i marts 2013.
På “PDF Teknisk konference Køln 2013”, stod Duff Johnson for et
oplæg om ”Manglende mulighed for fuld validering af PDF” og i
den forbindelse fremviste han dele af disse undersøgelser.
Markedsundersøgelse
Estimering af omfanget af fejlbehæftede PDF’er
Teknik og support undersøgelse
Fejlbehæftede PDF’ers betydning for den daglige forretning og
drift.
PDF Association undersøgelse
marts 2013
Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/PDFValidationDreamOrYawn-pdfa.pdf
Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/PDFValidationDreamOrYawn-pdfa.pdf
Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/PDFValidationDreamOrYawn-pdfa.pdf
Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/PDFValidationDreamOrYawn-pdfa.pdf
> 11 syntakser
> 12 binære formater
> 10 3je. parts binære formater
10 stream filtre/typer
2 krypterings algoritmer
Header
Body
Xref
Trailer
PDF kompleksitet Hvor meget kan valideres?
TIFF eller PDF?
Kommer an på indhold og formål
Levende dokumenter • Alm. kontorformater (Word, Excel etc.)
• Information til borgere uden behov for redigering (PDF/A)
• Tilgængeliggørelse (JPG & PDF/A)
Langtidsbevaring • Office dokumenter (TIFF & PDF/A som bitmap)
• Skanninger / foto (TIFF & PDF/A)
• Regneark, CAD, GIS (???)
PDF som bevaringsformat Hvad er jeres erfaringer?