29
v/ René Mittå Specialkonsulent Bevaring og udvikling af krav til elektroniske arkivalier, herunder evaluering af formater, medier mv. PDF som bevaringsformat?

PDF som bevaringsformat? - NorDig 2014 · 2014. 6. 19. · Status for anvendelse af PDF • SA benytter ikke PDF, men overvåger formatet • Indsamler viden om PDF gennem diverse

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • v/ René Mittå

    Specialkonsulent

    Bevaring og udvikling af krav til elektroniske arkivalier,

    herunder evaluering af formater, medier mv.

    PDF som bevaringsformat?

  • Status for anvendelse af PDF

    • SA benytter ikke PDF, men overvåger formatet

    • Indsamler viden om PDF gennem diverse artikler, seminarer og

    workshops

    • Har ikke udelukket PDF/A, men er fortsat kritiske primært pga.

    formatets kompleksitet

    • Fastholder indtil videre anvendelsen af TIFF

  • TIFF bestanddele

    Standard

    • Baseline 6.0 (uændret siden 1992)

    Indeholder

    • Metadata TAGS (Baseline & Private)

    • Bitmap

    • Evt. Alpha kanal (maske / transparens)

    Opbygning

    • En simpel struktur …

  • TIFF simpel seriel struktur

    Fil header

    Metadata (Tags)

    Bitmap

    Fil slut info

    Højde, bredde, kompression,

    dato, software etc.

    Side i dokumentet

    ~

    Identifikator

    ~

  • Fordele • Sideorienteret

    • Single og multipage

    • Simpelt og robust

    • Udbredt og bredt understøttet gennem > 20 år

    • Velbeskrevet og licensfrit

    • 14 bitdybder og flere kompressions metoder

    • Anvendelse: fax, skan, foto, trykkeri, arkiver, museer og private

    • Velegnet til dokumenter med høj kontrast (fx tekst som kan

    komprimeres effektivt)

    Ulemper • TIFF som multipage dokumentformat er relativt dårligt

    understøttet og svært at tilgå for almindelige brugere

    TIFF fordele og ulemper

  • PDF (mulige) bestanddele • Metadata (standard og/eller udvidet)

    • Fonte (fx TrueType)

    • Unicode

    • Bitmap (evt. med transparens/maske)

    • Vektor grafik (fx SVG)

    • Lyd

    • Video

    • Lag

    • CAD

    • 3D

    • Hyperlink

    • Scripts

  • PDF hierarkisk struktur

  • PDF Basis format

    PDF/A Archiving (3 versioner med undertyper)

    PDF/X Printing (10-15 undertyper)

    PDF/E Engineering (3D)

    PDF/UA Universal Accessibility

    PDF/VT Printing ICC (flere undertyper)

    PDF/H Healthcare (primært guidelines)

    PDF undertyper

  • PDF 1.4 opbygning

    Vektor grafik

    ASCII,

    ANSI

    XMP

    metadata

    Font

    embedded

    ICC farve profiler

    Digital signatur Raster grafik

    Lyd

    Video

    Hyperlinks

    Java

    Scripts

    Struktur

    Lag

    Transparens

    Unicode

    Kryptering LZW

    PDF 1.4

  • PDF/A opbygning

    PDF/A-1a

    PDF/A-1b

    ASCII,

    ANSI

    Font

    embedded

    Digital signatur Raster grafik

    Lyd

    Video

    Hyperlinks

    Java

    Scripts

    Struktur

    PDF 1.4

    Lag

    Transparens

    Unicode

    Kryptering LZW

    Vektor grafik

    XMP

    metadata

    ICC farve profiler

  • PDF manglende font

  • PDF/A kræver at fonte indlejres

  • Part 1 PDF/A-1 PDF 1.4 Fonte indlejret og væsentligt

    begrænset i forhold til alm. PDF

    2005

    Part 2 PDF/A-2

    ISO 32000-1 OpenType fonts, JPEG2000, LZW,

    Annotations, Transparens, Lag,

    PDF samling

    2011

    Part 3 PDF/A-3 ISO 32000-1 Indlejring af andre filtyper uden

    begrænsning!

    2012

    PDF/A versioner

  • Fordele • Udbredelse

    • Understøttelse & tilgængelighed

    • Skalerbar (gælder ikke skanninger)

    • Relativ lille filstørrelse (gælder ikke skanninger)

    Fordele & Ulemper (?) • Et større antal undertyper dækker forskellige behov (fx PDF/X)

    • Bagud kompatibelt (flere versioner)

    • Flere typer af fonte og Unicode

    • Funktionalitet og underformater (fx vektor grafik, lag, forms)

    Ulemper • Kompleksitet

    • Sårbar overfor dårlig SW

    • Ikke muligt at validere 100%

    PDF fordele og ulemper

  • PDF kompleksitet Økonomiske interesser kvalitet vs. kompleksitet?

  • PDF kompleksitet

    Et par eksempler på fejl …

  • Kompleksitet transparens

  • )* =

    - 8 =

    ;

    =

    ), $

    Nedenstående PDF/A kan IKKE konverteres til fx Word !

    Kompleksitet fonte

  • Kompleksitet fonte

  • Kompleksitet fonte

  • Kompleksitet lag

  • PDF Association lavede en række undersøgelser i marts 2013.

    På “PDF Teknisk konference Køln 2013”, stod Duff Johnson for et

    oplæg om ”Manglende mulighed for fuld validering af PDF” og i

    den forbindelse fremviste han dele af disse undersøgelser.

    Markedsundersøgelse

    Estimering af omfanget af fejlbehæftede PDF’er

    Teknik og support undersøgelse

    Fejlbehæftede PDF’ers betydning for den daglige forretning og

    drift.

    PDF Association undersøgelse

    marts 2013

  • Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/PDFValidationDreamOrYawn-pdfa.pdf

  • Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/PDFValidationDreamOrYawn-pdfa.pdf

  • Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/PDFValidationDreamOrYawn-pdfa.pdf

  • Kilde: http://duff-johnson.com/wp-content/uploads/2014/03/PDFValidationDreamOrYawn-pdfa.pdf

  • > 11 syntakser

    > 12 binære formater

    > 10 3je. parts binære formater

    10 stream filtre/typer

    2 krypterings algoritmer

    Header

    Body

    Xref

    Trailer

    PDF kompleksitet Hvor meget kan valideres?

  • TIFF eller PDF?

    Kommer an på indhold og formål

    Levende dokumenter • Alm. kontorformater (Word, Excel etc.)

    • Information til borgere uden behov for redigering (PDF/A)

    • Tilgængeliggørelse (JPG & PDF/A)

    Langtidsbevaring • Office dokumenter (TIFF & PDF/A som bitmap)

    • Skanninger / foto (TIFF & PDF/A)

    • Regneark, CAD, GIS (???)

  • PDF som bevaringsformat Hvad er jeres erfaringer?