29
De mogelijkheden van XML voor de langdurige bewaring van digitale documenten DAVID studiedag 30 nov 2000 Prof. Jan Engelen, Steven Depuydt K.U.Leuven - ESAT Onderzoeksgroep Document Architecturen

De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

De mogelijkheden van XML voor delangdurige bewaring van digitale documenten

DAVID studiedag 30 nov 2000

Prof. Jan Engelen, Steven Depuydt

K.U.Leuven - ESAT

Onderzoeksgroep Document Architecturen

Page 2: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronischarchiveren en hoe kan XMLdaarbij helpen?

Page 3: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

• Voor het bewaren van informatie• Om informatie toegankelijker te maken

• Informatie is lokaal te ontsluiten

• Zoeken naar informatie is eenvoudiger

• Om informatie wereldwijd te kunnenkoppelen

• Om informatie eenvoudiger uit te wisselen• Om informatie te kunnen publiceren

Waarom elektronische opslag?

Page 4: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• Hoe is XML ontstaan?• XML is gegroeid uit SGML om HTML, PDF

e.a. bestandsformaten naar een hoger niveau tetillen

Page 5: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• HTML is goed...• HTML is portable (draait overal en op

alles)

• HTML is heel eenvoudig in gebruik.

• HTML is goedkoop

• HTML heeft enkele hypertext-mogelijkheden

• HTML is wereldwijd in gebruik...

Page 6: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• HTML is niet goed genoeg... (1)• HTML is gericht op presentatie, niet op

semantiek• HTML is weinig betekenisvol:

<p>99.9 <b>Euro</b>

</p>

Wat is Euro, wat is die 99.9 (kostprijs, snelheid,…)?

Page 7: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• HTML is niet goed genoeg... (2)• HTML is niet flexibel, gebruik van eigen tags niet

mogelijk

• HTML is te beperkt in zijn presentatie mogelijkheden

• Doelgericht zoeken is niet mogelijk

• Een standaard?(elke browser heeft zijn supplementaire tags, verschiltin presentatie, …)

• Hergebruik van data, modulariteit?

• Data efficiënt uitwisselen en koppelen?

Page 8: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• PDF is goed.• PDF is de goedkoopste en snelste manier om

data elektronisch te publiceren

• PDF is excellent voor print

• PDF is toch niet goed genoeg• Nog minder flexibel dan HTML

• Zoek- en navigatie mogelijkheden beperkt

• Niet geschikt voor elektronische presentatievan informatie

• Modulariteit?

Page 9: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• De Standard GeneralizedMarkup Language (SGML) iseen ISO standaard(ISO_8879:1986) voor hetbeschrijven van informatie

• Wat is SGML?

Page 10: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• XML = SGML voor het Web

• XML is een open W3C (World Wide WebConsortium) standaard voor opslag,publiceren en uitwisselen van alle mogelijkeinformatie• XML → SPEED (Storing, Publishing and

Exchanging Electronic Documents)

• Wat is XML?

Page 11: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• Waarom XML?• XML is ontstaan uit nood om efficiënt data te

stockeren (Single Source principe), omefficiënt op data te kunnen zoeken, omefficiënt te navigeren in data, omgepersonaliseerde data te kunnen aanbiedenen om data gemakkelijk te kunnen uitwisselen

Page 12: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• Hoe ziet XML eruit? (1)• Data archiveren in XML betekent het

structureren van informatie en zijn metadata

• Een structuurplan (de Document TypeDefinition of DTD) vormt de basis voor ditstructuren (handleiding)

Page 13: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• Hoe ziet XML eruit? (2)• XML is heel eenvoudig te begrijpen en aan te leren,

zowel voor mens als machine:

<prijs>

<munteenheid>Euro</munteenheid>

<bedrag>99.9</bedrag>

</prijs>

XML geeft een duidelijke omschrijving van de data (Waarde 99.9 in HTML = kostprijs, snelheid, … ?)

Page 14: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

Hoe ziet XML eruit? (3)

<!ELEMENT boekinfo (boek)+ ><!ELEMENT boek (titel, isbn, uitgever,prijs) ><!ELEMENT prijs (munteenheid, bedrag) ><!ELEMENT titel (#PCDATA) >...

BOEKINFO BOEK

TITELISBN

UITGEVER

PRIJSMUNTEENHEIDBEDRAG

Page 15: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

Hoe ziet XML eruit? (4)<?xml version="1.0" ?>

<boekinfo><boek>

<titel>Professional XML</titel> <isbn>1-861003-11-0</isbn> <uitgever>WROX</uitgever> <prijs><munteenheid>USD</munteenheid> <bedrag>49.99</bedrag></prijs></boek></boekinfo>

Boekinfo

Titel ISBN Uitgever Prijs

1-861003-11-0 WROX 49.99 USDProfessional XML

Page 16: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• Kracht van XML (1)• XML is ideaal voor langdurige bewaring van

informatie want platform-onafhankelijk,applicatie-onafhankelijk en heel leesbaar

• XML is zelfbeschrijvend

• XML maakt een onderscheid tussen structuur enlayout (↔ Word, PDF, HTML, ...)

• XML blijft leesbaar ook al verdwijnen de tools diehet ooit hebben aangemaakt

• XML maakt gebruik van de Unicode karakterset

Page 17: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• Kracht van XML (2)• Hergebruik van data (single source concept)

• Vanuit één XML source output mogelijk naarzowel papier, web, cd-rom, mobilofoons,…(hergebruik van data) en per medium zijnmeerdere dataviews mogelijk

• Slechts 1 source te onderhouden

Page 18: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• Kracht van XML (3)• Efficiënt zoeken en ontsluiten via XML

• Zoeken in een gestructureerd document veelefficiënter en sneller dan full text zoeken

• Vb: Zoek de beursnotering van L&H• Full text: “beursnotering L&H”

• Via XML:Zoek in documenten van het type beursnotering naar<company>L&H</company>→ veel efficiënter

Page 19: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• Diverse XML initiatieven zorgen voor eenefficiëntere ontsluiting van informatie

• Metadata koppeling aan multimedia content(bv.: RDF)

• Intelligente navigatie technieken(bv.: Topic Maps)

• Topic Maps = splitsen navigatie van inhoud

Page 20: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Waarom elektronische opslag in XML?

• Kracht van XML (4)• Platform-onafhankelijke, applicatie-onafhankelijke,

door een plan vergezelde, gestructureerde XML datais ideaal als uitwisselingsformaat

• Er zijn diverse initiatieven om data uniform uit tewisselen, elk in hun specifiek domeinvoorbeelden:

• Uniforme XML multimedia standaarden

- MathML: wiskunde - VoiceML: spraak - SMILE: multimedia - SVG: grafismen ...

• Sectoroverkoepelende XML initiatieven

- PPML: grafische sector ...

Page 21: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Overtuigd?

Hoe beginnen we eraan?

Page 22: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Hoe XML data aanmaken?

• Opstellen Document Type Definition (DTD) ofXML Schema

• Gecontroleerde invoer:• Via XML editors met ingebouwde XML controle

(XML parser)

• Vanuit diverse tekstverwerkings- en zetformaten viaconversie naar XML

• Conversie voor nieuw in te voeren data en voor recuperatievan bestaande data (bv.: MS Word → RTF → XML)

• Conversie gebeurt best via gespecialiseerde tools metingebouwde XML kennis

Page 23: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Hoe XML data ontsluiten / publiceren?

• Rechtstreeks ontsluiten van XML data via eenstyle sheet (bv.: CSS, XSL, …)

• Via conversie van XML naar presentatie-formaten (bv.: PDF, HTML, WML, …)

• Via het opstellen van een style sheet voorconversie (bv.: XSLT)

• Via specifieke conversie tools

Page 24: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

XML in de praktijk

• XML toegepast op deze presentatie:• Toolkeuze is vrij (kracht 1)

• Hergebruik slides (kracht 2)

• Layout eenvoudig te wijzigen (kracht 2)

• Toekennen datum → reviewen (kracht 3)

• Toekennen status → publicatie? (kracht 3)

• Meegeven auteur → onderhoud (kracht 3)• Koppelen slides (kracht 4)

• ...

Page 25: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

BESLUIT

• XML kost kracht !• opstellen plan,

• invoer via plan

• opstellen van style sheet of bouwen conversies

• maar ...

Page 26: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

BESLUIT

• ...is de moeite zeker waard omwille van:• zijn applicatie-onafhankelijkheid,

• zijn platform-onafhankelijkheid,

• het single source principe,

• zijn efficiënte zoekmogelijkheden en

• zijn eenvoudige uitwisselbaarheid

Page 27: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

BESLUIT

XML staat dan ook garant voor eentoegankelijke, langdurige archivering vandigitale documenten

Page 28: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Referenties

• XML primer:http://www.xml101.com/xml/default.asp

• De XML specificatie:www.w3.org/tr/rec-xml.html

• De “annotated version” van de specificatie (by Tim Bray):www.xml.com/axml/testaxml.htm

• Gespecialiseerde XML sites:www.xml.orgwww.xml.comwww.oasis-open.org/cover/

• Algemeenwww.unicode.orgwww.w3.org

Page 29: De mogelijkheden van XML voor de langdurige bewaring van … · 2012-05-22 · • Via het opstellen van een style sheet voor conversie ( bv .: XSLT) • Via specifieke conversie

Verdere informatie en advies

Onderzoeksgroep DocumentarchitecturenK.U.Leuven - Dept. ESATKard. Mercierlaan 943001 Leuven-Heverlee

(016) 32 11 23 (016) 32 19 86

[email protected]

http://www.esat.kuleuven.ac.be/teo/docarch