Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
De mogelijkheden van XML voor delangdurige bewaring van digitale documenten
DAVID studiedag 30 nov 2000
Prof. Jan Engelen, Steven Depuydt
K.U.Leuven - ESAT
Onderzoeksgroep Document Architecturen
Waarom elektronischarchiveren en hoe kan XMLdaarbij helpen?
• Voor het bewaren van informatie• Om informatie toegankelijker te maken
• Informatie is lokaal te ontsluiten
• Zoeken naar informatie is eenvoudiger
• Om informatie wereldwijd te kunnenkoppelen
• Om informatie eenvoudiger uit te wisselen• Om informatie te kunnen publiceren
Waarom elektronische opslag?
Waarom elektronische opslag in XML?
• Hoe is XML ontstaan?• XML is gegroeid uit SGML om HTML, PDF
e.a. bestandsformaten naar een hoger niveau tetillen
Waarom elektronische opslag in XML?
• HTML is goed...• HTML is portable (draait overal en op
alles)
• HTML is heel eenvoudig in gebruik.
• HTML is goedkoop
• HTML heeft enkele hypertext-mogelijkheden
• HTML is wereldwijd in gebruik...
Waarom elektronische opslag in XML?
• HTML is niet goed genoeg... (1)• HTML is gericht op presentatie, niet op
semantiek• HTML is weinig betekenisvol:
<p>99.9 <b>Euro</b>
</p>
Wat is Euro, wat is die 99.9 (kostprijs, snelheid,…)?
Waarom elektronische opslag in XML?
• HTML is niet goed genoeg... (2)• HTML is niet flexibel, gebruik van eigen tags niet
mogelijk
• HTML is te beperkt in zijn presentatie mogelijkheden
• Doelgericht zoeken is niet mogelijk
• Een standaard?(elke browser heeft zijn supplementaire tags, verschiltin presentatie, …)
• Hergebruik van data, modulariteit?
• Data efficiënt uitwisselen en koppelen?
Waarom elektronische opslag in XML?
• PDF is goed.• PDF is de goedkoopste en snelste manier om
data elektronisch te publiceren
• PDF is excellent voor print
• PDF is toch niet goed genoeg• Nog minder flexibel dan HTML
• Zoek- en navigatie mogelijkheden beperkt
• Niet geschikt voor elektronische presentatievan informatie
• Modulariteit?
Waarom elektronische opslag in XML?
• De Standard GeneralizedMarkup Language (SGML) iseen ISO standaard(ISO_8879:1986) voor hetbeschrijven van informatie
• Wat is SGML?
Waarom elektronische opslag in XML?
• XML = SGML voor het Web
• XML is een open W3C (World Wide WebConsortium) standaard voor opslag,publiceren en uitwisselen van alle mogelijkeinformatie• XML → SPEED (Storing, Publishing and
Exchanging Electronic Documents)
• Wat is XML?
Waarom elektronische opslag in XML?
• Waarom XML?• XML is ontstaan uit nood om efficiënt data te
stockeren (Single Source principe), omefficiënt op data te kunnen zoeken, omefficiënt te navigeren in data, omgepersonaliseerde data te kunnen aanbiedenen om data gemakkelijk te kunnen uitwisselen
Waarom elektronische opslag in XML?
• Hoe ziet XML eruit? (1)• Data archiveren in XML betekent het
structureren van informatie en zijn metadata
• Een structuurplan (de Document TypeDefinition of DTD) vormt de basis voor ditstructuren (handleiding)
Waarom elektronische opslag in XML?
• Hoe ziet XML eruit? (2)• XML is heel eenvoudig te begrijpen en aan te leren,
zowel voor mens als machine:
<prijs>
<munteenheid>Euro</munteenheid>
<bedrag>99.9</bedrag>
</prijs>
XML geeft een duidelijke omschrijving van de data (Waarde 99.9 in HTML = kostprijs, snelheid, … ?)
Waarom elektronische opslag in XML?
Hoe ziet XML eruit? (3)
<!ELEMENT boekinfo (boek)+ ><!ELEMENT boek (titel, isbn, uitgever,prijs) ><!ELEMENT prijs (munteenheid, bedrag) ><!ELEMENT titel (#PCDATA) >...
BOEKINFO BOEK
TITELISBN
UITGEVER
PRIJSMUNTEENHEIDBEDRAG
Waarom elektronische opslag in XML?
Hoe ziet XML eruit? (4)<?xml version="1.0" ?>
<boekinfo><boek>
<titel>Professional XML</titel> <isbn>1-861003-11-0</isbn> <uitgever>WROX</uitgever> <prijs><munteenheid>USD</munteenheid> <bedrag>49.99</bedrag></prijs></boek></boekinfo>
Boekinfo
Titel ISBN Uitgever Prijs
1-861003-11-0 WROX 49.99 USDProfessional XML
Waarom elektronische opslag in XML?
• Kracht van XML (1)• XML is ideaal voor langdurige bewaring van
informatie want platform-onafhankelijk,applicatie-onafhankelijk en heel leesbaar
• XML is zelfbeschrijvend
• XML maakt een onderscheid tussen structuur enlayout (↔ Word, PDF, HTML, ...)
• XML blijft leesbaar ook al verdwijnen de tools diehet ooit hebben aangemaakt
• XML maakt gebruik van de Unicode karakterset
Waarom elektronische opslag in XML?
• Kracht van XML (2)• Hergebruik van data (single source concept)
• Vanuit één XML source output mogelijk naarzowel papier, web, cd-rom, mobilofoons,…(hergebruik van data) en per medium zijnmeerdere dataviews mogelijk
• Slechts 1 source te onderhouden
Waarom elektronische opslag in XML?
• Kracht van XML (3)• Efficiënt zoeken en ontsluiten via XML
• Zoeken in een gestructureerd document veelefficiënter en sneller dan full text zoeken
• Vb: Zoek de beursnotering van L&H• Full text: “beursnotering L&H”
• Via XML:Zoek in documenten van het type beursnotering naar<company>L&H</company>→ veel efficiënter
Waarom elektronische opslag in XML?
• Diverse XML initiatieven zorgen voor eenefficiëntere ontsluiting van informatie
• Metadata koppeling aan multimedia content(bv.: RDF)
• Intelligente navigatie technieken(bv.: Topic Maps)
• Topic Maps = splitsen navigatie van inhoud
Waarom elektronische opslag in XML?
• Kracht van XML (4)• Platform-onafhankelijke, applicatie-onafhankelijke,
door een plan vergezelde, gestructureerde XML datais ideaal als uitwisselingsformaat
• Er zijn diverse initiatieven om data uniform uit tewisselen, elk in hun specifiek domeinvoorbeelden:
• Uniforme XML multimedia standaarden
- MathML: wiskunde - VoiceML: spraak - SMILE: multimedia - SVG: grafismen ...
• Sectoroverkoepelende XML initiatieven
- PPML: grafische sector ...
Overtuigd?
Hoe beginnen we eraan?
Hoe XML data aanmaken?
• Opstellen Document Type Definition (DTD) ofXML Schema
• Gecontroleerde invoer:• Via XML editors met ingebouwde XML controle
(XML parser)
• Vanuit diverse tekstverwerkings- en zetformaten viaconversie naar XML
• Conversie voor nieuw in te voeren data en voor recuperatievan bestaande data (bv.: MS Word → RTF → XML)
• Conversie gebeurt best via gespecialiseerde tools metingebouwde XML kennis
Hoe XML data ontsluiten / publiceren?
• Rechtstreeks ontsluiten van XML data via eenstyle sheet (bv.: CSS, XSL, …)
• Via conversie van XML naar presentatie-formaten (bv.: PDF, HTML, WML, …)
• Via het opstellen van een style sheet voorconversie (bv.: XSLT)
• Via specifieke conversie tools
XML in de praktijk
• XML toegepast op deze presentatie:• Toolkeuze is vrij (kracht 1)
• Hergebruik slides (kracht 2)
• Layout eenvoudig te wijzigen (kracht 2)
• Toekennen datum → reviewen (kracht 3)
• Toekennen status → publicatie? (kracht 3)
• Meegeven auteur → onderhoud (kracht 3)• Koppelen slides (kracht 4)
• ...
BESLUIT
• XML kost kracht !• opstellen plan,
• invoer via plan
• opstellen van style sheet of bouwen conversies
• maar ...
BESLUIT
• ...is de moeite zeker waard omwille van:• zijn applicatie-onafhankelijkheid,
• zijn platform-onafhankelijkheid,
• het single source principe,
• zijn efficiënte zoekmogelijkheden en
• zijn eenvoudige uitwisselbaarheid
BESLUIT
XML staat dan ook garant voor eentoegankelijke, langdurige archivering vandigitale documenten
Referenties
• XML primer:http://www.xml101.com/xml/default.asp
• De XML specificatie:www.w3.org/tr/rec-xml.html
• De “annotated version” van de specificatie (by Tim Bray):www.xml.com/axml/testaxml.htm
• Gespecialiseerde XML sites:www.xml.orgwww.xml.comwww.oasis-open.org/cover/
• Algemeenwww.unicode.orgwww.w3.org
Verdere informatie en advies
Onderzoeksgroep DocumentarchitecturenK.U.Leuven - Dept. ESATKard. Mercierlaan 943001 Leuven-Heverlee
(016) 32 11 23 (016) 32 19 86
http://www.esat.kuleuven.ac.be/teo/docarch