Upload
hoangdien
View
224
Download
0
Embed Size (px)
Citation preview
Utilizzo di standard XML per fonti giuridiche antiche e bibliografia romanistica
Lorenzo Di Silvestro - Daria Spampinato
Presentazione dell’attività svolta nel primo anno del PRIN 2007 "BIA-Net – Accesso in rete
alla Bibliotheca Iuris Antiqui“
ITTIG - CNR
Firenze - 19 febbraio 2010 1
ORIGINE DEI DATI
• CD BIA2000formato proprietario (cds)
• Bia Editorformato proprietario (bef)
• Microsoft Wordformato proprietario (doc)
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 2
OPERA - XML Schema
Dublin Core
– standard internazionale per i dati bibliografici
– implementazione XML del Dublin Core Metadata Initiative
– versione qualified
• Mapping tra elementi DC e campi in cds e doc
• Compilazione automatica di nuovi elementi DC
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 3
OPERA - mapping
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 4
Dublin Core OPERA
dc:title Titolo
dc:creator Autore
dc:subject.class Codice di classificazione
dc:subject.bias Descrittore
dc:description Sommario / Abstract
dc:publisher Luogo e Editore
dc:datedc:date.start / dc:date.end
Anno Intervallo anni
dc:type non presente
dc:format Pagine o Intervallo pagine
dc:identifier non presente
dc:relation.ispartof Titolo della rivista di pubblicazione
dc:relation.references Luogo fonte citato
OPERA - conversione
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 5
cds DC xml
doc DC xml
php
php
htmlpreprocessing
OPERA - nuovi elementi• dc:type
– spoglio, monografia, periodico
– compilato in automatico in base a:
• codice di classificazione
• valore del campo pagina
• dc:identifier
– identificativo univoco della risorsa
– compitato in automatico:aaaaxxxx con aaaa anno e xxxx numero progressivo
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 6
OPERA - altri elementi
• Un valore per ogni elementodc:creator – dc:relation.references
dc:subject.class – dc:subject.bias
• Scioglimento intervallo annidc:date.start e dc:date.end
• Individuazione Titolo rivista dal generico campo pubblicazione
dc:relation.ispartof
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 7
FONTES - analisi dei dati
• cds e beffile Microsoft rtf corretti sintatticamente ma non semanticamente
necessaria una conversione in due fasi
• docdati full-text
necessario preprocessing per etichettare
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 10
FONTES - analisi delle fonti• Eterogeneità della struttura delle fonti
un parser per ogni fonte
• Forma gerarchica articolata della fonte originale. Esempio Codex Iustinianus– 12 Libri suddivisi in Titoli– una Rubrica per ogni Titolo– Titoli divisi in Frammenti – un inscriptio e una subscriptio per ogni Frammento– Frammenti divisi in Paragrafi
scelta dello standard XML TEI
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 11
FONTES - XML Schema
• TEI P5 (Text Encoding Initiative)
– rispecchia la forma gerarchica articolata delle fonti
– standard internazionale de facto per la digitalizzazione dei testi umanistici
– garantisce l’interoperabilità delle risorse
– supporto per caratteri accentati e speciali
– supporto per font greci
– document-centric
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 12
FONTES - scelta tag TEI (1)
• <divN> identifica porzioni di testo annidate– <div0> per il libro– <div1> per il titolo– <div2> per la rubrica e il frammento– <div3> per l’inscriptio e la subscriptio– <div4> per i paragrafi
• Ogni <divN> ha 3 attributi– id (univoco): informazioni del luogo fonte– n : titolazione ufficiale del luogo fonte– type: identifica la porzione di testo
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 13
FONTES - scelta tag TEI (2)
• <head> nome del libro (non presente nel file d’origine)
• <argument> contenuto della rubrica
• <foreign lang=“grc”> testo in greco
• <name> nomi dei giuristi
• <hi rend=“...”> testo formattato
• ogni tag può avere l’attributo rend– rend=“italic” indica il corsivo– rend=“sc” indica il maiuscoletto
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 14
FONTES - il problema del greco
• BIA2000 e Bia Editor utilizzano
un font con glifi disegnati ad hoc
• utilizzo dell’Unicode UTF-8
• mapping font proprietario Unicode
• riconoscimento e sostituzione in fase di conversione
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 15
FONTES - conversione
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 17
cds
xml
TEI xml
bef
docphp
htmlpreprocessing
php TEI xml
FONTES - conversione doc
• 1° fase
– produce un file html strutturato
– opera senza perdita di informazione
– mediante preprocessing supervisionato
• 2° fase
– produce un file xml gerarchico TEI valido
– mediante convertitore in PHP
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 18
FONTES - conversione cds e bef
• 1° fase
– produce un file xml non gerarchico
– opera senza perdita di informazione
– mediante JLEX (generatore di analizzatore lessicale) e CUP (generatore di parser LALR)
• 2° fase
– produce un file xml gerarchico TEI valido
– mediante convertitore in PHP
Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 19