23
Utilizzo di standard XML per fonti giuridiche antiche e bibliografia romanistica Lorenzo Di Silvestro - Daria Spampinato Presentazione dell’attività svolta nel primo anno del PRIN 2007 "BIA-Net Accesso in rete alla Bibliotheca Iuris Antiqui“ ITTIG - CNR Firenze - 19 febbraio 2010 1

Utilizzo di standard XML per fonti giuridiche antiche e ... · –mediante JLEX (generatore di analizzatore lessicale) e CUP (generatore di parser LALR) •2° fase –produce un

Embed Size (px)

Citation preview

Utilizzo di standard XML per fonti giuridiche antiche e bibliografia romanistica

Lorenzo Di Silvestro - Daria Spampinato

Presentazione dell’attività svolta nel primo anno del PRIN 2007 "BIA-Net – Accesso in rete

alla Bibliotheca Iuris Antiqui“

ITTIG - CNR

Firenze - 19 febbraio 2010 1

ORIGINE DEI DATI

• CD BIA2000formato proprietario (cds)

• Bia Editorformato proprietario (bef)

• Microsoft Wordformato proprietario (doc)

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 2

OPERA - XML Schema

Dublin Core

– standard internazionale per i dati bibliografici

– implementazione XML del Dublin Core Metadata Initiative

– versione qualified

• Mapping tra elementi DC e campi in cds e doc

• Compilazione automatica di nuovi elementi DC

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 3

OPERA - mapping

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 4

Dublin Core OPERA

dc:title Titolo

dc:creator Autore

dc:subject.class Codice di classificazione

dc:subject.bias Descrittore

dc:description Sommario / Abstract

dc:publisher Luogo e Editore

dc:datedc:date.start / dc:date.end

Anno Intervallo anni

dc:type non presente

dc:format Pagine o Intervallo pagine

dc:identifier non presente

dc:relation.ispartof Titolo della rivista di pubblicazione

dc:relation.references Luogo fonte citato

OPERA - conversione

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 5

cds DC xml

doc DC xml

php

php

htmlpreprocessing

OPERA - nuovi elementi• dc:type

– spoglio, monografia, periodico

– compilato in automatico in base a:

• codice di classificazione

• valore del campo pagina

• dc:identifier

– identificativo univoco della risorsa

– compitato in automatico:aaaaxxxx con aaaa anno e xxxx numero progressivo

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 6

OPERA - altri elementi

• Un valore per ogni elementodc:creator – dc:relation.references

dc:subject.class – dc:subject.bias

• Scioglimento intervallo annidc:date.start e dc:date.end

• Individuazione Titolo rivista dal generico campo pubblicazione

dc:relation.ispartof

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 7

OPERA - cds → DC xml

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 8

OPERA - doc → DC xml

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 9

FONTES - analisi dei dati

• cds e beffile Microsoft rtf corretti sintatticamente ma non semanticamente

necessaria una conversione in due fasi

• docdati full-text

necessario preprocessing per etichettare

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 10

FONTES - analisi delle fonti• Eterogeneità della struttura delle fonti

un parser per ogni fonte

• Forma gerarchica articolata della fonte originale. Esempio Codex Iustinianus– 12 Libri suddivisi in Titoli– una Rubrica per ogni Titolo– Titoli divisi in Frammenti – un inscriptio e una subscriptio per ogni Frammento– Frammenti divisi in Paragrafi

scelta dello standard XML TEI

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 11

FONTES - XML Schema

• TEI P5 (Text Encoding Initiative)

– rispecchia la forma gerarchica articolata delle fonti

– standard internazionale de facto per la digitalizzazione dei testi umanistici

– garantisce l’interoperabilità delle risorse

– supporto per caratteri accentati e speciali

– supporto per font greci

– document-centric

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 12

FONTES - scelta tag TEI (1)

• <divN> identifica porzioni di testo annidate– <div0> per il libro– <div1> per il titolo– <div2> per la rubrica e il frammento– <div3> per l’inscriptio e la subscriptio– <div4> per i paragrafi

• Ogni <divN> ha 3 attributi– id (univoco): informazioni del luogo fonte– n : titolazione ufficiale del luogo fonte– type: identifica la porzione di testo

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 13

FONTES - scelta tag TEI (2)

• <head> nome del libro (non presente nel file d’origine)

• <argument> contenuto della rubrica

• <foreign lang=“grc”> testo in greco

• <name> nomi dei giuristi

• <hi rend=“...”> testo formattato

• ogni tag può avere l’attributo rend– rend=“italic” indica il corsivo– rend=“sc” indica il maiuscoletto

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 14

FONTES - il problema del greco

• BIA2000 e Bia Editor utilizzano

un font con glifi disegnati ad hoc

• utilizzo dell’Unicode UTF-8

• mapping font proprietario Unicode

• riconoscimento e sostituzione in fase di conversione

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 15

FONTES - mapping greco

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 16

FONTES - conversione

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 17

cds

xml

TEI xml

bef

docphp

htmlpreprocessing

php TEI xml

FONTES - conversione doc

• 1° fase

– produce un file html strutturato

– opera senza perdita di informazione

– mediante preprocessing supervisionato

• 2° fase

– produce un file xml gerarchico TEI valido

– mediante convertitore in PHP

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 18

FONTES - conversione cds e bef

• 1° fase

– produce un file xml non gerarchico

– opera senza perdita di informazione

– mediante JLEX (generatore di analizzatore lessicale) e CUP (generatore di parser LALR)

• 2° fase

– produce un file xml gerarchico TEI valido

– mediante convertitore in PHP

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 19

FONTES - cds

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 20

FONTES - xml intermedio

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 21

FONTES - TEI xml

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 22

FONTES - TEI xml

Firenze - 19 febbraio 2010 Lorenzo Di Silvestro - Daria Spampinato 23