32
Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi

Informatica Umanistica

  • Upload
    darci

  • View
    40

  • Download
    0

Embed Size (px)

DESCRIPTION

Informatica Umanistica. LM - Scienze del Testo Docente Alessia Scacchi. Analisi automatica di un testo. Metodi e strumenti. Lezione 6. XML. È un sottoinsieme di SGML - PowerPoint PPT Presentation

Citation preview

Page 1: Informatica Umanistica

Informatica Umanistica

LM - Scienze del Testo

Docente Alessia Scacchi

Page 2: Informatica Umanistica

Analisi automatica di un testo. Metodi e strumenti

Lezione 6

Page 3: Informatica Umanistica

XML

• È un sottoinsieme di SGML

• Obiettivo: consentire a un documento SGML generico di essere servito, ricevuto ed elaborato sul Web nel modo in cui ora è possibile con HTML.

• È stato progettato per facilità di implementazione e per l'interoperabilità sia con SGML e HTML

Page 4: Informatica Umanistica

XML

• I documenti XML sono costituiti da:

– unità di memoria chiamate entità, che contengono dati analizzati o non analizzati.

– i dati analizzati sono costituiti da caratteri• alcuni sotto forma di dati carattere• alcuni sotto forma di markup

Page 5: Informatica Umanistica

Markup XML

• Markup è la codifica che consente una descrizione di:– il layout del documento – lo storage – la struttura logica

• XML fornisce un meccanismo per imporre dei vincoli sul tracciato di stoccaggio e sulla struttura logica del documento

Page 6: Informatica Umanistica

Obiettivi XML_1• deve essere direttamente utilizzabile su

Internet.• deve supportare una vasta gamma di

applicazioni.• deve essere compatibile con SGML.• deve essere facile da scrivere, i programmi

che elaborano documenti XML devono essere di semplice lettura/scrittura.

• Il numero di caratteristiche opzionali in XML deve essere mantenuto al minimo assoluto, idealmente a zero.

Page 7: Informatica Umanistica

Obiettivi XML_2

• I documenti XML dovrebbero essere leggibili da ogni essere umano e ragionevolmente chiari.

• La progettazione di un documento XML dovrebbe essere preparata in fretta.

• La progettazione di XML deve essere formale e concisa.

• La concisione del markup XML è di minima importanza.

Page 8: Informatica Umanistica

Documento XML

• Un oggetto testo è un documento XML – se è ben formato – è valido se soddisfa taluni ulteriori vincoli

• Ogni documento XML ha: 1. una logica

2. una struttura fisica.

Page 9: Informatica Umanistica

Entità_1

• 1. Struttura logica: il documento è composto di – dichiarazioni – elementi– commenti– riferimenti a caratteri– istruzioni di elaborazione

• Tutti gli elementi sono indicati nel documento con un markup esplicito.

Page 10: Informatica Umanistica

Entità_2

2. Struttura fisica: il documento è composto da unità chiamate entità

• L'entità può riferirsi ad altre entità

• L’entità può determinare la loro inclusione nel documento

• Un documento inizia da una entità detta "radice" o entità documento.

Page 11: Informatica Umanistica

Documento ben formato

Un oggetto testuale è un documento XML ben formato se:

• Nel suo insieme, esso corrisponde alla produzione marcata del documento

• Se riunisce tutti i vincoli di buona-formazione proposti dall’XML.

• Ciascuno dei soggetti analizzati, che fa riferimento direttamente o indirettamente all'interno del documento, è ben formato

Page 12: Informatica Umanistica
Page 13: Informatica Umanistica

TEI - Text Encoding Initiative

• Una organizzazione no-profit composta da:– Istituzioni accademiche– Centri di ricerca– Studenti di tutto il mondo

• http://www.tei-c.org/index.xml

Page 14: Informatica Umanistica

TEI-Lite• Nome che hanno scelto gli editori TEI per uno

schema che soddisfacesse il 90% delle esigenze di codifica del 90% degli utenti

– Es: Oxford Text Archive http://ota.ahds.ac.uk/catalogue/index-id.html

“develops, collects, catalogues and preserves electronic literary and linguistic resources for use in Higher Education, in research”

Page 15: Informatica Umanistica

Guidelines_1

• Essere semplici e chiare• Di semplice utilizzo per i ricercatori senza

software specializzati• Definizioni rigorose ed efficiente elaborazione

testi• Consentire estensioni definite dall’utente• Conformi a standard esistenti o in procinto di

essere adottati

Page 16: Informatica Umanistica

Guidelines_2

• Nucleo comune delle caratteristiche testuali facilmente condiviso

• Caratteristiche supplementari facili da emendare

• Molteplici codifiche parallele della stessa caratteristica

• Livello di profondità della codifica definito dall’utente

• Adeguata documentazione del testo e sua codifica

Page 17: Informatica Umanistica

Guidelines_3

• Obiettivi:1. Includere la maggior parte dell’insieme

fondamentale dei marcatori TEI

2. In grado di trattare molte tipologie testuali

3. Utile per l’elaborazione di nuovi testi come di già esistenti

4. Utilizzabile con un ampio spettro di software XML già esistenti

5. Derivabile dalla DTD TEI completa

6. Essere conciso e semplice

Page 18: Informatica Umanistica

Elementi testuali

• Proviamo a lavorare su un testo…

Page 19: Informatica Umanistica

Elementi testuali e dubbi• Numeri di pagina e titoli correnti sono

inframmezzati al testo– Difficile riconoscimento per un programma

• Nessuna distinzione tra segni di sillabazione e segni che introducono il discorso diretto– difficile distinguere il discorso diretto

• Lettere accentate non seguono uno standard• Le divisioni di paragrafo sono segnalate

dall’utilizzo di uno spazio bianco– Se dovesse cambiare la dimensione del foglio o il

supporto di visualizzazione ci sarebbero problemi

Page 20: Informatica Umanistica

DocumentoTEIcodificato

Page 21: Informatica Umanistica

Codifica del testo

Elementi fondamentali

Page 22: Informatica Umanistica

Elementi_base

<TEI.2> Il testo codificato secondo lo standard TEI

<teiHeader>…</teiHeader> Intestazione del testo TEI

<text> Il testo che s’intende trasmettere

<front>…</front> Materiali del peritesto iniziale

<body>…</body> Il testo unitario

<back>…</back> Materiali del peritesto finale

</text>

</TEI.2>

Page 23: Informatica Umanistica

Struttura di un testo

TEI

Page 24: Informatica Umanistica

Elementi per le partizioni testuali

• Il corpo di un testo in prosa può essere costituito solamente da 1. una serie di paragrafi 2. oppure tali paragrafi possono

essere raggruppati insieme in • capitoli, • sezioni, • sottosezioni, • etc.

Page 25: Informatica Umanistica

• <p>Codifica i paragrafi in prosa.• <div>Contiene una sezione del peritesto o del corpo di un testo.– <div1>Contiene una sezione di primo livello del peritesto o del corpo di un testo (la più ampia, se <div0> non è usato, altrimenti la seconda in ordine gerarchico).

– Qualora siano necessarie partizioni strutturali inferiori a una <div1> , quest'ultima può essere divisa in elementi<div2> , una <div2> in elementi inferiori <div3> , etc., fino al livello <div7>.

– Se sono presenti più di sette livelli nella divisione strutturale, è necessario o modificare la DTD TEI

Page 26: Informatica Umanistica

Intertitoli e chiusure

• Ogni elemento <div> , <div1> , <div2> , etc., può avere un titolo o un'intestazione al suo inizio, e (meno comunemente) una formula di chiusura quale "Fine del capitolo 1".

• I seguenti elementi possono essere usati per trascriverli:

Page 27: Informatica Umanistica

• <head>contiene ogni tipo di titolazione, per esempio, il titolo di una sezione, oppure l'intestazione di una lista o di un glossario.

• <trailer>contiene una formula di chiusura o un elemento a pié di pagina che compare alla fine di una sezione di testo.

Page 28: Informatica Umanistica

Numeri di pagina e di riga

• Le interruzioni di pagina e di linea possono essere marcate con elementi vuoti– Ovvero elementi che non hanno apertura e chiusura, non contengono nulla, informano su un determinato fenomeno testuale

Page 29: Informatica Umanistica

• <pb>segnala i confini tra una pagina di un testo e la successiva in un sistema di riferimento standard.

• <lb>segnala l'inizio di una nuova riga (tipografica) in una certa edizione o versione di un testo.

• Questi elementi marcano un punto singolo nel testo, non una sua porzione.

Page 30: Informatica Umanistica

Esempio_1

<body>...<p>A seguitare, non ci saremmo mai intesi; perché se a me

stava a cuore la tigre, a lei il cacciatore. </p><p>Difatti il cacciatore designato a ucciderla è Carlo Ferro. La

Nestoroff ne dev'essere molto costernata; e forse non viene qua, come vogliono i maligni, per studiare la sua parte, ma per misurare il pericolo che il suo amante affronterà.</p>

...</body>(Il brano è tratto da Quaderni di Serafino Gubbio operatore di Luigi

Pirandello)

Page 31: Informatica Umanistica

http://www.archive.org/details/texts

Page 32: Informatica Umanistica

Esempio_2

<lg><l>S'i' fosse foco, ardere' il mondo;</l><l>s'i' fosse vento, lo tempestarei;</l><l>s'i' fosse acqua, i' l'annegherei;</l><l>s'i' fosse Dio, mandereil en profondo;</l><lg><l>s'i' fosse papa, serei allor giocondo,</l><l>ché tutti ' cristiani embrigarei;</l><l>s'i' fosse 'mperator, sa' che farei?</l><l>a tutti mozzarei lo capo a tondo.</l>(Il brano è tratto dal sonetto LXXXII delle Rime di Cecco Angiolieri)