Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
2
4 SVE ANO FINALE�
...
(Svi izvade ma eve. Div naglo zamahne rukom u jednu �stranu. Vojnici popadaju.)
DIV LE GI�: Sluge moje, kako stvari stoje i vi ste se protiv mene urotili sada! Svak ko nije sa mnom mora e da �strada!
MA OR LE FJODOR: Predaj se jer opkoljen si sa svih �strana!
TODOR: Pu�taj princezu! Pu�taj smesta da ne bude pla a, �da ne vidi� o�tricu mojeg ljutog ma a!�
...
Sa vizuelnim formatiranjem, znakovima interpunkcije, razmacima, proredima.... Sadržaj je
� � �„ozna en“ tako da je lakše itljiv. Uo avamo celine, ko i �ta izgovara u tekstu, i druge krupne sintaksi ke celine, ba� kao i re enice i re i � � �
razdvojene razmacima (manje celine).
Potreba za deljenjem dokumenata iji zapis treba biti �
itljiv i ljudima i ma�inama i treba da dozvoli njihovu �
upotrebu i nakon vi�e decenija.
3
<div2 type ="Scene" n="4"><head>SVE ANO FINALE� </head>
...
<stage rend="italic">Svi izvade ma eve. Div naglo zamahne �rukom u jednu stranu. Vojnici popadaju.</stage>
<sp who="DIV"><speaker>DIV LE GI�</speaker> <p>Sluge moje, kako stvari stoje i vi ste se protiv mene urotili sada! Svak ko nije sa mnom mora e da strada!� </p></sp>
<sp who="MA OR">� <speaker>MA OR LE FJODOR� </speaker> <p>Predaj se jer opkoljen si sa svih strana!</p></sp>
<sp who="TODOR"><speaker>TODOR</speaker> <p>Pu�taj princezu! Pu�taj smesta da ne bude pla a, da �ne vidi� o�tricu mojeg ljutog ma a!� </p></sp>
... http://www.tei-c.org/Lite/U5-body.html
Ise ak teksta anotiranog po TEI Lite 5 specifikaciji.�
Uo avamo ozna ene sekcije (<div1>, <div2>), opis � �
situacije (<stage>) sa instrukcijom za formatiranje i tekst dijaloga sa oznakama i ID atriburtima �ta je ko rekao.
Danas naj e� e govorimo o etiketama i atributima. � �
Mo�emo ih posmatrati kao drvenastu strukturu gde su svakom voru pridru�ene neke dodatne osobine.�
4
Anotacija = dodatak tekstu
Struktura, semantika,
atributi, meta podaci,
instrukcije za formatiranje
Anotacija � dodatne informacije koje pridru�ujemo tekstu, a koje originalno nisu njegov deo
Obezbe uje strukturu i semantiku dokumentu i �
njegovim celinama, omogu ava zapis �
metapodataka uz dokument Razvoj jezika za ozna avanje je tekao obrnutim �
redom: od opisa izgleda dela teksta do ozna avanja funkcije tog dela teksta.�
Danas naj e� e koristimo neku XML �emu kao � �
format anotacije: TEI, DocBook, MathML i dr.
Standardni format anotacije pospe�uje razmenu informacija me u sistemima.�
5
SGML
Standard Generalized Markup Language
Charles Charles GGoldfarboldfarb
Edward Edward MMosherosher
Raymond Raymond LLorieorie
Pojam jezik za onza avanje je opisivao oznake koje �
su ubacivane u tekst i koje su ozna vale kako e � �
neki deo biti prikazan. Kasnije je pro�ireno da obuhvata i bilo koje druge meta oznake.
Jezik za ozna avanje mora da odredi pravila za �
ozna avanje teksta: set dozvoljenih i neophodnih �
oznaka, na in njihovog razlikovanja od teksta i �
njihovo semanti ko zna enje.� �
Standard Generalized Markup Language (SGML) nastao kao naslednik Generalized Markup Language (GML) razvijenog u IBM-u 1960-ih godina.
Zapravo nije jezik za ozna avanje, ve jezik za � �
definisanje jezika za ozna avanje. � Ne definiše semantiku!
6
ISO 8879: 1986 Information processing—Text and office
systems—Standard Generalized Markup Language (SGML)
7
SGML slagalicaSGML slagalica
i. Deklaracijakodna stranica, entiteti
ii. Definicija tipa dokumenta odre uje model dokumenta�
iii. Instanca dokumentaanotiran sadr�aj sa referencom na DTD
I. odre uje kodnu stranicu, entitete �(kodove za specijalne znake i oznake) itd.
II. Gramatika koja odre uje koje oznake �postoje i kako se pona�aju jedna prema drugoj, koji su atributi mogu i �itd. Utvr uje sintaksu dokumenta i �njegovu drvenastu strukturu.
9
<quote id="todor-kaze"> <speaker>TODOR</speaker> <para> <!-- Da li je ID pr? --> Pu�taj <name target="pr">princezu</name>! Pu�taj smesta da ne bude pla a, da ne � vidi� o�tricu mojeg ljutog ma a!� </para> <applause/></quote>
quote
applausespeaker
TODOR Da li je I...
Puštaj...
name
para
target
#pr
Elementi kao vorovi stabla. Tekstu dodeljujemo �
poseban tip vorova. Atribute mo�emo pridru�iti �
hijerarhiji kada nam to odgovara. Otvoreni, zatvoreni i skra eni oblik.�
Atributi
Indentifikatori i reference
10
\end{list}, \para,...
Fokus na opisno, a ne proceduralno ozna avanje. �
Nezavisnost sadr�aja od zavr�nog prikaza.
Neke poznate aplikacije SGML-a:
HTML � dizajniran nad SGML-om, ali bez strogih pravila. Kasnije poku�ano sa kompatibilnom specifikacijom
XML � podskup SGML-a, jednostavniji za parsiranje i obradu. Nad XML-om, XHTML, RSS, Atom, XML-RPC i SOAP
DocBook � Sada dostupan i nad XML-om
...
12
<antologija>
<pesma id=P1 status="pregledano">
<naslov>Planinska slika</naslov>
<strofa n=1>
<stih>Ja na oh izvor bajan� </stih>
...
<stih>U granju ptice ute.� </stih>
<stih>Sve biljke ko u tuzi.</stih>
<stih>Po hladnoj gorskoj steni,</stih>
<stih>Gle, crna zmija puzi...</stih>
</strofa>
</pesma>
...
13
<!ELEMENT antologija - - (pesma+)>
<!ELEMENT pesma - - (naslov?, strofa+)>
<!ELEMENT naslov - O (#PCDATA) >
<!ELEMENT strofa - O (stih+) >
<!ELEMENT stih O O (#PCDATA) >
<!ELEMENT beleska - O (#PCDATA) >
naziv min. model sadržaja
<!ELEMENT (naslov|beleska) - O (#PCDATA) >
Pravila minimalizacije:Dve kolone, za po etnu i zavr�nu oznaku:�
- (obavezno) ili slovo O (opciono)
Model sadržaja:Poput pro�irene Bekus-Naurove forme. Lista elemenata koji mogu biti sadr�aj, bilo po nazivu definisanih elemenata ili navo enjem klju nih re i � � �
(#PCDATA � sekvenca karaktera, EMPTY � prazan).
Broj pojavljivanja, nakon imena: + >= 1; ? = 0 ili 1; * >= 0
Separator u listi ima zna enje:�
, - obavezno pojavljivanje elemenata u poretku & - obavezno pojavljivanje, bez poretka | - samo jedan element
Mo�emo istovremeno definisati vi�e elemenata.
14
Atributi
<!ATTLIST pesma id ID #IMPLIED status (radno | pregledano) radno >
<!ELEMENT pesmaref - O EMPTY > <!ATTLIST pesmaref target IDREF #REQUIRED >
<pesma id=K1 status="pregledano">
<naslov>Kritika o <pesmaref target=P1>...
Jo�: CDATA, IDREF, NMTOKEN, NUMBER
naziv �mogu e vrednosti odsutnost
Interesantno je da oznake i atributi ne moraju biti jedinstveni u celom DTD-u, ve samo u �
odgovaraju em delu hijerarhije.�
�Mogu e vrednosti:CDATA � uklju uje i tagove koji se ignori�u�
IDREF � referenca na drugi elementNMTOKEN � tekst bez tagovaNUMBER � broj
Odsutnost: �ta ako atribut nedostaje?#REQUIRED � neophodan je#IMPLIED � nije neophodan#CURRENT � vrednost iz prethodnog elementa
15
<!ELEMENT pesma - O (naslov?, (strofa+|stih+)) +(beleska) >
Defini�e izuzetak:<beleska> se mo�e pojaviti bilo gde unutar pesme, ak i�u naslovu koji sadr�i #PCDATA
<!ELEMENT beleska - O (#PCDATA) -(beleska)>
Umesto da beleska dodajemo svuda, koristimo izuzetak. Znak + dozvoljava, a � zabranjuje pojavljivanje elementa unutar svih podelemenata datog elementa.
16
<antologija>
<strana n=1>
<pesma><naslov>Planinska slika</naslov> <strofa n=1> <stih>Ja na oh izvor bajan� </stih> ...</strana> ... <!--strofa i pesma se nastavljaju--><strana n=2> <stih>U granju ptice ute.� </stih> <stih>Sve biljke ko u tuzi.</stih> ...
Prepletena (paralelna) stabla
Na engleskom, Concurrent StructuresPesme u antologiji, prelomljene po stranici gde jedna strana sadrži jednu ili više pesama koje ne moraju biti cele sadržane na jednoj stranici.
�Rešivo koriš enjem unije dva DTD-a, jedan gde strana sadr�i stihove i naslov i drugi gde strofa sadr�i stihove, a pesma sadr�i strofe i naslov.Elementi stih i naslov su u preseku, dok za ostale elemente u zagradi navodimo i DTD kojem pripadaju.
17
<!DOCTYPE antologija [ <!ELEMENT antologija - - (pesma+) > <!ELEMENT pesma - - (naslov?, strofa+) > ...]>
<!DOCTYPE s.ant [ <!ELEMENT s.ant - - (strana+) > <!ELEMENT strana - - ((naslov?, stih+)+) > <!ELEMENT (naslov|stih) - O (#PCDATA) >]>
<(antologija)antologija> <(s.ant)s.ant> <(s.ant)strana> <(antologija)pesma><naslov>Planinska slika <(antologija)strofa> <stih>Ja na oh izvor bajan�
Neke poznate aplikacije SGML-a:
HTML � dizajniran nad SGML-om, ali bez strogih pravila. Kasnije poku�ano sa kompatibilnom specifikacijom
XML � podskup SGML-a, jednostavniji za parsiranje i obradu. Nad XML-om, XHTML, RSS, Atom, XML-RPC i SOAP
DocBook � Sada dostupan i nad XML-om
...
19
Imena (Entities)
� Unutra�nja imena<!ENTITY dtd "Document Type Def.">
� Sistemska imena<!ENTITY DrugiTom SYSTEM "2.sgml">
� Poziv&dtd; &DrugiTom;
Mehanizam substitucije koji skra uje kucanje i �
razre�ava problem razli itih kodnih stranica�
20
XML
Extensible Markup Language
MAGMA (Minimal Architecture for Generalized Markup Applications)SLIM (Structured Language for Internet Markup)MGML (Minimal Generalized Markup Language)
Cilj: Formulisati fleksibilan standard za definisanje formata zapisa koji omogu ava lako deljenje zapisa �
i formata preko intereneta.
Specifikaciju razvila 11 lana grupa preko interneta �
tokom 1996. i 1997. kao podskup SGML-a. XML 1.0 W3C preporuka 10. februara 1998. godine. Zanimljivo, drugi predlozi za ime bili su MAGMA, SLIM, MGML,...
Zajedno sa XML1.0 3rd ed. izlazi i XML 1.1 koji uvodi ve u doslednost u nekim slu ajevima i dozvoljava � �
vi�e slobode u izboru imena i oznaka za kraj linija. XML1.0 4th ed. i XML1.1 2nd ed. su trenutna izdanja
Popularne aplikacije XML-a su RSS, MathML, XHTML, SVG, TEI,...
Osnova je za semanti ki web.�
21
<?xml version="1.0" encoding="UTF-8"?><antologija>
<pesma id="P1" status="pregledano">
<naslov>Planinska slika</naslov>
<strofa n="1">
<stih>Ja na oh izvor bajan� </stih>
...
<stih>Po hladnoj gorskoj steni,</stih>
<stih>Gle, crna zmija puzi...</stih>
</strofa>
</pesma>
...
Prva linija je opciona XML deklaracija koja ozna ava �
verziju XML specifikacije, kodnu stranicu dokumenta i veze ka kori� enim spoljnim resursima (kao �to je �
DTD, prostor imena i sl.)
Nema NUMBER kao tip vrednosti atributa.
Imena elemenata i atributa razlikuju mala i velika slova.
22
XML �slagalica�
� Opis strukture� DTD� XML Schema� RELAX NG� ...
� Proširenja� XPath� XQuery� Prostori imena� ...
� Obrada� SAX� DOM� XSL-FO� XSLT� ...
SAX parser ita dokument redom i poziva funkcije za �
obradu doga aja kada nai e na otvoren ili zatvoren � �
tag, dok DOM gradi stablo XML dokumenta u memoriji i vr�i selekciju i itanje nad njim�
XSLT opisuje transformacije kojom se dokument iz jedne �eme pretvara u neku drugu, uz korake me uobrade.�
23
XML DTD
<?xml version="1.0"?><!ELEMENT antologija (pesma+)><!ELEMENT pesma (naslov?, strofa+)><!ELEMENT naslov (#PCDATA) ><!ELEMENT strofa (stih+) ><!ELEMENT stih (#PCDATA) ><!ELEMENT beleska (#PCDATA) ><!ENTITY dtd "Document Type Def.">
Poziv iz dokumenta:<!DOCTYPE antologija SYSTEM "example.dtd">
Ili DOCTYPE definisan u samom DTD-u:<?xml version="1.0"?><!DOCTYPE antologija [ ...]>
XML DTD nema podatke o minimalizaciji, i ne mo�e izuzetkom da isklju i neki tag.�
DTD ne podr�ava nova pro�irenja, poput prostora imena, a �ema definicije nije XML dokument. XML Schema Definition (XSD) je W3C preporuka, a RELAX ND je ISO standard
24
XPath
jezik za pisanje izraza kojiukazuju na delove XML dokumenta
� /pesma/p1
� child::A/descendant-or-self::node()/child::B/child::*[1]
� A//B/*[1]
� //pesma[@status='radno']
Po hijerarhiji koraka za selekciju relativno u odnosu na trenutnu poziciju.
Korenski korak je /Operatori: /, //,... razdvajaju korake.
Svaki korak se sastoji od smera, tra�enog elementa i predikta za opis tra�enog elementa (da li ima neki atribut i koja treba biti njegova vrednost)
Drugi i tre i izraz su ekvivalentni, gde je jedan u �
skra enom a drugi u raspisanom formatu zapisa�
Postoji implementacija za ve inu programskih jezika�
25
Text Encoding Initiative
�Nezavino telo koje razvija set vodi a
za standardno anotiranje teksta kao
aplikaciju nad SGML-om ili XML-om
Osnovan 1987, od 1994. vodi postaje standardan �
na in anotiranja teksta. Defini�e preko 400 �
koncepata anotacije koji mogu biti izra�eni kao DTD ili XML Schema.
Verzija 4 objavljena 2002. godine, verzija 5 je u fazi razvoja
Mogu nost lakog prilago avanja specifi nostima. TEI � � �
Lite kao podskup.
26
Još o TEI<TEI.5 id="neki-dokument"> <teiHeader> ... </teiHeader> <text id="neki-dokument"> <front> ... </front>
<body> <div1 type="chapter" n="1"> <head>Naslov poglavlja</head> <!--opciono--> Tekst poglavlja... </div1></body><back> ... </back>
</text></TEI>
id atribut za referenciranje (<note id="n1" n="1"> i posle <target ...) ostali od op�tih ka posebnom.
Header sadr�i informacije o autoru, autoru elektronske verzije, revizijama, listu kori� enih �
jezika (<langUsage> <language id=�fre�> French </language> </langUsage> i posle u dokumentu <foreign lang=�fre�> ... </foreign>) itd.
<front> za predgovor, <body> za dokument, <back> za dodatke
Celine podeljene u <div#> gde je # redom 1,2,3... po dubini sekcije sa odre enim tipom koji nije uvek isti �
za sekciju istog nivoa
Svaka sekcija ima opcioni <head>...</head> i tekst
27
MathML
� �W3C preporuka za zapis matemati kih izraza� Od 1999. godine
� Verzija 2.0 u oktobru 2003.
� MathML-Content obezbe uje i zna enje, a ne samo � �
reprezentaciju za prikaz
� Duga ak zapis, koji se mo�e kompresovati�
28
<math> <mi>x</mi> <mo>=</mo> <mfrac> <mrow> <mrow> <mo>-</mo> <mi>b</mi> </mrow> <mo>±</mo> <msqrt> <msup> <mi>b</mi> <mn>2</mn> </msup> <mo>-</mo> <mrow> <mn>4</mn> <mo>⁢</mo> <mi>a</mi> <mo>⁢</mo> <mi>c</mi>
</mrow> </msqrt> </mrow> <mrow> <mn>2</mn> <mo>⁢</mo> <mi>a</mi> </mrow> </mfrac></math>
x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}
29
SMILSynchronized Multimedia Integration Language
� W3C preporuka za opis multimedijalnih prezentacija
� Od 1998. godine, verzija 2.1 u decembru 2005.
� Poput HTML-a, poseduje head i body
� U zaglavlju navedeni metapodaci i raspored
� <par> i <seq> oznake unutar tela, ukazuju na URL sa multimedijalnim sadr�ajima koji su prezentovani paralelno, odnosno jedan za drugim
� Posebne oznake za titlove i tekstualne poruke
� Format zapisa MMS-a, podskup SMIL
30
XML za IR
� �Delimi no struktuirani tekst� Dodaje strukturu podataka u dokument� Omogu ava razmenu informacija i olak�ava �
prikupljanje dokumenata sa razli itih izvora�
� Sadr�aj predstavljen kao itljiv tekst�
� Popularan, podr�an, slobodan i platformski nezavisan na in zapis podataka�
31
XML i vektorski model
� Strukturno/semanti ki kontekst�
� Preciznost i dimenzija vektora� Upit po strukturi i ekspanzija
�|q| - broj vorova u upitu|d| - broj vorova u dokumentu�
cr(q,d) := 0 akko q nepro�irivo u d
Ukratko:Uzimamo u obzir i hijerarhiju elementa u drvenastom modelu dokumenta, na primer razdvajamo ime govornika od onoga šta je rekao.
Osama koordinatnog sistema za vektorski model, pridružujemo i poziciju terma unutar strukture dokumenta
� �Balans izme u preciznosti i dimenzije vektora odre uje indeksnu jedinicu u dokumentu (koji deo dokumenta je mogu e vratiti kao rezultat)�
df i idf, ra unamo kao i ranije�
Utvr ujemo sli nost strukture u upitu i strukture u � �
dokumentu (context resemblance) i sli nost je: �
Sli no pro�irenje mogu e i za ocenjiva ke algoritme� � �
32
�Zaklju ak
� Struktura, semantika, meta podaci i instrukcije za formatiranje
� Razmena informacija
� XML kao dobro podr�an standard
� TEI, set pravila (DTD) za ozna avanje�
� http://alas.matf.bg.ac.yu/~mr04069/anotacija/