View
23
Download
0
Category
Preview:
DESCRIPTION
Descrierea limbii rom â ne în GRAALAN. * SOFTWIN. 1. GRAALAN. Sistemul GRAALAN se bazează pe Generative Dependency Grammars (GDG) – Gramatici Generative de Dependenţe . Acest tip de gramatici utilizează arbori de dependenţe ( dependency trees - DT ) şi un proces generat iv . - PowerPoint PPT Presentation
Citation preview
PALIROMPALIROM
Descrierea limbii române în GRAALAN
Felicia Carmen Codirlaşu* fcodirlasu@softwin.ro
Oana-Adriana Bulibaşa* obulibasa@softwin.ro
*SOFTWIN
11 septembrie 2009
Page 2
PALIROMPALIROMSistemul GRAALAN
Sistemul GRAALAN se bazează pe Generative Dependency Grammars (GDG) – Gramatici Generative de Dependenţe. Acest tip de gramatici utilizează arbori de dependenţe (dependency trees - DT) şi un proces generativ.
Principiile acestor tipuri de gramatici sunt implementate în limbajul dedicat, GRAALAN, care este un limbaj declarativ folosit pentru a descrie cunoştinţele lingvistice.
Descrierea gramaticii unei limbi în GRAALAN se bazează pe GDG şi AVT (Attribute Value Tree – un tip de arbori folosit pentru a descrie morfologia limbilor naturale).
1.1. GRAALANGRAALAN
11 septembrie 2009
Page 3
PALIROMPALIROM
Alfabetul
Defineşte toate simbolurile folosite într-o limbă
• alfabet normal
• caractere fonetice
• simboluri speciale
• caractere pentru accent
Defineşte structura alfabetului unei limbi şi relaţiile dintre tipurile de simboluri
grupuri
clase
2.2.11. . Secţiuni Secţiuni GRAALAN - GRAALAN - AlfabetulAlfabetul
11 septembrie 2009
Page 4
PALIROMPALIROMTipuri de semne Nr.
semneExemple din alfabetul limbii române
Alfabet normal 66 A - character code = "A“ type = internal label = A order key = 2.1
Caractere fonetice 36 ə - character code = "ə“ type = internal label = mid_central_unrounded stressed = yes order key = 1.1
Caractere speciale 64 “-” - character code = "‐“ type = internal label = hyphen special function = connector order key = 3.39
Accente 2 ˈ - stress code = "ˈ“ type = primary label = primary_stress order key = 4.0
Grupuri 360 iou - group code = (("iI"/"oO"/"uU") [("&semivowel_i;&mid_back_rounded;&semivowel_u;")])
label = triphthong_iou
Clase 17 A, Ă, Â, B, C, D, E… - class label = capital_letter
elements = ("A", "Ă", "Â", "B", "C", "D", "E", "F", "G", "H", "I", "Î", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "Ş", "T", "Ţ", "U", "V", "W", "X", "Z")
2.2.11. . Secţiuni Secţiuni GRAALAN – GRAALAN – AlfabetulAlfabetul limbii limbii romromâneâne
11 septembrie 2009
Page 5
PALIROMPALIROM
Configuratorul morfologic
Descrie structura morfologică a unei limbi
Organizat sub forma unui arbore atribut-valoare (AVT)
• nodurile “atribut”: categorii morfologice
• nodurile “valoare”: valori ale categoriilor morfologice
Alte tipuri de informaţii ataşate fiecărui nod:
• abrevierea
• categoria – flexionabilă sau nu
• forma este lemă sau nu
• forma este supliment sau nu
22..22 Secţiuni Secţiuni GRAALAN – GRAALAN – Configuratorul MorfologicConfiguratorul Morfologic
11 septembrie 2009
Page 6
PALIROMPALIROM
clasa
substantiv
gen
masculin
feminin
neutru
singular
plural
singular
plural
număr
numărverb
22..22 Secţiuni Secţiuni GRAALAN – GRAALAN – Configuratorul Morfologic al Configuratorul Morfologic al limbii românelimbii române
11 septembrie 2009
Page 7
PALIROMPALIROMTree
[clasa / name = Clasa, abbreviation = Cls, inflection = no / = substantiv / name = Substantiv, abbreviation = Subst, lemma = yes, lexicon = input / [tip substantiv / name = TipSubstantiv, abbreviation = TipSubst, inflection = no / = comun / name = Comun, abbreviation = Com, lemma = yes, lexicon = input / , propriu / name = Propriu, abbreviation = Pr, lemma = yes, lexicon = input / ] [animatie / name = Animatie, abbreviation = Animat, inflection = no / = animat / name = Animat, abbreviation = Anim, lemma = yes, lexicon = input /
, inanimat / name = Inanimat, abbreviation = Inanim, lemma = yes, lexicon = input / ] ………
2.2.22 Secţiuni Secţiuni GRAALAN – GRAALAN – Configuratorul Morfologic al Configuratorul Morfologic al limbii românelimbii române
11 septembrie 2009
Page 8
PALIROMPALIROM
Nume Total atributeAtribute
neflexionabileTotal valori
Clasa 833 98 2.159
Clasa = Substantiv 10 3 30
Clasa = Articol 13 2 38
Clasa = Adjectiv 12 0 30
Clasa = Pronume 112 12 324
Clasa = Numeral 154 43 447
Clasa = Verb 492 23 1.177
Clasa = Adverb 32 7 88
Clasa = Prepoziţie 1 1 4
Clasa = Conjuncţie 3 3 10
Clasa = Interjecţie 2 2 5
Statistici Configurator Morfologic pentru Limba Română:
22..22 Secţiuni Secţiuni GRAALAN – GRAALAN – Configuratorul Morfologic al Configuratorul Morfologic al limbii românelimbii române
11 septembrie 2009
Page 9
PALIROMPALIROM
NumeNumăr situaţii de
flexiune (EC) Nr. maxim perechi
atribut-valoareNume de atribute
Nume de valori
Clasa 19.930 19 71 217
Clasa = Substantiv 360 7 7 21
Clasa = Articol 82 5 4 15
Clasa = Adjectiv 420 8 9 21
Clasa = Pronume 1.118 9 13 45
Clasa = Numeral 1.124 9 19 63
Clasa = Verb 16.740 18 27 77
Clasa = Adverb 68 7 11 31
Clasa = Prepoziţie 3 2 1 4
Clasa = Conjuncţie 7 3 3 10
Clasa = Interjecţie 3 3 2 5
Statistici Configurator Morfologic pentru Limba Română:
22..22 Secţiuni Secţiuni GRAALAN – GRAALAN – Configuratorul Morfologic al Configuratorul Morfologic al limbii românelimbii române
11 septembrie 2009
Page 10
PALIROMPALIROM
Lexiconul
Conţine cuvinte, expresii şi structuri lexicale/ morfologice/ sintactice
Tipuri de intrări:
• cuvinte – lema (supliment, formă de cuvânt)
• morfeme (prefixe, sufixe, etc.)
• expresii formate din mai multe cuvinte
• structuri morfologice analitice şi sintetice
22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – LexiconulLexiconul
11 septembrie 2009
Page 11
PALIROMPALIROMLema este un tip de intrare care are ataşate atât informaţii
semantice, cât şi de natură morfologică:
Lexicon
Listă situaţii de flexiunelema
supliment 2
Situaţia de flexiune
Situaţia de flexiune
supliment 3
22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – LexiconulLexiconul
11 septembrie 2009
Page 12
PALIROMPALIROMEntry00017711: Entry word lemma Text "cântec" Phonetic "kˈɨntek" Syllabification Euphonic "cân/tec" Phonetic "kˈɨ/ntek" Gloss "Şir armonios de sunete emise cu vocea sau cu un instrument" Morphology Inflection situation SubstTipComunInaniNeutrNomSg Inflection rule Flex_SubstNeutru Supplement Text "cântece" Phonetic "kˈɨnteʧe" Number 2 Syllabification Euphonic "cân/te/ce" Phonetic "kˈɨ/nte/ʧe" Morphology Inflection situation SubstTipComunInaniNeutrNomPl Markers xend of entry
22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – Lexiconul limbii româneLexiconul limbii române
11 septembrie 2009
Page 13
PALIROMPALIROM 22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – LexiconulLexiconul
Multiword entry (MWE)
Text (normal şi fonetic)
Semantică (sensuri, relaţii semantice, exemple...)
Arbore de dependenţe
Secţiune sintactică
Neterminal AVT+ + Listă de relaţionare
Secţiune de dependenţe
Relaţie RS/RC AVT+ + Listă de relaţionare
11 septembrie 2009
Page 14
PALIROMPALIROM
Entry_83: Entry multiwordText "a ridica vocea"Phonetic “’a ridik’a v’oʧa“Syntax T1:"a ridica" partial variable [clasa = verb] [conjugarea = I] [personal sau impersonal =
personal] [reflexivitate = nereflexiv] [predicativitate = predicativ]
[tranzitivitate = tranzitiv] [diateza = activa, pasiva [forma pasiva = pasiv reflexiv] ] Subordonate R1 ...
...
T2:"voce" invariable [clasa = subtantiv] [tip substantiv = comun] [animatie = inanimat] [gen = feminin] [numar = singular] [caz = acuzativ] [articulare = hotarat] Subordonate R1 Dependency R1:@vb-
complement@()
22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – Lexiconul limbii româneLexiconul limbii române
11 septembrie 2009
Page 15
PALIROMPALIROM
• Exemplu arbore de dependenţe
22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – Lexiconul limbii româneLexiconul limbii române
a ridica
vb-complement
- parţial variabil
- relaţie de subordonare
- invariabil voce
11 septembrie 2009
Page 16
PALIROMPALIROM
76.337 de leme
• 66.504 de leme formate dintr-un singur cuvânt• 9.833 de leme formate din mai multe cuvinte
106.560 de suplimente
12.778 de expresii.
22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – Lexiconul limbii româneLexiconul limbii române
11 septembrie 2009
Page 17
PALIROMPALIROM
Regulile de silabisire
Set de reguli de despărţire în silabe a cuvintelor pentru forma scrisă (alfabet normal) şi vorbită (alfabet fonetic).
Tipuri de silabisire:
• silabisire eufonică
• silabisire fonetică
• silabisire morfologică
22..44 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de silabisireRegulile de silabisire
11 septembrie 2009
Page 18
PALIROMPALIROM
Euphonic Rule "&vowel;" - "&semivowel;" + "&vowel;";
Phonetic Rule "&phon_vowel; " + "&phon_semivowel;" - "&phon_semivowel;" + "&phon_semivowel;" + "&phon_vowel;"
Notă: &vowel; sau &semivowel; sunt etichete care referenţiază entităţi din secţiunea alfabet, cum ar fi caractere alfabetice şi fonetice, grupuri sau clase.
22..44 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de silabisire ale Regulile de silabisire ale limbii românelimbii române
•723 de reguli de silabisire eufonică
•723 de reguli de silabisire fonetică
11 septembrie 2009
Page 19
PALIROMPALIROM
Regulile de flexiune
Conţin acţiunile folosite pentru a genera formele flexionate
Tipuri de reguli de flexiune:
• reguli simple: formate dintr-un AVT şi o regulă de transformare elementară ataşată fiecărei frunze a AVT-ului
• reguli compuse: fiecare cuprinde o listă de reguli simple
22..55 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de flexiuneRegulile de flexiune
11 septembrie 2009
Page 20
PALIROMPALIROM
Secvenţă de transformări alfabet fonetic
Lexicon
Lemă
Inflection rules
Regulă compusă
Regulă de flexiune simplă
AVT
Formă de flexiune referinţăCondiţieSecvenţă de transformări alfabet normal
DT / AVT (forme analitice)
Variant
22..55 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de flexiuneRegulile de flexiune
11 septembrie 2009
Page 21
PALIROMPALIROMBasic Rule Vb_indicativ1:[clasa = verb][conjugarea = a treia] [...][tranzitivitate = tranzitiv, intranzitiv][diateza = activa] [mod = indicativ] [timp = prezent [afirmativ sau negativ = afirmativ [numar = singular [persoana = intai (EtV20: on lemma 3 alphabetic insert word left "am" [clasa = verb] [conjugarea = a doua] [predicativitate = nepredicativ] [tip nepredicativ = auxiliar] [numar = singular] [persoana = intai] reference Aux02 @aux-vb@ phonetic insert word left "&primary_stress;&open_central_unrounded;&bilabial_nasal;" , a doua … , a treia…] , plural …] ]
22..55 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de flexiune ale Regulile de flexiune ale limbii românelimbii române
11 septembrie 2009
Page 22
PALIROMPALIROMBasic Rule Subst_masc1:[clasa = substantiv][tip substantiv = comun][animatie = animat, inanimat][gen = masculin][numar = singular [caz = nominativ [articulare = nearticulat (EtL1: alphabetic - phonetic -) , hotarat (EtS11:
/* ultima literă este consoană - băiat, elev */ if(&consonant;) alphabetic insert "ul“
phonetic insert "&close_back_rounded;&alveolar_lateral_approximant;“
/* ultima literă este “e" – frate, câine*/ if("e") alphabetic insert "le" phonetic insert "&alveolar_lateral_approximant;&mid_front_unrounded;" … ] , genitiv … , dativ … , acuzativ …] , plural …] ]
22..55 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de flexiune ale Regulile de flexiune ale limbii românelimbii române
11 septembrie 2009
Page 23
PALIROMPALIROM
Situaţii de flexiune (EC) care au reguli de flexiune: 19.202 Situaţii de flexiune (EC) care nu au reguli de flexiune : 260 Varianţi: 28.317 Varianţi multicuvânt: 19.935 Varianţi monocuvânt : 8.382 Varianţi multicuvânt cu 2 cuvinte (am citit): 7.785 Varianţi multicuvânt cu 3 cuvinte (nu va merge): 6.554 Varianţi multicuvânt cu 4 cuvinte (are să se abată):
3.196 Varianţi multicuvânt cu 5 cuvinte (nu are să se abată): 1.908
Varianţi multicuvânt cu 6 cuvinte (nu s-ar fi abătut): 492.
Statistici Reguli de Flexiune Limba Română:
22..55 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de flexiune ale Regulile de flexiune ale limbii românelimbii române
11 septembrie 2009
Page 24
PALIROMPALIROMForme flexionate
Formele flexionate sunt rezultatul procesului de flexionare
Sunt structuri complexe, formate din:
• text (alfabetic şi fonetic)
• silabisire (eufonică, fonetică şi morfologică)
• structură (triere, cuvânt central, cuvinte auxiliare)
Fiecare cuvânt auxiliar are o descriere completă:
• text (alfabetic şi fonetic)
• eticheta lemei
• situaţia de flexiune
• numele relaţiei
22..66 Secţiuni Secţiuni GRAALAN – GRAALAN – Formele flexionateFormele flexionate
11 septembrie 2009
Page 25
PALIROMPALIROMETF_Entry00018335_1:Entry Text "un cent" Phonetic "ˈun ʧˈent" Reference Entry00018335 [clasa = substantiv] [tip substantiv = comun] [animatie = inanimat] [gen = masculin] [numar = singular] [caz = nominativ] [articulare = nehotarat] Syllabification Euphonic "un cent" Phonetic "ˈun ʧˈent" Tri 1 left Central word Text "cent" Phonetic "ʧˈent“ …
… [clasa = substantiv] [tip substantiv = comun] [animatie = inanimat] [gen = masculin] [caz = nominativ] [numar = singular] [articulare = nearticulat] Auxiliary words Text "un" Phonetic "ˈun" Reference Art01 [clasa = articol] [tip articol = nehotarat] [caz = nominativ] [gen = masculin] [numar = singular] Belongs = yes @acord-art@end of entry
22..66 Secţiuni Secţiuni GRAALAN – GRAALAN – Formele flexionate ale limbii Formele flexionate ale limbii româneromâne
11 septembrie 2009
Page 26
PALIROMPALIROM
• 14.849.114 situaţii de flexiune– 1.717.315 situaţii pentru forme sintetice– 13.131.799 situaţii pentru forme analitice
• 8.238.437 forme flexionate– 843.597 forme sintetice– 7.394.840 forme analitice
Statistici Forme Flexionate Limba Română:
22..66 Secţiuni Secţiuni GRAALAN – GRAALAN – Formele flexionate ale limbii Formele flexionate ale limbii româneromâne
11 septembrie 2009
Page 27
PALIROMPALIROM
• Gramatica unei limbi descrise în GRAALAN este o secvenţă de reguli sintactice etichetate.
• O regulă (ca o producţie a unei gramatici) are două părţi: membrul stâng şi membrul drept. Membrul stâng al regulii este format dintr-un neterminal căruia îi este asociat un AVT, care conţine categorii şi valori de categorii sintactice şi morfologice.
• Membrul drept al unei reguli are mai mulţi alternanţi. Practic, o regulă conţine pe fiecare alternant o producţie de expandare a neterminalului din partea stângă cu atributele ataşate.
22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – SintaxaSintaxa
11 septembrie 2009
Page 28
PALIROMPALIROM
• NTPAR - N (neterminal) - simboluri care nu apar în enunţuri şi care se expandează conform regulilor
- T (terminal) - reprezintă un şir de caractere.
- P (pseudoterminal) - reprezintă o clasă lexicală
- A (acţiuni procedurale)
- R (relaţie) – reprezintă relaţiile de coordonare sau regenţă-subordonare descrise în arborele de dependenţe.
22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – SintaxaSintaxa
11 septembrie 2009
Page 29
PALIROMPALIROM
Neterminal
AVT
Membrul stâng Membrul drept
Alternant
22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – SintaxaSintaxa
Secţiune sintactică
Secţiune de dependenţe
NTPA AVT
Liste de relaţionare
Nume
Relaţie
Liste de relaţionare
Nume + tip (RS/RC)
AVT
Secţiune de acord
Condiţie de acord
Acţiuni
Regulă sintactică
11 septembrie 2009
Page 30
PALIROMPALIROM
Secţiunea sintactică a unei limbi conţine reguli generative (ca în gramaticile convenţionale), care au asociate în plus şi o structură de arbore bazată pe relaţii de regenţă-subordonare sau de coordonare între terminalii şi neterminalii aflaţi în partea dreaptă a unei reguli.
Prin aplicarea regulilor sintactice, în procesul de analiză se va genera arborele de dependenţe, care va reprezenta enunţul construit cu toate legăturile lui între cuvinte.
22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – SintaxaSintaxa
11 septembrie 2009
Page 31
PALIROMPALIROMRule grup_unitar_frazal:<grup unitar frazal>::= Alternant A1: Syntax L1: <subiect - predicat> (forma = afirmativa, negativa) (persoana = I, II, III) (gen = masculin, feminin,
neutru) (numar = singular, plural) L2: <semn de punctuatie>! Alternant A2: Syntax L1: <predicat - subiect> (forma = afirmativa, negativa) (persoana = I, II, III) (gen = masculin, feminin, neutru) (numar = singular, plural) L2: <semn de punctuatie>!...
... Alternant A3: Syntax L1: <grup predicativ> (tip grup = unitar , corelativ , distributiv , logic) (forma = afirmativa, negativa) (persoana = I, II, III) (gen = masculin, feminin, neutru) (numar = singular, plural) L2: <semn de punctuatie>! Alternant A4: Syntax L1: <interjectie> L2: "!" !
Alternant A5: Syntax L1: <enunt incomplet>
22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române
11 septembrie 2009
Page 32
PALIROMPALIROMExemplu gramatică de dependenţeR1 <grup frazal> :: <grup subiectiv>
Governor @rel. subiect predicat@(1) <grup predicativ>
Subordinate @rel. subiect predicat@(1)
R2 <grup subiectiv> :: <subiect> Governor @rel. subiect atribut@(1)
<listă de atribute> Subordinate @rel. subiect atribut@(1)
R3 <subiect> :: <substantiv>|R4 <pronume>R5 <listă de atribute> :: <atribut>
Coordinate @rel. atribute@(2) on 1 <listă de atribute>
Coordinate @rel. atribute@(2) on 2R6 <atribut>R7 <atribut> :: <substantiv>|R8 <adjectiv>R9 <substantiv> :: „fata”|R10 „moşului”|R11 „Sfânta Vineri”R12 <adjectiv> :: „cea cuminte”
22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române
11 septembrie 2009
Page 33
PALIROMPALIROMR13 <grup predicativ>:: <predicat>
Governor @rel. predicat complement@(1) <listă de complemente>
Subordinate @rel. predicat complement@(1)
R14 <predicat> :: <verb>R15 <verb> :: „a ajutat”R16 <listă de complemente>:: <complement>
Coordinate @rel. complemente@(2) on 1 <listă de complemente>
Coordinate @rel. complemente@(2) on 2 |R17 <complement>R18 <complement> :: <prepoziţie>
Subordinate @rel. prep. subst.@(1) <substantiv>
Governor @rel. prep. subst.@(1) |R19 <pronume>R20 <pronume> :: „-o”R21 <prepoziţie> :: „pe”
Exemplu enunţ„Fata moşului cea cuminte a ajutat-o pe Sfânta Vineri”.
22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române
11 septembrie 2009
Page 34
PALIROMPALIROM 22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române
• Arbore sintactic
11 septembrie 2009
Page 35
PALIROMPALIROM• Arbore de dependenţe
22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române
11 septembrie 2009
Page 36
PALIROMPALIROMClasificare grupuri sintactice limba română
22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române
Grup frazal
Grup frazal incomplet
Grup frazal complet
Grupuri predicative
Grupuri subiective
Grup atributiv
Grup subiect
Grup complement
Grup predicat
Grup eps
Grup nume predicativ
Grup CPO
11 septembrie 2009
Page 37
PALIROMPALIROM 33. . Baza de date lingvisticeBaza de date lingvistice
Alfabet XML LKB
Silabisire XML LKB
Morfologie XML LKB
Reguli de flexiune XML LKB
Forme de flexiune XML LKB
Lexicon XML LKB
Sintaxa XML LKB
Mesaje XML LKB
Alphabet DTD
Syllabification DTD
Morphology DTD
Inflection rules DTD
Inflection forms DTD
Lexicon DTD
Syntax DTD
Messages DTD
Recommended