30
Latviešu valodas morfosintaktiskais marķētājs Bakalaura darbs Pēteris Ņikiforovs

Latviešu valodas morfosintaktiskais marķētājs

Embed Size (px)

Citation preview

Page 1: Latviešu valodas morfosintaktiskais marķētājs

Latviešu valodas morfosintaktiskais

marķētājsBakalaura darbs

Pēteris Ņikiforovs

Page 2: Latviešu valodas morfosintaktiskais marķētājs

ProblēmaLatviešu valodā gandrīz 50% vārdu ir daudznozīmīgi

roku

Page 3: Latviešu valodas morfosintaktiskais marķētājs

Problēma

es māju ar roku es roku bedri es klausos roku

lietvārdssiev. dz., vsk.

darbības vārdsvnk. tagadne, vsk., 1.pers.

lietvārdsvīr. dz., vsk.

Page 4: Latviešu valodas morfosintaktiskais marķētājs

UzdevumsMarķēšana

Morfosintaktiskās īpašības

Es māju ar roku

vietniekvārds darbības vārds prievārds lietvārds

N-fpa---------n-------------

N – lietvārds (noun)f – siev. dzimte (feminine)p – daudzskaitlis (plural)a – akuzatīvs (accusative)n – nav deminutīvā- - neattiecas

Page 5: Latviešu valodas morfosintaktiskais marķētājs

Risinājums• Mašīnmācīšanās• Klasifikācijas uzdevums• Perceptrons

Page 6: Latviešu valodas morfosintaktiskais marķētājs

Pielietojums• Sintaktiskā parsēšana• Nosaukto entitāšu atrašana• Terminu identificēšana• Mašīntulkošana – faktorētie modeļi

Page 7: Latviešu valodas morfosintaktiskais marķētājs

Korpusi

Nosaukums SkaitsTeikumi 7021Tekstvienības 108043

Unikālās tekstvienības 22952

Tagi 441Daudznozīmīgās tekstvienības 49%

Nosaukums SkaitsTeikumi 7462Tekstvienības 126230Unikālās tekstvienības 25884Tagi 1594Normalizēti tagi 984Daudznozīmīgās tekstvienības 47%

Page 8: Latviešu valodas morfosintaktiskais marķētājs

Populārākie tagiTags Skaits

N-fsg---------n------------- 1919

---------------------------- 1817

N-fpa---------n------------- 1553

N-fpa---------n------------- 1449

N-fpn---------n------------- 1466

N-fsa---------n------------- 1275

N-fsn---------n------------- 1257

Tags Skaits

v__i___30 1851

n_fsg 1817

n_fpn 1783

n_fpa 1745

n_fsn 1727

n_msv 1700

n_fpv 1680

Page 9: Latviešu valodas morfosintaktiskais marķētājs

Perceptrons• Pārraudzītās mašīnmācīšanās algoritms• Lineārā klasifikācija• Vairāku klašu perceptrons• Vidējais perceptrons• Pakāpeniska (online) mācīšanās• Kļūdu vadīts (error driven)

Page 10: Latviešu valodas morfosintaktiskais marķētājs

Pazīmes

Page 11: Latviešu valodas morfosintaktiskais marķētājs

Uzdevums

Page 12: Latviešu valodas morfosintaktiskais marķētājs

Ievaddati

Page 13: Latviešu valodas morfosintaktiskais marķētājs

Svari no apmācībām

Page 14: Latviešu valodas morfosintaktiskais marķētājs

Vārdšķiras noteikšana

vietniekvārds = 1 + 3 + 0 = 4

Page 15: Latviešu valodas morfosintaktiskais marķētājs

Vārdšķiras noteikšana

darbības vārds = -1 + 6 + 3 = 8lietvārds = 2 + 2 + 1 = 5

Page 16: Latviešu valodas morfosintaktiskais marķētājs

Izvaddati

Page 17: Latviešu valodas morfosintaktiskais marķētājs

Diagramma

Page 18: Latviešu valodas morfosintaktiskais marķētājs

Apmācības• Atkārto 1 .. n reizes:

• sajauc teikumus jauktā secībā• katram teikumam:• katram vārdam teikumā:• pareģo vārdšķiru, kā iepriekš stāstīts• vai pareģoja pareizi?• ja jā, tad ejam tālāk• citādi• pieskaitām +1 svariem pazīmēm pareizajai vārdšķirai• pieskaitām -1 svariem pazīmēm nepareizi pareģotajai vārdšķirai

Page 19: Latviešu valodas morfosintaktiskais marķētājs

Apmācības

vietniekvārds = 0 + 0 + 0 = 0

Page 20: Latviešu valodas morfosintaktiskais marķētājs

Apmācības

lietvārds = 0 + 0 + 0 = 0darbības vārds = 0 + 0 + 0 = 0

Page 21: Latviešu valodas morfosintaktiskais marķētājs

Apmācības

Page 22: Latviešu valodas morfosintaktiskais marķētājs

Vidējais perceptronsfunkcija apmācības(F, T, S, it)

Wt,f = 0 katram t ∈ T, f ∈ F atkārtot it reizes

katram s ∈ S h = ∅ atkārtot i no 1 līdz |s| ja t ≠ katram f ∈ F Wt,f += 1 ∙ f(i,s,h) Wt^,f -= 1 ∙ f(i,s,h) h += t atgriež W

funkcija apmācības(F, T, S, it)

Wt,f = 0 katram t ∈ T, f ∈ F Ut,f = 0 katram t ∈ T, f ∈ F c = 1

atkārtot it reizes

katram s ∈ S h = ∅ atkārtot i no 1 līdz |s| ja t ≠ katram f ∈ F Wt,f += 1 ∙ f(i,s,h) Wt^,f -= 1 ∙ f(i,s,h) Ut,f += 1 ∙ f(i,s,h) ∙ c Ut^,f -= 1 ∙ f(i,s,h) ∙ c h += t c += 1 atgriež W - U ∙ 1/c

A Course in Machine Learning - Hal Daumé IIIhttp://www.ciml.info/dl/v0_8/ciml-v0_8-ch03.pdf#page=14

Page 23: Latviešu valodas morfosintaktiskais marķētājs

PazīmesSkaits

Pazīmju skaits (vismaz 1x)

58 534

Tagi (vismaz 1x) 654

Pazīmes no katra taga

173 873

Page 24: Latviešu valodas morfosintaktiskais marķētājs

Eksperimenti• pašreizējais vārds• nākamais vārds• iepriekšējais vārds• iepriekšējā vārda vārdšķira• iepriekšējā vārda tags• iepriekšējie divu vārdi• iepriekšējo divu vārdu tagi• nākamie divi vārdi

• iepriekšējais un nākamais vārds• pašreizējā vārda pēdējie 4 burti• pašreizējā vārda pēdējie 3 burti• pašreizējā vārda pēdējie 2 burti• pašreizējā vārda pēdējais burts• pēdējā iepriekšējā lietvārda tags• iepriekšējā lietvārda vai prievārda,

kurš nav ģenitīva vai lokatīva locījumā, tags

Page 25: Latviešu valodas morfosintaktiskais marķētājs

Eksperimenti

Tilde

LU MII

93.2 93.4 93.6 93.8 94 94.2 94.4 94.6 94.8 95 95.2 95.4

Precizitāte ar parasto un vidējo perceptronu

Vidējais Parastais

Page 26: Latviešu valodas morfosintaktiskais marķētājs

Eksperimenti

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2094.2

94.3

94.4

94.5

94.6

94.7

94.8

94.9

95

95.1

95.2

95.3

Iterāciju skaits un precizitāte

Page 27: Latviešu valodas morfosintaktiskais marķētājs

Eksperimenti

Tilde

LU MII

90.4 90.8 91.2 91.6 92 92.4 92.8 93.2 93.6 94 94.4 94.8 95.2 95.6

Vārdu secība un precizitāte

Parasta Apgriezta

Page 28: Latviešu valodas morfosintaktiskais marķētājs

RezultātiPrecizitāte ar 10-kārtīgu šķērsvalidāciju

Korpuss Vārdšķira Tags Lemma Kopējais

Tilde 98,58% 95,21% 99,27% 95,20%

LU MII 98,29% 94,33% 98,24% 94,32%

Ticamības intervāls LU MII Tilde

90% 94,19 - 94,45 95,10 - 95,30

95% 94,17 - 94,47 95,09 - 95,32

99% 94,12 - 94,52 95,05 - 95,36

Page 29: Latviešu valodas morfosintaktiskais marķētājs

RezultātiSalīdzinājums ar citiem marķētājiem

Citas valodas

Zinātniskais raksts Precizitāte rakstā PerceptronsPinnis un Goba (2011) 91,51% 94,83%

Paikens et al. (2013) 93,6% 93,67%

Valoda Vārdšķira Tags Lemma Kopējais

Lietuviešu 98,12% 93,95% 99,06% 93,93%

Igauņu 98,65% 97,26% 99,16% 97,01%

Page 30: Latviešu valodas morfosintaktiskais marķētājs

Paveiktais• Bakalaura darbs

• Problēmas apraksts & piedāvātais risinājums• Priekšapstrāde• Morfoloģija un korpusi• Markēšana

• Perceptrons• Citi rīki

• Implementācija• Eksperimenti• Novērtēšana

• Kļūdu analīze