17
Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē Normunds Grūzītis Gunta Nešpore LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija Latviešu leksikoloģija, leksikogrāfija un terminoloģija Apvienotais Pasaules latviešu zinātnieku III kongress un Letonikas IV kongress Rīgā, 2011. gada 25. oktobrī

Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Embed Size (px)

Citation preview

Page 1: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Normunds GrūzītisGunta Nešpore

LU Matemātikas un informātikas institūtaMākslīgā intelekta laboratorija

Latviešu leksikoloģija, leksikogrāfija un terminoloģijaApvienotais Pasaules latviešu zinātnieku III kongress un Letonikas IV kongress

Rīgā, 2011. gada 25. oktobrī

Page 2: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Īsumā...

• Pilnīga informācija par vārdu = korpuss + vārdnīca– Kāda informācija ir (būs) atrodama mūsdienu latviešu valodas tekstu

korpusā• www.korpuss.lv• Morfosintaktiskais marķējums

– Kāda informācija būtu iekļaujama (abstraktā) vārdnīcā

• Korpuss vārdnīca

Page 3: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Informācija par vārdu

1. Formas apraksts – korpuss

2. Leksēmas apraksts – vārdnīca

3. Cita (neskaidra, nevēlama) informācija

• Korpuss: deskriptīvs valodas apraksts– faktiskais lietojums– no vārdformām un vārdu secības izrietošās morfosintaktiskās pazīmes

• Vārdnīca: vispārinājumi, pieņēmumi, ieteikumi, noteikumi– vienskaitlinieks/daudzskaitlinieks, ģenitīvenis, kopdzimte, kādības/attieksmes

īp.v., lokāms/nelokāms/daļēji lokāms, transitīvs/intransitīvs, prepozicija/postpozicija, deklinācija, konjugācija, ...

Page 4: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Pazīmes

Morfosintaktiskas

MorfoloģiskasSintaktiskas

Leksēmas p.

Korpusā izmantoto pazīmju kopa

Vārdnīcā iekļaujamās leksēmas pazīmes

Ko piesaista (lietojumā), nevis kas piemīt (tipiski)

MULTEXT-East pazīmju kopas atvasinājums, ņemot vērā:- līdzšinējo pieredzi morfoloģiski marķētu korpusu izveidē un lietošanā- pieredzi latviešu valodas sintaktiskajā analīzē- pieredzi latviešu valodas ģenerēšanā (sintēzē)- pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē- esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi- latviešu valodniecības tradīciju

Page 5: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Piemērs

pazīme attiecināma uz leksēmu, taču nosakāma ortogrāfiski un/vai kontekstuāli

piem., “daudzstāvu” – Ncmpg

pazīme attiecināma uz leksēmu, taču nosakāma morfoloģiski

Piem., Krustev B. The Bulgarian Morphology in 187 Type Tables. Nauka i Izkustvo, 1984

Marķējumā neiekļautās pazīmes:- kopdzimte- vsk-nieks, dsk-nieks- ģenitīvenis, nelokāms- deklinācija

tradicionālivs.

formāli

Page 6: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Korpusa un vārdnīcas mijiedarbība

• Vārdnīca pilnīga gramatiskā informācija par leksēmu– Precīzai locīšanas paradigmai (t.sk. vārdšķirai) ir jābūt viennozīmīgi

“nolasāmai” vai izsecināmai

• Informācijas atainojums galalietotājam (rādīt/nerādīt, formatējums, secība u.tml.) – sekundārs jautājums

– Mašīnlasāma vārdnīca drukāta, tiešsaistes, mobilā, CD, … vārdnīca

– Dators = “ārzemnieks” (!)

morfosintaktiskās pazīmes

leksēmas pazīmes leksiskā

nozīme

sintaktiskā struktūra

vārdlietojumsdimens. #1

dimens. #2 dimens. #3

dimens. #4

Page 7: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Pieejamie korpusi

Nosaukums Raksturojums

Vārdlie-tojumu

skaits

Morfo-

loģiski marķēts

miljons-2.03,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem.

~3,5 milj. nē

miljons–2.0mlīdzsvarota mūsdienu latviešu valodas korpusa morfoloģiski marķēta versija; morfoloģiskais marķējums nav precīzs, jo nav novērsta daudznozīmība

~3,5 milj. jā

Saeima-2.0Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar metadatiem

22,5 milj. nē

timeklis-1.0liels latviešu valodas tīmekļa korpuss ar daļēju morfoloģisko marķējumu

~97 milj. jā

ledusmanuāli morfoloģiski marķēts paraugkorpuss (P. Bankovskis „Plāns ledus“, 1. nodaļa)

~14 000 jā

sintaktiski anotēts paraugkorpuss

izstrādes stadijā (VPP “Nacionālā identitāte” ietvaros) >900 teik.morf. un

sint. marķēts

Page 8: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Zifa likums

> 100 milj. vārdlietojumu korpuss

Page 9: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Korpuss vārdnīca

• Korpuss (“digitālā kartotēka”) –konkordances–> vārdnīca

• Teorētiski: vispusīgs materiāls, objektīvas analīzes iespējas– “man liekas ka” vs. “faktiski ir tā”

– statistika

– lietojumpiemēri

• biežākie (tipiskie) savienojumi

• stabili vārdu savienojumi

– kolokāciju analīze

– nozīmju dalījums

• piem., valences analīze

Page 10: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Vārdformu biežums

Bonito: Konkordance >> Statistika >> Biežuma sadalījums

Page 11: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Vārdformu biežums

Bonito: Konkordance >> Statistika >> Biežuma sadalījums

Page 12: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas

atslēgvārds “iet”:- sakārtots pēc relatīvā biežuma

Page 13: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas

atslēgvārds “iet”:- sakārtots pēc absolūtā biežuma

Page 14: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

KolokācijasBonito: Konkordance >> Statistika >> Kolokācijas

atslēgvārds “sāpēt”:- sakārtots pēc relatīvā biežuma

Page 15: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Kolokācijas – pēc sintaktiskās valencesBonito: Konkordance >> Statistika >> Kolokācijas

atslēgvārds “skriet”:- pēc dimensijas “tag”

Page 16: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Konkordances kārtošana

Bonito: Konkordance >> Vienkāršā kārtošana (pēc dimensijas “tag”)

Page 17: Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

Paldies!www.korpuss.lv www.tezaurs.lv

twitter.com/AILab_lvSekojiet jaunumiem: