24
Valodas resursu un rīku pārskats: pašreizējā situācija (WP5) Everita Andronova LU MII CLARIN seminārs 2009.gada 2.aprīlī

Valodas resursu un rīku pārskats: pašreizējā situācija (WP5)

  • Upload
    felix

  • View
    46

  • Download
    0

Embed Size (px)

DESCRIPTION

Valodas resursu un rīku pārskats: pašreizējā situācija (WP5). Everita Andronova LU MII CLARIN seminārs 2009.gada 2.aprīlī. WP5 uzdevums. - PowerPoint PPT Presentation

Citation preview

Page 1: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Valodas resursu un rīku pārskats: pašreizējā situācija (WP5)

Everita AndronovaLU MII

CLARIN seminārs 2009.gada 2.aprīlī

Page 2: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

WP5 uzdevums • Apzināt valodas rīkus un resursus, lai izvērtētu konkrētās

valodas potenciālu un noskaidrotu, kāda ir minimālā valodas resursu kopa, kas nepieciešama humanitāro un sociālo zinātņu pētniekiem, un izvirzītu priekšlikumus, kādi resursi ir stratēģiski svarīgi

• CLARIN projekta WP5 ir 6 apakšgrupas, Latvijas pārstāvji (I. Auziņa, I. Skadiņa un E. Andronova) piereģistrējušies 5, bet seko līdzi visām darba grupām

Page 3: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

WP5.1 (Rīki) darba grupas mērķi1. inventarizēt galvenos valodas apstrādes rīkus (lematizators,

morfoloģiskais analizators, vārdšķiru noteicējs, sintaktiskais analizators, īpašvārdu, akronīmu u. tml. noteicējs)

2. inventarizēt galvenās valodas resursu apstrādes platformas 3. izveidot valodas apstrādes rīku taksonomiju4. izpētīt šo rīku ievades /izvades formātus un lietotāju

saskarnes5. izpētīt valodas apstrādes rīku specifikāciju (valod(ne)atkarība,

atkarība no temata, rīka izmantošanai nepieciešamie resursi)6. iezīmēt veidus, kā valodas apstrādes rīkus integrēt valodas

infrastruktūrā7. noteikt kritērijus valodas rīku kvalitātes novērtēšanai

Page 4: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

WP5.1. rezultātiCLARIN krātuvē ir reģistrēti 132 valodas apstrādes rīki.Ir piereģistrēti 4 latviešu valodas rīki (sal. : lietuviešu valodai – 1,

bet igauņu – 0):

1 – „Tilde” – latviešu valodas morfoloģiskais analizators un formu veidotājs3 – LU MII – rīki, kas izstrādāti SemTi-Kamols projektā:

- daļēji automātisks korpusa anotēšanas rīks, kurā ir morfoloģiskais analizators un gramatiskais analizators- vienkāršu paplašinātu teikumu gramatiskais

analizators- morfoloģiskā analizatora tīmekļa serviss

Page 5: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

WP5.2 (Leksiskie resursi) darba grupas mērķi

1. inventarizēt leksiskos resursus (vienvalodas / divvalodu, multimediju, terminoloģiskos datus u. c.)

2. izpētīt esošos valodas resursu standartus, pielāgot tos un izteikt priekšlikumus izmaiņām

3. izveidot resursu taksonomiju4. izpētīt valodas resursu kodēšanas formātus5. izpētīt citas valodas rīku pazīmes (datu veidi,

pārklājums) 6. iezīmēt veidus, kā valodas resursus integrēt valodas

infrastruktūrā7. noteikt kritērijus valodas resursu kvalitātes

novērtēšanai

Page 6: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

WP5.3 (Korpusi) darba grupas mērķi

1. inventarizēt valodas korpusus (vienvalodas /divvalodu (sastatīti), speciālie /vispārīgie, marķētie u. c.)

2. izpētīt esošos valodas resursu standartus, pielāgot tos un izteikt priekšlikumus izmaiņām

3. izveidot resursu taksonomiju4. izpētīt korpusu kodēšanas formātus5. iezīmēt veidus, kā valodas korpusus integrēt valodas

infrastruktūrā6. noteikt kritērijus, kā novērtēt valodas korpusu kvalitāti

Page 7: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Valodas resursu aptaujas rezultātiCLARIN valodas resursu apskatā kopā reģistrēti 822 (valodas) resursi (01.04.09.).No tiem 32 latviešu valodas resursi, tas ir, ~ 4% no kopējā skaita (sal. igauņu valodai reģistrēti 24 resursi, bet lietuviešu valodai – 14)

Latviešu valodas resursu izstrāde nenotiek tikai Latvijā (reģistrēti 29 resursi) , bet arī:- Vācijā (Titus projekts un Wortschatz projekts)- Itālijā (JRC-Acquis korpuss)- ir sadarbības projekti (Rēzeknes Augstskola un Milānas Universitāte)

Page 8: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Latvijas resursu izstrādātāji• Daugavpils Universitātes Mutvārdu vēstures centrs• Latvijas Nacionālā bibliotēka• Liepājas Universitāte• LU Filozofijas un socioloģijas institūts• LU Literatūras, folkloras un mākslas institūts • LU Matemātikas un informātikas institūts • LU Sociālo zinātņu studējošo fonds• LZA Terminoloģijas komisija• Rēzeknes Augstskola• Tilde• Tulkošanas un terminoloģijas centrs

Page 9: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Problēmas / AtziņasAnketēšanas efektivitāte: izsūtītas 42 / saņemtas 8+(2)

anketas

• Labāk uzrunāt konkrētus cilvēkus un uz vietas noskaidrot esošos resursus

• Resursu sagatavotāju / lietotāju dažādais sagatavotības līmenis (no .txt failiem līdz korpusam / no MS Word līdz sarežģītām datu bāzēm)

• Vēlme sakārtot savus resursus, bet nepieciešams padoms un/ vai tehnisks atbalsts

• Cilvēku atsaucība konkrētiem pasākumiem

Page 10: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kāds ieguvums no CLARIN krātuves?

• Iespēja popularizēt latviešu valodas resursus, to uzskaitījums atrastos vienuviet, nevis izbārstīts pa daudzu institūciju mājas lapām

• Iespēja ieinteresēt humanitāro un sociālo zinātņu pētniekus izmantot latviešu valodas datus, piem., veicot areālpētījumus vai pētījumus konkrētās jomās (par noteiktu laika periodu, procesiem u.c.)

• Iespēja atrast sadarbības partnerus jauniem projektu pieteikumiem

Page 11: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kādi latviešu valodas resursi piereģistrēti šodien CLARIN?

Terminoloģija (3 resursi):- ne vien latviešu, bet arī angļu, franču, vācu,

latīņu un krievu valodā (TTC terminu datu bāze, ~200 000)

- ne vien latviešu, bet arī angļu, franču, vācu, krievu valodā (AkadTerm, 790 000)

- arī angļu, igauņu, franču, vācu, ungāru, lietuviešu valodā (Eurotermbank, 1,9 milj. / 25 valodās)

Page 12: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kādi latviešu valodas resursi piereģistrēti šodien CLARIN?

Teksti:- folklora (pasakas un teikas; ticējumi;

sakāmvārdi)- raksti par folkloristiku

(http://www.korpuss.lv/feb/)- latviešu literatūra (

http://www.letonika.lv/literatura/; http://www.korpuss.lv/klasika/)

Page 13: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kādi latviešu valodas resursi piereģistrēti šodien CLARIN?

Vārdnīcas - skaidrojošās:– Mūsdienu latviešu valodas vārdnīca (

http://www.tezaurs.lv/mlvv/, ~20 000 šķirkļu)– Latviešu literārās valodas vārdnīca (

http://www.tezaurs.lv/llvv/, 64 000 šķirkļu)– Latviešu valodas vārdnīca (http://www.tezaurs.lv/lvv/,

30 000 šķirkļu)– ME vārdnīca (http://www.ailab.lv/MEV/, 132 000

šķirkļu (no tiem 77 175 pamatsējumos)

Page 14: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kādi latviešu valodas resursi piereģistrēti šodien CLARIN?

Vārdnīcas – tulkojošās:– igauņu – latviešu valodas vārdnīca (http://

eesti.letonika.lv/, 26 000 šķirkļu)– latviešu –lietuviešu valodas internetvārdnīca (

http://www.letonika.lv/LvLt/, 43 000 šķirkļu)

Periodika (http://www.periodika.lv/, 45 000 avīžu numuru)

Page 15: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kādi latviešu valodas resursi piereģistrēti šodien CLARIN?

Valodas korpusi – diahroniskie:

- 1586.g. katehisms un 16.gs. tēvreizes (http://titus.uni-frankfurt.de/indexe.htm?/texte/texte2.htm#lett)

- 16.-18.gs. tekstu korpuss “SENIE” (www.korpuss.lv/senie/; 1milj. vārdl.)

Page 16: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kādi latviešu valodas resursi piereģistrēti šodien CLARIN?

Valodas korpusi – sinhroniskie:- līdzsvarots mūsdienu latviešu valodas korpuss

“Miljons” (www.korpuss.lv/)- morfoloģiski marķēts paraugkorpuss “Plāns

ledus” (www.korpuss.lv/, 16 746 vārdl.)- avīžu tekstu korpusā balstīts meklētājs

Wortschatz (http://corpora.informatik.uni-leipzig.de/)

Page 17: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kādi latviešu valodas resursi piereģistrēti šodien CLARIN?

Paralēlie teksti:

- ar Trados Translator's Workbench sastatītu latviešu-angļu un angļu-latviešu dokumentu datu bāze (TTC)

• JRC-Acquis paralēlais korpuss (http://langtech.jrc.it/JRC-Acquis.html; 22 valodu pāri)

Page 18: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Latviešu valodas resursi, kas ir piereģistrēti sagatavošanas stadijā

Audiomateriāli, kas vēl jāatšifrē, un teksti:– dzīvesstāstu materiāli- dialektoloģisko ekspedīciju vākums- folkloras ekspedīciju materiāli

- Kurzemes kultūrvēsturiskais materiāls LiepU Kurzemes Humanitārā institūta Kurzemes folkloras un valodas centrā – vidus dialekta un lībiskā dialekta dati

- Rēzeknes Augstskolā savāktie latgaliešu folkloras materiāli (20 000 vienības) un etnolingvistiskās aptaujas materiāli Austrumlatvijā (8646 aptaujas)

Page 19: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Latviešu valodas resursi, kas ir piereģistrēti sagatavošanas stadijā-Daugavpils Universitātes Mutvārdu vēstures centra (DU

MVC) mutvārdu vēstures avotu krājums (~ 600 dzīvesstāstu, ~ 800 h), latviešu, krievu, baltkrievu un poļu valodā

-Nacionālās mutvārdu vēstures projekts (LU FSI) – unikāli ieraksti arī no latviešiem Norvēģijā, Zviedrijā, Anglijā, ASV

Latvijas Universitātes Sociālo zinātņu fakultātes studentu noslēguma darbu datu bāze (http://datubaze.ema.lv)

Page 20: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kāpēc iesaistīties CLARIN infrastruktūrā?

WP5.4 darba grupa Basic Language Resources Toolkit (BLARK), kuras mērķi:

1. izvērtēt esošās BLARK specifikācijas dažām valodām2. noteikt minimālo nepieciešamo valodas resursu kopu, lai

varētu veikt (galvenokārt sociālo un humanitāro zinātņu (SHZ)) pētījumus pēc iespējas vairākās valodās

3. ziņot par katras valodas situāciju valodas resursu infrastruktūrā

4. ieteikt, kādi svarīgi resursi trūkst attiecīgajai valodai5. apspriest stratēģiju, kā šos trūkstošos resursus novērst,

ņemot vērā citu valstu CLARIN dalībnieku pieredzi6. noteikt kritērijus, kā izvērtēt valodas resursu un rīku kvalitāti

Page 21: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kāpēc iesaistīties CLARIN infrastruktūrā?

WP5.5 (Taksonomijas) darba grupas mērķi:1. apskatīt esošās pieejas, kā valodas resursus

sistematizēt2. ieteikt resursu sistēmu, ņemot vērā esošos

resursus un lietotāju prasības3. koordinēt savu darbību ar WP2 darba grupu, jo

īpaši metadatu jautājumā4. ieteikt metodes un rādītājus resursus kvalitātes

noteikšanai

Page 22: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Kāpēc piedalīties CLARIN infrastruktūrā?

WP5.6 (LR Integration) darba grupas mērķi:1. novērtēt esošo tīmekļa servisu2. izvēlēties lietotāju scenārijus, lai pārbaudītu un

parādītu lietojumu gadījumus, kā izmantot resursus un rīkus šāda scenārija īstenošanai

3. izvēlēties atbilstošus valodas resursu un apstrādes rīku standartus, kas jāievieš tīmekļa servisā

4. novērtēt tehniskās problēmas

Page 23: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

WP5 turpināmie darbi 2009

1. piedalīties BLARK darba grupā, lai noteiktu latviešu valodas minimālo resursu kopu un lai rekomendētu trūkstošo resursu izstrādi.

2. turpināt papildināt CLARIN krātuvi ar datiem par latviešu valodu.

3. organizēt praktiskus seminārus latviešu valodas resursu veidotājiem un lietotājiem.

Page 24: Valodas resursu un rīku pārskats:  pašreizējā situācija (WP5)

Paldies par uzmanību!

[email protected]