Upload
rosemary-mayo
View
53
Download
4
Embed Size (px)
DESCRIPTION
CLARIN Latvijā: paveiktais, ieceres un uzdevumi. Inguna Skadiņa LU Matemātikas un informātikas institūts. Mērķi. izveidot integrētu, sadarbību veicinošu pētniecības infrastruktūru, kas ļautu viegli piekļūt un izmantot valodas resursus un tehnoloģijas - PowerPoint PPT Presentation
Citation preview
CLARIN Latvijā:paveiktais, ieceres un uzdevumi
Inguna SkadiņaLU Matemātikas un informātikas institūts
Mērķi• izveidot integrētu, sadarbību veicinošu pētniecības
infrastruktūru, kas ļautu viegli piekļūt un izmantot valodas resursus un tehnoloģijas
• novērst pašreizējo sadrumstalotību un piedāvāt stabilu, pastāvīgu un paplašināmu infrastruktūru
• 3 fāzes:– sagatavošanas fāze (2008-2010)
CLARIN organizācijas izveide, plānošana, prototipa izveide
– izveides fāze (2011-2015)CLARIN izveide un piepildīšana ar resursiem un rīkiem
– izmantošanas fāze (2016 - )CLARIN ir izmantojams kā serviss
Valodas resursi un tehnoloģijasDažādi avoti, kas izmanto runāto vai rakstīto valodu un
rīkus un darbojas ar šo valodas materiālu, t. sk.– visa veida teksti, t. sk. senie teksti, interneta lapas,
laikraksti, grāmatas u. c.– audio un video ieraksti– dažāda veida automātiski un manuāli marķēti resursi– rīki sastatītāji, runas atpazinēji, morfoloģiskās analīzes rīki,
parsētāji u. c.– dažāda veida zināšanu avoti, kas ietver zināšanas par
resursiem un valodām, piem., ontoloģijas, leksika, metadatu apraksti
CLARIN nacionālās iniciatīvas• CLARIN DK – CLARIN Dānijā, mērķis izveidot dāņu pētniecības
infrastruktūru humanitāro zinātņu vajadzībām, integrējot rakstītos, runātos un vizuālos ierakstus saskaņotā un sistēmiskā digitālā krātuvē
• D-Spin – CLARIN Vācijā, galvenā uzmanība pievērsta humanitārajām zinātnēm kā lietotājam, mācību procesam un jaunu resursu izveidei
• FIN-CLARIN – CLARIN Somijā, mērķis izveidot CLARIN savienojamu infrastruktūru Somijā, nodrošinot somu zinātniekiem iespēju uzmantot Eiropas CLARIN resursus un Eiropas zinātniekiem – Somijas resursus
• CLARIN Igaunijā notiek kopā ar Valsts programmu valodu tehnoloģijās
CLARIN Latvijā• CLARIN Latvijā – www.clarin.lv, e-pasts:
[email protected]• Aktivitātes Latvijā ir saskaņotas ar kopējām projekta
aktivitātēm un ir atbilstoši nacionālie pasākumi CLARIN mērķu sasniegšanai
• Pašlaik divi aktīvi biedri: LU MII un Tilde• Organizācijām iespējams kļūt par CLARIN biedru,
reģistrējoties www.clarin.eu
Galvenie darba virzieni Latvijā– WP2 Tehniskā infrastruktūra – CLARIN tehniskās infrastruktūras
specificēšana, projektēšana un prototipa izstrāde – WP3 Humanitāro zinātņu projekti – esošās situācijas un
humanitāro zinātņu vajadzību izpēte, analizējot valodas resursu un tehnoloģiju kā pētniecības infrastruktūras lietojumu
– WP5 Valodas resursu un rīku pārskats – esošās situācijas apzināšana valodas resursu un tehnoloģiju jomā, stratēģijas izstrāde trūkstošo rīku un resursu izveidei, kritisko valodas resursu un rīku izveide
– WP8 Infrastruktūras izveidošanas un ekspluatācijas līgums – CLARIN infrastruktūras juridiskā un organizatoriskā izveide
WP2: Tehniskā infrastruktūra• CLARIN tehniskās infrastruktūras specificēšana, projektēšana
un prototipa izstrāde• Darba grupas:
– 2.1. Prasības valodas resursu un tehnoloģiju centriem– 2.2. Prasības valodas resursu un tehnoloģiju federācijai– 2.3. Federācijas pilotmodelis– 2.4. Reģistrācijas infrastruktūras specifikācija– 2.6. Tīmekļa pakalpojumu un darba plūsmu prasības– 2.7. Tīmekļa pakalpojumu un darba plūsmu izveide
• Latvijā:• Latvija aktīvi piedalās tehniskās infrastruktūras specificēšanā• LU MII ir iestrādes un nepieciešamā kompetence (GEANT, GRID)• LU MII ir uzsākusi prototipa ieviešanu
WP3: Humanitāro zinātņu projekti• Mērķis – noskaidrot, kādas ir humanitāro zinātņu
vajadzības attiecībā uz valodas resursiem un tehnoloģijām kā pētniecisko infrastruktūru
• Esošo un iepriekšējo humanitāro zinātņu projektu apzināšana un analīze:– Kādas ir vajadzības– Kā pašlaik humanitārajās un sociālajās zinātnēs tiek lietoti
valodas resursi un tehnoloģijas– Kā tiek lietota mūsdienīga pētniecības infrastruktūra– Kādi ir pašreizējie trūkumi un kā tos varētu novērst
WP3: Humanitāro zinātņu projekti• Latvijā
– Humanitāro un sociālo zinātņu pētniecības iestāžu anketēšana
– Anketēšanas laikā iegūto rezultātu pievienošana kopējai CLARIN datu bāzei
– Anketēšana atklāja, ka pašlaik valodas resursi un rīki nav kļuvuši par humanitāro un sociālo zinātņu pētniecības infrastruktūru
– Pastāv zināšanu plaisa starp valodas resursu un rīku radītājiem un lietotājiem
WP5: Valodas resursu un rīku pārskats
Mērķis –veikt valodas resursu un tehnoloģiju apzināšanu Latvijā,noteikt valodai nepieciešamos pamatresursus un rīkus,izstrādāt stratēģiju trūkstošo rīku un resursu izveidei, specificēt kvalitātes novērtēšanas kritērijus, izveidot latviešu valodai kritiskos valodas resursus un rīkus
WP5: Valodas resursu un rīku pārskats• Latvijā:
– anketēšana– anketēšanas rezultātu apkopošana CLARIN datu bāzē– lietošanas scenāriji
Galvenie resursu izveides scenāriji Latvijā• Valsts pētījumu programmā "LETONIKA: pētījumi par vēsturi,
valodu un kultūru“ veidotie resursi• Valsts pētījumu programmas "Informācijas tehnoloģiju
zinātniskā bāze" projekts "Semantiskā tīmekļa izpēte, attīstīšana un piemērošana Latvijas vajadzībām"
• Latvijas Nacionālā digitālā bibliotēka• Sabiedrības Tilde veidotie resursi un rīki• Citi augstskolu resursi
WP8 Infrastruktūras izveidošanas un ekspluatācijas līgums
• Latvijā:– apkopoti dati par Clarin projekta kontekstā iesaistītajām
Latvijas institūcijām un to funkcijām, izmantojot publiski pieejamu informāciju
– ar Clarin projekta realizāciju saistīto Eiropas Savienības normatīvo aktu un rekomendāciju izpēte un to piemērošana Clarin infrastruktūrai, tai skaitā Latvijā
• WP7: intelektuālā īpašuma tiesības
Problēmas• Pētniecības infrastruktūras humanitārajās un sociālajās zinātnēs
ir jauns jēdziens• Nozīmīgu resursu, piem., Nacionālā korpusa, trūkums latviešu
valodai• Resursu sadrumstalotība• Plaisa starp resursu un rīku veidotājiem un to lietotājiem, tajā
pašā laikā liela interese par valodas resursu un rīku infrastruktūras iespējām
• Datorlingvistikas kā mācību priekšmeta trūkums augstskolu programmās
Sabiedrības informēšanas aktivitātes• CLARIN projekta un Nacionālā korpusa seminārs • Seminārs „Mūsdienu latviešu valodas korpuss un tā
izmantošana“ Rīgā• Seminārs „Mūsdienu latviešu valodas korpuss un tā
izmantošana“ Rēzeknes Augstskolā
Aktivitātes• Nacionālais kontaktpunkts: e-pasts: [email protected]• Mājas lapa www.clarin.lv,• Sagatavota un pieņemta publikācija semināram “Vienotās
valodas resursu infrastruktūras CLARIN Ziemeļu perspektīvas” (Nordic perspectives on the CLARIN infrastructure of common language resource)
• Par aktivitātēm Latvijā sagatavota informācija CLARIN apkārtrakstam
• Sadarbība ar citiem projektiem (Semti-kamols, NGSLT u.c.)• Neformāla pieredzes apmaiņa ar CLARIN-EE, CLARIN-
FIN,CLARIN-DK, CLARIN-CZ
Plāni nākamajam periodam• WP2: līdz sagatavošanās fāzes beigām izveidot ierobežotu
CLARIN prototipu Latvijā• WP3: apzināt humanitāro zinātņu vajadzības attiecībā pret
valodas resursiem un tehnoloģijām kā pētniecisko infrastruktūru
• WP5: noteikt valodai nepieciešamos pamatresursus un rīkus, apzināt un izstrādāt stratēģiju trūkstošo rīku un resursu izveidei, uzsākt latviešu valodai kritisko valodas resursu un rīku izveidi
Plāni nākamajam periodam• WP8: līdz sagatavošanās fāzes beigām radīt juridisko bāzi
CLARIN infrastruktūras izveidei Latvijā• Turpināt informējošas aktivitātes (nelieli praktiski semināri)• Aktīvi sadarboties ar citiem projektiem Latvijā un Eiropā, kas
saistīti ar valodas resursu un rīku izveidi • Aktivizēt CLARIN NKP darbu, lai noteiktu Latvijas prioritātes un
sekmētu CLARIN infrastruktūras darbu Latvijā
Paldies par uzmanību!