60
ReLDI ZA POČETNIKE (1) Resursi i alati (2) Instrumenti Nikola Ljubešić * , Maja Miličević * Sveučilište u Zagrebu Univerzitet u Beogradu Empirijski podaci u istraživanjima jezika: resursi i metode (2) Zagreb, 28. lipnja 2016.

-3pt [width=2.2cm]ReLDI.png 0.9cm ReLDI ZA POCETNIKE 0.1cm

  • Upload
    lamngoc

  • View
    225

  • Download
    3

Embed Size (px)

Citation preview

ReLDI ZA POČETNIKE(1) Resursi i alati (2) Instrumenti

Nikola Ljubešić∗, Maja Miličević†∗ Sveučilište u Zagrebu† Univerzitet u Beogradu

Empirijski podaci u istraživanjima jezika: resursi i metode (2)Zagreb, 28. lipnja 2016.

Uvod u ReLDI

Kontekst

Empirijska istraživanja jezika:

• Temeljena na resursima i alatima (korpusima, leksikonima... /tegerima, lematizatorima...)

• Temeljena na instrumentima za prikupljanje podataka(testovima, upitnicima, eksperimentalnim stimulusima...)

Situacija u empirijskim istraživanjima hrvatskog i srpskog jezika:

• Resursi i alati često nisu javno dostupni• Alati se razvijaju odvojeno za hrvatski i srpski

• Instrumenti za prikupljanje podataka uglavnom nisu javno dostupni• Istraživačima nedostaje obuka u upotrebi resursa, alata i instrumenata

2 / 60

Uvod u ReLDI

→ ReLDI

Regional Linguistic Data InitiativeDvogodišnji institucionalni projekt Sveučilišta u Zagrebu (Filozofskifakultet), Beogradu (Filološki fakultet) i Zürichu (CorpusLab), financiranod strane Švicarske nacionalne zaklade za znanost u okviru programaSCOPES (Scientific Co-operation between Eastern Europe andSwitzerland, projekt br. 160501)

Ciljevi projekta(1) Omogućavanje pristupa resursima, alatima i instrumentima zaprikupljanje empirijskih jezičnih podataka za hrvatski i srpski jezik (uzmaksimalni transfer između jezika)(2) Obuka i regionalno umrežavanje istraživača zainteresiranih zaproučavanje hrvatskog i srpskog jezika

3 / 60

Uvod u ReLDI

Komponente projekta

ReLDI čine:

• Resursi i alati• Pristup putem grafičkog sučelja i mrežnog servisa• Izvorni kod za samostalnu upotrebu

• Instrumenti• Repozitorij materijala za prikupljanje podataka

• Obuka i umrežavanje• Četiri seminara• Online kursevi na platformi Open edX

4 / 60

Uvod u ReLDI

Pristup - EN [ reldi.spur.uzh.ch ]

5 / 60

Uvod u ReLDI

Pristup - HR/SR [ reldi.spur.uzh.ch/hr-sr/ ]

6 / 60

Resursi i alati

Resursi i alati

Što su to jezični resursi i alati

• resursi – kolekcije podataka• primarni – kolekcije jezičnih ostvaraja – korpusi• sekundarni – apstrakcije jezičnih ostvaraja – leksikoni, gramatike,

modeli

• alati – procesi za obradu podataka• segmentacija na rečenice i riječi• morfosintaktičko označivanje i lematizacija• sintaktičko raščlanivanje• semantičko raščlanivanje• prepoznavanje naziva• identifikacija sentimenta• standardizacija teksta• identifikacija geolokacije• prepoznavanje jezika• strojno prevođenje• ...

8 / 60

Resursi i alati

Što su to jezični resursi i alati

• resursi – kolekcije podataka• primarni – kolekcije jezičnih ostvaraja – korpusi• sekundarni – apstrakcije jezičnih ostvaraja – leksikoni, gramatike,

modeli

• alati – procesi za obradu podataka• segmentacija na rečenice i riječi• morfosintaktičko označivanje i lematizacija• sintaktičko raščlanivanje• semantičko raščlanivanje• prepoznavanje naziva• identifikacija sentimenta• standardizacija teksta• identifikacija geolokacije• prepoznavanje jezika• strojno prevođenje• ...

9 / 60

Primarni resursi

Resursi i alati Primarni resursi

Korpusi

• jednojezični korpusi• referentni korpusi• mrežni korpusi – {hr,sr,bs,sl}WaC, Twitter• ručno označeni korpusi – SETimes.HR, hr500k, SETimes.SR,

Tweet.HR, Tweet.SR

• višejezični korpusi• SETimes korpus• mrežni korpusi – {hr,sr,sl}enWaC• OPUS kolekcija

11 / 60

Resursi i alati Primarni resursi

Referentni korpusi – hrvatski

• Hrvatski nacionalni korpus (http://hnk.ffzg.hr)• u verziji 3.0 (2013.) 216 milijuna pojavnica• posljednja opisana verzija 2.5 u radu iz 2009., veličine 101 milijun

pojavnica, najvećim dijelom novinski tekstovi, ∼4% književna djela• pretraživ na

http://filip.ffzg.hr/bonito2/run.cgi/first_form• nije preuziv

• Hrvatska jezična riznica (http://riznica.ihjj.hr)• 72% novinski tekstovi, 28% književni, ∼100 milijuna pojavnica• u procesu označivanja ReLDI alatima• pretraživ na http://riznica.ihjj.hr/philologic/Cijeli.

whizbang.form.en.html• bit će dodan i u SketchEngine• za sada nedostupan za preuzimanje

12 / 60

Resursi i alati Primarni resursi

Referentni korpusi – srpski

• Korpus savremenog srpskog jezika SrpKor(http://www.korpus.matf.bg.ac.rs)

• 122 milijuna riječi• 73,69% novinski tekstovi, ostalo književno-umjetnički, znanstveni,

znanstveno-popularni i administrativni• pretraživ preko sučelja dostupnog na zahtjev• podskup preuziv pod CC-BY-NC-SA kroz kontakt s autorima

13 / 60

Resursi i alati Primarni resursi

Mrežni korpusi

1. puzanje vršne domene za HTML dokumentima (.hr,.rs)2. predviđanje kodiranja3. crpljenje sadržaja – generički crpitelji, preskupo (nemoguće?)

oblikovati crpitelj po izvoru4. identifikacija jezika5. segmentacija6. uklanjanje bliskih duplikata7. normalizacija8. jezikoslovno označivanje

14 / 60

Resursi i alati Primarni resursi

Mrežni korpusi hrWaC i srWaC

• stranica projektahttps://reldi.spur.uzh.ch/resources-and-tools/https://reldi.spur.uzh.ch/blog/croatian-web-corpus/https://reldi.spur.uzh.ch/blog/serbian-web-corpus/

• CLARIN repozitorijhttp://hdl.handle.net/11356/1064http://hdl.handle.net/11356/1063

• NoSketchEngine pretragahttp://nl.ijs.si/noske/

15 / 60

Resursi i alati Primarni resursi

Stranica projekta

16 / 60

Resursi i alati Primarni resursi

Stranica projekta

17 / 60

Resursi i alati Primarni resursi

CLARIN repozitorij

18 / 60

Resursi i alati Primarni resursi

NoSketchEngine

19 / 60

Resursi i alati Primarni resursi

NoSketchEngine

20 / 60

Resursi i alati Primarni resursi

Twitter korpus zapadnih južnoslavenskih jezika

• prikupljanje podataka preko Twitter API-ja od lipnja / juna 2013. dodanas

• za hrvatski / srpski / bosanski / crnogorski do prosinca / decembra2015. prikupljeno 1,350,101 tvitova koji su i geokodirani, cijelakolekcija ∼15 milijuna tvitova

• problem dijeljenja podataka – Twitter dozvoljava direktno dijeljenjemax. 50k tvitova, više preko

• potprojekt ReLDI-ja: istraživanje prostorne distribucije nizajezikoslovnih varijabli na kolekciji geokodiranih tvitova

• prva varijabla: refleks jata

21 / 60

Resursi i alati Primarni resursi

22 / 60

Resursi i alati Primarni resursi

Korpusi za učenje SETimes.HR i SETimes.SR

• stranica projektahttps://reldi.spur.uzh.ch/resources-and-tools/

• GitHubhttps://github.com/uzh/reldi/tree/master/corpora

23 / 60

Resursi i alati Primarni resursi

Korpusi za učenje Tweet.HR i Tweet.SR

• kolekcije od 4000 tvitova po jeziku• ručno označivanje na 5 razina• kako se označivanje dovrši kolekcija će se moći dijeliti preko CLARIN-a

24 / 60

Resursi i alati Primarni resursi

Višejezični korpusi

• SETimes korpushttp://nlp.ffzg.hr/corpora/setimes/

• hrenWaC mrežni korpushttp://hdl.handle.net/11356/1058

• srenWaC mrežni korpushttp://hdl.handle.net/11356/1059

• OPUS kolekcija paralelnih korpusahttp://opus.lingfil.uu.se

25 / 60

Sekundarni resursi

Resursi i alati Sekundarni resursi

Leksikoni

• flektivni morfološki leksikoni hrLex i srLex• stranica projekta

https://reldi.spur.uzh.ch/resources-and-tools/https://reldi.spur.uzh.ch/blog/croatian-lexicon/https://reldi.spur.uzh.ch/blog/serbian-lexicon/

• CLARINhttp://hdl.handle.net/11356/1056http://hdl.handle.net/11356/1057

• GitHubhttps://github.com/uzh/reldi/tree/master/lexicons

• mrežno sučeljehttp://nl.ijs.si/services/

27 / 60

Resursi i alati Sekundarni resursi

Mrežno sučelje

28 / 60

Resursi i alati Sekundarni resursi

Kako su leksikoni izgrađeni

29 / 60

Resursi i alati Sekundarni resursi

hrMWELex i srMWELex

30 / 60

Jezični alati

Resursi i alati Jezični alati

Dostupnost jezičnih alata

• GitHubhttps://github.com/uzh/reldi/tree/master/tools

• mrežno sučeljehttp://nl.ijs.si/services/

• mrežni servis / Python knjižnicahttps://github.com/uzh/reldi/tree/master/lib/

32 / 60

Resursi i alati Jezični alati

Segmentacija, morfosintaktičko označivanje i lematizacija

• segmentacija temeljena na pravilima• dva moda segmentacije – standardni i nestandardni tekst• morfosintaktičko označivanje

• temeljeno na statističkom modeliranju hr500k korpusa• zapise iz hrLex, tj. srLex leksikona koristi se kao značajke / varijable• točnost ∼92.5% na punom MSD-u, ∼98.5% na razini vrste riječi• na slovenskom smanjenje pogreške od 25%, na hrvatskome 50%

• lematizacija• temeljena na hrLex, tj. srLex leksikonu• neviđene riječi lematizira se statističkim modelom naučenom na hr500k

korpusu i odgovarajućem leksikonu• točnost ∼98.5%

• u sljedećoj iteraciji dorada srpski će se modeli učiti naSETimes.SR+hr500k

• sr500k još nije striktno dogovoren (follow-up projekt?)33 / 60

Resursi i alati Jezični alati

Mrežno sučelje

34 / 60

Resursi i alati Jezični alati

Python knjižnica

35 / 60

Resursi i alati Jezični alati

Sintaktičko raščlanivanje

• inicijativa UniversalDependencieshttp://universaldependencies.org

• ovisnosno sintaktičko raščlanivanje s 40 univerzalnih oznaka• trenutno pokriva 40 jezika• hrvatski je u inicijativi već prisutan dvije godine• na dodavanju srpskoga se upravo radi• parser učen na hrvatskim (i slovenskim) podacima bit će dodan u APIdo kraja godine

• na srpskim podacima će se parser naučiti kada bude gotovooznačivanje podataka

36 / 60

Resursi i alati Jezični alati

Normalizacija teksta

• rekonstrukcija dijakritika• vjerojatnosti p(kuća|kuca) i p(kuca|kuca) naučene na korpusu• korišten i sekvencijalni jezični model naučen na istom korpusu

p(moje, srce, kuca) >> p(moje, srce, kuća)• prisutna već u API-ju, dostupna preko Python knjižnice• točnost na razini pojavnice ∼99.5% (točnost drugog javno dostupnog

alata ∼97% na standardnom tekstu te ∼94% na nestandardnom)• standardizacija teksta strojnim prevođenjem na razini znakova

• statističko strojno prevođenje (vrlo slično Google Translate), umjestoda se prevodi nizove riječi, prevodi se nizove znakova

• jača generalizacija, ako su viđeni "radil" > "radio" te "ljubil" > "ljubio",vjerojatno će uspješno biti normalizirano i neviđeno "pazil" > "pazio"

• učenje na Tweet.HR i Tweet.SR (te JANES korpusu za slovenski)• prvi rezultati za slovenski ukazuju na uklanjanje ∼70% "pogreške" na

nestandardnim tvitovima te ∼50% "pogreške" na standardnima

37 / 60

Instrumenti

Instrumenti

Cilj(evi)

Repozitorijum instrumenata za prikupljanje podataka

→ Pronalaženje sistemskog rešenja za distribuciju instrumenata zaprikupljanje podataka o/na srpskom i hrvatskom jeziku

→ Podsticanje istraživača na deljenje instrumenata

39 / 60

Instrumenti

Kakvi instrumenti?

Svi instrumenti relevantni za istraživanje srpskog i hrvatskog jezika,bez obzira na poddisciplinu lingvistike

• Zadaci• Zadaci leksičke odluke• Zadaci procene prihvatljivosti• Upitnici za ispitivanje motivacije• ...

• Formati• Tekst (liste reči/pseudoreči, rečenice, tekstovi)• Slike, video snimci, audio snimci• Skriptovi za eksperimentalni softver• ...

+ Rezultati istraživanja

40 / 60

Instrumenti

Zbog čega?

Trenutno, kada istraživači izrade instrumente koji su im potrebni...• ... koriste ih za sopstvena istraživanja• ... objavljuju rezultate istraživanja, ali ne i instrumente

• Opisi instrumenata u metodološkim odeljcima radova često nisudetaljni i sadrže samo primere stimulusa

• Nije retkost da se celoviti instrumenti ne prilažu uz rad

→ Mnogo napora se ulaže u izradu instrumenata koji se koriste jednom

→ Istraživanja je teško evaluirati i replicirati

Ovakva praksa suprotna je tendenciji u domenu resursa i alata, gde jenivo dostupnosti svih vrsta podataka svakim danom sve viši

41 / 60

Instrumenti

Srodne inicijative

Jezički resursi:http://www.clarin.eu (+ lokalni sajtovi)

Terenska lingvistika:http://fieldmanuals.mpi.nl

Usvajanje drugog jezika:http://www.iris-database.org

Psihologija/psiholingvistika:http://www.cogsci.nl/stimulus-setshttp://www.psychwiki.com/wiki/Archives_of_data_and_stimuli

Društvene nauke uopšte:http://reshare.ukdataservice.ac.ukhttps://figshare.comhttp://datadryad.org

42 / 60

Instrumenti

CLARIN (Common Language Resources and Technology Infrastructure)

43 / 60

Instrumenti

CLARIN

44 / 60

Instrumenti

MPI’s L&C Field Manuals and Stimulus Materials

45 / 60

Instrumenti

IRIS (Instruments for Research into Second Language Learning)

46 / 60

Instrumenti

IRIS

47 / 60

Instrumenti

IRIS

http://www.iris-database.org/iris/Content/assets/IRISFlyer.pdf

48 / 60

Instrumenti

ReLDI

49 / 60

Instrumenti

ReLDI

50 / 60

Instrumenti

ReLDI

51 / 60

Instrumenti

ReLDI

52 / 60

Instrumenti

ReLDI

53 / 60

Instrumenti

Šta se može raditi sa instrumentima?

Creative Commons licence(https://creativecommons.org/licenses/)

• BY-NC (Autorstvo–Nekomercijalno)• BY-NC-SA (Autorstvo–Nekomercijalno–Deliti pod istim uslovima)• BY-NC-ND (Autorstvo–Nekomercijalno–Bez prerade)

54 / 60

Instrumenti

Licenca i citiranje

55 / 60

Instrumenti

Kontrola kvaliteta

Radovi objavljeni na osnovu instrumenata

• Bibliografska odrednica• (Link za) rad u celini

56 / 60

Instrumenti

Radovi

57 / 60

Instrumenti

Perspektive

Repozitorijum će nastaviti da postoji i po završetku projekta, uz brojnemogućnosti za dalji razvoj

Tok daljeg razvoja i dalje opcije zavisiće i od saradnje sa istraživačima kojimogu/žele da prilože svoje instrumente

→ → →

58 / 60

Instrumenti

Neophodnost saradnje zajednice istraživača

Otvoren poziv za učešće

Kontakt:[email protected]

59 / 60

Hvala na pažnji!