Upload
lamngoc
View
225
Download
3
Embed Size (px)
Citation preview
ReLDI ZA POČETNIKE(1) Resursi i alati (2) Instrumenti
Nikola Ljubešić∗, Maja Miličević†∗ Sveučilište u Zagrebu† Univerzitet u Beogradu
Empirijski podaci u istraživanjima jezika: resursi i metode (2)Zagreb, 28. lipnja 2016.
Uvod u ReLDI
Kontekst
Empirijska istraživanja jezika:
• Temeljena na resursima i alatima (korpusima, leksikonima... /tegerima, lematizatorima...)
• Temeljena na instrumentima za prikupljanje podataka(testovima, upitnicima, eksperimentalnim stimulusima...)
Situacija u empirijskim istraživanjima hrvatskog i srpskog jezika:
• Resursi i alati često nisu javno dostupni• Alati se razvijaju odvojeno za hrvatski i srpski
• Instrumenti za prikupljanje podataka uglavnom nisu javno dostupni• Istraživačima nedostaje obuka u upotrebi resursa, alata i instrumenata
2 / 60
Uvod u ReLDI
→ ReLDI
Regional Linguistic Data InitiativeDvogodišnji institucionalni projekt Sveučilišta u Zagrebu (Filozofskifakultet), Beogradu (Filološki fakultet) i Zürichu (CorpusLab), financiranod strane Švicarske nacionalne zaklade za znanost u okviru programaSCOPES (Scientific Co-operation between Eastern Europe andSwitzerland, projekt br. 160501)
Ciljevi projekta(1) Omogućavanje pristupa resursima, alatima i instrumentima zaprikupljanje empirijskih jezičnih podataka za hrvatski i srpski jezik (uzmaksimalni transfer između jezika)(2) Obuka i regionalno umrežavanje istraživača zainteresiranih zaproučavanje hrvatskog i srpskog jezika
3 / 60
Uvod u ReLDI
Komponente projekta
ReLDI čine:
• Resursi i alati• Pristup putem grafičkog sučelja i mrežnog servisa• Izvorni kod za samostalnu upotrebu
• Instrumenti• Repozitorij materijala za prikupljanje podataka
• Obuka i umrežavanje• Četiri seminara• Online kursevi na platformi Open edX
4 / 60
Resursi i alati
Što su to jezični resursi i alati
• resursi – kolekcije podataka• primarni – kolekcije jezičnih ostvaraja – korpusi• sekundarni – apstrakcije jezičnih ostvaraja – leksikoni, gramatike,
modeli
• alati – procesi za obradu podataka• segmentacija na rečenice i riječi• morfosintaktičko označivanje i lematizacija• sintaktičko raščlanivanje• semantičko raščlanivanje• prepoznavanje naziva• identifikacija sentimenta• standardizacija teksta• identifikacija geolokacije• prepoznavanje jezika• strojno prevođenje• ...
8 / 60
Resursi i alati
Što su to jezični resursi i alati
• resursi – kolekcije podataka• primarni – kolekcije jezičnih ostvaraja – korpusi• sekundarni – apstrakcije jezičnih ostvaraja – leksikoni, gramatike,
modeli
• alati – procesi za obradu podataka• segmentacija na rečenice i riječi• morfosintaktičko označivanje i lematizacija• sintaktičko raščlanivanje• semantičko raščlanivanje• prepoznavanje naziva• identifikacija sentimenta• standardizacija teksta• identifikacija geolokacije• prepoznavanje jezika• strojno prevođenje• ...
9 / 60
Resursi i alati Primarni resursi
Korpusi
• jednojezični korpusi• referentni korpusi• mrežni korpusi – {hr,sr,bs,sl}WaC, Twitter• ručno označeni korpusi – SETimes.HR, hr500k, SETimes.SR,
Tweet.HR, Tweet.SR
• višejezični korpusi• SETimes korpus• mrežni korpusi – {hr,sr,sl}enWaC• OPUS kolekcija
11 / 60
Resursi i alati Primarni resursi
Referentni korpusi – hrvatski
• Hrvatski nacionalni korpus (http://hnk.ffzg.hr)• u verziji 3.0 (2013.) 216 milijuna pojavnica• posljednja opisana verzija 2.5 u radu iz 2009., veličine 101 milijun
pojavnica, najvećim dijelom novinski tekstovi, ∼4% književna djela• pretraživ na
http://filip.ffzg.hr/bonito2/run.cgi/first_form• nije preuziv
• Hrvatska jezična riznica (http://riznica.ihjj.hr)• 72% novinski tekstovi, 28% književni, ∼100 milijuna pojavnica• u procesu označivanja ReLDI alatima• pretraživ na http://riznica.ihjj.hr/philologic/Cijeli.
whizbang.form.en.html• bit će dodan i u SketchEngine• za sada nedostupan za preuzimanje
12 / 60
Resursi i alati Primarni resursi
Referentni korpusi – srpski
• Korpus savremenog srpskog jezika SrpKor(http://www.korpus.matf.bg.ac.rs)
• 122 milijuna riječi• 73,69% novinski tekstovi, ostalo književno-umjetnički, znanstveni,
znanstveno-popularni i administrativni• pretraživ preko sučelja dostupnog na zahtjev• podskup preuziv pod CC-BY-NC-SA kroz kontakt s autorima
13 / 60
Resursi i alati Primarni resursi
Mrežni korpusi
1. puzanje vršne domene za HTML dokumentima (.hr,.rs)2. predviđanje kodiranja3. crpljenje sadržaja – generički crpitelji, preskupo (nemoguće?)
oblikovati crpitelj po izvoru4. identifikacija jezika5. segmentacija6. uklanjanje bliskih duplikata7. normalizacija8. jezikoslovno označivanje
14 / 60
Resursi i alati Primarni resursi
Mrežni korpusi hrWaC i srWaC
• stranica projektahttps://reldi.spur.uzh.ch/resources-and-tools/https://reldi.spur.uzh.ch/blog/croatian-web-corpus/https://reldi.spur.uzh.ch/blog/serbian-web-corpus/
• CLARIN repozitorijhttp://hdl.handle.net/11356/1064http://hdl.handle.net/11356/1063
• NoSketchEngine pretragahttp://nl.ijs.si/noske/
15 / 60
Resursi i alati Primarni resursi
Twitter korpus zapadnih južnoslavenskih jezika
• prikupljanje podataka preko Twitter API-ja od lipnja / juna 2013. dodanas
• za hrvatski / srpski / bosanski / crnogorski do prosinca / decembra2015. prikupljeno 1,350,101 tvitova koji su i geokodirani, cijelakolekcija ∼15 milijuna tvitova
• problem dijeljenja podataka – Twitter dozvoljava direktno dijeljenjemax. 50k tvitova, više preko
• potprojekt ReLDI-ja: istraživanje prostorne distribucije nizajezikoslovnih varijabli na kolekciji geokodiranih tvitova
• prva varijabla: refleks jata
21 / 60
Resursi i alati Primarni resursi
Korpusi za učenje SETimes.HR i SETimes.SR
• stranica projektahttps://reldi.spur.uzh.ch/resources-and-tools/
• GitHubhttps://github.com/uzh/reldi/tree/master/corpora
23 / 60
Resursi i alati Primarni resursi
Korpusi za učenje Tweet.HR i Tweet.SR
• kolekcije od 4000 tvitova po jeziku• ručno označivanje na 5 razina• kako se označivanje dovrši kolekcija će se moći dijeliti preko CLARIN-a
24 / 60
Resursi i alati Primarni resursi
Višejezični korpusi
• SETimes korpushttp://nlp.ffzg.hr/corpora/setimes/
• hrenWaC mrežni korpushttp://hdl.handle.net/11356/1058
• srenWaC mrežni korpushttp://hdl.handle.net/11356/1059
• OPUS kolekcija paralelnih korpusahttp://opus.lingfil.uu.se
25 / 60
Resursi i alati Sekundarni resursi
Leksikoni
• flektivni morfološki leksikoni hrLex i srLex• stranica projekta
https://reldi.spur.uzh.ch/resources-and-tools/https://reldi.spur.uzh.ch/blog/croatian-lexicon/https://reldi.spur.uzh.ch/blog/serbian-lexicon/
• CLARINhttp://hdl.handle.net/11356/1056http://hdl.handle.net/11356/1057
• GitHubhttps://github.com/uzh/reldi/tree/master/lexicons
• mrežno sučeljehttp://nl.ijs.si/services/
27 / 60
Resursi i alati Jezični alati
Dostupnost jezičnih alata
• GitHubhttps://github.com/uzh/reldi/tree/master/tools
• mrežno sučeljehttp://nl.ijs.si/services/
• mrežni servis / Python knjižnicahttps://github.com/uzh/reldi/tree/master/lib/
32 / 60
Resursi i alati Jezični alati
Segmentacija, morfosintaktičko označivanje i lematizacija
• segmentacija temeljena na pravilima• dva moda segmentacije – standardni i nestandardni tekst• morfosintaktičko označivanje
• temeljeno na statističkom modeliranju hr500k korpusa• zapise iz hrLex, tj. srLex leksikona koristi se kao značajke / varijable• točnost ∼92.5% na punom MSD-u, ∼98.5% na razini vrste riječi• na slovenskom smanjenje pogreške od 25%, na hrvatskome 50%
• lematizacija• temeljena na hrLex, tj. srLex leksikonu• neviđene riječi lematizira se statističkim modelom naučenom na hr500k
korpusu i odgovarajućem leksikonu• točnost ∼98.5%
• u sljedećoj iteraciji dorada srpski će se modeli učiti naSETimes.SR+hr500k
• sr500k još nije striktno dogovoren (follow-up projekt?)33 / 60
Resursi i alati Jezični alati
Sintaktičko raščlanivanje
• inicijativa UniversalDependencieshttp://universaldependencies.org
• ovisnosno sintaktičko raščlanivanje s 40 univerzalnih oznaka• trenutno pokriva 40 jezika• hrvatski je u inicijativi već prisutan dvije godine• na dodavanju srpskoga se upravo radi• parser učen na hrvatskim (i slovenskim) podacima bit će dodan u APIdo kraja godine
• na srpskim podacima će se parser naučiti kada bude gotovooznačivanje podataka
36 / 60
Resursi i alati Jezični alati
Normalizacija teksta
• rekonstrukcija dijakritika• vjerojatnosti p(kuća|kuca) i p(kuca|kuca) naučene na korpusu• korišten i sekvencijalni jezični model naučen na istom korpusu
p(moje, srce, kuca) >> p(moje, srce, kuća)• prisutna već u API-ju, dostupna preko Python knjižnice• točnost na razini pojavnice ∼99.5% (točnost drugog javno dostupnog
alata ∼97% na standardnom tekstu te ∼94% na nestandardnom)• standardizacija teksta strojnim prevođenjem na razini znakova
• statističko strojno prevođenje (vrlo slično Google Translate), umjestoda se prevodi nizove riječi, prevodi se nizove znakova
• jača generalizacija, ako su viđeni "radil" > "radio" te "ljubil" > "ljubio",vjerojatno će uspješno biti normalizirano i neviđeno "pazil" > "pazio"
• učenje na Tweet.HR i Tweet.SR (te JANES korpusu za slovenski)• prvi rezultati za slovenski ukazuju na uklanjanje ∼70% "pogreške" na
nestandardnim tvitovima te ∼50% "pogreške" na standardnima
37 / 60
Instrumenti
Cilj(evi)
Repozitorijum instrumenata za prikupljanje podataka
→ Pronalaženje sistemskog rešenja za distribuciju instrumenata zaprikupljanje podataka o/na srpskom i hrvatskom jeziku
→ Podsticanje istraživača na deljenje instrumenata
39 / 60
Instrumenti
Kakvi instrumenti?
Svi instrumenti relevantni za istraživanje srpskog i hrvatskog jezika,bez obzira na poddisciplinu lingvistike
• Zadaci• Zadaci leksičke odluke• Zadaci procene prihvatljivosti• Upitnici za ispitivanje motivacije• ...
• Formati• Tekst (liste reči/pseudoreči, rečenice, tekstovi)• Slike, video snimci, audio snimci• Skriptovi za eksperimentalni softver• ...
+ Rezultati istraživanja
40 / 60
Instrumenti
Zbog čega?
Trenutno, kada istraživači izrade instrumente koji su im potrebni...• ... koriste ih za sopstvena istraživanja• ... objavljuju rezultate istraživanja, ali ne i instrumente
• Opisi instrumenata u metodološkim odeljcima radova često nisudetaljni i sadrže samo primere stimulusa
• Nije retkost da se celoviti instrumenti ne prilažu uz rad
→ Mnogo napora se ulaže u izradu instrumenata koji se koriste jednom
→ Istraživanja je teško evaluirati i replicirati
Ovakva praksa suprotna je tendenciji u domenu resursa i alata, gde jenivo dostupnosti svih vrsta podataka svakim danom sve viši
41 / 60
Instrumenti
Srodne inicijative
Jezički resursi:http://www.clarin.eu (+ lokalni sajtovi)
Terenska lingvistika:http://fieldmanuals.mpi.nl
Usvajanje drugog jezika:http://www.iris-database.org
Psihologija/psiholingvistika:http://www.cogsci.nl/stimulus-setshttp://www.psychwiki.com/wiki/Archives_of_data_and_stimuli
Društvene nauke uopšte:http://reshare.ukdataservice.ac.ukhttps://figshare.comhttp://datadryad.org
42 / 60
Instrumenti
IRIS
http://www.iris-database.org/iris/Content/assets/IRISFlyer.pdf
48 / 60
Instrumenti
Šta se može raditi sa instrumentima?
Creative Commons licence(https://creativecommons.org/licenses/)
• BY-NC (Autorstvo–Nekomercijalno)• BY-NC-SA (Autorstvo–Nekomercijalno–Deliti pod istim uslovima)• BY-NC-ND (Autorstvo–Nekomercijalno–Bez prerade)
54 / 60
Instrumenti
Kontrola kvaliteta
Radovi objavljeni na osnovu instrumenata
• Bibliografska odrednica• (Link za) rad u celini
56 / 60
Instrumenti
Perspektive
Repozitorijum će nastaviti da postoji i po završetku projekta, uz brojnemogućnosti za dalji razvoj
Tok daljeg razvoja i dalje opcije zavisiće i od saradnje sa istraživačima kojimogu/žele da prilože svoje instrumente
→ → →
58 / 60
Instrumenti
Neophodnost saradnje zajednice istraživača
Otvoren poziv za učešće
Kontakt:[email protected]
59 / 60