If you can't read please download the document
Upload
ellie
View
55
Download
9
Embed Size (px)
DESCRIPTION
Korpukset ja kieli Ctl310 corp Kevät 200 4 Antti Arppe. Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa. Aloitusluento 12.3.2002 klo 12-15. Hallinnolliset kuviot kurssin tavoitteet - PowerPoint PPT Presentation
Citation preview
Korpukset ja kieliCtl310corpKevt 2004Antti ArppeKun intuitio ja introspektio eivt riit riittvtk korpuksetkaan?Miten korpuksia voi/pitisi kytt kielen kuvauksessa ja tutkimuksessa
Aloitusluento 12.3.2002 klo 12-15Hallinnolliset kuviotkurssin tavoitteetkurssin rakenne ja suorituskurssin ohjelma ja aikatauluMit ovat korpuksetMit on korpuslingvistiika
Kurssin motivaatio ja tavoitteetKurssin tavoitteena on kokemusperisesti tarkastella, miten korpuksia voidaan kytt kielen tutkimuksessa.Minklaisia tutkimuskysymyksi kannattaa esitt korpuksillemiten korpuksia kannattaa tutkia, jamit tulosten pohjalta voidaan sanoa kielest.
Kurssin rakenne ja suoritusKuusi luentoaTentti (1 ov)Harjoitusty (1 ov)
Suoritus I: luennotpe 12.3., 19.3., 26.3., 2.4.,16.4. ja 23.4.kello 12-15 (tauko keskell)Siltavuorenpenger 20, ls 334Dteoria- ja vierailuluentojaluentomateriaalit lytyvt verkosta kurssin verkkosivuiltahttp://www.ling.helsinki.fi/kit/2004k/ctl310corp
Suoritus II: tenttiLaajuus 1 opintoviikkope 30.4. klo 12-14 luentosalissa ls 334D ja tiedekuntatenttipivn ke 19.5. (ilm. ma 10.5.)Kurssikirja: Biber, Douglas; Conrad, Susan; Reppen, Randi (1998). Corpus linguistics: Investigating Language Structure and UseYlimrinen kurssikirja: Sinclair, John (1991). Corpus, concordance, collocation
Suoritus III: harjoitustylaajuus 1 opintoviikkopienimuotoinen korpustutkimus kiinnitten huomiota aineiston ja menetelmien vaihtoehtoihin ja valintojen perusteluihintaiolemassaolevan (julkaistun) korpuspohjaisen tutkimuksen kriittinen analyysi ja arvio kuten yllpalautus pe 30.4.2004tarkempi ohjeistus kolmannella luentokerralla (pe 26.3.)
Luentojen rakenne ja aikataulu IPe 12.3. Johdanto ja kurssin suoritus Mik on korpus, minklaisia korpuksia on? Minklaista on korpuslhtinen kielentutkimus kytnt ja teoria ? Pe 19.3.Korpuksen valitseminen ja koostaminenkorpuksen suhde hypoteesiin mik on edustava korpus? Pe 26.3. Korpuksen esiprosessointiannotoinnin filtterintilingvistiset analyysitykalut hydyt ja haitat
Luennot IIPe 2.4. (12-14)Korpusten tilastollinen ksittelytilastolliset menetelmt ja kieli Pe 16.4. Puhekieliset korpukset (FT Martti Vainio) Mit uutta puheeseen perustuvat korpukset tuovat korpuslingvistiikkaan? Pe 23.4. Korpusten tulkinta - "korpukset ja kielients sitten?
Kuinka moni teist on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen?Hypoteesi aineisto menetelm tulkinta?
Mik on korpus?yksittinen tekstifragmenttiyksittinen sanomalehtiartikkeli?kaunokirjallinen kirja?yksi sanomalehti kokonaisuudessaan?Assyrian valtionartiston savitaulut kokonaisuudessaan?yksittisen tv-ohjelman transkriptio?muita...?
Mik on korpus?corpus, plural corpora A collection of linguistic data, either compiled as written texts or as a transcription of recorded speech. The main purpose of a corpus is to verify a hypothesis about language - for example, to determine how the usage of a particular sound, word, or syntactic construction varies. Corpus linguistics deals with the principles and practice of using corpora in language study. A computer corpus is a large body of machine-readable texts. (cf. Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford, 85)
Korpus...CORPUS (13c: from Latin corpus body. The plural is usually corpora) (1) A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. (2) Plural also corpuses. In linguistics and lexicography, a body of texts, utterances or other specimens considered more or less representative of a language, and usually stored as an electronic database. ...
Korpus...Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus. (cf. McArthur, Tom "Corpus" , in: McArthur, Tom (ed.) 1992. The Oxford Companion to the English Language. Oxford, 2
Korpuksen mritelmi gurutA collection of linguistic data, either written texts or a transcription of recorded speech, which can be used as a starting-point of linguistic description or as a means of verifying hypotheses about a language David Crystal, A Dictionary of Linguistics and Phonetics, Blackwell, 3rd Edition, 1991. A collection of naturally occurring language text, chosen to characterize a state or variety of a language. John Sinclair, Corpus, Concordance, Collocation, OUP, 1991
Korpuksen mritelm - kriteerithttp://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htmKorpus ei ole mik tahansa tekstinptk, vaan:tutkimuksen ja sen hypoteesin kannalta edustava otos/kokoelmakooltaan rajattu ja sisllltn mritettyelektronisessa muodossasiit on saatavissa enemmn tietoa frekvensseista, rakennehahmoista ja esiintymisassosiaatioista tietokoneen avulla kuin ksinuusien analyysien kustannukset ovat verrattaen pienet verrattuna ksin laskemiseenyleisesti saatavilla ( tutkimustulokset ovat vertailtavissa)
Korpuksen ksitteen monimuotoisuusmrtietoisesti etukteen asetettujen periaatteiden ja kriteerien mukaan kestty kokoelma kieliaineistoja (= yo. mritelm)kokoelma, johon on kertty mahdollisimman paljon kaikkea kieliaineistoa mit on vaan on ktevsti ja saatavillaoma tutkimusaineisto
Miksi korpuksia kytetn?kun introspektio ei riitintrospektiivisi havaintoja ei voida ulkoisesti observoidaintrospektiivinen data on useimmiten keinotekoistaihmisill on vain epmrinen mielikuva lingvistisen ilmin yleisyydest
Miksi korpuksia?korpusaineistojen hydytkorpukset ovat avoimempia tulosten objektiiviselle verifikaatiollekorpukset edustavat miten ihmiset todellisissa kytttilanteissa tuottavat kielt, ei jonkun kielioppikuvauksen sisltm idealisaatiota (esim. ovatko moninkertaiset upotukset mahdollisia vai eivt)kvantitatiivinen tieto kertoo mik on yleist ja mik on harvinaisempaa paremmin kuin introspektiotietokoneet ja elektroniset aineistot mahdollistavat aineistojen tehokkaan tarkastelun
Minklaisia korpuksia on?Kansainvliset klassikothttp://www.uni-koeln.de/phil-fak/englisch/bald/corpora.htmBrown (kirjoitettua amerikan-englantia 60-luvulta balansoitu: 500 tekstinfragmenttia 2000 sanaa)Lancaster-Oslo/Bergen (LOB) (Brownia vastaava korpus brittienglantia 70-luvulta)Lond-Lund (puhuttua englantia)
Korpuksia...Uudempia englanninkielisiBank of English (320 Mw 450 Mw [monitorikorpus]) http://titania.cobuild.collins.co.uk/boe_info.htmlBritish National Corpus (100 Mw)International Corpus of English (1 Mw kustakin englannin kansallisesta variantista)http://www.ucl.ac.uk/english-usage/ice/index.htmChild Language Date Exchange System (CHILDES) http://atila-www.uia.ac.be/childes/ (eri-ikisten lasten puhetta eri kielill, mm. englanti ja saksa)Korpuksia ympri maailmanhttp://www.ruf.rice.edu/~barlow/corpus.html
Korpuksia...Tunnetuimmat kotimaisetSuomen kielipankki (~170 Mw suomea ja ~30 Mw (suomenruotsia)http://www.csc.fi/kielipankki/KOTUS:en korpukset (historiallista kirjasuomea)http://www.kotus.fi/aineistot/Oulun korpus (500 kw mm. puhuttua suomea; koostettu 1967)Savonlinnan knnskorpus
Korpusten luokitteluntapainenkielen meediumi: puhekorpukset (esim. London-Lund corpus) vs. kirjalliset korpukset (esim. Lancaster Oslo/Bergen corpus(LOB) vs. yhdistetyt (British National Corpus (BNC) tai Bank of English) synkroninen variaatio (kansalliskielen [standardin] sisinen): britti-englannin korpukset (esim. Lancaster Oslo/Bergen corpus) vs. amerikan-englannin korpukset (e.g. Brown corpus) vs. joku kansainvlisen englannin korpus
Luokittelu...historiallinen variaatio: diakroniset korpukset (Helsinki corpus, cf. ICAME:n kotisivu) vs. synkroniset korpukset (Brown, LOB, BNC) vs. vain yhden segmentin kielen historiaa kattavat korpukset (Old/Middle English, Shakespearen tekstit) maantieteellinen variaatio/murrevariaatio: murreotoskorpus (e.g. Scots) vs. yhdistetyt (BNC puheosuus sislt otoksia puhujista kaikkialta Britanniasta)
Luokittelu...ik: aikuisten englannin korpus vs lasten englannin korpus (CHILDES:n englanninkieliset osiot) tekstityyppi/rekisteri: kaunokirjalliset vs. tekniset vs. ei-fiktiiviset (esim. sanomalehtiteksit) vs. sekoitetut korpukset jotka kattavat kaikki tekstityypitaivoimuus: suljetut, muuntamattomat korpukset (esim. LOB, Brown) vs. monitorikorpukset (Bank of English)
Luokittelu...saatavuus: kaupalliset vs. ei-kaupalliset tutkimuskorpukset, suoraan saatavilla olevat (online) korpukset vs. korpukset ftp-palvelimilla vs. korpukset levykkeillyksikielisyys vs. monikielisyys (kohdistetut knnskorpukset); alkuperiset (supisuomi) vs. knnetyt (knnssuomi)
Minklaista korpuspohjainen kielentutkimus on?Korpuspohjaisen lingvistiikan esihistoriaahttp://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm Ilman tietokoneita aineiston monipuolinen analyysi on vaikeaaKorpuspohjaisen lingvistiikan varsinainen kynnistyminenhttp://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm Korpukset elektronisessa muodossa, tietokoneet tarkastelun apuna
Korpuspohjainen kielentutkimus tnn?PuheentutkimusLeksikografiaKielioppi/syntaksiSemantiikkaPragmatiikkaSosiolingvistiikkaStilistiikka
KielenopetusHistoriallinen kielitiedeMurretutkimusPsykolingvistiikkaKulttuurintutkimusSosiopsykologia
Korpuslingvistiikka tnnCorpus Linguistics 2003 konferenssi (Lancaster 28-31.3.2003)http://www.comp.lancs.ac.uk/ucrel/cl2003/programme.html#papers
Korpukset ja kieliCtl310corpKevt 2003Antti ArppeLuento 19.3.Metodologinen yleiskatsaus empiirisen tutkimuksen rakenneHypoteesin muodostaminenAineiston valitseminen ja koostaminen
Korpuspohjainen kielentutkimuksen tyypit?kvalitatiivinen - laadullinenanalyysin rikkaustarkkuus japerusteellisuuskvantitatiivinen - mrllinentilastollisesti luotettavat jayleistettvt tulokset
Kvalitatiivinen kvantitatiivinenKvalitatiivinentavoitteena tydellinen, yksityiskohtainen kuvausilmiiden frekvenssien merkitys on vhisempi, yksittiset tapauksetkin saavat huomiotakielen monitulkintaisuus sallitaan tulokset eivt vlttmtt ole varmuudella yleistettviss kieleen kokonaisuudessaan
Kvalitatiivinen kvantitatiivinenkvantitatiivinenpiirteit luokitellaan, niiden lukumri lasketaan ja vertaillaanpiirteiden yhteisesiintymist voidaan tehd monimutkaisia tilastollisia mallejaeri korpuksia voidaan vertailla keskennyleisten, tyypillisten ilmiiden erottaminen (mahdollisesti) satunnaisista esiintymistluokitukset tyypillisesti kategorisiaedellytt minimiesiintymisi, jotta yleistyksi voidaan tehd harvinaiset ilmit jvt paitsioon kategorioita saatetaan tst johtuen niputtaa yhteen
Kvantitatiivinen kvalitatiivinenmonimetodisuus, eri tutkimusmenetelmi ja aineistoja yhdistyv tutkimus yleistymyss ihmistieteisskvalitatiivinen tutkimus voi edelt kvantitatiivista intuitiivinen yleiskuva tutkittavasta ilmist ja aineistosta kategoriat on ensiksi identifioitava
Tutkimuksen tyypiteksploratiivinen tutkiva, tutkimushypoteeseja hypoteeseja muodostava, korpus referenssin kuinkas sit kielt oikein kytetndeskriptiivinen kuvaava systemaattisempi ja kokonaisvaltaisempikonstruktiivinen teorioita muodostava tavoitteena enemmn kuin jonkun yksittisen lingvistisen olion kuvaustestaava teorioiden validiteetin tarkastelua
Tutkimuksen tyypit henkilkohtaisia esimerkkejeksploratiivinen: onko synonyymien kyttkonteksteissa eroja?deskriptiivinen: minklaista on jonkun synonyymiryhmn kytt; miten kyttkontekstit eroavat toisistaan?konstruktiivinen: mist synonyymien kyttkontekstien erilaisuudet johtuvat?testaava: pteek yll esitetty teoria kyttkontekstien erilaisuudesta mys muiden synonyymiperheiden kohdalla?
Mallitutkimuksen rakenne[Teoreettinen tausta: aikaisempi tutkimus]hypoteesiaineisto eli korpusmenetelmtulkinta[Kytkent teoreettiseen taustaan: miten tulokset vaikuttavat teoriaan]
Hypoteesimik on riittvn hyv/perusteltu hypoteesi?perustuu aikaisempaan tutkimukseen tai teorianmuodostukseen?perustuu tutkijan tai tutkijayhteisn omaan intuitioon?tutkijan kannalta trke on ankkuroida hypoteesi ajankohtaiseen tutkimukseenteoria X vitt jotain Y kaikista kielist: pitk Y paikkansa kieless Zteoria X on yksi kielen rakenteen kuvauksen yleisist malleista: miten teoriaa X voisi soveltaa kieless Y
Aineistohypoteesin perusteella minklainen aineisto on (riittvn) edustava hypoteesin kannalta edustavuus/kattavuus voiko mikn aineisto koskaan olla tysin representatiivinen kielen kannalta?kielen monimuotoisuuden huomiointi: kieli ei ole homogeenista yhdest aineistosta ei voi vlttmtt ptell kaikesta kielenkytst
Menetelmesiprosessointi: ylimrisen annotoinnin poistaminenlingvistinen (automaattinen) analyysi virheiden huomioiminen ja vaikutus automaattisen analyysin tydentminen ksin lingvistisen analysaattorin implisiittisesti sisltm malli kielest miten analysaattori vaikuttaa ja ennakoi tuloksiatilastolliset mallitMiten hyvin/huonosti niiden (matemaattiset) ennakko-oletukset vastaavat kielen olemusta
Tulkintamiten tulokset vastaavat hypoteesejamiten paljon voidaan sanoa kielest ylipns mist tulokset itse asiassa kertovatkuinka merkitsevi tulokset ovat? keskeist on aina kuitenkin lingvistin tulkinta: mit lingvisti nostaa esille tai nkee merkittvn kielitieteen kannalta
Tutkimuksen suunnittelun trkeysekstralingvististen muuttujien huomioiminen korpusta valittaessa ja koostettaessa (tekstityypit ja niiden vliset erot, murteet, idiolektit)aineistoon ja annotointiin perehtyminen: kuinka tydellisesti/perusteellisesti/oikein aineisto on esiksiteltytykalujen vaikutuksen arvioiminen: kuinka hyvin/huonosti automaattiset analyysitykalut toimivatesitutkimuksen trkeys ei soitellen sotaan vaan perusteellisesti kokeillen ennen lopullisen tutkimusasetelman lukkoonlymist
Esimerkkej hypoteeseista: Intl Journal of Corpus Linguistics
Hypoteesin muodostaminen kytnnss oman tutkimuksen teoreettista taustaaerityisesti englannin osalta on osoitettu, ett synonyymien valintaan vaikuttavat rekisteri, tavoiteltu tyyli ja kytttilanne, esim. dollar vs. buck (Zgusta 1971, Biber 1998) myhemmin on englannin osalta osoitettu mys ett leksikaalinen ja syntaktinen konteksti vaikuttaa mys synonyymin valintaan, esim. begin vs. start (Biber 1998): SUBJ start (intransitiivinen kytt) SUBJ begin OBJ SUBJ begin TO-Vlisksi on argumentoitu, ett lekseemin kullakin taivutusmuodolla voi periaatteessa olla itseniset kyttyhteydet, esim. kollokaatioiden suhteen (Sinclair 1991)
Alkuperinen tavoitejos kerran sanan ulkoinen konteksti, olkoon se leksikaalinen tai syntaktinen rakenne, vaikuttavat synonyymin valintaan (englannin tyyppisess morfologisesti kyhss kieless), niin eik suomessa (morfologisesti rikkaassa) olisi vastaavaa havaittavissa taivutusmuotojen ja piirteiden osaltaHypoteesi: onko synonyymeiksi tulkittavien sanojen taivutusprofiileissa empiirisesti havaittavia eroja?
Hypoteesin konkretisoiminen: mit on synonymia?synonymian mritelm ja ksittely nytt seuraavan siit miten merkitys ymmrretnmerkitys kompositionaalisten, kategoristen piirteiden joukkona synonymia tietyntyyppisen erona ko. piirteissmerkityksen syntyminen kyttyhteyden kautta (Firth) synonymia korvattavuutena tai vaihdettavuutena samanlaisissa konteksteissa (Miller 1990)
Synomia absoluuttinen synonymia lhisynonymiaabsoluuttinen synonymia edellyttisi vaihdettavuutta kaikissa mahdollisissa kontekteissa, mutta tm on oletetusti kytnnss erittin harvinaistakytnnss joutuu tutkimaan lhisynonymiaa (l. plesionymiaa)synonymia on kuitenkin jollakin naivilla tasolla todellista, sill tavalliset kielenkyttjt mieltvt synonyymien olemassaolon ja kokevat ett sanoja voidaan usein vaihtaa toisiin ilman ett lauseen merkitys ja konnotataatiot oleellisesti muuttuvat
Tutkimuksen rajaaminen:tutkittavien synonyymien valintaei ole mielekst ryhty tutkimaan kaikkia potentiaalisia synonyymej: yksikin pari voi riitttavoitteena oli valita verbipari joka olisi a priori niin samankaltainen sek syntaktisen ett semanttisen valenssin suhteen kuin mahdollistakaikkien verbien suhteelliset frekvenssit laskettiin korpuksesta ja nm yhdistettiin elektronisen synonyymisanakirjan sisltnkullekin synonyymiryhmlle laskettiin suhteellisten frekvenssien geometrinen keskiarvo r1 x ... rn , jonka mukaan synonyymiryhmt rankattiin
Tutkimuksen rajaaminen: synonyymilistan Top 10001000 kollektiivisesti yleisint synonyymiryhm
Tutkimuksen rajaaminenrankatut synonyymiryhmt arvioitiin subjektiivisestimikli jossakin synonyymiryhmss ei ensi nkemlt tuntunut olevan ilmiselvi eroja merkityskentn tai syntaktisen kytn suhteen, potentiaalisia kandidaatteja arvioitiin Perussanakirjan sanaselitysten ja esimerkkilauseiden perusteella (Haarala 1997) ja lisksi Pajunen (1982)mit enemmn sanojen sanaselitykset ja esimerkit olivat samansuuntaisia, sit parempipolyseemisi kandidaatteja hyljeksittiin
Lopullinen rajaus ja hypoteesikognitiviiset verbit pohtia and miettimys ajatella, tuumia ja harkita voisivat tulla kyseeseenHypoteesi: verbien pohtia ja mietti morfologiset kontekstit eli taivutusmuotoprofiilit eroavat joiltakin osin tilastollisesti toisistaan
Aineiston valinta edustavuuskun ilmit ei voida tai haluta tutkia (kvantitatiivisessa tutkimuksessa) kokonaisuudessaan, ihmistieteiss turvaudutaan tyypillisesti satunnaisotantaan Satunnaisotanta edellytt, ett lhtkohtapopulaatio on mahdollisimman selkesti mritelty ja rajattu miten otannan populaatio mritelln kielitieteess?
Edustavuus populaatiomiten hyvin populaatio on mriteltviss? Tutkimushypoteesi mrkattava bibliografinen indeksi: kaikki Suomessa julkaistu kaunokirjallisuus vuosina 1990-2000sanomalehtiteksti Suomessa vuonna 1994/vuosina 1990-2000Keskisuomalainen vuonna 1994Ylioppilasaineet vuonna 2000
Edustavuus - populaatiomik voisi olla (suomen) kielen populaatio? mit koko kieleen kuuluu?kirjoitettu kieli:sanomalehdetkaunokirjalliset kirjat: alkuperiset vs. knnstekstitjuridiset tekstittekniskaupalliset tekstitkirjeetshkiset uutisryhmtchattipalstat, IRC
(Suomen) kielen populaatio?puhuttu kieli:uutislhetyksetesitelmt kirjoitetun tekstin pohjaltaihmisten vliset nauhoitetut spontaanit keskustelutjne...
Koko kielen populaation problematiikkaa?mik tulisi olla kielen eri osa-alueiden keskiniset kokosuhteet koko kielt edustavassa populaatiossa? onko ylipns vitettviss, ett kielest (esimerkiksi) 50% on kirjoitettua ja 50% puhuttua onko ylipns mielekst yritt muodostaa otosta koko kielest onko ylipns mielekst edes yritt tutkia kielt kokonaisuudessaan hvivtk kielen eri osa-alueiden erot kun ne niputetaan yhteen? olisiko mielekmp yritt tarkastella kielen eri osa-alueiden vlisi samankaltaisuuksia ja eroja? (Biber)
Lingvistisen populaation problematiikkaakuinka homogeenisia yksittiset osa-alueet ovat? esim. sanomalehtiteksti sislt laajan kirjon eri tekstityyppej ja yhdist kirjoitettua ja puhuttaa kielt (sitaatit)Esimerkkej sanomalehtitekstist (HS 13.3.2003)poliittinen artikkeli urheiluartikkeli mielipidekirjoitus tiedeartikkeli Yksittisenkin kielen osa-alueen sisll tulee pohtia, mitk tekijt mahdollisesti aiheuttaisivat variaatiota (esim. toimittajien idiolektit)
Satunnaisotannan periaatteita korpustutkimuksessa (Biber)lhtkohtana mritell tutkittavan populaation hierarkinen stratifioituminen jaottelun eri tekstityyppeihin tulisi perustua hypoteesist lhtevn tutkimusasetelmaan ja sen teoreettisiin taustaolettamuksiin kytnnss tekstityyppijaottelussa joutuu turvautumaan kytettviss olevien korpusten jaotteluihin ja niiden sisltmn ekstralingvistiseen tietoon (Kielipankin aineistot)stratifioitunut otanta on vhintn yht edustava kuin puhdas satunnaisotanta, sill se varmistaa kunkin tekstityypin mukanaolon
Oman tutkimuksen otantasanomalehtiteksti on hyv lhtkohta, sill se pit sislln useita eri tekstityyppejKeskisuomalaisen aineisto (1994, 2 Mw) sislsi tarvittavaa ekstralingvistist tietoa sek tekstityypeist ett artikkelien kirjoittajistatekstityypin tai idiolektin mahdollinen vaikutus tuloksiin esiintyyk variaatiota?Koko sanomalehtikorpus (16 Mw Keskisuomalaisen lisksi mm. Hesarin) oli kooltaan 8-kertainen, jolloin harvinaisemmat ilmit olivat havaittavissa ( tilastollinen merkitsevyys)
Korpukset ja kieliCtl310corpKevt 2003Antti ArppeLuento 26.3.AnnotointiAineiston esiksittelyAutomaattiset analyysitykalut
Annotointikorpukset voivat olla:raakoja = tekstej sellaisenaanannotoituja eli tekstin alunperin kuulumattomalla, posin lingvistisell informaatiolla varustettujaannotaatio voi koostua yksittisist tageista (esim. Brown collects_VVZ) tai tagirymist (esim. ENGTWOL collects V IND PRES SG3) Vaikuttaa tagien mrn ja ksittelynsanakohtainen tai virkekohtainen (KOTUS) annotaatiolingvistisen annotaation lisksi korpukset sisltvt nykyisin mys lhde- ja rakenteellista tietoa (esim. SGML/TEI/XML-taggauksen muodossa)
TEI/SGML-formatoitua ja annotoitua korpusta (Keskisuomalainen 1994/CSC)
Kansanedustaja ja taiteilija joululomalla Bosniassa Thtimess punainen risti
Kun monet espanjalaisparlamentaarikot selailivat joulun alla matkaoppaita lehtereill, 29vuotias kansanedustaja Tomas Burgos lastaili kiireisen kahdeksaa pakettiautoa ja kahta rekkaa. Matkakohteeksi oli valittu talvinen Bosnia.
Lingvistisesti annotoitua korpusta (FDG/Conexor)0 1 Kun kun pm:>4 &CS CS2 monet moni attr:>3 &A> PRON PL NOM3 espanjalaisparlamentaarikot espanjalais#parlamentaarikko subj:>4 &NH N PL NOM4 selailivat selailla &+MV V ACT IND PAST PL35 joulun joulu loc:>4 &NH N SG GEN6 alla alla pm:>5 &PM PSP7 matkaoppaita matka#opas &NH N PL PTV8 lehtereill lehteri &NH N PL ADE , ,10 29 29 &NH NUM CARD - -12 vuotias vuotias attr:>13 &A> A SG NOM13 kansanedustaja kansan#edustaja attr:>15 &NH N SG NOM14 Tomas Tomas attr:>15 &A> N SG NOM15 Burgos burgos subj:>16 &NH N SG NOM16 lastaili lastailla &+MV V ACT IND PAST SG317 kiireisen kiireinen copr:>16 &NH A SG ESS18 kahdeksaa kahdeksan qn:>19 &QN> NUM CARD SG PTV19 pakettiautoa paketti#auto &NH N SG PTV20 ja ja cc:>19 &CC CC21 kahta kaksi qn:>22 &QN> NUM CARD SG PTV22 rekkaa rekka cc:>19 &NH N SG PTV . .24 Matkakohteeksi matka#kohde &NH N SG TRA25 oli olla main:>23 &+MV V ACT IND PAST SG326 valittu valita attr:>28 &-MV V PASS PCP2 SG NOM27 talvinen talvinen attr:>28 &A> A SG NOM28 Bosnia Bosnia &NH N SG NOM . .30 >29
Hyvn annotoinnin periaatteet (Leech)1. Annotoinnin tulisi olla erotettavissa/irrotettavissa/siivottavissa alkuperisest/varsinaisesta korpuksestaClaire_NP1 collects_VVZ shoes_NN2 "Claire collects shoes2. Annotoinnit tulisi olla sellaisinaan irrotettavissa korpuksesta esim. eri tilastollisia tarkasteluja vartenClaire_NP1 collects_VVZ shoes_NN2 NP1 VVZ NN2
Annotoinnista...3. Annotoinnin periaatteiden pitisi olla (helposti) korpuksen kyttjn saatavillaannotoinnissa kytettvien tagien merkitykset pitisi olla saatavilla samoin kuin esimerkit niin yleisist tapauksista kuin rajanpetotilanteistatm ei valitettavasti aina pid riittvn pitklle paikkaansa esim. akateemisesti kehitettyjen analyysitykalujen kohdalla4. Annotoinnin tekijn, mahdollisen muuttajan ja annotointiajankohdan pitisi olla selkesti merkittynaikaisemmat annotoinnit pitisi muutos/korjaustapauksissa olla jtetty jljelle, mikli halutaan palata korpuksen aikaisempaan versioon
Annotoinnista ...5. Korpuksen kyttjlle tulisi tehd selvksi, ett annotointi ole virheetn eik lopullinen lisksi tulisi korostaa, ett annotointi on aina jonkun teoreettisen nkkannan mukainen tulkinta eik ainoa mahdollinen vaihtoehto6. Annotoinnin periaatteidein tulisi laajalti hyvksyttyj ja teorianeutraalejatm ei ole mitenkn helppo periaate, sill korpusten moninaiset kytttarkoituksen voivat olla ristiriidassa tmn kanssa7. Yksikn annotointiperiaatetta ei saisi esitt a priori standardina standardit syntyvt kytnnn hyvksynnn ja konsensuksen kautta
Miksi alkuperinen annotointi kannattaa sst (tekijtiedot erss sanomalehtikorpuksessa)
Jkyllinen Piiatyhtye voitti Imatralla
Keskisuomalainen
Tekijtietojen sekavuus ...+ 8 ANITA = NO_BYLINE #,3994,4173,5637,6520,6827,6897,6912,6954+ 6 ANITA = Anita Krki #,4304,4397,4964,5154,5458,7469+ 5 ANITA = ANITA KRKI #,1332,4261,6395,6880,7999+ 2 ANITA = Anita Krki = ANITA KRKI #,4969,5162- 2 ANITA = Anita Krki = Ari Haapa-aho #,5700,7676- 2 ANITA = Anita Krki = Jorma Prssinen #,6010,7146- 2 ANITA = ANITA KRKI = Jorma Prssinen #,7368,7559+ 2 ANITA = Keskisuomalainen #,5629,6968- 1 ANITA = Anita Krki = Anita Krki = Risto Aalto #,7228- 1 ANITA = Anita Krki = Matti Salmi #,7298- 1 ANITA = Anita Krki = Mauri Ratilainen #,8165- 1 ANITA = Anita Krki = Risto Aalto #,5791- 1 ANITA = ANITA KRKI = Risto Aalto #,6392- 1 ANITA = GOA, ANJUNA-BEACH ANITA KRKI KUVAT #,6743
Annotoinnin lajitsanaluokka-annotointi Part-of-speech (POS) taggauslemmatisointi perusmuotoon palautus ja morfologinen analyysi, disambiguoituna tai ilman (XXXTWOL)syntaktinen parsaus: osittainen (lauseke)analyysi (XXXCG/Lingsoft, XXXLITE/Connexor) pinta-analyysi lausekerakenneanalyysi funktionaalinen dependenssianalyysi (FDG Machinese/Connexor)semanttinen analyysis (WordNet)diskurssi/tekstilingvistiset analyysitfoneettinen transkribointiprosodinen transkribointiongelma-kohtainen annotoiminen
Sanaluokka-annotointi Part-of-speech (POS) taggaus
Spoken English Corpus (C7 tagset) Perdita&NN1-NP0; ,&PUN; covering&VVG; the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1-NP0; shouting&VVG; that&CJT; she&PNP; better&AV0; dig&VVB; out&AVP; a&AT0; pair&NN0; of&PRF; clean&AJ0; breeches&NN2; and&CJC; polish&VVB; her&DPS; boots&NN2; ,&PUN; as*CJS; she&PNP; 'd&VM0; be&VBI; playing&VVG; in&PRP; the&AT0; match&NN1; that&DT0; afternoon&NN1; .&PUN;
POS-tagit (C7)AJ0: general adjectiveAT0: article, neutral for numberAV0: general adverbAVP: prepositional adverbCJC: co-ordinating conjunctionCJS: subordinating conjunctionCJT: that conjunctionDPS: possessive determinerDT0: singular determinerNN0: common noun, neutral for numberNN1: singular common nounNN2: plural common nounNP0: proper noun POS: genitive markerPNP: pronounPRF: ofPRP: prepostitionPUN: punctuationTO0: infintive toVBI: beVM0: modal auxiliaryVVB: base form of lexical VerbVVD: past tense form oflexical verbVVG: -ing form of lexical verbVVI: infinitive form of lexical verbVVN: past participle form of lexical verb
Lemmatisointi perusmuotoon palautus ja morfologinen analyysi, (ENGTWOL)
"""""" "cover" PCP1 "" "the" DET CENTRAL ART SG/PL @DN> " (monitulkintainen eli ambigusi sana) "bottom" N NOM SG "bottom" V PRES -SG3 VFIN @+FMAINV "bottom" V INF "bottom" V IMP VFIN @+FMAINV "bottom" V SUBJUNCTIVE VFIN @+FMAINV "" "of" PREP "" "the" DET CENTRAL ART SG/PL @DN> "" "lorry" N NOM PL "" "with" PREP "" "straw" N NOM SG "straw" V PRES -SG3 VFIN @+FMAINV "straw" V INF "straw" V IMP VFIN @+FMAINV "straw" V SUBJUNCTIVE VFIN @+FMAINV
Syntaktinen parsaus: osittainen (lauseke)analyysi (ENLITE) pinta-analyysi lausekerakenneanalyysiPerditaperdita&NH N SG ,, coveringcover&VA ING thethe&>N DET bottombottom&NH N SG [disambiguoitu sana]ofof&N< PREP thethe&>N DETlorrieslorry&NH N PL withwith&N< PREP&AH PREP strawstraw&NH N SG toto&AUX INFMARK> protectprotect&VA V INF thethe&>N DET ponies'pony&>N N PL feetfoot&NH N PL ,, suddenlysuddenly&>A ADV&AH ADV heardheard&>N EN&VA V PAST Alejandroalejandro&>N N SG&NH N SG shoutingshouting&NH ING&VA ING thatthat&CS CS&NH PRON sheshe&NH PRON SG3 betterwell&AH ADV CMP&>N A CMP&NH A CMP digdig&NH N SG&VA V INF&VA V PRES outout&AH ADV aa&>N DET SG pairpair&NH N ofof&N< PREP cleanclean&>N A ABS breechesbreech&NH N PL
0 1SanSa &NH N SG GEN &A> N SG GEN2CristobalinCristobal attr:>3&A> N SG GEN3kaupungin kaupunki obj:>4 &NH N SG GEN4vallanneet vallata attr:>5 &-MV V ACT PCP2 PL NOM5intiaanit intiaani subj:>6_AGE:>6 &NH N PL NOM SEM_HUMAN_INDIVIDUAL PHR_COMMON6pohtivat pohtia main:>0&+MV V ACT IND PAST PL3 SEM_THINK7sunnuntai sunnuntai attr:>9 &A> N SG NOM - -9iltana ilta _TMP:>6 &NH N SG ESS SEM_TIME10seuraavaa seurata attr:>11 &-MV V ACT PCP1 SG PTV &A> A SG PTV11siirtoaan siirto _PAT:>6 &NH N SG PTV SEM_ACTIVITY12kaupungintalon kaupungin#talo attr:>13&A> N SG GEN13kytvill kytv _LOC:>6&NH N PL ADE SEM_LOCATION . .15 >14
Semanttis/funktionaalinen analyysi
Automaattisten analyysitykalujen kytstanalysaattorit perustuvat aina johonkin malliin, joka perustuu johonkin kielitieteelliseen teoriaan teoria vaikuttaa analysaattorin yksittisiin tuloksiin:Esim. Conexorin FDG perustuu Tsnieren dependenssikielioppiin 1950-luvulta analysaattori saattaa toimia systemaattisesti oikein omien periaatteidensa mukaan, muttei samalla sopia haluttuun tutkimustarkoitukseen:Esim. dependenssikieliopissa yhdess lauseessa voi olla kunkin funktion edustajia ainoastaan yksi, esim. lauseella ei voi olla kahta tempusfunktiota* Harjoittelen aamulla-TMP ja illalla-? (periaatteessa ko. lause nhdn kahden lauseen yhdistelmn, jossa funktiot erotettu) Harjoittelen aamulla-TMP + Harjoittelen illalla-TMP
Yksi vai useampi temporaalifunktio? (1/2)0 1 YK YK subj:>2 &NH N2 arvioi arvioida main:>0 &+MV V ACT IND PRES SG3 &+MV V ACT IND PAST SG33 syyskuussa syyskuu tmp:>2 &NH N SG INE4 Bosnia Bosnia attr:>6 &A> N SG NOM - -6 Hertsegovinan Hertsegovina attr:>7 &A> N SG GEN7 ruuan ruoka &NH N SG GEN8 tarpeeksi tarpeeksi &ADV ADV9 32 32 qn:>10 &QN> NUM CARD10 miljardia miljardi qn:>11 &QN> NUM CARD SG PTV11 tonnia tonni qua:>2 &NH N SG PTV12 kuukaudessa kuukausi loc:>2 &NH N SG INE . .14 >13
Yksi vai useampi temporaalifunktio? (2/2)0 1 Edell edell phr:>2 &ADV ADV2 mainitun mainita attr:>3 &-MV V PASS PCP2 SG GEN3 rajan raja obj:>4 &NH N SG GEN4 alittamisesta alittaa &-MV V ACT INF4 ELA5 annetaan antaa main:>0 &+MV V PASS IND PRES6 ensin ensin &ADV ADV7 neuvontaa neuvonta obj:>5 &NH N SG PTV8 ja ja &CC CC9 myhemmin myhemmin tmp:>10 &ADV ADV10 opetetaan opettaa &+MV V PASS IND PRES11 liikennekulttuuria liikenne#kulttuuri obj:>12 &NH N SG PTV12 sakottamalla sakottaa man:>10 &-MV V ACT INF3 SG ADE . .14 >13
Automaattiset analyysitykalut...Analysaattorit tekevt aina vlttmtt jonkin verran virheit tai eivt pysty antamaan yht ainoaa oikeaa vastausta (tydellist disambiguaatiota) On tutkittu, etteivt edes ihmiset (maallikot saati asiantuntijat) pysty aina psemn yhteisymmrrykseen oikeasta analyysist (esim. Churchin tutkimukset) kieless on siis aina implisiittisesti hiukan monitulkintaisuutta, mit voidaan pit automaattisten tykalujen oikeellisuuden teoreettisena ylrajana (97-98%)
Preesens vai imperfekti?EU-ministeri eu-#ministeri &NH N SG NOMpohtivat pohtia &+MV V ACT IND PRES PL3 &+MV V ACT IND PAST PL3Euroopan eurooppa &A> N SG GENkilpailukyky kilpailu#kyky &NH N SG PTVEU:n eu &A> N SG GENteollisuusministerit teollisuus#ministeri &NH N PL NOMetsivt etsiv &NH N PL NOMviikonvaihteessa viikon#vaihde &NH N SG INEBilbaossa bilbao &NH N SG INEEspanjassa espanja &NH N SG INEkeinoja keino &NH N PL PTVlist list &-MV V ACT INF1Euroopan eurooppa &A> N SG GENkyky kyky &NH N SG PTVkilpailla kilpailla &-MV V ACT INF1maailmanlaajuisesti maailman#laajuisesti &ADV ADV. . PUNCT
Preesens vai imperfekti? ...... Kilpailukyky kilpailu#kyky &NH N SG NOMtodettiin todeta &+MV V PASS IND PASTolennaiseksi olennainen &A> A SG TRAtekijksi tekij &NH N SG TRApyrittess pyrki &-MV V PASS INF2 INEEli siis tarvittiin melkoisesti lausekontekstia, ett voitiin manuaalisti ptell imperfekti oikeaksi analyysiksi muita vinkkej: ajan ilmaukset joskus tarvitsisi tiet artikkelin esiintymisajankohdan ajallisen tapahtumaympristn miten ksitelty tapahtuma sijoittuu artikkelin julkaisuajankohtaan?
Automaattiset analyysitykalut ...analysaattoreita kehitetn ja testataan (erit. kaupalliset) tyypillisisti suurilla yleiskielisill aineistoilla, jolloin ne luonnollisesti toimivat parhaiten ko. tekstityyppien analyysissanalysaattorit eivt ole koskaan tysin valmiita, erityisesti leksikko ei ole koskaan tysin kattava Jotkut tykalut kyttvt heuristiikkoja (esim. sanojen ptteit) tuntemattomien sanojen joidenkin piirteiden arvaukseen, mik voi olla virheiden lhde kehityksen alkuvaiheessa kuvaukset saattavat olla kielen jonkin osa-alueen kohdalla eptydellisi, jolloin tykalu tekee kyseisen lingvistisen ilmin kohdalla systemaattisesti aina saman virheen
Tuuma vai tuumia?0 1 Tn tm attr:>2 &A> PRON SG ESS2 vuonna vuosi tmp:>6 &NH N SG ESS3 valtio valtio cc:>5 &NH N SG NOM4 ja ja cc:>5 &CC CC5 kaupunki kaupunki subj:>6 &NH N SG NOM6 leikkasivat leikata main:>0 &+MV V ACT IND PAST PL37 orkesterin orkesteri attr:>8 &A> N SG GEN8 budjettia budjetti obj:>6 &NH N SG PTV9 yksiss yksi &NH NUM CARD PL INE &NH PRON PL INE10 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1 . .
Tuuma vai tuumia?0 1 Kaikki kaikki &NH PRON NOM &A> PRON NOM2 kolme kolme &NH NUM CARD SG NOM3 ovat olla main:>0 &+MV V ACT IND PRES PL34 esitutkinnassa esi#tutkinta loc:>5 &NH N SG INE5 kiistneet kiist comp:>3 &-MV V ACT PCP2 PL6 toimineensa toimia obj:>5 &-MV V ACT PCP27 yksiss yksi &NH NUM CARD PL INE &NH PRON PL INE8 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1 . .10 >9
Automaattiset analyysitykalutanalyysin teoreettisen oikeellisuuden ja yksiselitteisyyden aste riippuu tavoiteltavan tehtvn monimutkaisuudestamorfologinen analyysi morfologinen disambiguointi osittaisanalyysi syntaktinen analyysi semanttinen analyysianalysaattorin hydyntmisess on valittava joko tulosten manuaalinen lpikynti tai virheellisyyksien hyvksyminen analyysin laadun tarkastelu tutkittavan ilmin kohdalla tilastollisen otoksen perusteella
Tilastoa automaattisen analyysin oikeellisuudesta/ yksitulkintaisuudesta (517624 sanaa/141202 sanamuotoa)1-selitteisi morfologisia analyysej: 128882 (91% sanamuodoista)2-selitteisi: 94943-selitteisi: 16674-selitteisi: 7115-selitteisi: 3336-selitteisi: 917-selitteisi: 138-selitteisi: 49-selitteisi: 110-selitteisi: 1384089 syntaktisesti analysoitua (74% sanoista)
Morfosyntaktisesti monitulkintaisimman sanan sisltv lause (toinen 10 tulkintaa)Helsingiss Helsinki loc:>2 &NH N SG INEtapahtuva tapahtua attr:>3 &-MV V ACT PCP1 SG NOMperushenkirikos perus#henki#rikos subj:>4 &NH N SG NOMon olla main:>0 &+MV V ACT IND PRES SG3edelleenkin edelleen goa:>4 &ADV ADV -KINpoliisin poliisi attr:>7 &A> N SG GENsuussa suu loc:>4 &NH N SG INElauantaitappona lauantai#tappo copr:>4 &NH N SG ESSkulkeva kulkea attr:>10 &-MV V ACT PCP1 SG NOM &A> A SG NOMsurma surma &NH N SG NOM. . PUNCTtekij tekij cc:>14 &NH N SG NOMja ja cc:>14 &CC CCuhri uhri subj:>15 &NH N SG NOM
Toinen ......tuntevat tuntea main:>11 &+MV V ACT IND PRES PL3toisensa toinen &NH NUM ORD SG NOM &A> NUM ORD SG NOM &NH NUM ORD SG GEN &NH NUM ORD PL NOM &A> NUM ORD PL NOM &NH PRON SG NOM &A> PRON SG NOM &NH PRON SG GEN &NH PRON PL NOM &A> PRON PL NOMtai tai cc:>15 &CC CCovat olla cc:>15 &+MV V ACT IND PRES PL3sukua suku &NH N SG PTVkeskenn keskenns &ADV ADVviina viina subj:>23 &NH N SG NOMon olla &+MV V ACT IND PRES SG3mukana mukana phr:>23 &ADV ADVkuvassa kuva loc:>23 &NH N SG INEja ja cc:>23 &CC CCteko teko subj:>28 &NH N SG NOMtapahtuu tapahtua cc:>23 &+MV V ACT IND PRES SG3pikaistuksissa pikaistus loc:>28 &NH N PL INE
Monitulkintaisimmat sanat: 2-5a=9 n=1 hallituksensa hallitus &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOM &NH A SG TRA &A> A SG TRA &-MV V PASS PCP2 SG TRAa=8 n=1 asuvasi asua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN&A> A SG GEN &NH A PL NOM &A> A PL NOMa=8 n=1 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &-MV V PASS PCP2 PL NOM &NH A SG NOM &A> A SG NOMa=8 n=1 kuuluvansa kuulua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOM
Monitulkintaisimmat sanat: 6-10a=8 n=1 tekevns tehd &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOMa=7 n=11 tullut tultu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOMa=7 n=6 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOMa=7 n=3 sinns sinns &ADV ADV &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOMa=7 n=2 parinkymmenen pari#kymment &NH NUM CARD SG GEN &A> NUM CARD SG GEN &QN> NUM CARD SG GEN&NH NUM CARD SG NOM &QN> NUM CARD SG NOM &NH N SG GEN &A> N SG GEN
Monitulkintaisimmat perusmuodot (2- tai useampitulkintaisten taivutusmuotojen lukumr) 69toinen 65olla 63yksi 48tulla 43seurata 43nuori 39se 38hyv 36vastata 35toimia 33saada 31tehd 31suuri
30aika 28tm 28kaikki 27muu 27alkaa 25el 23joka 22itse 21vanha 21nhd 90voida 90el 89ottaa
Yleisimmt monitulkintaiset morfologiset analyysit 2220&NH N SG GEN&A> N SG GEN 381&NH A SG NOM &A> A SG NOM 325&NH N PL GEN &A> N PL GEN 307&NH A SG GEN &A> A SG GEN 289&NH NUM CARD &A> NUM CARD &QN> NUM CARD 276&-MV V ACT INF1&+MV V ACT IND PRES SG3 219&NH A PL GEN &A> A PL GEN 217&NH A SG PTV &A> A SG PTV 194&NH A PL PTV &A> A PL PTV 178&-MV V ACT PCP1 SG NOM &A> A SG NOM 172&-MV V ACT PCP1 PL NOM &+MV V ACT IND PRES PL3 158&NH A PL NOM &A> A PL NOM 156&-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG&-MV V ACT PCP2 SG&NH A SG NOM &A> A SG NOM 155 &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG&-MV V ACT PCP2 SG &NH A SG NOM 151&NH A SG ESS&A> A SG ESS 147&NH N SG NOM&NH N PL NOM 133&-MV V ACT INF1&-MV V PASS IND PRES
Mit tst opimme?Valmiisiin annotointeihin ei saa luottaa sokeasti, vaan on pistokokein varmistettava tehdyn annotoinnin perusteellisuus ja systemaattisuusMitn ei kannata hvitt aineistoa esi- ja jlkiksiteltess, siis poistetun tiedon palauttaminen jlkikteen voi olla vhintnkin tylstAutomaattisiin analyysitykaluihin ei saa luottaa sokeasti, vaan on selvitettv itselleen ne periaatteet mink mukaan tykalu toimii ja pistokokein tarkistettava analyysin oikeellisuus ja luotettavuus
Kurssin harjoitustykansainvlisess, referoiduissa akateemisiss julkaisuissa julkaistun korpustutkimukseen perustuvan tieteellisen artikkelin kriittinen arvio kurssilla esitettyjen nkkulmien mukaanpienimuotoisen korpuspohjaisen tutkimuksen tekeminen kurssilla esitettyjen periaatteiden mukaanmahdollisten vaihtoehtojen pohdiskelu ja tehtyjen valintojen perustelu tai kriittinen arviointipalautus ma 5.5.2003
Ctl310corpKorpukset ja kieliAntti ArppeLuento 2.4.Korpusten tilastollinen ksittelyKorpuksen riittv kokoMit korpuksista voidaan laskea?Parhaan tunnusluvun metsstys
Otannan eli tutkimuskorpuksen suuruuden rajaamisen periaatteitaotoksen on oltava riittvn suuri, jotta tulokset ovat (tilastollisesti) luotettaviaotoksen ei kannata olla liian suuri, jottei tule tehneeksi turhaa tyt, esim. automaattisen analyysin tarkistamisessa ja korjaamisessa tai omien lisluokittelujen tekemisessotoksen kokoon vaikuttavat tutkittavan ilmin kategorioiden (sanaluokat, yksittiset lekseemit, yksittiset taivutusmuodot, morfeemit, tms.) mr ja kunkin kategorian esiintymisfrekvenssit
Rajaamisen periaatteitaotos on riittvn suuri, saavutetaan jtymis/saturaatiopiste uusien tapauksien mr ei en oleellisesti lisnny otosta kasvettaessaotos on riittvn suuri, kun tutkittavien ilmiiden keskiniset suhteet eivt en merkittvsti muutu otoksen kasvun myt kasvavilla lukumrill ei ole en (tilastollisesti) merkittv vaikutusta kytettviin tilastollisiin tunnuslukuihinyleisten ilmiiden kohdalla saturaatiopiste saavutetaan pienemmll korpuksella kuin harvinaisempien ilmiiden kohdalla harvinaisempien ilmiiden tarkastelua varten ei kenties koskaan ole kasattavissa riittvn suurta korpusta
Otoksen kasvun vaikutuksia kytnnsspintamuotojen mrn kehitys suomenkielisess sanomalehtitekstiss perusmuotojen mrn kehitys verbien taivutusmuotojen mrn kehitys ajatella-verbien taivutusmuotojen mrn kehitys pohtia/mietti-verbien taivutusmuotojen mrn kehitys
Pinta- ja perusmuotojen mrn kehitys
Surface and base forms
2388513042
4057921003
5489927664
6706633112
7874638253
9044143590
10133348580
11090952678
12012956635
12961760798
13882464801
14785068752
15601172329
16446075926
17289979732
18052083043
18846386629
19588089834
20381493174
21126196362
21850499397
225558102356
233493105773
240495108777
246741111370
253188114035
259825116771
266482119435
272520121922
278466124372
284689126888
290345129071
295823131259
301703133649
307682136237
313634138624
320091141532
325661143854
330744145867
336149148155
341536150348
347051152502
352078154544
357138156598
362559158852
367816160994
372950163207
377878165188
383083167273
388076169276
393184171256
397966173217
402899175203
407706177176
412374179036
416953180922
422596183443
427817185696
433287188141
438421190236
443691192441
448995194526
454141196618
459135198580
464043200592
469073202644
473715204503
478256206449
483053208491
487544210367
492150212226
496777214169
501696216277
506099218123
510935220184
515733222175
520420224106
524782225997
529247227914
533709229727
537993231581
542704233616
547034235502
551408237348
556065239354
560918241282
565366243248
570134245241
574467247161
579193249152
583946251329
588316253146
593014255145
597305256939
601656258738
605818260472
610177262326
614446264134
618687265905
622299267415
625786268863
628857270106
630859270884
633296271838
635650272684
638493273700
644215276223
650081278862
655904281292
661418283724
667008286170
672340288406
677890290843
683337293117
688638295341
694140297811
699681300264
704758302397
709609304472
714992306847
720152309057
725041311142
730079313480
735318315589
740402317765
745325319822
750592322082
755359324201
760386326357
765308328315
770789330800
776903333695
783334336689
789127339814
796511344433
802921348228
808941351622
814312354267
819068356664
824228359116
829561361774
834452364058
838841366239
842661367962
847857370410
853338373027
858401375367
863318377630
868646380389
873738382790
878497385225
883326387480
888234389676
893472392023
898638394482
902750396338
905846398011
910376399952
Surface forms
Base forms
Corpus size
Forms
Growth of surface and base forms
Sheet1
1000002388523885100%23%1000001304213042100%13%
200000405791669441%16%20000021003796137%7%
300000548991432026%14%30000027664666124%6%
400000670661216718%12%40000033112544816%5%
500000787461168014%11%50000038253514113%5%
600000904411169512%11%60000043590533712%5%
7000001013331089210%10%70000048580499010%4%
80000011090995768%9%8000005267840987%4%
90000012012992207%9%9000005663539576%3%
100000012961794887%9%10000006079841636%4%
110000013882492076%9%11000006480140036%4%
120000014785090266%9%12000006875239515%3%
130000015601181615%8%13000007232935774%3%
140000016446084495%8%14000007592635974%3%
150000017289984394%8%15000007973238064%3%
160000018052076214%7%16000008304333113%3%
170000018846379434%7%17000008662935864%3%
180000019588074173%7%18000008983432053%3%
190000020381479343%7%19000009317433403%3%
200000021126174473%7%20000009636231883%3%
210000021850472433%7%21000009939730353%3%
220000022555870543%7%220000010235629592%2%
230000023349379353%7%230000010577334173%3%
240000024049570022%7%240000010877730042%3%
250000024674162462%6%250000011137025932%2%
260000025318864472%6%260000011403526652%2%
270000025982566372%6%270000011677127362%2%
280000026648266572%6%280000011943526642%2%
290000027252060382%6%290000012192224872%2%
300000027846659462%5%300000012437224501%2%
310000028468962232%6%310000012688825161%2%
320000029034556561%5%320000012907121831%2%
330000029582354781%5%330000013125921881%2%
340000030170358801%5%340000013364923901%2%
350000030768259791%5%350000013623725881%2%
360000031363459521%5%360000013862423871%2%
370000032009164572%6%370000014153229082%2%
380000032566155701%5%380000014385423221%2%
390000033074450831%5%390000014586720131%2%
400000033614954051%5%400000014815522881%2%
410000034153653871%5%410000015034821931%2%
420000034705155151%5%420000015250221541%2%
430000035207850271%5%430000015454420421%2%
440000035713850601%5%440000015659820541%2%
450000036255954211%5%450000015885222541%2%
460000036781652571%5%460000016099421421%2%
470000037295051341%5%470000016320722131%2%
480000037787849281%4%480000016518819811%1%
490000038308352051%5%490000016727320851%2%
500000038807649931%4%500000016927620031%2%
510000039318451081%5%510000017125619801%1%
520000039796647821%4%520000017321719611%1%
530000040289949331%4%530000017520319861%1%
540000040770648071%4%540000017717619731%1%
550000041237446681%4%550000017903618601%1%
560000041695345791%4%560000018092218861%1%
570000042259656431%5%570000018344325211%2%
580000042781752211%5%580000018569622531%2%
590000043328754701%5%590000018814124451%2%
600000043842151341%5%600000019023620951%2%
610000044369152701%5%610000019244122051%2%
620000044899553041%5%620000019452620851%2%
630000045414151461%5%630000019661820921%2%
640000045913549941%4%640000019858019620%1%
650000046404349081%4%650000020059220121%2%
660000046907350301%5%660000020264420521%2%
670000047371546420%4%670000020450318590%1%
680000047825645410%4%680000020644919460%1%
690000048305347970%4%690000020849120420%2%
700000048754444910%4%700000021036718760%1%
710000049215046060%4%710000021222618590%1%
720000049677746270%4%720000021416919430%1%
730000050169649190%4%730000021627721080%2%
740000050609944030%4%740000021812318460%1%
750000051093548360%4%750000022018420610%2%
760000051573347980%4%760000022217519910%1%
770000052042046870%4%770000022410619310%1%
780000052478243620%4%780000022599718910%1%
790000052924744650%4%790000022791419170%1%
800000053370944620%4%800000022972718130%1%
810000053799342840%4%810000023158118540%1%
820000054270447110%4%820000023361620350%2%
830000054703443300%4%830000023550218860%1%
840000055140843740%4%840000023734818460%1%
850000055606546570%4%850000023935420060%2%
860000056091848530%4%860000024128219280%1%
870000056536644480%4%870000024324819660%1%
880000057013447680%4%880000024524119930%1%
890000057446743330%4%890000024716119200%1%
900000057919347260%4%900000024915219910%1%
910000058394647530%4%910000025132921770%2%
920000058831643700%4%920000025314618170%1%
930000059301446980%4%930000025514519990%1%
940000059730542910%4%940000025693917940%1%
950000060165643510%4%950000025873817990%1%
960000060581841620%4%960000026047217340%1%
970000061017743590%4%970000026232618540%1%
980000061444642690%4%980000026413418080%1%
990000061868742410%4%990000026590517710%1%
1000000062229936120%3%1000000026741515100%1%
1010000062578634870%3%1010000026886314480%1%
1020000062885730710%3%1020000027010612430%1%
1030000063085920020%2%103000002708847780%0%
1040000063329624370%2%104000002718389540%0%
1050000063565023540%2%105000002726848460%0%
1060000063849328430%2%1060000027370010160%1%
1070000064421557220%5%1070000027622325230%2%
1080000065008158660%5%1080000027886226390%2%
1090000065590458230%5%1090000028129224300%2%
1100000066141855140%5%1100000028372424320%2%
1110000066700855900%5%1110000028617024460%2%
1120000067234053320%5%1120000028840622360%2%
1130000067789055500%5%1130000029084324370%2%
1140000068333754470%5%1140000029311722740%2%
1150000068863853010%5%1150000029534122240%2%
1160000069414055020%5%1160000029781124700%2%
1170000069968155410%5%1170000030026424530%2%
1180000070475850770%5%1180000030239721330%2%
1190000070960948510%4%1190000030447220750%2%
1200000071499253830%5%1200000030684723750%2%
1210000072015251600%5%1210000030905722100%2%
1220000072504148890%4%1220000031114220850%2%
1230000073007950380%5%1230000031348023380%2%
1240000073531852390%5%1240000031558921090%2%
1250000074040250840%5%1250000031776521760%2%
1260000074532549230%4%1260000031982220570%2%
1270000075059252670%5%1270000032208222600%2%
1280000075535947670%4%1280000032420121190%2%
1290000076038650270%5%1290000032635721560%2%
1300000076530849220%4%1300000032831519580%1%
1310000077078954810%5%1310000033080024850%2%
1320000077690361140%6%1320000033369528950%2%
1330000078333464310%6%1330000033668929940%2%
1340000078912757930%5%1340000033981431250%3%
1350000079651173840%7%1350000034443346191%4%
1360000080292164100%6%1360000034822837951%3%
1370000080894160200%6%1370000035162233940%3%
1380000081431253710%5%1380000035426726450%2%
1390000081906847560%4%1390000035666423970%2%
1400000082422851600%5%1400000035911624520%2%
1410000082956153330%5%1410000036177426580%2%
1420000083445248910%4%1420000036405822840%2%
1430000083884143890%4%1430000036623921810%2%
1440000084266138200%3%1440000036796217230%1%
1450000084785751960%5%1450000037041024480%2%
1460000085333854810%5%1460000037302726170%2%
1470000085840150630%5%1470000037536723400%2%
1480000086331849170%4%1480000037763022630%2%
1490000086864653280%5%1490000038038927590%2%
1500000087373850920%5%1500000038279024010%2%
1510000087849747590%4%1510000038522524350%2%
1520000088332648290%4%1520000038748022550%2%
1530000088823449080%4%1530000038967621960%2%
1540000089347252380%5%1540000039202323470%2%
1550000089863851660%5%1550000039448224590%2%
1560000090275041120%4%1560000039633818560%1%
1570000090584630960%3%1570000039801116730%1%
1580000091037645300%4%1580000039995219410%1%
Sheet2
Sheet3
Verbimuotojen mrn kehitys
Surface and base forms
2388513042
4057921003
5489927664
6706633112
7874638253
9044143590
10133348580
11090952678
12012956635
12961760798
13882464801
14785068752
15601172329
16446075926
17289979732
18052083043
18846386629
19588089834
20381493174
21126196362
21850499397
225558102356
233493105773
240495108777
246741111370
253188114035
259825116771
266482119435
272520121922
278466124372
284689126888
290345129071
295823131259
301703133649
307682136237
313634138624
320091141532
325661143854
330744145867
336149148155
341536150348
347051152502
352078154544
357138156598
362559158852
367816160994
372950163207
377878165188
383083167273
388076169276
393184171256
397966173217
402899175203
407706177176
412374179036
416953180922
422596183443
427817185696
433287188141
438421190236
443691192441
448995194526
454141196618
459135198580
464043200592
469073202644
473715204503
478256206449
483053208491
487544210367
492150212226
496777214169
501696216277
506099218123
510935220184
515733222175
520420224106
524782225997
529247227914
533709229727
537993231581
542704233616
547034235502
551408237348
556065239354
560918241282
565366243248
570134245241
574467247161
579193249152
583946251329
588316253146
593014255145
597305256939
601656258738
605818260472
610177262326
614446264134
618687265905
622299267415
625786268863
628857270106
630859270884
633296271838
635650272684
638493273700
644215276223
650081278862
655904281292
661418283724
667008286170
672340288406
677890290843
683337293117
688638295341
694140297811
699681300264
704758302397
709609304472
714992306847
720152309057
725041311142
730079313480
735318315589
740402317765
745325319822
750592322082
755359324201
760386326357
765308328315
770789330800
776903333695
783334336689
789127339814
796511344433
802921348228
808941351622
814312354267
819068356664
824228359116
829561361774
834452364058
838841366239
842661367962
847857370410
853338373027
858401375367
863318377630
868646380389
873738382790
878497385225
883326387480
888234389676
893472392023
898638394482
902750396338
905846398011
910376399952
Surface forms
Base forms
Corpus size
Forms
Growth of surface and base forms
Verb forms
3292212
3732615
4073521
4294122
4514425
4684828
4794929
4965230
5155230
5275630
5366031
5416334
5476636
5566636
5597039
5637241
5677241
5727442
5797444
5827444
5857445
5877646
5937949
24000007949
25000008050
26000008151
27000008151
28000008351
29000008551
30000008651
31000008651
32000008752
33000008853
34000008953
35000009153
36000009355
37000009356
38000009556
39000009656
40000009656
41000009757
42000009858
43000009858
44000009859
45000009959
460000010060
470000010060
480000010060
490000010161
500000010262
510000010463
520000010463
530000010563
540000010663
550000010763
560000010963
570000011164
580000011164
590000011264
600000011466
610000011467
620000011467
630000011669
640000011669
650000011669
660000011770
670000011770
680000011770
690000011870
700000011970
710000011970
720000012170
730000012170
740000012171
750000012171
760000012271
770000012271
780000012372
790000012473
800000012474
810000012474
820000012475
830000012575
840000012575
850000012675
860000012677
870000012677
880000012677
890000012777
900000012777
910000012877
920000012878
930000013080
940000013080
950000013081
960000013181
970000013481
980000013481
990000013581
1000000013681
1010000013983
1020000013983
1030000014083
1040000014284
1050000014285
1060000014285
1070000014487
1080000014588
1090000014689
1100000014790
1110000014790
1120000014890
1130000014990
1140000014990
1150000014990
1160000014990
1170000015090
1180000015190
1190000015190
1200000015390
1210000015391
1220000015392
1230000015492
1240000015492
1250000015492
1260000015492
Verb forms
Thinking-verb forms
Pohtia/Mietti forms
Corpus size
Forms
Verb form growth
Sheet1
1000002388523885100%23%1000001304213042100%13%100000329329100%0%1000002222100%0%1000001212100%0%
200000405791669441%16%20000021003796137%7%2000003734411%0%20000026415%0%20000015320%0%
300000548991432026%14%30000027664666124%6%300000407348%0%30000035925%0%30000021628%0%
400000670661216718%12%40000033112544816%5%400000429225%0%40000041614%0%4000002214%0%
500000787461168014%11%50000038253514113%5%500000451224%0%5000004436%0%50000025312%0%
600000904411169512%11%60000043590533712%5%600000468173%0%6000004848%0%60000028310%0%
7000001013331089210%10%70000048580499010%4%700000479112%0%7000004912%0%7000002913%0%
80000011090995768%9%8000005267840987%4%800000496173%0%8000005235%0%8000003013%0%
90000012012992207%9%9000005663539576%3%900000515193%0%9000005200%0%9000003000%0%
100000012961794887%9%10000006079841636%4%1000000527122%0%10000005647%0%10000003000%0%
110000013882492076%9%11000006480140036%4%110000053691%0%11000006046%0%11000003113%0%
120000014785090266%9%12000006875239515%3%120000054150%0%12000006334%0%12000003438%0%
130000015601181615%8%13000007232935774%3%130000054761%0%13000006634%0%13000003625%0%
140000016446084495%8%14000007592635974%3%140000055691%0%14000006600%0%14000003600%0%
150000017289984394%8%15000007973238064%3%150000055930%0%15000007045%0%15000003937%0%
160000018052076214%7%16000008304333113%3%160000056340%0%16000007222%0%16000004124%0%
170000018846379434%7%17000008662935864%3%170000056740%0%17000007200%0%17000004100%0%
180000019588074173%7%18000008983432053%3%180000057250%0%18000007422%0%18000004212%0%
190000020381479343%7%19000009317433403%3%190000057971%0%19000007400%0%19000004424%0%
200000021126174473%7%20000009636231883%3%200000058230%0%20000007400%0%20000004400%0%
210000021850472433%7%21000009939730353%3%210000058530%0%21000007400%0%21000004512%0%
220000022555870543%7%220000010235629592%2%220000058720%0%22000007622%0%22000004612%0%
230000023349379353%7%230000010577334173%3%230000059361%0%23000007933%0%23000004936%0%
240000024049570022%7%240000010877730042%3%24000007900%0%24000004900%0%
250000024674162462%6%250000011137025932%2%25000008011%0%25000005012%0%
260000025318864472%6%260000011403526652%2%26000008111%0%26000005111%0%
270000025982566372%6%270000011677127362%2%27000008100%0%27000005100%0%
280000026648266572%6%280000011943526642%2%28000008322%0%28000005100%0%
290000027252060382%6%290000012192224872%2%29000008522%0%29000005100%0%
300000027846659462%5%300000012437224501%2%30000008611%0%30000005100%0%
310000028468962232%6%310000012688825161%2%31000008600%0%31000005100%0%
320000029034556561%5%320000012907121831%2%32000008711%0%32000005211%0%
330000029582354781%5%330000013125921881%2%33000008811%0%33000005311%0%
340000030170358801%5%340000013364923901%2%34000008911%0%34000005300%0%
350000030768259791%5%350000013623725881%2%35000009122%0%35000005300%0%
360000031363459521%5%360000013862423871%2%36000009322%0%36000005523%0%
370000032009164572%6%370000014153229082%2%37000009300%0%37000005611%0%
380000032566155701%5%380000014385423221%2%38000009522%0%38000005600%0%
390000033074450831%5%390000014586720131%2%39000009611%0%39000005600%0%
400000033614954051%5%400000014815522881%2%40000009600%0%40000005600%0%
410000034153653871%5%410000015034821931%2%41000009711%0%41000005711%0%
420000034705155151%5%420000015250221541%2%42000009811%0%42000005811%0%
430000035207850271%5%430000015454420421%2%43000009800%0%43000005800%0%
440000035713850601%5%440000015659820541%2%44000009800%0%44000005911%0%
450000036255954211%5%450000015885222541%2%45000009911%0%45000005900%0%
460000036781652571%5%460000016099421421%2%460000010011%0%46000006011%0%
470000037295051341%5%470000016320722131%2%470000010000%0%47000006000%0%
480000037787849281%4%480000016518819811%1%480000010000%0%48000006000%0%
490000038308352051%5%490000016727320851%2%490000010110%0%49000006111%0%
500000038807649931%4%500000016927620031%2%500000010210%0%50000006211%0%
510000039318451081%5%510000017125619801%1%510000010421%0%51000006311%0%
520000039796647821%4%520000017321719611%1%520000010400%0%52000006300%0%
530000040289949331%4%530000017520319861%1%530000010510%0%53000006300%0%
540000040770648071%4%540000017717619731%1%540000010610%0%54000006300%0%
550000041237446681%4%550000017903618601%1%550000010710%0%55000006300%0%
560000041695345791%4%560000018092218861%1%560000010921%0%56000006300%0%
570000042259656431%5%570000018344325211%2%570000011121%0%57000006411%0%
580000042781752211%5%580000018569622531%2%580000011100%0%58000006400%0%
590000043328754701%5%590000018814124451%2%590000011210%0%59000006400%0%
600000043842151341%5%600000019023620951%2%600000011421%0%60000006623%0%
610000044369152701%5%610000019244122051%2%610000011400%0%61000006711%0%
620000044899553041%5%620000019452620851%2%620000011400%0%62000006700%0%
630000045414151461%5%630000019661820921%2%630000011621%0%63000006922%0%
640000045913549941%4%640000019858019620%1%640000011600%0%64000006900%0%
650000046404349081%4%650000020059220121%2%650000011600%0%65000006900%0%
660000046907350301%5%660000020264420521%2%660000011710%0%66000007011%0%
670000047371546420%4%670000020450318590%1%670000011700%0%67000007000%0%
680000047825645410%4%680000020644919460%1%680000011700%0%68000007000%0%
690000048305347970%4%690000020849120420%2%690000011810%0%69000007000%0%
700000048754444910%4%700000021036718760%1%700000011910%0%70000007000%0%
710000049215046060%4%710000021222618590%1%710000011900%0%71000007000%0%
720000049677746270%4%720000021416919430%1%720000012121%0%72000007000%0%
730000050169649190%4%730000021627721080%2%730000012100%0%73000007000%0%
740000050609944030%4%740000021812318460%1%740000012100%0%74000007111%0%
750000051093548360%4%750000022018420610%2%750000012100%0%75000007100%0%
760000051573347980%4%760000022217519910%1%760000012210%0%76000007100%0%
770000052042046870%4%770000022410619310%1%770000012200%0%77000007100%0%
780000052478243620%4%780000022599718910%1%780000012310%0%78000007211%0%
790000052924744650%4%790000022791419170%1%790000012410%0%79000007311%0%
800000053370944620%4%800000022972718130%1%800000012400%0%80000007411%0%
810000053799342840%4%810000023158118540%1%810000012400%0%81000007400%0%
820000054270447110%4%820000023361620350%2%820000012400%0%82000007511%0%
830000054703443300%4%830000023550218860%1%830000012510%0%83000007500%0%
840000055140843740%4%840000023734818460%1%840000012500%0%84000007500%0%
850000055606546570%4%850000023935420060%2%850000012610%0%85000007500%0%
860000056091848530%4%860000024128219280%1%860000012600%0%86000007722%0%
870000056536644480%4%870000024324819660%1%870000012600%0%87000007700%0%
880000057013447680%4%880000024524119930%1%880000012600%0%88000007700%0%
890000057446743330%4%890000024716119200%1%890000012710%0%89000007700%0%
900000057919347260%4%900000024915219910%1%900000012700%0%90000007700%0%
910000058394647530%4%910000025132921770%2%910000012810%0%91000007700%0%
920000058831643700%4%920000025314618170%1%920000012800%0%92000007811%0%
930000059301446980%4%930000025514519990%1%930000013021%0%93000008022%0%
940000059730542910%4%940000025693917940%1%940000013000%0%94000008000%0%
950000060165643510%4%950000025873817990%1%950000013000%0%95000008111%0%
960000060581841620%4%960000026047217340%1%960000013110%0%96000008100%0%
970000061017743590%4%970000026232618540%1%970000013432%0%97000008100%0%
980000061444642690%4%980000026413418080%1%980000013400%0%98000008100%0%
990000061868742410%4%990000026590517710%1%990000013510%0%99000008100%0%
1000000062229936120%3%1000000026741515100%1%1000000013610%0%100000008100%0%
1010000062578634870%3%1010000026886314480%1%1010000013932%0%101000008322%0%
1020000062885730710%3%1020000027010612430%1%1020000013900%0%102000008300%0%
1030000063085920020%2%103000002708847780%0%1030000014010%0%103000008300%0%
1040000063329624370%2%104000002718389540%0%1040000014221%0%104000008411%0%
1050000063565023540%2%105000002726848460%0%1050000014200%0%105000008511%0%
1060000063849328430%2%1060000027370010160%1%1060000014200%0%106000008500%0%
1070000064421557220%5%1070000027622325230%2%1070000014421%0%107000008722%0%
1080000065008158660%5%1080000027886226390%2%1080000014510%0%108000008811%0%
1090000065590458230%5%1090000028129224300%2%1090000014610%0%109000008911%0%
1100000066141855140%5%1100000028372424320%2%1100000014710%0%110000009011%0%
1110000066700855900%5%1110000028617024460%2%1110000014700%0%111000009000%0%
1120000067234053320%5%1120000028840622360%2%1120000014810%0%112000009000%0%
1130000067789055500%5%1130000029084324370%2%1130000014910%0%113000009000%0%
1140000068333754470%5%1140000029311722740%2%1140000014900%0%114000009000%0%
1150000068863853010%5%1150000029534122240%2%1150000014900%0%115000009000%0%
1160000069414055020%5%1160000029781124700%2%1160000014900%0%116000009000%0%
1170000069968155410%5%1170000030026424530%2%1170000015010%0%117000009000%0%
1180000070475850770%5%1180000030239721330%2%1180000015110%0%118000009000%0%
1190000070960948510%4%1190000030447220750%2%1190000015100%0%119000009000%0%
1200000071499253830%5%1200000030684723750%2%1200000015321%0%120000009000%0%
1210000072015251600%5%1210000030905722100%2%1210000015300%0%121000009111%0%
1220000072504148890%4%1220000031114220850%2%1220000015300%0%122000009211%0%
1230000073007950380%5%1230000031348023380%2%1230000015410%0%123000009200%0%
1240000073531852390%5%1240000031558921090%2%1240000015400%0%124000009200%0%
1250000074040250840%5%1250000031776521760%2%1250000015400%0%125000009200%0%
1260000074532549230%4%1260000031982220570%2%1260000015400%0%126000009200%0%
1270000075059252670%5%1270000032208222600%2%
1280000075535947670%4%1280000032420121190%2%
1290000076038650270%5%1290000032635721560%2%
1300000076530849220%4%1300000032831519580%1%
1310000077078954810%5%1310000033080024850%2%
1320000077690361140%6%1320000033369528950%2%
1330000078333464310%6%1330000033668929940%2%
1340000078912757930%5%1340000033981431250%3%
1350000079651173840%7%1350000034443346191%4%
1360000080292164100%6%1360000034822837951%3%
1370000080894160200%6%1370000035162233940%3%
1380000081431253710%5%1380000035426726450%2%
1390000081906847560%4%1390000035666423970%2%
1400000082422851600%5%1400000035911624520%2%
1410000082956153330%5%1410000036177426580%2%
1420000083445248910%4%1420000036405822840%2%
1430000083884143890%4%1430000036623921810%2%
1440000084266138200%3%1440000036796217230%1%
1450000084785751960%5%1450000037041024480%2%
1460000085333854810%5%1460000037302726170%2%
1470000085840150630%5%1470000037536723400%2%
1480000086331849170%4%1480000037763022630%2%
1490000086864653280%5%1490000038038927590%2%
1500000087373850920%5%1500000038279024010%2%
1510000087849747590%4%1510000038522524350%2%
1520000088332648290%4%1520000038748022550%2%
1530000088823449080%4%1530000038967621960%2%
1540000089347252380%5%1540000039202323470%2%
1550000089863851660%5%1550000039448224590%2%
1560000090275041120%4%1560000039633818560%1%
1570000090584630960%3%1570000039801116730%1%
1580000091037645300%4%1580000039995219410%1%
Sheet2
Sheet3
Otoksen mrn vaikutus tilastolliseen tulkintaanotoksen koon kasvaessa havaittavien lingvististen ilmiiden mr ja niiden frekvenssi kasvaa Frekvenssien kasvaessa ilmiiden tilastollisen merkitsevyyden mahdollisuus kasvaa Mutta tilastollinen merkitsevyys voidaan saavuttaa pienemmill suhde-eroilla (22/23 vs. 932/1562 ovat tilastollisesti yht merkittvi) Mahdollisesti/todennkisesti samat pienemmss korpuksessa tilastollisesti merkitseviksi havaittavat ilmit ovat sit mys suuremmissa korpuksissa frekvenssit mihin ne perustuvat ovat vain suuremmatpienemmss otoksessa mahdollisuus tarkempaan analyysiin ja perusteellisempaan virheiden tarkistamiseenOman tutkimuksen kaksi korpusta: 855 vs. 4545 tapausta tarkistettavien analyysien edellyttmn tymrn kasvu
Oma tutkimus: pienempi korpus (2 Mw)
#
t-score
ntag(verb)/
ntag(total)
Verb
Combination of tags/features
1
2.6544151
77/112
mietti
INF1 ~ mietti to ponder
( &-MV:V:ACT:INF1
~ mietti to ponder
2
2.3389739
22/23
mietti
IND:SG1
3
2.3003402
199/320
pohtia
SG3
4
2.2804408
21/22
mietti
SG1
5
2.2720630
198/319
pohtia
IND:SG3
6
2.2526106
32/37
pohtia
META-DE_foreign
7
2.1700721
201/355
mietti
&-MV
8
2.1004193
145/230
pohtia
PRES:SG3
( &+MV:V:ACT:IND:PRES:SG3
~ pohtii he ponders
9
2.0711558
21/24
mietti
META-BY_aaa
10
2.0627680
30/39
mietti
&-MV:META-DE_sport
11
2.0157633
15/15
mietti
&+MV:PAST:SG1
( &+MV:V:ACT:IND:PAST:SG1
~ mietin I pondered
Pienempi korpus...
12
2.0103638
203/335
pohtia
&+MV:PRES
13
2.0025643
204/337
pohtia
IND:PRES
14
1.9871152
206/341
pohtia
PRES
15
1.9619883
16/17
mietti
SG1:META-BY_unspec
16
1.9544431
286/486
pohtia
&+MV:IND
17
1.9242580
24/28
pohtia
ACT:META-DE_foreign
18
1.9121518
288/491
pohtia
IND
19
1.8786721
116/184
pohtia
SG3:META-BY_unspec
20
1.8690776
18/21
mietti
ACT:META-BY_aaa
21
1.8192520
14/15
mietti
PRES:META-BY_aaa
22
1.8090504
290/498
pohtia
&+MV
23
1.8074797
26/35
mietti
&-MV:ACT:META-DE_sport
24
1.7435752
13/14
mietti
&+MV:PRES:META-BY_aaa
( &+MV:V:ACT:IND:PRES:SG3:META:BY_aaa
~ miettii he ponders
25
1.6216452
165/277
pohtia
&+MV:ACT:PRES
26
1.6128154
61/93
pohtia
&+MV:PASS:IND
27
1.5904283
11/11
pohtia
IND:META-BY_bbb
28
1.5884516
15/17
pohtia
PRES:META-DE_foreign
29
1.5816121
11/12
mietti
ACT:SG:META-DE_sport
30
1.5626323
20/25
pohtia
META-BY_bbb
31
1.5614035
9/9
mietti
META-BY_ccc
32
1.5614035
9/9
mietti
META-BY_ddd
Oma tutkimus: suurempi korpus
#
t-score
ntag(verb)/
ntag(total)
Verb
Combination of tags/features
3
4.65436111
341/481
pohtia
PASS:IND
7
4.30643067
1474/2468
pohtia
&+MV
9
3.42270008
173/242
pohtia
IND:PL3
10
3.39827308
932/1562
pohtia
SG3
11
3.38888039
111/142
pohtia
PASS:PAST
&+MV:V:PASS:IND:PAST
( pohdittiin X was pondered
12
3.37272932
924/1551
pohtia
IND:SG3
13
3.35194627
178/252
pohtia
PL3
14
3.29908324
224/330
pohtia
PASS:PRES
15
3.23807959
220/326
pohtia
&+MV:PASS: PRES
&+MV:V:PASS:IND:PRES
( pohditaan X is pondered
16
2.87031644
289/453
pohtia
PAST:SG3
18
2.53231288
122/178
pohtia
PRES:PL3
&+MV:V:ACT:IND:PRES:PL3
( pohtivat they ponder
20
2.38941082
51/64
pohtia
PAST:PL3
&+MV:V:ACT:IND:PAST:PL3
( pohtivat they pondered
21
2.24091027
51/66
pohtia
ACT:PCP1:SG
23
2.13260209
635/1097
pohtia
PRES:SG3
&+MV:V:ACT:IND:PRES:SG3
( pohtii he ponders
Suurempi korpus (16 Mw) ...
#
t-score
ntag(verb)/
ntag(total)
Verb
Combination of tags/features
1
5.02810160
417/670
mietti
INF1
&-MV:V:ACT:INF1
( mietti to ponder
2
4.90857618
1141/2076
mietti
&-MV
4
4.60405240
88/96
mietti
SG1
8
3.66672617
53/56
mietti
PAST:SG1
&+MV:V:ACT:IND:PAST:SG1
( mietin I pondered
17
2.79006234
36/41
mietti
PRES:SG1
&+MV:V:ACT:IND:PRES:SG1
( mietin I ponder
19
2.39208299
330/610
mietti
INF3
22
2.23804303
71/111
mietti
PASS:PCP1
24
2.05325910
23/28
mietti
IMP
Yhteneviset ilmit molemmissa korpuksissamiettiI infinitiivi (77/112) vs. (417/670)yks. 1. persoona (22/23) vs. (88/96)yks. 1. persoona JA imperfekti vs. (15/15) (53/56)
pohtiayks. 3. persoona (199/320) vs. (932/1562)preesens JA yks. 3. persoonaKorpuksen mrn kasvattaminen ei niden ilmiiden kohdalla vaikuttanut keskinisiin suhteisiin ja tilastolliseen merkitsevyyteen
Yksityiskohtaisemmat ilmit pienemmss korpuksessamiettiI infinitiivi (77/112)yks. 1. persoona (22/23)toimittajat aaa, bbb ja cccurheiluosastoyks. 1. persoona JA imperfekti
pohtiayks. 3. persoona (199/320)ulkomaanosastopreesens JA yks. 3. persoonapreesenstoimittaja bbbNm tiedot olivat saatavissa perusteellisemman analyysin johdosta
Havaitut uudet ilmit laajemmassa korpuksessamiettiI infinitiivi (417/670)yks. 1. persoona (88/96)yks. 1. persoona JA imperfekti (53/56)III infinitiivipassiivi ja 1. partisiippiimperatiivi (23/28 )
pohtiapassiivi JA indikatiivi (341/481)mon. 3. persoona JA indikatiivi (1474/2468)yks. 3. persoona (932/1562)passiivi JA imperfekti (111/142)yks. 3. persoona JA indikatiivi (924/1551)mon. 3. persoona (178/252)Nm ilmit nousivat tilastollisesti merkittvin esille korpuksen kasvattamisen johdosta
Suhteiden ja merkitsevyyden vertailua kahden erikokoisen korpuksen vlill
Sheet1
t-score (S)t-score (L)Proportions (S)Proportions (L)Ratio L/SVerbCombination of tags/features
2.65445.028177/112417/6700.6880.6220.905mietti
2.30033.3983199/320932/15620.6220.5970.959pohtiaSG3
2.28044.604121/2288/960.9550.9170.960miettiSG1
2.27213.3727198/319924/15510.6210.5960.960pohtiaIND:SG3
2.10042.1326145/230635/10970.6300.5790.918pohtia
2.01583.666715/1553/561.0000.9460.946mietti
Sheet2
Sheet3
Mit siis korpuksista voidaan laskea?frekvenssej eli lukumri suuruusjrjestysyksittinen ilmiyksittisen verbin taivutusmuotojen frekvenssitverbijoukon esiintymien frekvenssit yleisyysjrjestyksess (perusmuodon mukaan)yhteisesiintymiset eli kollokaatiot (sanaparit tai sana-piirreparit)suhteita osuus koko korpuksesta tai eri osakorpuksistasuhteiden suhteita vertailu eri frekvenssien vlill
Esimerkkej frekvensseist pohtia-verbin muodot ( =2435)26.1%635pohtii&+MV V ACT IND PRES SG311.8%288pohti&+MV V ACT IND PAST SG310.5%255pohtimaan&-MV V ACT INF3 SG ILL10.3%250pohtia&-MV V ACT INF18.9%216pohditaan&+MV V PASS IND PRES6.4%155pohtivat&+MV V ACT IND PRES PL3 ... &+MV V ACT IND PAST PL34.6%111pohdittiin&+MV V PASS IND PAST2.9%71pohdittu&-MV V PASS PCP22.7%66pohtinut&-MV V ACT PCP2 SG1.1%27pohdittava&-MV V PASS PCP11.1%26pohtineet&-MV V ACT PCP2 PL0.7%18pohtiessaan&-MV V ACT INF2 INE0.7%18pohtiva&-MV V ACT PCP1 SG NOM0.7%16pohtimassa &-MV V ACT INF3 SG INE
Esimerkkej frekvensseist mietti-verbin muodot ( =2110)21.5%461miettii&+MV V ACT IND PRES SG319.3%413mietti&-MV V ACT INF113.3%284miettimn&-MV V ACT INF3 SG ILL7.6%162mietti&+MV V ACT IND PAST SG34.7%100mietitn&+MV V PASS IND PRES3.1%67miettinyt&-MV V ACT PCP2 SG2.9%63mietittv&-MV V PASS PCP12.6%56miettivt&+MV V ACT IND PRES PL3 /&+MV V ACT IND PAST PL33.7%79mietin&+MV V ACT IND PRES SG1 /&+MV V ACT IND PAST SG12.2%47mietitty&-MV V PASS PCP21.3%28mietittiin&+MV V PASS IND PAST
Esimerkkej suhteista pohtia vs. miettir1/r2 r1 n1 pohtia r2 n2mietti11,78651,1 %26pohtineet0,1 %2miettineet3,5384624,6 %111pohdittiin1,3 %28mietittiin2,4615386,4 %155pohtivat2,6 %56miettivt1,8936178,9 %216pohditaan4,7 %100mietitn1,55263211,8 %288pohti7,6 %162mietti1,3181822,9 %71pohdittu2,2 %47mietitty1,21395326,1 %635pohtii21,5 %461miettii1,0000670,7 %16pohtimassa 0,7 %15 miettimss0,8709682,7 %66pohtinut3,1 %67miettinyt0,7895260,7 %18pohtiessaan0,9 %19 miettiessn0,78947410,5 %255pohtimaan13,3 %284miettimn0,53367910,3 %250pohtia19,3 %413mietti0,379311,1 %27pohdittava2,9 %63mietittv0,0887950,3 %8pohdin3,7 %79mietin0,0750050,7 %18pohtiva9,3 %2miettiv
Esimerkkej suhteista pohtia vs. mietti lehden eri osastoissa
Sheet1
Total wordsSectionpohtiaw/100000miettiw/100000
11.7865&-MV V ACT PCP2 PL1.1 %26pohtineet0.1 %2miettineet232META-DE_koti00.000.0-
3.5384615385&+MV V PASS IND PAST4.6 %111pohdittiin1.3 %28mietittiin10600META-DE_taite218.900.0-
2.4615384615&+MV V ACT IND PRES PL3 / &+MV V ACT IND PAST PL36.4 %155pohtivat2.6 %56miettivt282861META-DE_ulk3211.351.86.400
1.8936170213&+MV V PASS IND PRES8.9 %216pohditaan4.7 %100mietitn4505META-DE_liite488.8122.24.000
1.5526315789&+MV V ACT IND PAST SG311.8 %288pohti7.6 %162mietti261196META-DE_klt6123.44517.21.356
1.3181818182&-MV V PASS PCP22.9 %71pohdittu2.2 %47mietitty118047META-DE_art2218.61916.11.158
1.2139534884&+MV V ACT IND PRES SG326.1 %635pohtii21.5 %461miettii827975META-DE_kot18121.916419.81.104
1.0000666667&-MV V ACT INF3 SG INE0.7 %16pohtimassa0.7 %15miettimss273356META-DE_tal3713.53613.21.028
0.8709677419&-MV V ACT PCP2 SG2.7 %66pohtinut3.1 %67miettinyt34682META-DE_syke1543.31543.31.000
0.7895263158&-MV V ACT INF2 INE0.7 %18pohtiessaan0.9 %19miettiessn246882META-DE_urh6024.37630.80.789
0.7894736842&-MV V ACT INF3 SG ILL10.5 %255pohtimaan13.3 %284miettimn128045META-DE_viv3023.44434.40.682
0.5336787565&-MV V ACT INF110.3 %250pohtia19.3 %413mietti7560META-DE_ruoka113.2226.50.500
0.3793103448&-MV V PASS PCP11.1 %27pohdittava2.9 %63mietittv6197META-DE_matka00.0232.30.000
0.0887951607&+MV V ACT IND PRES SG1 / &+MV V ACT IND PAST SG10.3 %8pohdin3.7 %49mietin
0.075005&-MV V ACT PCP1 SG NOM0.7 %18pohtiva9.3 %2miettiv100000.0
Sheet2
Sheet3
Mit muuta korpuksista voidaan ptell?havaintojen tilastollisia merkitsevyyksiovatko otoksessa havaitut erot frekvensseiss tai suhteellisissa osuuksissa tilastollisesti merkitsevi, esim. edell esitetyiss tapauksissa onko havaittu ero tietyn todennkisyyden (p > 95 tai 99% ~ p 99% joka 100. otos ...
Tilastollisia merkitsevyysmittareitaPearsonin khi-toiseen testi (X2)Log-likelihood (G2)t-testiyhteisinformaatio (mutual information MI)Fisherin eksakti testi
Parhaan tunnusluvun metsstyspohtia vs. mietti verbien kontekstitverbien omat morfologiset piirteetverbien funktionaalinen konteksti: lekseemi ja sen morfologiset piirteet, funktio sek semanttinen luokitusjrjestetty tilastollisestit-testin mukaan (~X2)[p < .05 t > 1.65]Fisherin eksaktin testin mukaan [0 < p < 1]
t-testin (~X2) mukainen jrjestys
t-testi
Fisher
n(V)/(V)
Verb
n(F|V)/(F)
Feature
2.59852502
1.00000000
427/892
mietti
78/115
0_INF1
2.35841193
1.00000000
427/892
mietti
24/26
0_SG1
2.32791480
1.00000000
465/892
pohtia
400/678
Fisherin eksaktin testin mukainen jrjestys
t-testi
Fisher
n(V)/(V)
Verb
n(F|V)/(F)
Feature
1.67858224
1.00000000
465/892
pohtia
375/657
Merkitsevyysmittarit ja lingvistin kieli-intuitio9 vs. 1 tuntuisi lingvistisesti mielekklt suhteelta, muttei ole tilastollisesti merkitsev tilastotieteen nkkulmasta tarvittaisiin suurempi aineisto, jossa suhdeluku toivottavasti silyy400 vs. 600 (2/5 vs. 3/5) ei tunnu lingvistisesti mielekklt suhde-erolta, mutta on kuitenkin tilastollisesti merkitsev suurissa aineistossa yleisimpien ilmiiden mrt ovat niin suuria, ett niiden pienetkin suhde-erot ovat tilastollisesti merkitsevi lingvistisest nkkulmasta nousee esille kysymys, josko suhde-ero jonkun ylimrisen jaottelumuuttujan avulla kasvaisi mielekkmmksi
Merkitsevyysmittarit ja lingvistin kieli-intuitio ...omassa tutkimuksessani: SG3-jakaumat-testiFisherverbinp,v/nf,totalpiirre 2.1481.000000pohtia206/3360_SG3-2.7050.000013mietti130/3360_SG3SG3-suhde on merkitsev, mutta suhdeluku on 2/3olisiko joku toinen tekij, jonka suhteen SG3-verbit jakautuisivat selkemmin kahteen ryhmn?agentin laskettavuus: yksil vs. kollektiivi?
Merkitsevyysmittarit ja lingvistin kieli-intuitio ...Agentti-jakauma:t-testiFisherVerbinp,v/np,totalAgentti1.9081.0000pohtia34/44GROUP1.8441.0000pohtia155/254INDIVIDUALkollektiiviagenttien suhteen suhde-ero kasvaa (1/4 vs. 3/4) ja on edelleen tilastollisesti merkitsevyksilagenttien suhteen suhde-ero itse asiassa pienenee (4/10 vs. 6/10), mutta on edelleen tilastollisesti merkitsev!
Mist tilastolliset merkitsevyysmittarit oikeastaan kertovat?jos havaittu ilmi on tilastollisesti merkitsev, se on ainakin (korkeintaan?) merkitsev otoksessahavainnon merkitsevyyden yleistettvyys?perustuu puhtaasti siihen, kuinka hyvin otos edustaa tarkasteltavaa populaatiota eli kuinka selvsti populaatio on mritelty ja kuinka satunnaisesti otos on tehty ko. populaatiostakielen kohdalla: kuinka hyvin otos edustaa tutkittavaa kielen osa-aluetta mik on se kielen osa-alue, mist otos on tehty selkesti mritelty vai kytetty kaikki mik on saatu ksiin
Yleistettvyys ...Mist esimerkiksi kyttmni Keskisuomalaisen 4 kuukauden otos kertoo?ainakin Keskisuomalaisen toimittajien sanomalehtiartikkelien kirjoitustyylist ko. aikanamikli kyseess olisi satunnaisesti valittu oto