Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe

Embed Size (px)

DESCRIPTION

Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe. Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa. Aloitusluento 7.3.2002 klo 12-15. Hallinnolliset kuviot kurssin tavoitteet - PowerPoint PPT Presentation

Citation preview

  • Korpukset ja kieliCtl310corpKevt 2003Antti ArppeKun intuitio ja introspektio eivt riit riittvtk korpuksetkaan?Miten korpuksia voi/pitisi kytt kielen kuvauksessa ja tutkimuksessa

  • Aloitusluento 7.3.2002 klo 12-15Hallinnolliset kuviotkurssin tavoitteetkurssin rakenne ja suorituskurssin ohjelma ja aikatauluMit ovat korpuksetMit on korpuslingvistiika

  • Kurssin motivaatio ja tavoitteetKurssin tavoitteena on kokemusperisesti tarkastella, miten korpuksia voidaan kytt kielen tutkimuksessa.Minklaisia tutkimuskysymyksi kannattaa esitt korpuksillemiten korpuksia kannattaa tutkia, jamit tulosten pohjalta voidaan sanoa kielest.

  • Kurssin rakenne ja suoritusKuusi luentoaTentti (1 ov)Harjoitusty (1 ov)

  • Suoritus I: luennotpe 7.3., 14.3., 21.3., 28.3., 4.4. ja 11.4.kello 12-15Siltavuorenpenger 20, sh 359/UNIX-luokkateoria- ja vierailuluentojaluentomateriaalit lytyvt verkosta kurssin verkkosivuiltahttp://www.ling.helsinki.fi/kit/2003k/ctl310corp

  • Suoritus II: tenttiLaajuus 1 opintoviikkope 25.4. klo 12-14 luentosalissa sh359 ja tiedekuntatenttipivn ke 14.5.Kurssikirja: Biber, Douglas; Conrad, Susan; Reppen, Randi (1998). Corpus linguistics: Investigating Language Structure and Use

  • Suoritus III: harjoitustylaajuus 1 opintoviikkopienimuotoinen korpustutkimus kiinnitten huomiota aineiston ja menetelmien vaihtoehtoihin ja valintojen perusteluihintaiolemassaolevan (julkaistun) korpuspohjaisen tutkimuksen kriittinen analyysi ja arvio kuten yllpalautus pe 5.5.2003tarkempi ohjeistus kolmannella luentokerralla (pe 21.3.)

  • Luentojen rakenne ja aikataulu IPe 7.3. Johdanto ja kurssin suoritus Mik on korpus, minklaisia korpuksia on? Minklaista on korpuslhtinen kielentutkimus kytnt ja teoria ? Pe 14.3. (poikkeuksellisesti 9-11.30)Korpuksen valitseminen ja koostaminenkorpuksen suhde hypoteesiin mik on edustava korpus? Pe 21.3. Korpuksen esiprosessointiannotoinnin filtterintilingvistiset analyysitykalut hydyt ja haitat

  • Luennot IIPe 28.3. (12-14)Puhekieliset korpukset (FT Martti Vainio) Mit uutta puheeseen perustuvat korpukset tuovat korpuslingvistiikkaan? Pe 4.4. Korpusten tilastollinen ksittelytilastolliset menetelmt ja kieli Pe 11.4. Korpusten tulkinta - "korpukset ja kielients sitten?

  • Kuinka moni teist on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen?Hypoteesi aineisto menetelm tulkinta?

  • Mik on korpus?yksittinen tekstifragmenttiyksittinen sanomalehtiartikkeli?kaunokirjallinen kirja?yksi sanomalehti kokonaisuudessaan?Assyrian valtionartiston savitaulut kokonaisuudessaan?yksittisen tv-ohjelman transkriptio?muita...?

  • Mik on korpus?corpus, plural corpora A collection of linguistic data, either compiled as written texts or as a transcription of recorded speech. The main purpose of a corpus is to verify a hypothesis about language - for example, to determine how the usage of a particular sound, word, or syntactic construction varies. Corpus linguistics deals with the principles and practice of using corpora in language study. A computer corpus is a large body of machine-readable texts. (cf. Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford, 85)

  • Korpus...CORPUS (13c: from Latin corpus body. The plural is usually corpora) (1) A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. (2) Plural also corpuses. In linguistics and lexicography, a body of texts, utterances or other specimens considered more or less representative of a language, and usually stored as an electronic database. ...

  • Korpus...Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus. (cf. McArthur, Tom "Corpus" , in: McArthur, Tom (ed.) 1992. The Oxford Companion to the English Language. Oxford, 2

  • Korpuksen mritelmhttp://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htmKorpus ei ole mik tahansa tekstinptk, vaan:tutkimuksen ja sen hypoteesin kannalta edustava otos/kokoelmakooltaan rajattu ja sisllltn mritettyelektronisessa muodossasiit on saatavissa enemmn tietoa frekvensseista, rakennehahmoista ja esiintymisassosiaatioista tietokoneen avulla kuin ksinuusien analyysien kustannukset ovat verrattaen pienet verrattuna ksin laskemiseenyleisesti saatavilla ( tutkimustulokset ovat vertailtavissa)

  • Korpuksen ksitteen monimuotoisuusmrtietoisesti etukteen asetettujen periaatteiden ja kriteerien mukaan kestty kokoelma kieliaineistoja (= yo. mritelm)kokoelma, johon on kertty mahdollisimman paljon kaikkea kieliaineistoa mit on vaan on ktevsti ja saatavillaoma tutkimusaineisto

  • Miksi korpuksia kytetn?kun introspektio ei riitintrospektiivisi havaintoja ei voida ulkoisesti observoidaintrospektiivinen data on useimmiten keinotekoistaihmisill on vain epmrinen mielikuva lingvistisen ilmin yleisyydest

  • Miksi korpuksia?korpusaineistojen hydytkorpukset ovat avoimempia tulosten objektiiviselle verifikaatiollekorpukset edustavat miten ihmiset todellisissa kytttilanteissa tuottavat kielt, ei jonkun kielioppikuvauksen sisltm idealisaatiota (esim. ovatko moninkertaiset upotukset mahdollisia vai eivt)kvantitatiivinen tieto kertoo mik on yleist ja mik on harvinaisempaa paremmin kuin introspektiotietokoneet ja elektroniset aineistot mahdollistavat aineistojen tehokkaan tarkastelun

  • Minklaisia korpuksia on?Kansainvliset klassikothttp://www.uni-koeln.de/phil-fak/englisch/bald/corpora.htmBrown (kirjoitettua amerikan-englantia 60-luvulta balansoitu: 500 tekstinfragmenttia 2000 sanaa)Lancaster-Oslo/Bergen (LOB) (Brownia vastaava korpus brittienglantia 70-luvulta)Lond-Lund (puhuttua englantia)

  • Korpuksia...Uudempia englanninkielisiBank of English (320 Mw 450 Mw [monitorikorpus]) http://titania.cobuild.collins.co.uk/boe_info.htmlBritish National Corpus (100 Mw)International Corpus of English (1 Mw kustakin englannin kansallisesta variantista)http://www.ucl.ac.uk/english-usage/ice/index.htmChild Language Date Exchange System (CHILDES) http://atila-www.uia.ac.be/childes/ (eri-ikisten lasten puhetta eri kielill, mm. englanti ja saksa)Korpuksia ympri maailmanhttp://www.ruf.rice.edu/~barlow/corpus.html

  • Korpuksia...Tunnetuimmat kotimaisetSuomen kielipankki (~170 Mw suomea ja ~30 Mw (suomenruotsia)http://www.csc.fi/kielipankki/KOTUS:en korpukset (historiallista kirjasuomea)http://www.kotus.fi/aineistot/Oulun korpus (500 kw mm. puhuttua suomea; koostettu 1967)Savonlinnan knnskorpus

  • Korpusten luokitteluntapainenkielen meediumi: puhekorpukset (esim. London-Lund corpus) vs. kirjalliset korpukset (esim. Lancaster Oslo/Bergen corpus(LOB) vs. yhdistetyt (British National Corpus (BNC) tai Bank of English) synkroninen variaatio (kansalliskielen [standardin] sisinen): britti-englannin korpukset (esim. Lancaster Oslo/Bergen corpus) vs. amerikan-englannin korpukset (e.g. Brown corpus) vs. joku kansainvlisen englannin korpus

  • Luokittelu...historiallinen variaatio: diakroniset korpukset (Helsinki corpus, cf. ICAME:n kotisivu) vs. synkroniset korpukset (Brown, LOB, BNC) vs. vain yhden segmentin kielen historiaa kattavat korpukset (Old/Middle English, Shakespearen tekstit) maantieteellinen variaatio/murrevariaatio: murreotoskorpus (e.g. Scots) vs. yhdistetyt (BNC puheosuus sislt otoksia puhujista kaikkialta Britanniasta)

  • Luokittelu...ik: aikuisten englannin korpus vs lasten englannin korpus (CHILDES:n englanninkieliset osiot) tekstityyppi/rekisteri: kaunokirjalliset vs. tekniset vs. ei-fiktiiviset (esim. sanomalehtiteksit) vs. sekoitetut korpukset jotka kattavat kaikki tekstityypitaivoimuus: suljetut, muuntamattomat korpukset (esim. LOB, Brown) vs. monitorikorpukset (Bank of English)

  • Luokittelu...saatavuus: kaupalliset vs. ei-kaupalliset tutkimuskorpukset, suoraan saatavilla olevat (online) korpukset vs. korpukset ftp-palvelimilla vs. korpukset levykkeillyksikielisyys vs. monikielisyys (kohdistetut knnskorpukset); alkuperiset (supisuomi) vs. knnetyt (knnssuomi)

  • Minklaista korpuspohjainen kielentutkimus on?Korpuspohjaisen lingvistiikan esihistoriaahttp://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm Ilman tietokoneita aineiston monipuolinen analyysi on vaikeaaKorpuspohjaisen lingvistiikan varsinainen kynnistyminenhttp://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm Korpukset elektronisessa muodossa, tietokoneet tarkastelun apuna

  • Korpuspohjainen kielentutkimus tnn?PuheentutkimusLeksikografiaKielioppi/syntaksiSemantiikkaPragmatiikkaSosiolingvistiikkaStilistiikka

    KielenopetusHistoriallinen kielitiedeMurretutkimusPsykolingvistiikkaKulttuurintutkimusSosiopsykologia

  • Korpuslingvistiikka tnnCorpus Linguistics 2003 konferenssi (Lancaster 28-31.3.2003)http://www.comp.lancs.ac.uk/ucrel/cl2003/programme.html#papers

  • Korpukset ja kieliCtl310corpKevt 2003Antti ArppeLuento 14.3.Metodologinen yleiskatsaus empiirisen tutkimuksen rakenneHypoteesin muodostaminenAineiston valitseminen ja koostaminen

  • Korpuspohjainen kielentutkimuksen tyypit?kvalitatiivinen - laadullinenanalyysin rikkaustarkkuus japerusteellisuuskvantitatiivinen - mrllinentilastollisesti luotettavat jayleistettvt tulokset

  • Kvalitatiivinen kvantitatiivinenKvalitatiivinentavoitteena tydellinen, yksityiskohtainen kuvausilmiiden frekvenssien merkitys on vhisempi, yksittiset tapauksetkin saavat huomiotakielen monitulkintaisuus sallitaan tulokset eivt vlttmtt ole varmuudella yleistettviss kieleen kokonaisuudessaan

  • Kvalitatiivinen kvantitatiivinenkvantitatiivinenpiirteit luokitellaan, niiden lukumri lasketaan ja vertaillaanpiirteiden yhteisesiintymist voidaan tehd monimutkaisia tilastollisia mallejaeri korpuksia voidaan vertailla keskennyleisten, tyypillisten ilmiiden erottaminen (mahdollisesti) satunnaisista esiintymistluokitukset tyypillisesti kategorisiaedellytt minimiesiintymisi, jotta yleistyksi voidaan tehd harvinaiset ilmit jvt paitsioon kategorioita saatetaan tst johtuen niputtaa yhteen

  • Kvantitatiivinen kvalitatiivinenmonimetodisuus, eri tutkimusmenetelmi ja aineistoja yhdistyv tutkimus yleistymyss ihmistieteisskvalitatiivinen tutkimus voi edelt kvantitatiivista intuitiivinen yleiskuva tutkittavasta ilmist ja aineistosta kategoriat on ensiksi identifioitava

  • Tutkimuksen tyypiteksploratiivinen tutkiva, tutkimushypoteeseja hypoteeseja muodostava, korpus referenssin kuinkas sit kielt oikein kytetndeskriptiivinen kuvaava systemaattisempi ja kokonaisvaltaisempikonstruktiivinen teorioita muodostava tavoitteena enemmn kuin jonkun yksittisen lingvistisen olion kuvaustestaava teorioiden validiteetin tarkastelua

  • Tutkimuksen tyypit henkilkohtaisia esimerkkejeksploratiivinen: onko synonyymien kyttkonteksteissa eroja?deskriptiivinen: minklaista on jonkun synonyymiryhmn kytt; miten kyttkontekstit eroavat toisistaan?konstruktiivinen: mist synonyymien kyttkontekstien erilaisuudet johtuvat?testaava: pteek yll esitetty teoria kyttkontekstien erilaisuudesta mys muiden synonyymiperheiden kohdalla?

  • Mallitutkimuksen rakenne[Teoreettinen tausta: aikaisempi tutkimus]hypoteesiaineisto eli korpusmenetelmtulkinta[Kytkent teoreettiseen taustaan: miten tulokset vaikuttavat teoriaan]

  • Hypoteesimik on riittvn hyv/perusteltu hypoteesi?perustuu aikaisempaan tutkimukseen tai teorianmuodostukseen?perustuu tutkijan tai tutkijayhteisn omaan intuitioon?tutkijan kannalta trke on ankkuroida hypoteesi ajankohtaiseen tutkimukseenteoria X vitt jotain Y kaikista kielist: pitk Y paikkansa kieless Zteoria X on yksi kielen rakenteen kuvauksen yleisist malleista: miten teoriaa X voisi soveltaa kieless Y

  • Aineistohypoteesin perusteella minklainen aineisto on (riittvn) edustava hypoteesin kannalta edustavuus/kattavuus voiko mikn aineisto koskaan olla tysin representatiivinen kielen kannalta?kielen monimuotoisuuden huomiointi: kieli ei ole homogeenista yhdest aineistosta ei voi vlttmtt ptell kaikesta kielenkytst

  • Menetelmesiprosessointi: ylimrisen annotoinnin poistaminenlingvistinen (automaattinen) analyysi virheiden huomioiminen ja vaikutus automaattisen analyysin tydentminen ksin lingvistisen analysaattorin implisiittisesti sisltm malli kielest miten analysaattori vaikuttaa ja ennakoi tuloksiatilastolliset mallitMiten hyvin/huonosti niiden (matemaattiset) ennakko-oletukset vastaavat kielen olemusta

  • Tulkintamiten tulokset vastaavat hypoteesejamiten paljon voidaan sanoa kielest ylipns mist tulokset itse asiassa kertovatkuinka merkitsevi tulokset ovat? keskeist on aina kuitenkin lingvistin tulkinta: mit lingvisti nostaa esille tai nkee merkittvn kielitieteen kannalta

  • Tutkimuksen suunnittelun trkeysekstralingvististen muuttujien huomioiminen korpusta valittaessa ja koostettaessa (tekstityypit ja niiden vliset erot, murteet, idiolektit)aineistoon ja annotointiin perehtyminen: kuinka tydellisesti/perusteellisesti/oikein aineisto on esiksiteltytykalujen vaikutuksen arvioiminen: kuinka hyvin/huonosti automaattiset analyysitykalut toimivatesitutkimuksen trkeys ei soitellen sotaan vaan perusteellisesti kokeillen ennen lopullisen tutkimusasetelman lukkoonlymist

  • Esimerkkej hypoteeseista: Intl Journal of Corpus Linguistics

  • Hypoteesin muodostaminen kytnnss oman tutkimuksen teoreettista taustaaerityisesti englannin osalta on osoitettu, ett synonyymien valintaan vaikuttavat rekisteri, tavoiteltu tyyli ja kytttilanne, esim. dollar vs. buck (Zgusta 1971, Biber 1998) myhemmin on englannin osalta osoitettu mys ett leksikaalinen ja syntaktinen konteksti vaikuttaa mys synonyymin valintaan, esim. begin vs. start (Biber 1998): SUBJ start (intransitiivinen kytt) SUBJ begin OBJ SUBJ begin TO-Vlisksi on argumentoitu, ett lekseemin kullakin taivutusmuodolla voi periaatteessa olla itseniset kyttyhteydet, esim. kollokaatioiden suhteen (Sinclair 1991)

  • Alkuperinen tavoitejos kerran sanan ulkoinen konteksti, olkoon se leksikaalinen tai syntaktinen rakenne, vaikuttavat synonyymin valintaan (englannin tyyppisess morfologisesti kyhss kieless), niin eik suomessa (morfologisesti rikkaassa) olisi vastaavaa havaittavissa taivutusmuotojen ja piirteiden osaltaHypoteesi: onko synonyymeiksi tulkittavien sanojen taivutusprofiileissa empiirisesti havaittavia eroja?

  • Hypoteesin konkretisoiminen: mit on synonymia?synonymian mritelm ja ksittely nytt seuraavan siit miten merkitys ymmrretnmerkitys kompositionaalisten, kategoristen piirteiden joukkona synonymia tietyntyyppisen erona ko. piirteissmerkityksen syntyminen kyttyhteyden kautta (Firth) synonymia korvattavuutena tai vaihdettavuutena samanlaisissa konteksteissa (Miller 1990)

  • Synomia absoluuttinen synonymia lhisynonymiaabsoluuttinen synonymia edellyttisi vaihdettavuutta kaikissa mahdollisissa kontekteissa, mutta tm on oletetusti kytnnss erittin harvinaistakytnnss joutuu tutkimaan lhisynonymiaa (l. plesionymiaa)synonymia on kuitenkin jollakin naivilla tasolla todellista, sill tavalliset kielenkyttjt mieltvt synonyymien olemassaolon ja kokevat ett sanoja voidaan usein vaihtaa toisiin ilman ett lauseen merkitys ja konnotataatiot oleellisesti muuttuvat

  • Tutkimuksen rajaaminen:tutkittavien synonyymien valintaei ole mielekst ryhty tutkimaan kaikkia potentiaalisia synonyymej: yksikin pari voi riitttavoitteena oli valita verbipari joka olisi a priori niin samankaltainen sek syntaktisen ett semanttisen valenssin suhteen kuin mahdollistakaikkien verbien suhteelliset frekvenssit laskettiin korpuksesta ja nm yhdistettiin elektronisen synonyymisanakirjan sisltnkullekin synonyymiryhmlle laskettiin suhteellisten frekvenssien geometrinen keskiarvo r1 x ... rn , jonka mukaan synonyymiryhmt rankattiin

  • Tutkimuksen rajaaminen: synonyymilistan Top 10001000 kollektiivisesti yleisint synonyymiryhm

  • Tutkimuksen rajaaminenrankatut synonyymiryhmt arvioitiin subjektiivisestimikli jossakin synonyymiryhmss ei ensi nkemlt tuntunut olevan ilmiselvi eroja merkityskentn tai syntaktisen kytn suhteen, potentiaalisia kandidaatteja arvioitiin Perussanakirjan sanaselitysten ja esimerkkilauseiden perusteella (Haarala 1997) ja lisksi Pajunen (1982)mit enemmn sanojen sanaselitykset ja esimerkit olivat samansuuntaisia, sit parempipolyseemisi kandidaatteja hyljeksittiin

  • Lopullinen rajaus ja hypoteesikognitiviiset verbit pohtia and miettimys ajatella, tuumia ja harkita voisivat tulla kyseeseenHypoteesi: verbien pohtia ja mietti morfologiset kontekstit eli taivutusmuotoprofiilit eroavat joiltakin osin tilastollisesti toisistaan

  • Aineiston valinta edustavuuskun ilmit ei voida tai haluta tutkia (kvantitatiivisessa tutkimuksessa) kokonaisuudessaan, ihmistieteiss turvaudutaan tyypillisesti satunnaisotantaan Satunnaisotanta edellytt, ett lhtkohtapopulaatio on mahdollisimman selkesti mritelty ja rajattu miten otannan populaatio mritelln kielitieteess?

  • Edustavuus populaatiomiten hyvin populaatio on mriteltviss? Tutkimushypoteesi mrkattava bibliografinen indeksi: kaikki Suomessa julkaistu kaunokirjallisuus vuosina 1990-2000sanomalehtiteksti Suomessa vuonna 1994/vuosina 1990-2000Keskisuomalainen vuonna 1994Ylioppilasaineet vuonna 2000

  • Edustavuus - populaatiomik voisi olla (suomen) kielen populaatio? mit koko kieleen kuuluu?kirjoitettu kieli:sanomalehdetkaunokirjalliset kirjat: alkuperiset vs. knnstekstitjuridiset tekstittekniskaupalliset tekstitkirjeetshkiset uutisryhmtchattipalstat, IRC

  • (Suomen) kielen populaatio?puhuttu kieli:uutislhetyksetesitelmt kirjoitetun tekstin pohjaltaihmisten vliset nauhoitetut spontaanit keskustelutjne...

  • Koko kielen populaation problematiikkaa?mik tulisi olla kielen eri osa-alueiden keskiniset kokosuhteet koko kielt edustavassa populaatiossa? onko ylipns vitettviss, ett kielest (esimerkiksi) 50% on kirjoitettua ja 50% puhuttua onko ylipns mielekst yritt muodostaa otosta koko kielest onko ylipns mielekst edes yritt tutkia kielt kokonaisuudessaan hvivtk kielen eri osa-alueiden erot kun ne niputetaan yhteen? olisiko mielekmp yritt tarkastella kielen eri osa-alueiden vlisi samankaltaisuuksia ja eroja? (Biber)

  • Lingvistisen populaation problematiikkaakuinka homogeenisia yksittiset osa-alueet ovat? esim. sanomalehtiteksti sislt laajan kirjon eri tekstityyppej ja yhdist kirjoitettua ja puhuttaa kielt (sitaatit)Esimerkkej sanomalehtitekstist (HS 13.3.2003)poliittinen artikkeli urheiluartikkeli mielipidekirjoitus tiedeartikkeli Yksittisenkin kielen osa-alueen sisll tulee pohtia, mitk tekijt mahdollisesti aiheuttaisivat variaatiota (esim. toimittajien idiolektit)

  • Satunnaisotannan periaatteita korpustutkimuksessa (Biber)lhtkohtana mritell tutkittavan populaation hierarkinen stratifioituminen jaottelun eri tekstityyppeihin tulisi perustua hypoteesist lhtevn tutkimusasetelmaan ja sen teoreettisiin taustaolettamuksiin kytnnss tekstityyppijaottelussa joutuu turvautumaan kytettviss olevien korpusten jaotteluihin ja niiden sisltmn ekstralingvistiseen tietoon (Kielipankin aineistot)stratifioitunut otanta on vhintn yht edustava kuin puhdas satunnaisotanta, sill se varmistaa kunkin tekstityypin mukanaolon

  • Oman tutkimuksen otantasanomalehtiteksti on hyv lhtkohta, sill se pit sislln useita eri tekstityyppejKeskisuomalaisen aineisto (1994, 2 Mw) sislsi tarvittavaa ekstralingvistist tietoa sek tekstityypeist ett artikkelien kirjoittajistatekstityypin tai idiolektin mahdollinen vaikutus tuloksiin esiintyyk variaatiota?Koko sanomalehtikorpus (16 Mw Keskisuomalaisen lisksi mm. Hesarin) oli kooltaan 8-kertainen, jolloin harvinaisemmat ilmit olivat havaittavissa ( tilastollinen merkitsevyys)

  • Korpukset ja kieliCtl310corpKevt 2003Antti ArppeLuento 21.3.AnnotointiAineiston esiksittelyAutomaattiset analyysitykalut

  • Annotointikorpukset voivat olla:raakoja = tekstej sellaisenaanannotoituja eli tekstin alunperin kuulumattomalla, posin lingvistisell informaatiolla varustettujaannotaatio voi koostua yksittisist tageista (esim. Brown collects_VVZ) tai tagirymist (esim. ENGTWOL collects V IND PRES SG3) Vaikuttaa tagien mrn ja ksittelynsanakohtainen tai virkekohtainen (KOTUS) annotaatiolingvistisen annotaation lisksi korpukset sisltvt nykyisin mys lhde- ja rakenteellista tietoa (esim. SGML/TEI/XML-taggauksen muodossa)

  • TEI/SGML-formatoitua ja annotoitua korpusta (Keskisuomalainen 1994/CSC)

    Kansanedustaja ja taiteilija joululomalla Bosniassa Thtimess punainen risti

    Kun monet espanjalaisparlamentaarikot selailivat joulun alla matkaoppaita lehtereill, 29vuotias kansanedustaja Tomas Burgos lastaili kiireisen kahdeksaa pakettiautoa ja kahta rekkaa. Matkakohteeksi oli valittu talvinen Bosnia.

  • Lingvistisesti annotoitua korpusta (FDG/Conexor)0 1 Kun kun pm:>4 &CS CS2 monet moni attr:>3 &A> PRON PL NOM3 espanjalaisparlamentaarikot espanjalais#parlamentaarikko subj:>4 &NH N PL NOM4 selailivat selailla &+MV V ACT IND PAST PL35 joulun joulu loc:>4 &NH N SG GEN6 alla alla pm:>5 &PM PSP7 matkaoppaita matka#opas &NH N PL PTV8 lehtereill lehteri &NH N PL ADE , ,10 29 29 &NH NUM CARD - -12 vuotias vuotias attr:>13 &A> A SG NOM13 kansanedustaja kansan#edustaja attr:>15 &NH N SG NOM14 Tomas Tomas attr:>15 &A> N SG NOM15 Burgos burgos subj:>16 &NH N SG NOM16 lastaili lastailla &+MV V ACT IND PAST SG317 kiireisen kiireinen copr:>16 &NH A SG ESS18 kahdeksaa kahdeksan qn:>19 &QN> NUM CARD SG PTV19 pakettiautoa paketti#auto &NH N SG PTV20 ja ja cc:>19 &CC CC21 kahta kaksi qn:>22 &QN> NUM CARD SG PTV22 rekkaa rekka cc:>19 &NH N SG PTV . .24 Matkakohteeksi matka#kohde &NH N SG TRA25 oli olla main:>23 &+MV V ACT IND PAST SG326 valittu valita attr:>28 &-MV V PASS PCP2 SG NOM27 talvinen talvinen attr:>28 &A> A SG NOM28 Bosnia Bosnia &NH N SG NOM . .30 >29

  • Hyvn annotoinnin periaatteet (Leech)1. Annotoinnin tulisi olla erotettavissa/irrotettavissa/siivottavissa alkuperisest/varsinaisesta korpuksestaClaire_NP1 collects_VVZ shoes_NN2 "Claire collects shoes2. Annotoinnit tulisi olla sellaisinaan irrotettavissa korpuksesta esim. eri tilastollisia tarkasteluja vartenClaire_NP1 collects_VVZ shoes_NN2 NP1 VVZ NN2

  • Annotoinnista...3. Annotoinnin periaatteiden pitisi olla (helposti) korpuksen kyttjn saatavillaannotoinnissa kytettvien tagien merkitykset pitisi olla saatavilla samoin kuin esimerkit niin yleisist tapauksista kuin rajanpetotilanteistatm ei valitettavasti aina pid riittvn pitklle paikkaansa esim. akateemisesti kehitettyjen analyysitykalujen kohdalla4. Annotoinnin tekijn, mahdollisen muuttajan ja annotointiajankohdan pitisi olla selkesti merkittynaikaisemmat annotoinnit pitisi muutos/korjaustapauksissa olla jtetty jljelle, mikli halutaan palata korpuksen aikaisempaan versioon

  • Annotoinnista ...5. Korpuksen kyttjlle tulisi tehd selvksi, ett annotointi ole virheetn eik lopullinen lisksi tulisi korostaa, ett annotointi on aina jonkun teoreettisen nkkannan mukainen tulkinta eik ainoa mahdollinen vaihtoehto6. Annotoinnin periaatteidein tulisi laajalti hyvksyttyj ja teorianeutraalejatm ei ole mitenkn helppo periaate, sill korpusten moninaiset kytttarkoituksen voivat olla ristiriidassa tmn kanssa7. Yksikn annotointiperiaatetta ei saisi esitt a priori standardina standardit syntyvt kytnnn hyvksynnn ja konsensuksen kautta

  • Miksi alkuperinen annotointi kannattaa sst (tekijtiedot erss sanomalehtikorpuksessa)

    Jkyllinen Piiatyhtye voitti Imatralla

    Keskisuomalainen

  • Tekijtietojen sekavuus ...+ 8 ANITA = NO_BYLINE #,3994,4173,5637,6520,6827,6897,6912,6954+ 6 ANITA = Anita Krki #,4304,4397,4964,5154,5458,7469+ 5 ANITA = ANITA KRKI #,1332,4261,6395,6880,7999+ 2 ANITA = Anita Krki = ANITA KRKI #,4969,5162- 2 ANITA = Anita Krki = Ari Haapa-aho #,5700,7676- 2 ANITA = Anita Krki = Jorma Prssinen #,6010,7146- 2 ANITA = ANITA KRKI = Jorma Prssinen #,7368,7559+ 2 ANITA = Keskisuomalainen #,5629,6968- 1 ANITA = Anita Krki = Anita Krki = Risto Aalto #,7228- 1 ANITA = Anita Krki = Matti Salmi #,7298- 1 ANITA = Anita Krki = Mauri Ratilainen #,8165- 1 ANITA = Anita Krki = Risto Aalto #,5791- 1 ANITA = ANITA KRKI = Risto Aalto #,6392- 1 ANITA = GOA, ANJUNA-BEACH ANITA KRKI KUVAT #,6743

  • Annotoinnin lajitsanaluokka-annotointi Part-of-speech (POS) taggauslemmatisointi perusmuotoon palautus ja morfologinen analyysi, disambiguoituna tai ilman (XXXTWOL)syntaktinen parsaus: osittainen (lauseke)analyysi (XXXCG/Lingsoft, XXXLITE/Connexor) pinta-analyysi lausekerakenneanalyysi funktionaalinen dependenssianalyysi (FDG Machinese/Connexor)semanttinen analyysis (WordNet)diskurssi/tekstilingvistiset analyysitfoneettinen transkribointiprosodinen transkribointiongelma-kohtainen annotoiminen

  • Sanaluokka-annotointi Part-of-speech (POS) taggaus

    Spoken English Corpus (C7 tagset) Perdita&NN1-NP0; ,&PUN; covering&VVG; the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1-NP0; shouting&VVG; that&CJT; she&PNP; better&AV0; dig&VVB; out&AVP; a&AT0; pair&NN0; of&PRF; clean&AJ0; breeches&NN2; and&CJC; polish&VVB; her&DPS; boots&NN2; ,&PUN; as*CJS; she&PNP; 'd&VM0; be&VBI; playing&VVG; in&PRP; the&AT0; match&NN1; that&DT0; afternoon&NN1; .&PUN;

  • POS-tagit (C7)AJ0: general adjectiveAT0: article, neutral for numberAV0: general adverbAVP: prepositional adverbCJC: co-ordinating conjunctionCJS: subordinating conjunctionCJT: that conjunctionDPS: possessive determinerDT0: singular determinerNN0: common noun, neutral for numberNN1: singular common nounNN2: plural common nounNP0: proper noun POS: genitive markerPNP: pronounPRF: ofPRP: prepostitionPUN: punctuationTO0: infintive toVBI: beVM0: modal auxiliaryVVB: base form of lexical VerbVVD: past tense form oflexical verbVVG: -ing form of lexical verbVVI: infinitive form of lexical verbVVN: past participle form of lexical verb

  • Lemmatisointi perusmuotoon palautus ja morfologinen analyysi, (ENGTWOL)

    """""" "cover" PCP1 "" "the" DET CENTRAL ART SG/PL @DN> " (monitulkintainen eli ambigusi sana) "bottom" N NOM SG "bottom" V PRES -SG3 VFIN @+FMAINV "bottom" V INF "bottom" V IMP VFIN @+FMAINV "bottom" V SUBJUNCTIVE VFIN @+FMAINV "" "of" PREP "" "the" DET CENTRAL ART SG/PL @DN> "" "lorry" N NOM PL "" "with" PREP "" "straw" N NOM SG "straw" V PRES -SG3 VFIN @+FMAINV "straw" V INF "straw" V IMP VFIN @+FMAINV "straw" V SUBJUNCTIVE VFIN @+FMAINV

  • Syntaktinen parsaus: osittainen (lauseke)analyysi (ENLITE) pinta-analyysi lausekerakenneanalyysiPerditaperdita&NH N SG ,, coveringcover&VA ING thethe&>N DET bottombottom&NH N SG [disambiguoitu sana]ofof&N< PREP thethe&>N DETlorrieslorry&NH N PL withwith&N< PREP&AH PREP strawstraw&NH N SG toto&AUX INFMARK> protectprotect&VA V INF thethe&>N DET ponies'pony&>N N PL feetfoot&NH N PL ,, suddenlysuddenly&>A ADV&AH ADV heardheard&>N EN&VA V PAST Alejandroalejandro&>N N SG&NH N SG shoutingshouting&NH ING&VA ING thatthat&CS CS&NH PRON sheshe&NH PRON SG3 betterwell&AH ADV CMP&>N A CMP&NH A CMP digdig&NH N SG&VA V INF&VA V PRES outout&AH ADV aa&>N DET SG pairpair&NH N ofof&N< PREP cleanclean&>N A ABS breechesbreech&NH N PL

  • 0 1SanSa &NH N SG GEN &A> N SG GEN2CristobalinCristobal attr:>3&A> N SG GEN3kaupungin kaupunki obj:>4 &NH N SG GEN4vallanneet vallata attr:>5 &-MV V ACT PCP2 PL NOM5intiaanit intiaani subj:>6_AGE:>6 &NH N PL NOM SEM_HUMAN_INDIVIDUAL PHR_COMMON6pohtivat pohtia main:>0&+MV V ACT IND PAST PL3 SEM_THINK7sunnuntai sunnuntai attr:>9 &A> N SG NOM - -9iltana ilta _TMP:>6 &NH N SG ESS SEM_TIME10seuraavaa seurata attr:>11 &-MV V ACT PCP1 SG PTV &A> A SG PTV11siirtoaan siirto _PAT:>6 &NH N SG PTV SEM_ACTIVITY12kaupungintalon kaupungin#talo attr:>13&A> N SG GEN13kytvill kytv _LOC:>6&NH N PL ADE SEM_LOCATION . .15 >14

    Semanttis/funktionaalinen analyysi

  • Automaattisten analyysitykalujen kytstanalysaattorit perustuvat aina johonkin malliin, joka perustuu johonkin kielitieteelliseen teoriaan teoria vaikuttaa analysaattorin yksittisiin tuloksiin:Esim. Conexorin FDG perustuu Tsnieren dependenssikielioppiin 1950-luvulta analysaattori saattaa toimia systemaattisesti oikein omien periaatteidensa mukaan, muttei samalla sopia haluttuun tutkimustarkoitukseen:Esim. dependenssikieliopissa yhdess lauseessa voi olla kunkin funktion edustajia ainoastaan yksi, esim. lauseella ei voi olla kahta tempusfunktiota* Harjoittelen aamulla-TMP ja illalla-? (periaatteessa ko. lause nhdn kahden lauseen yhdistelmn, jossa funktiot erotettu) Harjoittelen aamulla-TMP + Harjoittelen illalla-TMP

  • Yksi vai useampi temporaalifunktio? (1/2)0 1 YK YK subj:>2 &NH N2 arvioi arvioida main:>0 &+MV V ACT IND PRES SG3 &+MV V ACT IND PAST SG33 syyskuussa syyskuu tmp:>2 &NH N SG INE4 Bosnia Bosnia attr:>6 &A> N SG NOM - -6 Hertsegovinan Hertsegovina attr:>7 &A> N SG GEN7 ruuan ruoka &NH N SG GEN8 tarpeeksi tarpeeksi &ADV ADV9 32 32 qn:>10 &QN> NUM CARD10 miljardia miljardi qn:>11 &QN> NUM CARD SG PTV11 tonnia tonni qua:>2 &NH N SG PTV12 kuukaudessa kuukausi loc:>2 &NH N SG INE . .14 >13

  • Yksi vai useampi temporaalifunktio? (2/2)0 1 Edell edell phr:>2 &ADV ADV2 mainitun mainita attr:>3 &-MV V PASS PCP2 SG GEN3 rajan raja obj:>4 &NH N SG GEN4 alittamisesta alittaa &-MV V ACT INF4 ELA5 annetaan antaa main:>0 &+MV V PASS IND PRES6 ensin ensin &ADV ADV7 neuvontaa neuvonta obj:>5 &NH N SG PTV8 ja ja &CC CC9 myhemmin myhemmin tmp:>10 &ADV ADV10 opetetaan opettaa &+MV V PASS IND PRES11 liikennekulttuuria liikenne#kulttuuri obj:>12 &NH N SG PTV12 sakottamalla sakottaa man:>10 &-MV V ACT INF3 SG ADE . .14 >13

  • Automaattiset analyysitykalut...Analysaattorit tekevt aina vlttmtt jonkin verran virheit tai eivt pysty antamaan yht ainoaa oikeaa vastausta (tydellist disambiguaatiota) On tutkittu, etteivt edes ihmiset (maallikot saati asiantuntijat) pysty aina psemn yhteisymmrrykseen oikeasta analyysist (esim. Churchin tutkimukset) kieless on siis aina implisiittisesti hiukan monitulkintaisuutta, mit voidaan pit automaattisten tykalujen oikeellisuuden teoreettisena ylrajana (97-98%)

  • Preesens vai imperfekti?EU-ministeri eu-#ministeri &NH N SG NOMpohtivat pohtia &+MV V ACT IND PRES PL3 &+MV V ACT IND PAST PL3Euroopan eurooppa &A> N SG GENkilpailukyky kilpailu#kyky &NH N SG PTVEU:n eu &A> N SG GENteollisuusministerit teollisuus#ministeri &NH N PL NOMetsivt etsiv &NH N PL NOMviikonvaihteessa viikon#vaihde &NH N SG INEBilbaossa bilbao &NH N SG INEEspanjassa espanja &NH N SG INEkeinoja keino &NH N PL PTVlist list &-MV V ACT INF1Euroopan eurooppa &A> N SG GENkyky kyky &NH N SG PTVkilpailla kilpailla &-MV V ACT INF1maailmanlaajuisesti maailman#laajuisesti &ADV ADV. . PUNCT

  • Preesens vai imperfekti? ...... Kilpailukyky kilpailu#kyky &NH N SG NOMtodettiin todeta &+MV V PASS IND PASTolennaiseksi olennainen &A> A SG TRAtekijksi tekij &NH N SG TRApyrittess pyrki &-MV V PASS INF2 INEEli siis tarvittiin melkoisesti lausekontekstia, ett voitiin manuaalisti ptell imperfekti oikeaksi analyysiksi muita vinkkej: ajan ilmaukset joskus tarvitsisi tiet artikkelin esiintymisajankohdan ajallisen tapahtumaympristn miten ksitelty tapahtuma sijoittuu artikkelin julkaisuajankohtaan?

  • Automaattiset analyysitykalut ...analysaattoreita kehitetn ja testataan (erit. kaupalliset) tyypillisisti suurilla yleiskielisill aineistoilla, jolloin ne luonnollisesti toimivat parhaiten ko. tekstityyppien analyysissanalysaattorit eivt ole koskaan tysin valmiita, erityisesti leksikko ei ole koskaan tysin kattava Jotkut tykalut kyttvt heuristiikkoja (esim. sanojen ptteit) tuntemattomien sanojen joidenkin piirteiden arvaukseen, mik voi olla virheiden lhde kehityksen alkuvaiheessa kuvaukset saattavat olla kielen jonkin osa-alueen kohdalla eptydellisi, jolloin tykalu tekee kyseisen lingvistisen ilmin kohdalla systemaattisesti aina saman virheen

  • Tuuma vai tuumia?0 1 Tn tm attr:>2 &A> PRON SG ESS2 vuonna vuosi tmp:>6 &NH N SG ESS3 valtio valtio cc:>5 &NH N SG NOM4 ja ja cc:>5 &CC CC5 kaupunki kaupunki subj:>6 &NH N SG NOM6 leikkasivat leikata main:>0 &+MV V ACT IND PAST PL37 orkesterin orkesteri attr:>8 &A> N SG GEN8 budjettia budjetti obj:>6 &NH N SG PTV9 yksiss yksi &NH NUM CARD PL INE &NH PRON PL INE10 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1 . .

  • Tuuma vai tuumia?0 1 Kaikki kaikki &NH PRON NOM &A> PRON NOM2 kolme kolme &NH NUM CARD SG NOM3 ovat olla main:>0 &+MV V ACT IND PRES PL34 esitutkinnassa esi#tutkinta loc:>5 &NH N SG INE5 kiistneet kiist comp:>3 &-MV V ACT PCP2 PL6 toimineensa toimia obj:>5 &-MV V ACT PCP27 yksiss yksi &NH NUM CARD PL INE &NH PRON PL INE8 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1 . .10 >9

  • Automaattiset analyysitykalutanalyysin teoreettisen oikeellisuuden ja yksiselitteisyyden aste riippuu tavoiteltavan tehtvn monimutkaisuudestamorfologinen analyysi morfologinen disambiguointi osittaisanalyysi syntaktinen analyysi semanttinen analyysianalysaattorin hydyntmisess on valittava joko tulosten manuaalinen lpikynti tai virheellisyyksien hyvksyminen analyysin laadun tarkastelu tutkittavan ilmin kohdalla tilastollisen otoksen perusteella

  • Tilastoa automaattisen analyysin oikeellisuudesta/ yksitulkintaisuudesta (517624 sanaa/141202 sanamuotoa)1-selitteisi morfologisia analyysej: 128882 (91% sanamuodoista)2-selitteisi: 94943-selitteisi: 16674-selitteisi: 7115-selitteisi: 3336-selitteisi: 917-selitteisi: 138-selitteisi: 49-selitteisi: 110-selitteisi: 1384089 syntaktisesti analysoitua (74% sanoista)

  • Morfosyntaktisesti monitulkintaisimman sanan sisltv lause (toinen 10 tulkintaa)Helsingiss Helsinki loc:>2 &NH N SG INEtapahtuva tapahtua attr:>3 &-MV V ACT PCP1 SG NOMperushenkirikos perus#henki#rikos subj:>4 &NH N SG NOMon olla main:>0 &+MV V ACT IND PRES SG3edelleenkin edelleen goa:>4 &ADV ADV -KINpoliisin poliisi attr:>7 &A> N SG GENsuussa suu loc:>4 &NH N SG INElauantaitappona lauantai#tappo copr:>4 &NH N SG ESSkulkeva kulkea attr:>10 &-MV V ACT PCP1 SG NOM &A> A SG NOMsurma surma &NH N SG NOM. . PUNCTtekij tekij cc:>14 &NH N SG NOMja ja cc:>14 &CC CCuhri uhri subj:>15 &NH N SG NOM

  • Toinen ......tuntevat tuntea main:>11 &+MV V ACT IND PRES PL3toisensa toinen &NH NUM ORD SG NOM &A> NUM ORD SG NOM &NH NUM ORD SG GEN &NH NUM ORD PL NOM &A> NUM ORD PL NOM &NH PRON SG NOM &A> PRON SG NOM &NH PRON SG GEN &NH PRON PL NOM &A> PRON PL NOMtai tai cc:>15 &CC CCovat olla cc:>15 &+MV V ACT IND PRES PL3sukua suku &NH N SG PTVkeskenn keskenns &ADV ADVviina viina subj:>23 &NH N SG NOMon olla &+MV V ACT IND PRES SG3mukana mukana phr:>23 &ADV ADVkuvassa kuva loc:>23 &NH N SG INEja ja cc:>23 &CC CCteko teko subj:>28 &NH N SG NOMtapahtuu tapahtua cc:>23 &+MV V ACT IND PRES SG3pikaistuksissa pikaistus loc:>28 &NH N PL INE

  • Monitulkintaisimmat sanat: 2-5a=9 n=1 hallituksensa hallitus &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOM &NH A SG TRA &A> A SG TRA &-MV V PASS PCP2 SG TRAa=8 n=1 asuvasi asua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN&A> A SG GEN &NH A PL NOM &A> A PL NOMa=8 n=1 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &-MV V PASS PCP2 PL NOM &NH A SG NOM &A> A SG NOMa=8 n=1 kuuluvansa kuulua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOM

  • Monitulkintaisimmat sanat: 6-10a=8 n=1 tekevns tehd &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOMa=7 n=11 tullut tultu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOMa=7 n=6 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOMa=7 n=3 sinns sinns &ADV ADV &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOMa=7 n=2 parinkymmenen pari#kymment &NH NUM CARD SG GEN &A> NUM CARD SG GEN &QN> NUM CARD SG GEN&NH NUM CARD SG NOM &QN> NUM CARD SG NOM &NH N SG GEN &A> N SG GEN

  • Monitulkintaisimmat perusmuodot (2- tai useampitulkintaisten taivutusmuotojen lukumr) 69toinen 65olla 63yksi 48tulla 43seurata 43nuori 39se 38hyv 36vastata 35toimia 33saada 31tehd 31suuri

    30aika 28tm 28kaikki 27muu 27alkaa 25el 23joka 22itse 21vanha 21nhd 90voida 90el 89ottaa

  • Yleisimmt monitulkintaiset morfologiset analyysit 2220&NH N SG GEN&A> N SG GEN 381&NH A SG NOM &A> A SG NOM 325&NH N PL GEN &A> N PL GEN 307&NH A SG GEN &A> A SG GEN 289&NH NUM CARD &A> NUM CARD &QN> NUM CARD 276&-MV V ACT INF1&+MV V ACT IND PRES SG3 219&NH A PL GEN &A> A PL GEN 217&NH A SG PTV &A> A SG PTV 194&NH A PL PTV &A> A PL PTV 178&-MV V ACT PCP1 SG NOM &A> A SG NOM 172&-MV V ACT PCP1 PL NOM &+MV V ACT IND PRES PL3 158&NH A PL NOM &A> A PL NOM 156&-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG&-MV V ACT PCP2 SG&NH A SG NOM &A> A SG NOM 155 &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG&-MV V ACT PCP2 SG &NH A SG NOM 151&NH A SG ESS&A> A SG ESS 147&NH N SG NOM&NH N PL NOM 133&-MV V ACT INF1&-MV V PASS IND PRES

  • Mit tst opimme?Valmiisiin annotointeihin ei saa luottaa sokeasti, vaan on pistokokein varmistettava tehdyn annotoinnin perusteellisuus ja systemaattisuusMitn ei kannata hvitt aineistoa esi- ja jlkiksiteltess, siis poistetun tiedon palauttaminen jlkikteen voi olla vhintnkin tylstAutomaattisiin analyysitykaluihin ei saa luottaa sokeasti, vaan on selvitettv itselleen ne periaatteet mink mukaan tykalu toimii ja pistokokein tarkistettava analyysin oikeellisuus ja luotettavuus

  • Kurssin harjoitustykansainvlisess, referoiduissa akateemisiss julkaisuissa julkaistun korpustutkimukseen perustuvan tieteellisen artikkelin kriittinen arvio kurssilla esitettyjen nkkulmien mukaanpienimuotoisen korpuspohjaisen tutkimuksen tekeminen kurssilla esitettyjen periaatteiden mukaanmahdollisten vaihtoehtojen pohdiskelu ja tehtyjen valintojen perustelu tai kriittinen arviointipalautus ma 5.5.2003

  • Ctl310corpKorpukset ja kieliAntti ArppeLuento 4.4.Korpusten tilastollinen ksittelyKorpuksen riittv kokoMit korpuksista voidaan laskea?Parhaan tunnusluvun metsstys

  • Otannan eli tutkimuskorpuksen suuruuden rajaamisen periaatteitaotoksen on oltava riittvn suuri, jotta tulokset ovat (tilastollisesti) luotettaviaotoksen ei kannata olla liian suuri, jottei tule tehneeksi turhaa tyt, esim. automaattisen analyysin tarkistamisessa ja korjaamisessa tai omien lisluokittelujen tekemisessotoksen kokoon vaikuttavat tutkittavan ilmin kategorioiden (sanaluokat, yksittiset lekseemit, yksittiset taivutusmuodot, morfeemit, tms.) mr ja kunkin kategorian esiintymisfrekvenssit

  • Rajaamisen periaatteitaotos on riittvn suuri, saavutetaan jtymis/saturaatiopiste uusien tapauksien mr ei en oleellisesti lisnny otosta kasvettaessaotos on riittvn suuri, kun tutkittavien ilmiiden keskiniset suhteet eivt en merkittvsti muutu otoksen kasvun myt kasvavilla lukumrill ei ole en (tilastollisesti) merkittv vaikutusta kytettviin tilastollisiin tunnuslukuihinyleisten ilmiiden kohdalla saturaatiopiste saavutetaan pienemmll korpuksella kuin harvinaisempien ilmiiden kohdalla harvinaisempien ilmiiden tarkastelua varten ei kenties koskaan ole kasattavissa riittvn suurta korpusta

  • Otoksen kasvun vaikutuksia kytnnsspintamuotojen mrn kehitys suomenkielisess sanomalehtitekstiss perusmuotojen mrn kehitys verbien taivutusmuotojen mrn kehitys ajatella-verbien taivutusmuotojen mrn kehitys pohtia/mietti-verbien taivutusmuotojen mrn kehitys

  • Pinta- ja perusmuotojen mrn kehitys

    Surface and base forms

    2388513042

    4057921003

    5489927664

    6706633112

    7874638253

    9044143590

    10133348580

    11090952678

    12012956635

    12961760798

    13882464801

    14785068752

    15601172329

    16446075926

    17289979732

    18052083043

    18846386629

    19588089834

    20381493174

    21126196362

    21850499397

    225558102356

    233493105773

    240495108777

    246741111370

    253188114035

    259825116771

    266482119435

    272520121922

    278466124372

    284689126888

    290345129071

    295823131259

    301703133649

    307682136237

    313634138624

    320091141532

    325661143854

    330744145867

    336149148155

    341536150348

    347051152502

    352078154544

    357138156598

    362559158852

    367816160994

    372950163207

    377878165188

    383083167273

    388076169276

    393184171256

    397966173217

    402899175203

    407706177176

    412374179036

    416953180922

    422596183443

    427817185696

    433287188141

    438421190236

    443691192441

    448995194526

    454141196618

    459135198580

    464043200592

    469073202644

    473715204503

    478256206449

    483053208491

    487544210367

    492150212226

    496777214169

    501696216277

    506099218123

    510935220184

    515733222175

    520420224106

    524782225997

    529247227914

    533709229727

    537993231581

    542704233616

    547034235502

    551408237348

    556065239354

    560918241282

    565366243248

    570134245241

    574467247161

    579193249152

    583946251329

    588316253146

    593014255145

    597305256939

    601656258738

    605818260472

    610177262326

    614446264134

    618687265905

    622299267415

    625786268863

    628857270106

    630859270884

    633296271838

    635650272684

    638493273700

    644215276223

    650081278862

    655904281292

    661418283724

    667008286170

    672340288406

    677890290843

    683337293117

    688638295341

    694140297811

    699681300264

    704758302397

    709609304472

    714992306847

    720152309057

    725041311142

    730079313480

    735318315589

    740402317765

    745325319822

    750592322082

    755359324201

    760386326357

    765308328315

    770789330800

    776903333695

    783334336689

    789127339814

    796511344433

    802921348228

    808941351622

    814312354267

    819068356664

    824228359116

    829561361774

    834452364058

    838841366239

    842661367962

    847857370410

    853338373027

    858401375367

    863318377630

    868646380389

    873738382790

    878497385225

    883326387480

    888234389676

    893472392023

    898638394482

    902750396338

    905846398011

    910376399952

    Surface forms

    Base forms

    Corpus size

    Forms

    Growth of surface and base forms

    Sheet1

    1000002388523885100%23%1000001304213042100%13%

    200000405791669441%16%20000021003796137%7%

    300000548991432026%14%30000027664666124%6%

    400000670661216718%12%40000033112544816%5%

    500000787461168014%11%50000038253514113%5%

    600000904411169512%11%60000043590533712%5%

    7000001013331089210%10%70000048580499010%4%

    80000011090995768%9%8000005267840987%4%

    90000012012992207%9%9000005663539576%3%

    100000012961794887%9%10000006079841636%4%

    110000013882492076%9%11000006480140036%4%

    120000014785090266%9%12000006875239515%3%

    130000015601181615%8%13000007232935774%3%

    140000016446084495%8%14000007592635974%3%

    150000017289984394%8%15000007973238064%3%

    160000018052076214%7%16000008304333113%3%

    170000018846379434%7%17000008662935864%3%

    180000019588074173%7%18000008983432053%3%

    190000020381479343%7%19000009317433403%3%

    200000021126174473%7%20000009636231883%3%

    210000021850472433%7%21000009939730353%3%

    220000022555870543%7%220000010235629592%2%

    230000023349379353%7%230000010577334173%3%

    240000024049570022%7%240000010877730042%3%

    250000024674162462%6%250000011137025932%2%

    260000025318864472%6%260000011403526652%2%

    270000025982566372%6%270000011677127362%2%

    280000026648266572%6%280000011943526642%2%

    290000027252060382%6%290000012192224872%2%

    300000027846659462%5%300000012437224501%2%

    310000028468962232%6%310000012688825161%2%

    320000029034556561%5%320000012907121831%2%

    330000029582354781%5%330000013125921881%2%

    340000030170358801%5%340000013364923901%2%

    350000030768259791%5%350000013623725881%2%

    360000031363459521%5%360000013862423871%2%

    370000032009164572%6%370000014153229082%2%

    380000032566155701%5%380000014385423221%2%

    390000033074450831%5%390000014586720131%2%

    400000033614954051%5%400000014815522881%2%

    410000034153653871%5%410000015034821931%2%

    420000034705155151%5%420000015250221541%2%

    430000035207850271%5%430000015454420421%2%

    440000035713850601%5%440000015659820541%2%

    450000036255954211%5%450000015885222541%2%

    460000036781652571%5%460000016099421421%2%

    470000037295051341%5%470000016320722131%2%

    480000037787849281%4%480000016518819811%1%

    490000038308352051%5%490000016727320851%2%

    500000038807649931%4%500000016927620031%2%

    510000039318451081%5%510000017125619801%1%

    520000039796647821%4%520000017321719611%1%

    530000040289949331%4%530000017520319861%1%

    540000040770648071%4%540000017717619731%1%

    550000041237446681%4%550000017903618601%1%

    560000041695345791%4%560000018092218861%1%

    570000042259656431%5%570000018344325211%2%

    580000042781752211%5%580000018569622531%2%

    590000043328754701%5%590000018814124451%2%

    600000043842151341%5%600000019023620951%2%

    610000044369152701%5%610000019244122051%2%

    620000044899553041%5%620000019452620851%2%

    630000045414151461%5%630000019661820921%2%

    640000045913549941%4%640000019858019620%1%

    650000046404349081%4%650000020059220121%2%

    660000046907350301%5%660000020264420521%2%

    670000047371546420%4%670000020450318590%1%

    680000047825645410%4%680000020644919460%1%

    690000048305347970%4%690000020849120420%2%

    700000048754444910%4%700000021036718760%1%

    710000049215046060%4%710000021222618590%1%

    720000049677746270%4%720000021416919430%1%

    730000050169649190%4%730000021627721080%2%

    740000050609944030%4%740000021812318460%1%

    750000051093548360%4%750000022018420610%2%

    760000051573347980%4%760000022217519910%1%

    770000052042046870%4%770000022410619310%1%

    780000052478243620%4%780000022599718910%1%

    790000052924744650%4%790000022791419170%1%

    800000053370944620%4%800000022972718130%1%

    810000053799342840%4%810000023158118540%1%

    820000054270447110%4%820000023361620350%2%

    830000054703443300%4%830000023550218860%1%

    840000055140843740%4%840000023734818460%1%

    850000055606546570%4%850000023935420060%2%

    860000056091848530%4%860000024128219280%1%

    870000056536644480%4%870000024324819660%1%

    880000057013447680%4%880000024524119930%1%

    890000057446743330%4%890000024716119200%1%

    900000057919347260%4%900000024915219910%1%

    910000058394647530%4%910000025132921770%2%

    920000058831643700%4%920000025314618170%1%

    930000059301446980%4%930000025514519990%1%

    940000059730542910%4%940000025693917940%1%

    950000060165643510%4%950000025873817990%1%

    960000060581841620%4%960000026047217340%1%

    970000061017743590%4%970000026232618540%1%

    980000061444642690%4%980000026413418080%1%

    990000061868742410%4%990000026590517710%1%

    1000000062229936120%3%1000000026741515100%1%

    1010000062578634870%3%1010000026886314480%1%

    1020000062885730710%3%1020000027010612430%1%

    1030000063085920020%2%103000002708847780%0%

    1040000063329624370%2%104000002718389540%0%

    1050000063565023540%2%105000002726848460%0%

    1060000063849328430%2%1060000027370010160%1%

    1070000064421557220%5%1070000027622325230%2%

    1080000065008158660%5%1080000027886226390%2%

    1090000065590458230%5%1090000028129224300%2%

    1100000066141855140%5%1100000028372424320%2%

    1110000066700855900%5%1110000028617024460%2%

    1120000067234053320%5%1120000028840622360%2%

    1130000067789055500%5%1130000029084324370%2%

    1140000068333754470%5%1140000029311722740%2%

    1150000068863853010%5%1150000029534122240%2%

    1160000069414055020%5%1160000029781124700%2%

    1170000069968155410%5%1170000030026424530%2%

    1180000070475850770%5%1180000030239721330%2%

    1190000070960948510%4%1190000030447220750%2%

    1200000071499253830%5%1200000030684723750%2%

    1210000072015251600%5%1210000030905722100%2%

    1220000072504148890%4%1220000031114220850%2%

    1230000073007950380%5%1230000031348023380%2%

    1240000073531852390%5%1240000031558921090%2%

    1250000074040250840%5%1250000031776521760%2%

    1260000074532549230%4%1260000031982220570%2%

    1270000075059252670%5%1270000032208222600%2%

    1280000075535947670%4%1280000032420121190%2%

    1290000076038650270%5%1290000032635721560%2%

    1300000076530849220%4%1300000032831519580%1%

    1310000077078954810%5%1310000033080024850%2%

    1320000077690361140%6%1320000033369528950%2%

    1330000078333464310%6%1330000033668929940%2%

    1340000078912757930%5%1340000033981431250%3%

    1350000079651173840%7%1350000034443346191%4%

    1360000080292164100%6%1360000034822837951%3%

    1370000080894160200%6%1370000035162233940%3%

    1380000081431253710%5%1380000035426726450%2%

    1390000081906847560%4%1390000035666423970%2%

    1400000082422851600%5%1400000035911624520%2%

    1410000082956153330%5%1410000036177426580%2%

    1420000083445248910%4%1420000036405822840%2%

    1430000083884143890%4%1430000036623921810%2%

    1440000084266138200%3%1440000036796217230%1%

    1450000084785751960%5%1450000037041024480%2%

    1460000085333854810%5%1460000037302726170%2%

    1470000085840150630%5%1470000037536723400%2%

    1480000086331849170%4%1480000037763022630%2%

    1490000086864653280%5%1490000038038927590%2%

    1500000087373850920%5%1500000038279024010%2%

    1510000087849747590%4%1510000038522524350%2%

    1520000088332648290%4%1520000038748022550%2%

    1530000088823449080%4%1530000038967621960%2%

    1540000089347252380%5%1540000039202323470%2%

    1550000089863851660%5%1550000039448224590%2%

    1560000090275041120%4%1560000039633818560%1%

    1570000090584630960%3%1570000039801116730%1%

    1580000091037645300%4%1580000039995219410%1%

    Sheet2

    Sheet3

  • Verbimuotojen mrn kehitys

    Surface and base forms

    2388513042

    4057921003

    5489927664

    6706633112

    7874638253

    9044143590

    10133348580

    11090952678

    12012956635

    12961760798

    13882464801

    14785068752

    15601172329

    16446075926

    17289979732

    18052083043

    18846386629

    19588089834

    20381493174

    21126196362

    21850499397

    225558102356

    233493105773

    240495108777

    246741111370

    253188114035

    259825116771

    266482119435

    272520121922

    278466124372

    284689126888

    290345129071

    295823131259

    301703133649

    307682136237

    313634138624

    320091141532

    325661143854

    330744145867

    336149148155

    341536150348

    347051152502

    352078154544

    357138156598

    362559158852

    367816160994

    372950163207

    377878165188

    383083167273

    388076169276

    393184171256

    397966173217

    402899175203

    407706177176

    412374179036

    416953180922

    422596183443

    427817185696

    433287188141

    438421190236

    443691192441

    448995194526

    454141196618

    459135198580

    464043200592

    469073202644

    473715204503

    478256206449

    483053208491

    487544210367

    492150212226

    496777214169

    501696216277

    506099218123

    510935220184

    515733222175

    520420224106

    524782225997

    529247227914

    533709229727

    537993231581

    542704233616

    547034235502

    551408237348

    556065239354

    560918241282

    565366243248

    570134245241

    574467247161

    579193249152

    583946251329

    588316253146

    593014255145

    597305256939

    601656258738

    605818260472

    610177262326

    614446264134

    618687265905

    622299267415

    625786268863

    628857270106

    630859270884

    633296271838

    635650272684

    638493273700

    644215276223

    650081278862

    655904281292

    661418283724

    667008286170

    672340288406

    677890290843

    683337293117

    688638295341

    694140297811

    699681300264

    704758302397

    709609304472

    714992306847

    720152309057

    725041311142

    730079313480

    735318315589

    740402317765

    745325319822

    750592322082

    755359324201

    760386326357

    765308328315

    770789330800

    776903333695

    783334336689

    789127339814

    796511344433

    802921348228

    808941351622

    814312354267

    819068356664

    824228359116

    829561361774

    834452364058

    838841366239

    842661367962

    847857370410

    853338373027

    858401375367

    863318377630

    868646380389

    873738382790

    878497385225

    883326387480

    888234389676

    893472392023

    898638394482

    902750396338

    905846398011

    910376399952

    Surface forms

    Base forms

    Corpus size

    Forms

    Growth of surface and base forms

    Verb forms

    3292212

    3732615

    4073521

    4294122

    4514425

    4684828

    4794929

    4965230

    5155230

    5275630

    5366031

    5416334

    5476636

    5566636

    5597039

    5637241

    5677241

    5727442

    5797444

    5827444

    5857445

    5877646

    5937949

    24000007949

    25000008050

    26000008151

    27000008151

    28000008351

    29000008551

    30000008651

    31000008651

    32000008752

    33000008853

    34000008953

    35000009153

    36000009355

    37000009356

    38000009556

    39000009656

    40000009656

    41000009757

    42000009858

    43000009858

    44000009859

    45000009959

    460000010060

    470000010060

    480000010060

    490000010161

    500000010262

    510000010463

    520000010463

    530000010563

    540000010663

    550000010763

    560000010963

    570000011164

    580000011164

    590000011264

    600000011466

    610000011467

    620000011467

    630000011669

    640000011669

    650000011669

    660000011770

    670000011770

    680000011770

    690000011870

    700000011970

    710000011970

    720000012170

    730000012170

    740000012171

    750000012171

    760000012271

    770000012271

    780000012372

    790000012473

    800000012474

    810000012474

    820000012475

    830000012575

    840000012575

    850000012675

    860000012677

    870000012677

    880000012677

    890000012777

    900000012777

    910000012877

    920000012878

    930000013080

    940000013080

    950000013081

    960000013181

    970000013481

    980000013481

    990000013581

    1000000013681

    1010000013983

    1020000013983

    1030000014083

    1040000014284

    1050000014285

    1060000014285

    1070000014487

    1080000014588

    1090000014689

    1100000014790

    1110000014790

    1120000014890

    1130000014990

    1140000014990

    1150000014990

    1160000014990

    1170000015090

    1180000015190

    1190000015190

    1200000015390

    1210000015391

    1220000015392

    1230000015492

    1240000015492

    1250000015492

    1260000015492

    Verb forms

    Thinking-verb forms

    Pohtia/Mietti forms

    Corpus size

    Forms

    Verb form growth

    Sheet1

    1000002388523885100%23%1000001304213042100%13%100000329329100%0%1000002222100%0%1000001212100%0%

    200000405791669441%16%20000021003796137%7%2000003734411%0%20000026415%0%20000015320%0%

    300000548991432026%14%30000027664666124%6%300000407348%0%30000035925%0%30000021628%0%

    400000670661216718%12%40000033112544816%5%400000429225%0%40000041614%0%4000002214%0%

    500000787461168014%11%50000038253514113%5%500000451224%0%5000004436%0%50000025312%0%

    600000904411169512%11%60000043590533712%5%600000468173%0%6000004848%0%60000028310%0%

    7000001013331089210%10%70000048580499010%4%700000479112%0%7000004912%0%7000002913%0%

    80000011090995768%9%8000005267840987%4%800000496173%0%8000005235%0%8000003013%0%

    90000012012992207%9%9000005663539576%3%900000515193%0%9000005200%0%9000003000%0%

    100000012961794887%9%10000006079841636%4%1000000527122%0%10000005647%0%10000003000%0%

    110000013882492076%9%11000006480140036%4%110000053691%0%11000006046%0%11000003113%0%

    120000014785090266%9%12000006875239515%3%120000054150%0%12000006334%0%12000003438%0%

    130000015601181615%8%13000007232935774%3%130000054761%0%13000006634%0%13000003625%0%

    140000016446084495%8%14000007592635974%3%140000055691%0%14000006600%0%14000003600%0%

    150000017289984394%8%15000007973238064%3%150000055930%0%15000007045%0%15000003937%0%

    160000018052076214%7%16000008304333113%3%160000056340%0%16000007222%0%16000004124%0%

    170000018846379434%7%17000008662935864%3%170000056740%0%17000007200%0%17000004100%0%

    180000019588074173%7%18000008983432053%3%180000057250%0%18000007422%0%18000004212%0%

    190000020381479343%7%19000009317433403%3%190000057971%0%19000007400%0%19000004424%0%

    200000021126174473%7%20000009636231883%3%200000058230%0%20000007400%0%20000004400%0%

    210000021850472433%7%21000009939730353%3%210000058530%0%21000007400%0%21000004512%0%

    220000022555870543%7%220000010235629592%2%220000058720%0%22000007622%0%22000004612%0%

    230000023349379353%7%230000010577334173%3%230000059361%0%23000007933%0%23000004936%0%

    240000024049570022%7%240000010877730042%3%24000007900%0%24000004900%0%

    250000024674162462%6%250000011137025932%2%25000008011%0%25000005012%0%

    260000025318864472%6%260000011403526652%2%26000008111%0%26000005111%0%

    270000025982566372%6%270000011677127362%2%27000008100%0%27000005100%0%

    280000026648266572%6%280000011943526642%2%28000008322%0%28000005100%0%

    290000027252060382%6%290000012192224872%2%29000008522%0%29000005100%0%

    300000027846659462%5%300000012437224501%2%30000008611%0%30000005100%0%

    310000028468962232%6%310000012688825161%2%31000008600%0%31000005100%0%

    320000029034556561%5%320000012907121831%2%32000008711%0%32000005211%0%

    330000029582354781%5%330000013125921881%2%33000008811%0%33000005311%0%

    340000030170358801%5%340000013364923901%2%34000008911%0%34000005300%0%

    350000030768259791%5%350000013623725881%2%35000009122%0%35000005300%0%

    360000031363459521%5%360000013862423871%2%36000009322%0%36000005523%0%

    370000032009164572%6%370000014153229082%2%37000009300%0%37000005611%0%

    380000032566155701%5%380000014385423221%2%38000009522%0%38000005600%0%

    390000033074450831%5%390000014586720131%2%39000009611%0%39000005600%0%

    400000033614954051%5%400000014815522881%2%40000009600%0%40000005600%0%

    410000034153653871%5%410000015034821931%2%41000009711%0%41000005711%0%

    420000034705155151%5%420000015250221541%2%42000009811%0%42000005811%0%

    430000035207850271%5%430000015454420421%2%43000009800%0%43000005800%0%

    440000035713850601%5%440000015659820541%2%44000009800%0%44000005911%0%

    450000036255954211%5%450000015885222541%2%45000009911%0%45000005900%0%

    460000036781652571%5%460000016099421421%2%460000010011%0%46000006011%0%

    470000037295051341%5%470000016320722131%2%470000010000%0%47000006000%0%

    480000037787849281%4%480000016518819811%1%480000010000%0%48000006000%0%

    490000038308352051%5%490000016727320851%2%490000010110%0%49000006111%0%

    500000038807649931%4%500000016927620031%2%500000010210%0%50000006211%0%

    510000039318451081%5%510000017125619801%1%510000010421%0%51000006311%0%

    520000039796647821%4%520000017321719611%1%520000010400%0%52000006300%0%

    530000040289949331%4%530000017520319861%1%530000010510%0%53000006300%0%

    540000040770648071%4%540000017717619731%1%540000010610%0%54000006300%0%

    550000041237446681%4%550000017903618601%1%550000010710%0%55000006300%0%

    560000041695345791%4%560000018092218861%1%560000010921%0%56000006300%0%

    570000042259656431%5%570000018344325211%2%570000011121%0%57000006411%0%

    580000042781752211%5%580000018569622531%2%580000011100%0%58000006400%0%

    590000043328754701%5%590000018814124451%2%590000011210%0%59000006400%0%

    600000043842151341%5%600000019023620951%2%600000011421%0%60000006623%0%

    610000044369152701%5%610000019244122051%2%610000011400%0%61000006711%0%

    620000044899553041%5%620000019452620851%2%620000011400%0%62000006700%0%

    630000045414151461%5%630000019661820921%2%630000011621%0%63000006922%0%

    640000045913549941%4%640000019858019620%1%640000011600%0%64000006900%0%

    650000046404349081%4%650000020059220121%2%650000011600%0%65000006900%0%

    660000046907350301%5%660000020264420521%2%660000011710%0%66000007011%0%

    670000047371546420%4%670000020450318590%1%670000011700%0%67000007000%0%

    680000047825645410%4%680000020644919460%1%680000011700%0%68000007000%0%

    690000048305347970%4%690000020849120420%2%690000011810%0%69000007000%0%

    700000048754444910%4%700000021036718760%1%700000011910%0%70000007000%0%

    710000049215046060%4%710000021222618590%1%710000011900%0%71000007000%0%

    720000049677746270%4%720000021416919430%1%720000012121%0%72000007000%0%

    730000050169649190%4%730000021627721080%2%730000012100%0%73000007000%0%

    740000050609944030%4%740000021812318460%1%740000012100%0%74000007111%0%

    750000051093548360%4%750000022018420610%2%750000012100%0%75000007100%0%

    760000051573347980%4%760000022217519910%1%760000012210%0%76000007100%0%

    770000052042046870%4%770000022410619310%1%770000012200%0%77000007100%0%

    780000052478243620%4%780000022599718910%1%780000012310%0%78000007211%0%

    790000052924744650%4%790000022791419170%1%790000012410%0%79000007311%0%

    800000053370944620%4%800000022972718130%1%800000012400%0%80000007411%0%

    810000053799342840%4%810000023158118540%1%810000012400%0%81000007400%0%

    820000054270447110%4%820000023361620350%2%820000012400%0%82000007511%0%

    830000054703443300%4%830000023550218860%1%830000012510%0%83000007500%0%

    840000055140843740%4%840000023734818460%1%840000012500%0%84000007500%0%

    850000055606546570%4%850000023935420060%2%850000012610%0%85000007500%0%

    860000056091848530%4%860000024128219280%1%860000012600%0%86000007722%0%

    870000056536644480%4%870000024324819660%1%870000012600%0%87000007700%0%

    880000057013447680%4%880000024524119930%1%880000012600%0%88000007700%0%

    890000057446743330%4%890000024716119200%1%890000012710%0%89000007700%0%

    900000057919347260%4%900000024915219910%1%900000012700%0%90000007700%0%

    910000058394647530%4%910000025132921770%2%910000012810%0%91000007700%0%

    920000058831643700%4%920000025314618170%1%920000012800%0%92000007811%0%

    930000059301446980%4%930000025514519990%1%930000013021%0%93000008022%0%

    940000059730542910%4%940000025693917940%1%940000013000%0%94000008000%0%

    950000060165643510%4%950000025873817990%1%950000013000%0%95000008111%0%

    960000060581841620%4%960000026047217340%1%960000013110%0%96000008100%0%

    970000061017743590%4%970000026232618540%1%970000013432%0%97000008100%0%

    980000061444642690%4%980000026413418080%1%980000013400%0%98000008100%0%

    990000061868742410%4%990000026590517710%1%990000013510%0%99000008100%0%

    1000000062229936120%3%1000000026741515100%1%1000000013610%0%100000008100%0%

    1010000062578634870%3%1010000026886314480%1%1010000013932%0%101000008322%0%

    1020000062885730710%3%1020000027010612430%1%1020000013900%0%102000008300%0%

    1030000063085920020%2%103000002708847780%0%1030000014010%0%103000008300%0%

    1040000063329624370%2%104000002718389540%0%1040000014221%0%104000008411%0%

    1050000063565023540%2%105000002726848460%0%1050000014200%0%105000008511%0%

    1060000063849328430%2%1060000027370010160%1%1060000014200%0%106000008500%0%

    1070000064421557220%5%1070000027622325230%2%1070000014421%0%107000008722%0%

    1080000065008158660%5%1080000027886226390%2%1080000014510%0%108000008811%0%

    1090000065590458230%5%1090000028129224300%2%1090000014610%0%109000008911%0%

    1100000066141855140%5%1100000028372424320%2%1100000014710%0%110000009011%0%

    1110000066700855900%5%1110000028617024460%2%1110000014700%0%111000009000%0%

    1120000067234053320%5%1120000028840622360%2%1120000014810%0%112000009000%0%

    1130000067789055500%5%1130000029084324370%2%1130000014910%0%113000009000%0%

    1140000068333754470%5%1140000029311722740%2%1140000014900%0%114000009000%0%

    1150000068863853010%5%1150000029534122240%2%1150000014900%0%115000009000%0%

    1160000069414055020%5%1160000029781124700%2%1160000014900%0%116000009000%0%

    1170000069968155410%5%1170000030026424530%2%1170000015010%0%117000009000%0%

    1180000070475850770%5%1180000030239721330%2%1180000015110%0%118000009000%0%

    1190000070960948510%4%1190000030447220750%2%1190000015100%0%119000009000%0%

    1200000071499253830%5%1200000030684723750%2%1200000015321%0%120000009000%0%

    1210000072015251600%5%1210000030905722100%2%1210000015300%0%121000009111%0%

    1220000072504148890%4%1220000031114220850%2%1220000015300%0%122000009211%0%

    1230000073007950380%5%1230000031348023380%2%1230000015410%0%123000009200%0%

    1240000073531852390%5%1240000031558921090%2%1240000015400%0%124000009200%0%

    1250000074040250840%5%1250000031776521760%2%1250000015400%0%125000009200%0%

    1260000074532549230%4%1260000031982220570%2%1260000015400%0%126000009200%0%

    1270000075059252670%5%1270000032208222600%2%

    1280000075535947670%4%1280000032420121190%2%

    1290000076038650270%5%1290000032635721560%2%

    1300000076530849220%4%1300000032831519580%1%

    1310000077078954810%5%1310000033080024850%2%

    1320000077690361140%6%1320000033369528950%2%

    1330000078333464310%6%1330000033668929940%2%

    1340000078912757930%5%1340000033981431250%3%

    1350000079651173840%7%1350000034443346191%4%

    1360000080292164100%6%1360000034822837951%3%

    1370000080894160200%6%1370000035162233940%3%

    1380000081431253710%5%1380000035426726450%2%

    1390000081906847560%4%1390000035666423970%2%

    1400000082422851600%5%1400000035911624520%2%

    1410000082956153330%5%1410000036177426580%2%

    1420000083445248910%4%1420000036405822840%2%

    1430000083884143890%4%1430000036623921810%2%

    1440000084266138200%3%1440000036796217230%1%

    1450000084785751960%5%1450000037041024480%2%

    1460000085333854810%5%1460000037302726170%2%

    1470000085840150630%5%1470000037536723400%2%

    1480000086331849170%4%1480000037763022630%2%

    1490000086864653280%5%1490000038038927590%2%

    1500000087373850920%5%1500000038279024010%2%

    1510000087849747590%4%1510000038522524350%2%

    1520000088332648290%4%1520000038748022550%2%

    1530000088823449080%4%1530000038967621960%2%

    1540000089347252380%5%1540000039202323470%2%

    1550000089863851660%5%1550000039448224590%2%

    1560000090275041120%4%1560000039633818560%1%

    1570000090584630960%3%1570000039801116730%1%

    1580000091037645300%4%1580000039995219410%1%

    Sheet2

    Sheet3

  • Otoksen mrn vaikutus tilastolliseen tulkintaanotoksen koon kasvaessa havaittavien lingvististen ilmiiden mr ja niiden frekvenssi kasvaa Frekvenssien kasvaessa ilmiiden tilastollisen merkitsevyyden mahdollisuus kasvaa Mutta tilastollinen merkitsevyys voidaan saavuttaa pienemmill suhde-eroilla (22/23 vs. 932/1562 ovat tilastollisesti yht merkittvi) Mahdollisesti/todennkisesti samat pienemmss korpuksessa tilastollisesti merkitseviksi havaittavat ilmit ovat sit mys suuremmissa korpuksissa frekvenssit mihin ne perustuvat ovat vain suuremmatpienemmss otoksessa mahdollisuus tarkempaan analyysiin ja perusteellisempaan virheiden tarkistamiseenOman tutkimuksen kaksi korpusta: 855 vs. 4545 tapausta tarkistettavien analyysien edellyttmn tymrn kasvu

  • Oma tutkimus: pienempi korpus (2 Mw)

    #

    t-score

    ntag(verb)/

    ntag(total)

    Verb

    Combination of tags/features

    1

    2.6544151

    77/112

    mietti

    INF1 ~ mietti to ponder

    ( &-MV:V:ACT:INF1

    ~ mietti to ponder

    2

    2.3389739

    22/23

    mietti

    IND:SG1

    3

    2.3003402

    199/320

    pohtia

    SG3

    4

    2.2804408

    21/22

    mietti

    SG1

    5

    2.2720630

    198/319

    pohtia

    IND:SG3

    6

    2.2526106

    32/37

    pohtia

    META-DE_foreign

    7

    2.1700721

    201/355

    mietti

    &-MV

    8

    2.1004193

    145/230

    pohtia

    PRES:SG3

    ( &+MV:V:ACT:IND:PRES:SG3

    ~ pohtii he ponders

    9

    2.0711558

    21/24

    mietti

    META-BY_aaa

    10

    2.0627680

    30/39

    mietti

    &-MV:META-DE_sport

    11

    2.0157633

    15/15

    mietti

    &+MV:PAST:SG1

    ( &+MV:V:ACT:IND:PAST:SG1

    ~ mietin I pondered

  • Pienempi korpus...

    12

    2.0103638

    203/335

    pohtia

    &+MV:PRES

    13

    2.0025643

    204/337

    pohtia

    IND:PRES

    14

    1.9871152

    206/341

    pohtia

    PRES

    15

    1.9619883

    16/17

    mietti

    SG1:META-BY_unspec

    16

    1.9544431

    286/486

    pohtia

    &+MV:IND

    17

    1.9242580

    24/28

    pohtia

    ACT:META-DE_foreign

    18

    1.9121518

    288/491

    pohtia

    IND

    19

    1.8786721

    116/184

    pohtia

    SG3:META-BY_unspec

    20

    1.8690776

    18/21

    mietti

    ACT:META-BY_aaa

    21

    1.8192520

    14/15

    mietti

    PRES:META-BY_aaa

    22

    1.8090504

    290/498

    pohtia

    &+MV

    23

    1.8074797

    26/35

    mietti

    &-MV:ACT:META-DE_sport

    24

    1.7435752

    13/14

    mietti

    &+MV:PRES:META-BY_aaa

    ( &+MV:V:ACT:IND:PRES:SG3:META:BY_aaa

    ~ miettii he ponders

    25

    1.6216452

    165/277

    pohtia

    &+MV:ACT:PRES

    26

    1.6128154

    61/93

    pohtia

    &+MV:PASS:IND

    27

    1.5904283

    11/11

    pohtia

    IND:META-BY_bbb

    28

    1.5884516

    15/17

    pohtia

    PRES:META-DE_foreign

    29

    1.5816121

    11/12

    mietti

    ACT:SG:META-DE_sport

    30

    1.5626323

    20/25

    pohtia

    META-BY_bbb

    31

    1.5614035

    9/9

    mietti

    META-BY_ccc

    32

    1.5614035

    9/9

    mietti

    META-BY_ddd

  • Oma tutkimus: suurempi korpus

    #

    t-score

    ntag(verb)/

    ntag(total)

    Verb

    Combination of tags/features

    3

    4.65436111

    341/481

    pohtia

    PASS:IND

    7

    4.30643067

    1474/2468

    pohtia

    &+MV

    9

    3.42270008

    173/242

    pohtia

    IND:PL3

    10

    3.39827308

    932/1562

    pohtia

    SG3

    11

    3.38888039

    111/142

    pohtia

    PASS:PAST

    &+MV:V:PASS:IND:PAST

    ( pohdittiin X was pondered

    12

    3.37272932

    924/1551

    pohtia

    IND:SG3

    13

    3.35194627

    178/252

    pohtia

    PL3

    14

    3.29908324

    224/330

    pohtia

    PASS:PRES

    15

    3.23807959

    220/326

    pohtia

    &+MV:PASS: PRES

    &+MV:V:PASS:IND:PRES

    ( pohditaan X is pondered

    16

    2.87031644

    289/453

    pohtia

    PAST:SG3

    18

    2.53231288

    122/178

    pohtia

    PRES:PL3

    &+MV:V:ACT:IND:PRES:PL3

    ( pohtivat they ponder

    20

    2.38941082

    51/64

    pohtia

    PAST:PL3

    &+MV:V:ACT:IND:PAST:PL3

    ( pohtivat they pondered

    21

    2.24091027

    51/66

    pohtia

    ACT:PCP1:SG

    23

    2.13260209

    635/1097

    pohtia

    PRES:SG3

    &+MV:V:ACT:IND:PRES:SG3

    ( pohtii he ponders

  • Suurempi korpus (16 Mw) ...

    #

    t-score

    ntag(verb)/

    ntag(total)

    Verb

    Combination of tags/features

    1

    5.02810160

    417/670

    mietti

    INF1

    &-MV:V:ACT:INF1

    ( mietti to ponder

    2

    4.90857618

    1141/2076

    mietti

    &-MV

    4

    4.60405240

    88/96

    mietti

    SG1

    8

    3.66672617

    53/56

    mietti

    PAST:SG1

    &+MV:V:ACT:IND:PAST:SG1

    ( mietin I pondered

    17

    2.79006234

    36/41

    mietti

    PRES:SG1

    &+MV:V:ACT:IND:PRES:SG1

    ( mietin I ponder

    19

    2.39208299

    330/610

    mietti

    INF3

    22

    2.23804303

    71/111

    mietti

    PASS:PCP1

    24

    2.05325910

    23/28

    mietti

    IMP

  • Yhteneviset ilmit molemmissa korpuksissamiettiI infinitiivi (77/112) vs. (417/670)yks. 1. persoona (22/23) vs. (88/96)yks. 1. persoona JA imperfekti vs. (15/15) (53/56)

    pohtiayks. 3. persoona (199/320) vs. (932/1562)preesens JA yks. 3. persoonaKorpuksen mrn kasvattaminen ei niden ilmiiden kohdalla vaikuttanut keskinisiin suhteisiin ja tilastolliseen merkitsevyyteen

  • Yksityiskohtaisemmat ilmit pienemmss korpuksessamiettiI infinitiivi (77/112)yks. 1. persoona (22/23)toimittajat aaa, bbb ja cccurheiluosastoyks. 1. persoona JA imperfekti

    pohtiayks. 3. persoona (199/320)ulkomaanosastopreesens JA yks. 3. persoonapreesenstoimittaja bbbNm tiedot olivat saatavissa perusteellisemman analyysin johdosta

  • Havaitut uudet ilmit laajemmassa korpuksessamiettiI infinitiivi (417/670)yks. 1. persoona (88/96)yks. 1. persoona JA imperfekti (53/56)III infinitiivipassiivi ja 1. partisiippiimperatiivi (23/28 )

    pohtiapassiivi JA indikatiivi (341/481)mon. 3. persoona JA indikatiivi (1474/2468)yks. 3. persoona (932/1562)passiivi JA imperfekti (111/142)yks. 3. persoona JA indikatiivi (924/1551)mon. 3. persoona (178/252)Nm ilmit nousivat tilastollisesti merkittvin esille korpuksen kasvattamisen johdosta

  • Suhteiden ja merkitsevyyden vertailua kahden erikokoisen korpuksen vlill

    Sheet1

    t-score (S)t-score (L)Proportions (S)Proportions (L)Ratio L/SVerbCombination of tags/features

    2.65445.028177/112417/6700.6880.6220.905mietti

    2.30033.3983199/320932/15620.6220.5970.959pohtiaSG3

    2.28044.604121/2288/960.9550.9170.960miettiSG1

    2.27213.3727198/319924/15510.6210.5960.960pohtiaIND:SG3

    2.10042.1326145/230635/10970.6300.5790.918pohtia

    2.01583.666715/1553/561.0000.9460.946mietti

    Sheet2

    Sheet3

  • Mit siis korpuksista voidaan laskea?frekvenssej eli lukumri suuruusjrjestysyksittinen ilmiyksittisen verbin taivutusmuotojen frekvenssitverbijoukon esiintymien frekvenssit yleisyysjrjestyksess (perusmuodon mukaan)yhteisesiintymiset eli kollokaatiot (sanaparit tai sana-piirreparit)suhteita osuus koko korpuksesta tai eri osakorpuksistasuhteiden suhteita vertailu eri frekvenssien vlill

  • Esimerkkej frekvensseist pohtia-verbin muodot ( =2435)26.1%635pohtii&+MV V ACT IND PRES SG311.8%288pohti&+MV V ACT IND PAST SG310.5%255pohtimaan&-MV V ACT INF3 SG ILL10.3%250pohtia&-MV V ACT INF18.9%216pohditaan&+MV V PASS IND PRES6.4%155pohtivat&+MV V ACT IND PRES PL3 ... &+MV V ACT IND PAST PL34.6%111pohdittiin&+MV V PASS IND PAST2.9%71pohdittu&-MV V PASS PCP22.7%66pohtinut&-MV V ACT PCP2 SG1.1%27pohdittava&-MV V PASS PCP11.1%26pohtineet&-MV V ACT PCP2 PL0.7%18pohtiessaan&-MV V ACT INF2 INE0.7%18pohtiva&-MV V ACT PCP1 SG NOM0.7%16pohtimassa &-MV V ACT INF3 SG INE

  • Esimerkkej frekvensseist mietti-verbin muodot ( =2110)21.5%461miettii&+MV V ACT IND PRES SG319.3%413mietti&-MV V ACT INF113.3%284miettimn&-MV V ACT INF3 SG ILL7.6%162mietti&+MV V ACT IND PAST SG34.7%100mietitn&+MV V PASS IND PRES3.1%67miettinyt&-MV V ACT PCP2 SG2.9%63mietittv&-MV V PASS PCP12.6%56miettivt&+MV V ACT IND PRES PL3 /&+MV V ACT IND PAST PL33.7%79mietin&+MV V ACT IND PRES SG1 /&+MV V ACT IND PAST SG12.2%47mietitty&-MV V PASS PCP21.3%28mietittiin&+MV V PASS IND PAST

  • Esimerkkej suhteista pohtia vs. miettir1/r2 r1 n1 pohtia r2 n2mietti11,78651,1 %26pohtineet0,1 %2miettineet3,5384624,6 %111pohdittiin1,3 %28mietittiin2,4615386,4 %155pohtivat2,6 %56miettivt1,8936178,9 %216pohditaan4,7 %100mietitn1,55263211,8 %288pohti7,6 %162mietti1,3181822,9 %71pohdittu2,2 %47mietitty1,21395326,1 %635pohtii21,5 %461miettii1,0000670,7 %16pohtimassa 0,7 %15 miettimss0,8709682,7 %66pohtinut3,1 %67miettinyt0,7895260,7 %18pohtiessaan0,9 %19 miettiessn0,78947410,5 %255pohtimaan13,3 %284miettimn0,53367910,3 %250pohtia19,3 %413mietti0,379311,1 %27pohdittava2,9 %63mietittv0,0887950,3 %8pohdin3,7 %79mietin0,0750050,7 %18pohtiva9,3 %2miettiv

  • Esimerkkej suhteista pohtia vs. mietti lehden eri osastoissa

    Sheet1

    Total wordsSectionpohtiaw/100000miettiw/100000

    11.7865&-MV V ACT PCP2 PL1.1 %26pohtineet0.1 %2miettineet232META-DE_koti00.000.0-

    3.5384615385&+MV V PASS IND PAST4.6 %111pohdittiin1.3 %28mietittiin10600META-DE_taite218.900.0-

    2.4615384615&+MV V ACT IND PRES PL3 / &+MV V ACT IND PAST PL36.4 %155pohtivat2.6 %56miettivt282861META-DE_ulk3211.351.86.400

    1.8936170213&+MV V PASS IND PRES8.9 %216pohditaan4.7 %100mietitn4505META-DE_liite488.8122.24.000

    1.5526315789&+MV V ACT IND PAST SG311.8 %288pohti7.6 %162mietti261196META-DE_klt6123.44517.21.356

    1.3181818182&-MV V PASS PCP22.9 %71pohdittu2.2 %47mietitty118047META-DE_art2218.61916.11.158

    1.2139534884&+MV V ACT IND PRES SG326.1 %635pohtii21.5 %461miettii827975META-DE_kot18121.916419.81.104

    1.0000666667&-MV V ACT INF3 SG INE0.7 %16pohtimassa0.7 %15miettimss273356META-DE_tal3713.53613.21.028

    0.8709677419&-MV V ACT PCP2 SG2.7 %66pohtinut3.1 %67miettinyt34682META-DE_syke1543.31543.31.000

    0.7895263158&-MV V ACT INF2 INE0.7 %18pohtiessaan0.9 %19miettiessn246882META-DE_urh6024.37630.80.789

    0.7894736842&-MV V ACT INF3 SG ILL10.5 %255pohtimaan13.3 %284miettimn128045META-DE_viv3023.44434.40.682

    0.5336787565&-MV V ACT INF110.3 %250pohtia19.3 %413mietti7560META-DE_ruoka113.2226.50.500

    0.3793103448&-MV V PASS PCP11.1 %27pohdittava2.9 %63mietittv6197META-DE_matka00.0232.30.000

    0.0887951607&+MV V ACT IND PRES SG1 / &+MV V ACT IND PAST SG10.3 %8pohdin3.7 %49mietin

    0.075005&-MV V ACT PCP1 SG NOM0.7 %18pohtiva9.3 %2miettiv100000.0

    Sheet2

    Sheet3

  • Mit muuta korpuksista voidaan ptell?havaintojen tilastollisia merkitsevyyksiovatko otoksessa havaitut erot frekvensseiss tai suhteellisissa osuuksissa tilastollisesti merkitsevi, esim. edell esitetyiss tapauksissa onko havaittu ero tietyn todennkisyyden (p > 95 tai 99% ~ p 99% joka 100. otos ...

  • Tilastollisia merkitsevyysmittareitaPearsonin khi-toiseen testi (X2)Log-likelihood (G2)t-testiyhteisinformaatio (mutual information MI)Fisherin eksakti testi

  • Merkitsevyytt laskettaessa huomioitavauseimmat mittarit (X2, G2 ja t-testi) edellyttvt, ettotoksen koko on riittvn suuritarkasteltavien tapauksien mr (kontingenssitaulukossa) on rajattu ja pieni suhteessa otoksen kokoonkunkin tarkasteltavan tapauksen odotusarvo on suuri (> 5 havaintoa)ym. rajoitukset eivt koske Fisherin eksaktia testiantaa suoraan todennkisyyden (0
  • Parhaan tunnusluvun metsstyspohtia vs. mietti verbien kontekstitverbien omat morfologiset piirteetverbien funktionaalinen konteksti: lekseemi ja sen morfologiset piirteet, funktio sek semanttinen luokitusjrjestetty tilastollisestit-testin mukaan (~X2)[p < .05 t > 1.65]Fisherin eksaktin testin mukaan [0 < p < 1]

  • t-testin (~X2) mukainen jrjestys

    t-testi

    Fisher

    n(V)/(V)

    Verb

    n(F|V)/(F)

    Feature

    2.59852502

    1.00000000

    427/892

    mietti

    78/115

    0_INF1

    2.35841193

    1.00000000

    427/892

    mietti

    24/26

    0_SG1

    2.32791480

    1.00000000

    465/892

    pohtia

    400/678

  • Fisherin eksaktin testin mukainen jrjestys

    t-testi

    Fisher

    n(V)/(V)

    Verb

    n(F|V)/(F)

    Feature

    1.67858224

    1.00000000

    465/892

    pohtia

    375/657

  • Merkitsevyysmittarit ja lingvistin kieli-intuitio9 vs. 1 tuntuisi lingvistisesti mielekklt suhteelta, muttei ole tilastollisesti merkitsev tilastotieteen nkkulmasta tarvittaisiin suurempi aineisto, jossa suhdeluku toivottavasti silyy400 vs. 600 (2/5 vs. 3/5) ei tunnu lingvistisesti mielekklt suhde-erolta, mutta on kuitenkin tilastollisesti merkitsev suurissa aineistossa yleisimpien ilmiiden mrt ovat niin suuria, ett niiden pienetkin suhde-erot ovat tilastollisesti merkitsevi lingvistisest nkkulmasta nousee esille kysymys, josko suhde-ero jonkun ylimrisen jaottelumuuttujan avulla kasvaisi mielekkmmksi

  • Merkitsevyysmittarit ja lingvistin kieli-intuitio ...omassa tutkimuksessani: SG3-jakaumat-testiFisherverbinp,v/nf,totalpiirre 2.1481.000000pohtia206/3360_SG3-2.7050.000013mietti130/3360_SG3SG3-suhde on merkitsev, mutta suhdeluku on 2/3olisiko joku toinen tekij, jonka suhteen SG3-verbit jakautuisivat selkemmin kahteen ryhmn?agentin laskettavuus: yksil vs. kollektiivi?

  • Merkitsevyysmittarit ja lingvistin kieli-intuitio ...Agentti-jakauma:t-testiFisherVerbinp,v/np,totalAgentti1.9081.0000pohtia34/44GROUP1.8441.0000pohtia155/254INDIVIDUALkollektiiviagenttien suhteen suhde-ero kasvaa (1/4 vs. 3/4) ja on edelleen tilastollisesti merkitsevyksilagenttien suhteen suhde-ero itse asiassa pienenee (4/10 vs. 6/10), mutta on edelleen tilastollisesti merkitsev!

  • Mist tilastolliset merkitsevyysmittarit oikeastaan kertovat?jos havaittu ilmi on tilastollisesti merkitsev, se on ainakin (korkeintaan?) merkitsev otoksessahavainnon merkitsevyyden yleistettvyys?perustuu puhtaasti siihen, kuinka hyvin otos edustaa tarkasteltavaa populaatiota eli kuinka selvsti populaatio on mritelty ja kuinka satunnaisesti otos on tehty ko. populaatiostakielen kohdalla: kuinka hyvin otos edustaa tutkittavaa kielen osa-aluetta mik on se kielen osa-alue, mist otos on tehty selkesti mritelty vai kytetty kaikki mik on saatu ksiin

  • Yleistettvyys ...Mist esimerkiksi kyttmni Keskisuomalaisen 4 kuukauden otos kertoo?ainakin Keskisuomalaisen toimittajien sanomalehtiartikkelien kirjoitustyylist ko. aikanamikli kyseess olisi satunnaisesti valittu otos laajemmasta aikavlist Keskisuomalaista, voisi otos kenties kertoa Keskisuomalaisen toimittajien kirjoitustyylist ylipnsmikli kyseess olisi satunnaisesti valittu otos suomalaisista sanomalehdist jollakin aikavlill, otos voisi kenties kertoa sanomalehtitekstin tyylist ylipns (ko. aikavlill)

  • Yleistettvyys ...miten paljon sanomalehtitekstiss tehdyt havainnot kertovat:faktakirjallisuudesta?kirjoitetusta kielest?kielen (suomen) kytst ylipns?sanomalehtiteksti on luonteeltaan varsin heterogeenist, mutta voiko se mitenkn olla otos muusta kuin omasta genrestn?havainnot on vhintnkin tr