21
www.helsinki.fi/yliopisto Aineiston avautuminen kielentutkimuksessa Terttu Nevalainen VARIENG-tutkimusyksikkö HY, Nykykielten laitos http://www.helsinki.fi/varieng/ Nevalainen/ Aineiston avautuminen

Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

Aineiston avautuminen

kielentutkimuksessa

Terttu Nevalainen

VARIENG-tutkimusyksikkö

HY, Nykykielten laitos

http://www.helsinki.fi/varieng/

Nevalainen/ Aineiston avautuminen

Page 2: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

• “data”: tutkimusaineistojen tietovaranto • = korpukset (elektroniset tekstikokoelmat)

ja muut avoimet, strukturoidut digitaaliset aineistot kielentutkimuksessa • kehittäjä- ja loppukäyttäjäperspektiivi

• esimerkit anglistiikasta

• lyhyt historia

• käyttömahdollisuudet

• nykytrendit

Nevalainen/ Aineiston avautuminen

Teemat

Page 3: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

Julkishallinnon datavarantoja sisällöittäin (Poikola, A., P. Kola & K. A. Hintikka (2010). Julkinen data: johdatus tietovarantojen

avaamiseen)

Nevalainen/ Aineiston avautuminen

Page 4: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

Alussa oli… 1476-

fromoldbooks.org

Nevalainen/ Aineiston avautuminen

Page 5: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

Digitaalinen ‘käänne’ 1964-

1964/1971/1979

Brown Corpus

1961

LOB Corpus 1961

Varhaiset korpukset pieniä: 1 miljoona sanaa

Strukturointiperiaate: tekstilaji

A Standard Corpus of Present-Day Edited American English,

for use with Digital Computers

Nevalainen/ Aineiston avautuminen

Page 6: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

Sub-period

Words

%

OLD ENGLISH

I -850

II 850-950

III 950-1050

IV 1050-1150

Total

2 190

92 050

251 630

67 380

413 250

0.5

22.3

60.9

16.3

100.0

MIDDLE ENGLISH

I 1150-1250

II 1250-1350

III 1350-1420

IV 1420-1500

Total

EModE, BRITISH

113 010

97 480

184 230

213 850

608 570

18.6

16.0

30.3

35.1

100.0

I 1500-1570

II 1570-1640

III 1640-1710

Total

190 160

189 800

171 040

551 000

34.5

34.5

31.0

100.0

Helsinki Corpus 1991

Nevalainen/ Aineiston avautuminen http://www.helsinki.fi/varieng/CoRD/corpora/HelsinkiCorpus/index.html

Page 7: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

• 1. sukupolvi kasvaa

• Brownin ja Helsingin korpusperheet

• kieliopillisesti annotoidut versiot

• diakroniset ja maantieteelliset rinnakkaiskorpukset

• litteroidut puhekorpukset

• 2. sukupolven korpukset

• suurempia, runsaasti tekstikohtaista metadataa

• mahdollistavat uudet tutkimusasetelmat

• voidaan tutkia mm. erityiskieliä ja kielen kehitystä

sosiaalisissa konteksteissa

Aineistot monipuolistuvat

1990-

luku

Nevalainen/ Aineiston avautuminen

Page 8: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

Korpusvalikoima mallia 1999

Nevalainen/ Aineiston avautuminen

Page 9: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

• The York-Helsinki Parsed Corpus of Old English Poetry

• The York-Toronto-Helsinki Parsed Corpus of Old English

Prose

• The Brooklyn-Geneva-Amsterdam-Helsinki Parsed Corpus

of Old English

• The Penn-Helsinki Parsed Corpus of Middle English

• The Penn-Helsinki Parsed Corpus of Early Modern English

• Penn Parsed Corpus of Modern British English (1700-1914) http://www.ling.upenn.edu/hist-corpora/

• Helsinki Corpus TEI XML Edition (VARIENG, 2011)

Helsingin korpusperhe 1995-

Nevalainen/ Aineiston avautuminen

Page 10: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

• digiaineistot ovat valtavirtaa

• yhdistävät kielentutkimuksen eri suuntauksia etenkin kielihistoriassa

• sanastontutkimus, variaatiotutkimus, historiallinen sosiolingvistiikka, pragmatiikka, konstruktiokielioppi, generatiivi kielioppi jne.

• uudet ulottuvuudet:

• runsas, integroitu metadata

• kontekstualisointi

• multimedia, visualisointi

Nykytilanne

Nevalainen/ Aineiston avautuminen

Page 11: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

• The Corpus of Historical American English (COHA)

• Mark Davies, 400 miljoonaa sanaa, 4 tekstilajia (1810-2009) (http://corpus.byu.edu/coha/)

• Google Books Corpus

• Daviesin hakuliittymä Google Booksiin: yli 155.000.000.000

sanaa (1.3 miljoonaa kirjaa) Amerikan englantia (1810-2009) (http://googlebooks.byu.edu/)

• Google Books

• Kesäkuu 2010: 12 miljoonaa kirjaa n. 480 kielellä.

• Google laskee, että maailmassa oli tuolloin julkaistu 129 864 880

kirjaa. Googlen pyrkii skannaamaan ne tällä vuosikymmenellä. (http://fi.wikipedia.org/wiki/Google_Books)

2010- Huikea määrällinen kasvu:

there’s no data like more data…

Nevalainen/ Aineiston avautuminen

Page 12: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

… ja erikoistuminen VARIENGissa valmistuvat korpukset ja tietokannat

http://www.helsinki.fi/varieng/index.html

• Helpommin julkaistavissa:

• Corpus of Early English Correspondence Extension (CEECE) (T. Nevalainen et al.)

• Corpus of Early English Correspondence Supplement (CEECSU) (T. Nevalainen et al.)

• Corpus of Early Modern English Medical Texts (EMEMT) (I. Taavitsainen et al.)

• Corpus of Late Modern English Medical Texts (LMEMT) (I. Taavitsainen et al.)

• The Letters of Richard Cocks (S. Kaislaniemi)

• The Bluestocking Corpus (A. Sairio)

• The Corpus of Early Modern English Witchcraft Pamphlets (C. Suhr)

• The Corpus of Early Modern Tobacco Controversy (M. Ratia)

• Early English Advertisements (M. Palander-Collin)

• Corpus of Research Articles (T. Hiltunen)

• Database of Editorials, News and Letters-to-the-Editor in Finnish Newspapers (S. Leppänen)

• Vaikeammin julkaistavissa

• Corpus of Blayney Speech (M. Korhonen)

• The Corpus of English in Finland (FIN-CE) (M. Laitinen)

• Corpus of Nordic Professional English (U. Paatola)

• Helsinki Archive of British English Dialects (A.-L. Vasko et al.)

• Databases of CLIL and EFL Classroom Interaction (Jyväskylä team)

• Database of English in Finnish Working Life (T. Virkkula)

• English Written by Finns (M. Palander-Collin)

• Database of Finland-based Fan Fiction (S. Leppänen)

• Database of Finland-based Football Forums on the Web (S. Kytölä)

• Database of Weblogs (S. Leppänen)

• Database of Godspeed Discussion Forum (S. Peuronen)

2010-

Nevalainen/ Aineiston avautuminen

Page 13: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

Genre custering

DAMMOC: Kohti korpusten inter-

aktiivista visuaalista analyysia Terttu Nevalainen, Tanja Säily, Turo Vartiainen

(University of Helsinki)

Jefrey Lijffijt, Panagiotis Papapetrou, Kai

Puolamäki, Heikki Mannila (Aalto University)

Harri Siirtola, Kari-Jouko Räihä (University of

Tampere)

http://www.uta.fi/sis/tauchi/virg/projects/dammoc.html

Page 14: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

Text Variation Explorer: Brown Corpus

DAMMOC: http://www.uta.fi/sis/tauchi/virg/projects/dammoc.html

Nevalainen/ Aineiston avautuminen

Page 15: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

• http://www.gutenberg.org/

• http://ota.ahds.ac.uk/

• http://icame.uib.no/

• http://www.ldc.upenn.edu/

• http://www.fsd.uta.fi/index.html

Saatavuus: aineistoarkistot

The Oxford Text Archive

Linguistic Data Consortium (membership fee)

Nevalainen/ Aineiston avautuminen

Page 16: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

Nevalainen/ Aineiston avautuminen

552-02-28 (begins on folio 7v)

The xxviij day of feybruarij waſ bered ye nobullLady

conteſ of penbroke & syster to ye late qwyne & wyffe to the

nobull kyng henry the viij late kyng & ye good lade the

conteſ of penbroke ye wyche waſ she ded at benard castle

& so cared vnto powll{s} ther waſ a c powre me & women who

had mantyll ffrysse gowneſ then cam the harold{s} and then

ye corse & a bowt her viij banerſ roll{s} of armeſ & then

cam ye mornarſ boyth lord{s} & knyght{s} & gentyll me & then

cam ye ladeſ mornarſ & gentyll women mornarſ ij c in all

gentyll me & gentyll women & after cam a in cott{s} ij hundred her

Suand{s} & odur Suand{s} & she waſ bered by ye tombe of the duke

of lankaster & after her banarſ wher sett vp over her and her

armeſ sett on dyuerſ pelerſ ye vj k e vj

th

The twenty-eighth day of February was buried the noble lady Countess of Pembroke and

sister to the late Queen and wife to the noble King Henry VIII, the late King. And the good

lady the Countess of Pembroke, the which she died at Baynard Castle and so carried unto

Paul's.

There was a hundred poor men and women who had frieze mantle gowns. Then came the

heralds and then the corpse. And about her eight banderoles of arms. And then came the

mourners, both lords, and knights, and gentlemen. And then came the ladies mourners and

gentlewomen mourners—two hundred in all, gentlemen and gentlewomen. And after came in

coats two hundred her servants and other servants.

And she was buried by the tomb of the Duke of Lancaster. And after, her banners were set up over her

and her arms set on divers pillars—the sixth of King Edward VI.

Internet: Pieniä multimediakorpuksia.

Esim. A London Provisioner's Chronicle,

1550-1563

http://quod.lib.umich.edu/m/machyn/

Page 18: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

• Results for query "avoin data"case insensitive, using the Google API

http://www.webcorp.org.uk/live/index.jsp

1) http://www.slideshare.net/apoikola/avoin-data-eduskunta Text, Wordlist, text/html, UTF8 (Content-type), 2011-01-01 (Copyright footer)

1: . Present yourself. Upload Login or Signup Go Pro Avoin data - eduskunta 1 year ago Email Favorite Favorited ×

2: k Times on kyllä tehnyt vastaavan Congress-API:n. Avoin data - eduskunta - Presentation Transcript Tuumasta to

3: sta toimeen Tietovarantojen avaaminen käytännössä Avoin data – Suomelle suuri mahdollisuus Eduskunta 25.5.2010

4: n vuorovaikutus muiden toimijoiden kanssa Mitä on avoin data? Datan avoimuuden mittareita Löydettävyys Kokonai

5: Follow 785 views, 0 favs, 2 embeds more Alustus "Avoin data - Suuri mahdollisuus Suomelle" -tilaisuudessa. ht

6: 343 views 100408 Verkkoviestintapaivat 401 views Avoin data, avoin yhteiskunta 432 views Mitä on avoin data?

7: s Avoin data, avoin yhteiskunta 432 views Mitä on avoin data? Onko meillä sitä? 304 views Apps4Finland esitys

8: t… 698 views Avoimen yhteistyön mahdollisuudet ja avoin data 293 views 100204 Efeko Kriisiviestinta Kari A. Hi

9: ka 864 views Avoimen yhteistyön mahdollisuudet ja avoin data - Antti P… 91 views Bisnestreffit Open Data 1216

2) http://tuhatsanaa.net/aaltoyliopiston_seminaari_avoin_data_pitää_vielä_yhdistää Text, Wordlist, text/html, UTF8 (Content-type), 2011-10-26 (Server header)

10: Blogs › Tuija's blog Aalto-yliopiston seminaari: Avoin data pitää vielä yhdistää Pe, 2010-04-02 20:58 — Tuija

11: isuus View more presentations from Antti Poikola. Avoin data kiinnostaa laajasti - sen osoitti myös Aalto-ylio

12: sori Eero Hyvönen Aalto-yliopistosta nosti rimaa: avoin data ei vielä riitä, se täytyy myös järjestää. Hän Fin

The Google Search API returned 59 hits (out of an estimated 1800). WebCorp successfully accessed 50 web pages and generated 260 concordances.

Nevalainen/ Aineiston avautuminen

Page 19: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

• digitaalisten aineistojen avoimuus vaihtelee

• aineistojen ”hajasijoitus”

• työkalut ja aineistot erillään

• poikkeuksia: BNCWeb -hakuliittymä British National Corpukselle (http://bncweb.info/)

• Query options: Written restrictions Spoken restrictions

• User-specific functions: User settings Query history Saved queries Categorized queries Make/edit subcorpora Upload external data file

• Additional functions: Browse a text Scan keywords/titles Explore genre labels Frequency lists Keywords

Pullonkauloja

Nevalainen/ Aineiston avautuminen

Page 20: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

• CLARIN (Common Language Resources and

Technology Infrastructure)

• FIN-CLARIN-konsortio osa CLARIN-hanketta

• luo kieliaineistoille ja kieliteknologialle yhteistä infrastruktuuria

• tutkijoille pääsy eurooppalaisiin CLARIN-

yhteensopiviin kieliaineistoihin

• aineistojen tallennus-, lupa- ja hakupalvelut Kielipankista

• FIN-CLARIN kehittää Kielipankin aineistovalikoimaa

ja aineistoihin liittyviä käyttöohjeita ja tukipalveluja.

• http://www.ling.helsinki.fi/finclarin/esittely.html

Laajat integroidut infrastruktuuri-

hankkeet

Nevalainen/ Aineiston avautuminen

Page 21: Aineiston avautuminen kielentutkimuksessa · 2011. 11. 8. · Sub-period Words % OLD ENGLISH I -850 II 850-950 III 950-1050 IV 1050-1150 Total 2 190 92 050 251 630 67 380 413 250

www.helsinki.fi/yliopisto

• tutkimusekonomia

• aineiston nopea saatavuus

• tulosten kumuloituvuus ja replikointi

• tutkimusintensiteetin kasvu

• opetussovellukset

• tietotekniikan “sädekehävaikutus”: alan

arvostuksen nousu?

Avoimien aineistojen yleinen

merkitys kielentutkijoille

Nevalainen/ Aineiston avautuminen