Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
www.helsinki.fi/yliopisto
Aineiston avautuminen
kielentutkimuksessa
Terttu Nevalainen
VARIENG-tutkimusyksikkö
HY, Nykykielten laitos
http://www.helsinki.fi/varieng/
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
• “data”: tutkimusaineistojen tietovaranto • = korpukset (elektroniset tekstikokoelmat)
ja muut avoimet, strukturoidut digitaaliset aineistot kielentutkimuksessa • kehittäjä- ja loppukäyttäjäperspektiivi
• esimerkit anglistiikasta
• lyhyt historia
• käyttömahdollisuudet
• nykytrendit
Nevalainen/ Aineiston avautuminen
Teemat
www.helsinki.fi/yliopisto
Julkishallinnon datavarantoja sisällöittäin (Poikola, A., P. Kola & K. A. Hintikka (2010). Julkinen data: johdatus tietovarantojen
avaamiseen)
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
Alussa oli… 1476-
fromoldbooks.org
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
Digitaalinen ‘käänne’ 1964-
1964/1971/1979
Brown Corpus
1961
LOB Corpus 1961
Varhaiset korpukset pieniä: 1 miljoona sanaa
Strukturointiperiaate: tekstilaji
A Standard Corpus of Present-Day Edited American English,
for use with Digital Computers
Nevalainen/ Aineiston avautuminen
Sub-period
Words
%
OLD ENGLISH
I -850
II 850-950
III 950-1050
IV 1050-1150
Total
2 190
92 050
251 630
67 380
413 250
0.5
22.3
60.9
16.3
100.0
MIDDLE ENGLISH
I 1150-1250
II 1250-1350
III 1350-1420
IV 1420-1500
Total
EModE, BRITISH
113 010
97 480
184 230
213 850
608 570
18.6
16.0
30.3
35.1
100.0
I 1500-1570
II 1570-1640
III 1640-1710
Total
190 160
189 800
171 040
551 000
34.5
34.5
31.0
100.0
Helsinki Corpus 1991
Nevalainen/ Aineiston avautuminen http://www.helsinki.fi/varieng/CoRD/corpora/HelsinkiCorpus/index.html
www.helsinki.fi/yliopisto
• 1. sukupolvi kasvaa
• Brownin ja Helsingin korpusperheet
• kieliopillisesti annotoidut versiot
• diakroniset ja maantieteelliset rinnakkaiskorpukset
• litteroidut puhekorpukset
• 2. sukupolven korpukset
• suurempia, runsaasti tekstikohtaista metadataa
• mahdollistavat uudet tutkimusasetelmat
• voidaan tutkia mm. erityiskieliä ja kielen kehitystä
sosiaalisissa konteksteissa
Aineistot monipuolistuvat
1990-
luku
Nevalainen/ Aineiston avautuminen
Korpusvalikoima mallia 1999
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
• The York-Helsinki Parsed Corpus of Old English Poetry
• The York-Toronto-Helsinki Parsed Corpus of Old English
Prose
• The Brooklyn-Geneva-Amsterdam-Helsinki Parsed Corpus
of Old English
• The Penn-Helsinki Parsed Corpus of Middle English
• The Penn-Helsinki Parsed Corpus of Early Modern English
• Penn Parsed Corpus of Modern British English (1700-1914) http://www.ling.upenn.edu/hist-corpora/
• Helsinki Corpus TEI XML Edition (VARIENG, 2011)
Helsingin korpusperhe 1995-
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
• digiaineistot ovat valtavirtaa
• yhdistävät kielentutkimuksen eri suuntauksia etenkin kielihistoriassa
• sanastontutkimus, variaatiotutkimus, historiallinen sosiolingvistiikka, pragmatiikka, konstruktiokielioppi, generatiivi kielioppi jne.
• uudet ulottuvuudet:
• runsas, integroitu metadata
• kontekstualisointi
• multimedia, visualisointi
Nykytilanne
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
• The Corpus of Historical American English (COHA)
• Mark Davies, 400 miljoonaa sanaa, 4 tekstilajia (1810-2009) (http://corpus.byu.edu/coha/)
• Google Books Corpus
• Daviesin hakuliittymä Google Booksiin: yli 155.000.000.000
sanaa (1.3 miljoonaa kirjaa) Amerikan englantia (1810-2009) (http://googlebooks.byu.edu/)
• Google Books
• Kesäkuu 2010: 12 miljoonaa kirjaa n. 480 kielellä.
• Google laskee, että maailmassa oli tuolloin julkaistu 129 864 880
kirjaa. Googlen pyrkii skannaamaan ne tällä vuosikymmenellä. (http://fi.wikipedia.org/wiki/Google_Books)
2010- Huikea määrällinen kasvu:
there’s no data like more data…
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
… ja erikoistuminen VARIENGissa valmistuvat korpukset ja tietokannat
http://www.helsinki.fi/varieng/index.html
• Helpommin julkaistavissa:
• Corpus of Early English Correspondence Extension (CEECE) (T. Nevalainen et al.)
• Corpus of Early English Correspondence Supplement (CEECSU) (T. Nevalainen et al.)
• Corpus of Early Modern English Medical Texts (EMEMT) (I. Taavitsainen et al.)
• Corpus of Late Modern English Medical Texts (LMEMT) (I. Taavitsainen et al.)
• The Letters of Richard Cocks (S. Kaislaniemi)
• The Bluestocking Corpus (A. Sairio)
• The Corpus of Early Modern English Witchcraft Pamphlets (C. Suhr)
• The Corpus of Early Modern Tobacco Controversy (M. Ratia)
• Early English Advertisements (M. Palander-Collin)
• Corpus of Research Articles (T. Hiltunen)
• Database of Editorials, News and Letters-to-the-Editor in Finnish Newspapers (S. Leppänen)
• Vaikeammin julkaistavissa
• Corpus of Blayney Speech (M. Korhonen)
• The Corpus of English in Finland (FIN-CE) (M. Laitinen)
• Corpus of Nordic Professional English (U. Paatola)
• Helsinki Archive of British English Dialects (A.-L. Vasko et al.)
• Databases of CLIL and EFL Classroom Interaction (Jyväskylä team)
• Database of English in Finnish Working Life (T. Virkkula)
• English Written by Finns (M. Palander-Collin)
• Database of Finland-based Fan Fiction (S. Leppänen)
• Database of Finland-based Football Forums on the Web (S. Kytölä)
• Database of Weblogs (S. Leppänen)
• Database of Godspeed Discussion Forum (S. Peuronen)
2010-
Nevalainen/ Aineiston avautuminen
Genre custering
DAMMOC: Kohti korpusten inter-
aktiivista visuaalista analyysia Terttu Nevalainen, Tanja Säily, Turo Vartiainen
(University of Helsinki)
Jefrey Lijffijt, Panagiotis Papapetrou, Kai
Puolamäki, Heikki Mannila (Aalto University)
Harri Siirtola, Kari-Jouko Räihä (University of
Tampere)
http://www.uta.fi/sis/tauchi/virg/projects/dammoc.html
Text Variation Explorer: Brown Corpus
DAMMOC: http://www.uta.fi/sis/tauchi/virg/projects/dammoc.html
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
• http://www.gutenberg.org/
• http://ota.ahds.ac.uk/
• http://icame.uib.no/
• http://www.ldc.upenn.edu/
• http://www.fsd.uta.fi/index.html
Saatavuus: aineistoarkistot
The Oxford Text Archive
Linguistic Data Consortium (membership fee)
Nevalainen/ Aineiston avautuminen
Nevalainen/ Aineiston avautuminen
552-02-28 (begins on folio 7v)
The xxviij day of feybruarij waſ bered ye nobullLady
conteſ of penbroke & syster to ye late qwyne & wyffe to the
nobull kyng henry the viij late kyng & ye good lade the
conteſ of penbroke ye wyche waſ she ded at benard castle
& so cared vnto powll{s} ther waſ a c powre me & women who
had mantyll ffrysse gowneſ then cam the harold{s} and then
ye corse & a bowt her viij banerſ roll{s} of armeſ & then
cam ye mornarſ boyth lord{s} & knyght{s} & gentyll me & then
cam ye ladeſ mornarſ & gentyll women mornarſ ij c in all
gentyll me & gentyll women & after cam a in cott{s} ij hundred her
Suand{s} & odur Suand{s} & she waſ bered by ye tombe of the duke
of lankaster & after her banarſ wher sett vp over her and her
armeſ sett on dyuerſ pelerſ ye vj k e vj
th
The twenty-eighth day of February was buried the noble lady Countess of Pembroke and
sister to the late Queen and wife to the noble King Henry VIII, the late King. And the good
lady the Countess of Pembroke, the which she died at Baynard Castle and so carried unto
Paul's.
There was a hundred poor men and women who had frieze mantle gowns. Then came the
heralds and then the corpse. And about her eight banderoles of arms. And then came the
mourners, both lords, and knights, and gentlemen. And then came the ladies mourners and
gentlewomen mourners—two hundred in all, gentlemen and gentlewomen. And after came in
coats two hundred her servants and other servants.
And she was buried by the tomb of the Duke of Lancaster. And after, her banners were set up over her
and her arms set on divers pillars—the sixth of King Edward VI.
Internet: Pieniä multimediakorpuksia.
Esim. A London Provisioner's Chronicle,
1550-1563
http://quod.lib.umich.edu/m/machyn/
Hakuliittymiä: http://corpus.byu.edu/
http://gramatica.usc.es/redecorpus/?lang=gl&id=rss&rssbox=rede&item=0
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
• Results for query "avoin data"case insensitive, using the Google API
http://www.webcorp.org.uk/live/index.jsp
1) http://www.slideshare.net/apoikola/avoin-data-eduskunta Text, Wordlist, text/html, UTF8 (Content-type), 2011-01-01 (Copyright footer)
1: . Present yourself. Upload Login or Signup Go Pro Avoin data - eduskunta 1 year ago Email Favorite Favorited ×
2: k Times on kyllä tehnyt vastaavan Congress-API:n. Avoin data - eduskunta - Presentation Transcript Tuumasta to
3: sta toimeen Tietovarantojen avaaminen käytännössä Avoin data – Suomelle suuri mahdollisuus Eduskunta 25.5.2010
4: n vuorovaikutus muiden toimijoiden kanssa Mitä on avoin data? Datan avoimuuden mittareita Löydettävyys Kokonai
5: Follow 785 views, 0 favs, 2 embeds more Alustus "Avoin data - Suuri mahdollisuus Suomelle" -tilaisuudessa. ht
6: 343 views 100408 Verkkoviestintapaivat 401 views Avoin data, avoin yhteiskunta 432 views Mitä on avoin data?
7: s Avoin data, avoin yhteiskunta 432 views Mitä on avoin data? Onko meillä sitä? 304 views Apps4Finland esitys
8: t… 698 views Avoimen yhteistyön mahdollisuudet ja avoin data 293 views 100204 Efeko Kriisiviestinta Kari A. Hi
9: ka 864 views Avoimen yhteistyön mahdollisuudet ja avoin data - Antti P… 91 views Bisnestreffit Open Data 1216
2) http://tuhatsanaa.net/aaltoyliopiston_seminaari_avoin_data_pitää_vielä_yhdistää Text, Wordlist, text/html, UTF8 (Content-type), 2011-10-26 (Server header)
10: Blogs › Tuija's blog Aalto-yliopiston seminaari: Avoin data pitää vielä yhdistää Pe, 2010-04-02 20:58 — Tuija
11: isuus View more presentations from Antti Poikola. Avoin data kiinnostaa laajasti - sen osoitti myös Aalto-ylio
12: sori Eero Hyvönen Aalto-yliopistosta nosti rimaa: avoin data ei vielä riitä, se täytyy myös järjestää. Hän Fin
The Google Search API returned 59 hits (out of an estimated 1800). WebCorp successfully accessed 50 web pages and generated 260 concordances.
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
• digitaalisten aineistojen avoimuus vaihtelee
• aineistojen ”hajasijoitus”
• työkalut ja aineistot erillään
• poikkeuksia: BNCWeb -hakuliittymä British National Corpukselle (http://bncweb.info/)
• Query options: Written restrictions Spoken restrictions
• User-specific functions: User settings Query history Saved queries Categorized queries Make/edit subcorpora Upload external data file
• Additional functions: Browse a text Scan keywords/titles Explore genre labels Frequency lists Keywords
Pullonkauloja
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
• CLARIN (Common Language Resources and
Technology Infrastructure)
• FIN-CLARIN-konsortio osa CLARIN-hanketta
• luo kieliaineistoille ja kieliteknologialle yhteistä infrastruktuuria
• tutkijoille pääsy eurooppalaisiin CLARIN-
yhteensopiviin kieliaineistoihin
• aineistojen tallennus-, lupa- ja hakupalvelut Kielipankista
• FIN-CLARIN kehittää Kielipankin aineistovalikoimaa
ja aineistoihin liittyviä käyttöohjeita ja tukipalveluja.
• http://www.ling.helsinki.fi/finclarin/esittely.html
Laajat integroidut infrastruktuuri-
hankkeet
Nevalainen/ Aineiston avautuminen
www.helsinki.fi/yliopisto
• tutkimusekonomia
• aineiston nopea saatavuus
• tulosten kumuloituvuus ja replikointi
• tutkimusintensiteetin kasvu
• opetussovellukset
• tietotekniikan “sädekehävaikutus”: alan
arvostuksen nousu?
Avoimien aineistojen yleinen
merkitys kielentutkijoille
Nevalainen/ Aineiston avautuminen