Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Timo Honkela
Helsingin yliopisto
6.10.2016
Kylmä data kohtaa inhimillisen tulkinnan:
koneoppiminen ihmistieteiden työkaluna
Studia Generalia: MIKÄ BIG DATA?
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Liisa, meilläon tehtävänä
opetellaohjelmointia.
Kuvalähde: http://digi.kansalliskirjasto.fi/pienpainate/binding/346723?page=1 Inspiraatio: http://www.geekculture.com/joyoftech/joyarchives/2193.html
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
ILMIÖT JA ORGANISAATIOT:
HUMANISTISET JAYHTEISKUNTATIETEET
HELSINGIN YLIOPISTONKESKUSTAKAMPUS
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Tieteiden kohteiden monimutkaisuus
Biologinen maailma
Fysikaalinen maailma
Kulttuurinen maailma
5
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Englannin kielen osuuseri tieteenaloilla Suomessa (1.-15.)
Matematiikka 95.3Farmasia 94.1Kemia 93.7Fysiikka 93.4Biokemia, molekyylibiologia, mikrobiologia, perinnöllisyystiede ja biotekniikka 93.4Solu ja kehitysbiologia, fysiologia ja ekofysiologia 93.4Tietojenkäsittelytieteet 93.0Sähkötekniikka ja elektroniikka 92.8Ympäristötekniikka 92.7Geotieteet 92.1Ekologia, evoluutiotutkimus ja systematiikka 92.1Kone ja valmistustekniikka 91.9Metsätieteet 91.4Avaruustieteet ja tähtitiede 91.0Prosessi ja materiaalitekniikka 90.8
(Timo Honkela, TUTKAS-seminaari 17.11.2010)
VANHATIETEEN-ALALUO-KITUS
6
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Englannin kielen osuuseri tieteenaloilla Suomessa (31.-44.)
(Timo Honkela, TUTKAS-seminaari 17.11.2010)
TIETEENALA %Rakennus ja yhdyskuntatekniikka 85.9Maatalous ja elintarviketieteet 85.4Ympäristöpolitiikka, talous ja oikeus 85.3Maantiede 84.8Arkkitehtuuri ja teollinen muotoilu 83.7Viestintä ja informaatiotieteet 83.1Kasvatustiede 82.6Valtiooppi ja hallintotiede 82.2Taiteiden tutkimus 81.6Sosiaalitieteet 80.4Kulttuurien tutkimus 79.3Historia ja arkeologia 78.1Teologia 77.0Oikeustiede 70.8
VANHATIETEEN-ALALUO-KITUS
7
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Englannin kielen osuuseri tieteenaloilla Suomessa (31.-44.)
TIETEENALA %Rakennus ja yhdyskuntatekniikka 85,9Maatalous ja elintarviketieteet 85,4Ympäristöpolitiikka, talous ja oikeus 85,3Maantiede 84,8Arkkitehtuuri ja teollinen muotoilu 83,7Viestintä ja informaatiotieteet 83,1Kasvatustiede 82,6Valtiooppi ja hallintotiede 82,2Taiteiden tutkimus 81,6Sosiaalitieteet 80,4Kulttuurien tutkimus 79,3Historia ja arkeologia 78,1Teologia 77,0Oikeustiede 70,8
VANHATIETEEN-ALALUO-KITUS
Tärkeitä tieteenaloja, joissakieli-, tulkitsija-, tilanne- ja
kulttuurisidonnaisuuson paljon voimakkaampaakuin listan alkupään aloilla.
8
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Digitaalisten ihmistieteidenkehittyvä kukoistus
● Perinteinen syvällinen osaaminen ja ymmärrys liittyen humanitisten ja yhteiskuntatieteiden alueeseen
● Tämä ymmärrys yhdistetään nykyaikaisiin tietojenkäsittelymenetelmiin kuten tilastolliseen koneoppimiseen
● Avoin tiede ja laajat tietoaineistot antavat vahvan pohjan työlle
● Helsingin yliopistossa on tehty työtä tällä saralla jo esimerkiksi kielen tutkimuksessa pitkään. Viime aikoina alue on laajentunut ja panostuksia on lisätty.
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Varieng - Research Unit for the Study of Variation, Contacts and Change in English
Big Data, Rich Data, Uncharted Data19–22 October 2015Helsinki, Finland
Terttu Nevalainen
Irma TaavitsainenTanja Säilyhttp://www.helsinki.fi/varieng/
http://www.helsinki.fi/varieng/people/varieng_saily.html
ja monimuu ...
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
FIN-CLARIN on suomalaisten yliopistojen, CSC:n ja Kotimaistenkielten keskuksen muodostama konsortio, joka auttaa eri alojentutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan kieliaineistoja. Osa kansainvälistä CLARIN ERI -tutkimusinfrastruktuuria.
Krister Lindénja moni muu ...
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Koneellinen ja koneavusteinenkääntäminen ja tulkkaus
Jörg Tiedemannja muut
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Historiallisten sanomalehtientekstilouhinta
Mikko Tolonen
Kimmo Kettunen
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Citizen Mindscapes
Ymmärrystä yhteiskunnasta louhimallasuuria sosiaalisen median aineistoja
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Esimerkki uudenlaisesta opetusta:Digital Humanities Hackathon
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
375 humanistia
http://375humanistia.helsinki.fi/
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
HELDIG-avajaiset eilen 5.10.2016
Eero Hyvönen, Mikko Tolonen, Arto Mustajoki
Anna Mauranen
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Anna Mauranen
Arto Mustajoki
htt
ps:
//w
ww
.he
lsin
ki.f
i/en
/re
sea
rch
gro
up
s/h
els
inki
-dig
ital-h
um
an
itie
s/h
eld
ig-k
ick-
off-
sym
po
siu
m
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Maailman suurinongelma on, että
ihmiset eivätymmärrä toisiaan
Arto Mustajoki
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
DATA:
AINEISTOT
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Yli sata miljoonaa kirjaa
http://www.pcworld.com/article/202803/google_129_million_different_books_have_been_published.html
● Googlen kirjaprojektissa kerrottiin vuonna 2010, että maailmassa on julkaistu129 864 880 kirjaa
● Tarkan luvun antaminen ei ole kovin mielekästä, koska kaikkia kirjoja Googlekaan ei ole voinut löytää ja luku muuttuu jatkuvasti
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Pohjoismaat kirjoissa(Google Books 1860-2006)
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Julkaisemisen volyymikolmessa yliopistossa 1980-2015
Kiit
oks
et:
Le
o N
äte
ah
o,
He
lsin
gin
ylio
pis
ton
kir
jast
o
Artikkelit, kirjoissa ilmestyneet artikkelit,kirjat, konferenssijulkaisut
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Aineistojen digitointi:esimerkkinä Kansalliskirjaston
sanomalehtiaineisto
http://digi.kansalliskirjasto.fi/
Digitointi > OCR > Hakutoiminnot ja jatkojalostus
https://www.kansalliskirjasto.fi/fi/palvelut#digitointi--ja-sailytyspalvelut
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Inhimillisen ymmärryksenkeruun vaiheita
● Puheeseen perustuva perinne● Käsin kirjoitettu kieli: hidas leviäminen● Kirjapainotaito ja painetut tekstit:
nopea leviäminen● Digitaaliset tekstit:
entistäkin nopeampi leviäminen● Tiedon määrämuotoinen linkittäminen ja avoin jakelu
(Open Linked Data)● Sosiokognitiiviset keinotekoiset toimijat:
tiedon ja kokemuksen leviäminen yliyksilö-, kieli-, kulttuuri- ja sosiaalisten rajojen
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
VÄLINEET:
TIETOKONEETJA
OHJELMISTOT
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Laskenta- ja muistikapasiteetti
http://yle.fi/uutiset/3-6467338
http://yle.fi/uutiset/3-6467338
CSC Tieteen tietotekniikan keskushttps://www.csc.fi/
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Valtavat ohjelmistomassatyhteiskunnan peruspilareina
http://www.informationisbeautiful.net/visualizations/million-lines-of-code/
Ohjelmarivejä:
- Unix 1.0 ~ 10.000
- Windows 3.1 ~ 2.000.000
- Firefox ~ 10.000.000
- Facebook ~ 60.000.000
- Googlen palvelut ~2.000.000.000
Suomalaislähtöisiä:
- MySQL ~ 13.000.000
- Linux 3.1 ~ 15.000.000
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
MENETELMÄT:
TILASTOLLINENKONEOPPIMINEN
JAKIELITEKNOLOGIA
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Tietämyksen ohjelmoimisestakoneoppimiseen
● Pitkään on ollut tapana ohjelmoida koneita inhimisen tiedon puitteissa rajoituksineen
● 1980-luvulla maailmassa kehitettiin miljardipanostuksin asiantuntijajärjestelmiä ajatuksella, että asiantuntija tietää parhaiten ja pystyy kuvaamaan tietämyksensä sääntöinä
● Nykyään koneet ohjelmoimaan oppimaan● Tilastollisen koneoppimisen avulla kone voi osata
enemmän kuin kukaan ihminen● Olennaisia ovat aineistot●
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Koneoppiminen ja tiedon louhinta
● Tilastollisen koneoppimisen avulla matkitaan ihmisen oppimista
● Kone käy läpi sille annettuja esimerkkejä● Annetun datan perusteella kone oppii
esimerkiksi luokittelemaan, järjestämään, ryhmittelemään, hahmottamaan, käsitteistämään tai laittamaan paremmuusjärjestykseen erilaisia tietoalkioita
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Koneille opetetaan kieltä
Koneet oppivat kieltä● Perinteisesti koneet on pyritty saamaan
“kielitaitoisiksi” kirjoittamalla kielen sääntöjä koneen ymmärtämään muotoon
● Tämän on kuitenkin osoittautunut ongelmalliseksi
● Nykyisin hyödynnetään koneoppimismenetelmiä
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Sanojen suhteetpaljastuvat niiden käytöstä
● Kun käytettävissä on suuria tekstiaineistoja,mielivaltaisen kielen sanojen välisiä suhteita voidaan selvittää tilastollisesti
● Perusidea on se, että kahta sanaa käytetään tyypillisesti samaan tapaan (samanlaisessa lauseyhteydessä), jos niiden merkitykset ja/tai kieliopillinen rooli on samankaltainen
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Klassikkoesimerkki:Grimmin satujen analyysi (1995)
Honkela, Pulkki & Kohonen 1995
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Klassikkoesimerkki:Grimmin satujen analyysi (1995)
Huom: Suomessa tehtiintällaista työtä jo ennen
kuin esimerkiksiGooglea oli olemassa
Akateemikko TeuvoKohonen on ollut
yksi neuroverkko- jahahmontunnistusalanperustajahahmoista
http://www.aka.fi/fi/akatemia/tutkimuksen-tekijoita/tieteen-akateemikot/suomalaiset-tieteen-akateemikot/akateemikko-teuvo-kohonen/
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Tilastollisesti etsittyjä assosiaatioitasanoille 1) onnellisuus ja 2) lätäkkö
● mielenrauha● tyytyväisyys● onnellisuuden● elämänilo● yksilöllisyys● rakkaus● välittäminen● onni● hyvinvointi● positiivisuus
● lammikko● lampi● oja● läntti● kuoppa● kolo● hiekka● allas● pläntti● läikkä
http://bionlp-www.utu.fi/wv_demo/Kiitokset: Turku BioNLP group, Filip Ginter ja Citizen Mindscapes -projekti (Helsinki, Turku) http://blogs.helsinki.fi/citizenmindscapes/
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Tekstien louhinta
● Edellä kuvatulla tavalla mitä tahansa suuria data- tai tekstiaineistoja voidaan tutkia
(Hon
kela
& K
lam
i, 20
08)
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Suomen tieteen kartta Akatemian aineistosta
(Hon
kela
& K
lam
i, 20
08)
Kemia
Luonnon- jainsinööritieteet
Bio- jaympäristötieteet
Terveystieteet
Kulttuuri- jayhteiskunta-
tieteet
Tieteellisiä tekstejäei lueta ainoastaan
ihmisvoimin yksikerrallaan
Kone auttaa käymäänläpi tuhansia, jopa
miljoonia dokumentteja
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Uusi askel:
Humanistinen meta-analyysi
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Taustaa: tulkinnan yksilöllisyydenmallintaminen (GICA-menetelmä)
● GICA-menetelmät (Grounded Intersubjective Concept Analysis) (Honkela ym. 2012) mahdollistaa mallit, joissa kunkin sanan merkitystä tarkastellaan yksilöllisesti
● Esimerkkinä USAn presidenttien puheet(State of the Union Address) ja sanan HEALTH merkityksen analyysi kontekstitietoatilastollisesti analysoide
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Sanan “health” analyysi
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Humanistinen meta-analyysi (Honkela 2016)
Aineistosanoineen
Analyysiolettaensanojenjaettu
merkitys Honkelanehdotus
Aineistosanoineen
Analyysi hyödyntäenmerkityksienvaihtelumallia
Merkityksien analyysirikkaissa konteksteissa
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Humanistinen meta-analyysi (Honkela 2016)
Aineistosanoineen
Analyysiolettaensanojenjaettu
merkitys Honkelanehdotus
Aineistosanoineen
Analyysi hyödyntäenmerkityksienvaihtelumallia
Merkityksien analyysirikkaissa konteksteissa
Sanoja ei voi ottaaanalyysin perusdataksi
olettaen, että sana tarkoittaatäsmälleen samaa, kun
puhuja/ kirjoittaja on eri jaeri kontekstissa
Sanan merkitys ontilastollinen, subjektiivinenja kontekstiriippuva ilmiö
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Humanistinen meta-analyysi (Honkela 2016)
...AUTENTTINEN...HAUVAKATTIKISSAKOIRA…REILU...TEHOKAS...
DATA (1)RIKAS
MERKITYS-MALLI
SISÄLTÖ-ANALYYSI
(HUMANISTINENMETA-ANALYYSI)
DATA (2)
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Yhteisen ymmärryksenuusia mahdollisuuksia
Humanistinen meta-analyysija vastaavat keinot voivat
auttaa meitä tuomaanyhteen ymmärrystä, jota
ihmiset ovat keränneet erikielellisissä, sosiaalisissa,
kulttuurissa ja historiallisissakonteksteissa
Merkitysneuvotteluiden osittaiseen automatisointi
Tieteen uudetkeinot tilanteisiinja kysymyksiin,
joita koskienyhtä oikeaa
tulkintaa ei oleeikä voi olla.
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Uusi valistuksen aika?
Ratkaisuja maailmanpolttaviin ongelmiin
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Koneet eivät ole ihmeidentekijöitävaan apuvälineitä
● Koneet eivät voi tarjota objektiivisuutta sen enempää kuin ihminenkään, kun tarkastelun kohteena ovat monimutkaiset ja tulkinnanvaraiset teemat
● Koneiden avulla voidaan kuitenkin kerätä yhteen ihmisten keräämää tietoa ja kokemusta ennennäkemättömällä tavalla
● Menetelmät täytyy kehittää humanistisen ymmärryksen pohjalta
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Filosofiaa eivät voi paetatietojenkäsittelijätkään
● Uusi valituksen aika?● Empirismin ja rationalismin vuoropuhelu● Vuosisataiset filosofiset näkökulmat ja teemat
ovat edelleen tärkeitä ja aina vain tärkeämpiä koneiden käyttöön liittyen eli kun tekoälyä ja koneoppimista sovelletaan ihmistieteiden piirissä
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Skenaarioita:digihumanismin mahdollisuuksia
● Ihmisten välinen parempi ymmärrys ja vuorovaikutus – sodan ja rauhan kysymykset
– yhteiskunnallinen päätöksenteko ja politiikka
● Monimutkaisia ilmiöitä koskeva ongelmanratkaisu:– esimerkiksi ympäristökysymykset
– terveyttä ja hyvinvointia koskevan tutkimus- ja kokemustiedon kerääminen ja yhteen tuominen
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Kuvalähde: http://digi.kansalliskirjasto.fi/pienpainate/binding/346723?page=1
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
Kiitos!
http://375humanistia.helsinki.fi/humanistit/timo-honkela
http://www.slideshare.net/timohonkela
https://www.youtube.com/watch?v=UXwkGPMMZdk
Timo Honkela, Helsingin yliopisto, Studia Generalia, 6.10.2016
http://375humanistia.helsinki.fi/humanistit/timo-honkela
http://www.slideshare.net/timohonkela
https://www.youtube.com/watch?v=UXwkGPMMZdk
Avoin data moraaliseksi periaatteksi, kiitos!