14
SEMANTTINEN WEB Tapio Varis

Semanttinen Web

  • Upload
    tapva

  • View
    992

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Semanttinen Web

SEMANTTINEN WEBTapio Varis

Page 2: Semanttinen Web

HAKUKONEIDEN ONGELMAT (GOOGLE) Usein haettu tieto hukkuu tulossivujen 

paljouteen, koska esim. Google ei ymmärrä asioiden välisiä yhteyksiä

Hakukone näkee ainoastaan irrallisia sanoja ja sivujen välisiä linkkejä

Webin keksijä Tim Berners­Lee huomasi ongelman jo ennen kuin Googlesta tiedettiin mitään

Merkityksen määrittelyyn – eli siihen, miten asiat liittyvät toisiinsa – ei ollut keinoa

Page 3: Semanttinen Web

…HAKUKONEIDEN ONGELMAT Berners­Leen ratkaisu oli lisätä uusi kerros 

tyhmän dokumenttikerroksen päälle Semanttisen kerroksen avulla myös koneet 

pystyisivät yhdistelemään asioita Berners­Lee esitteli ajatuksensa semanttisesta 

webistä jo 1990­luvun puolessavälissä ja aihe on ponnahdellut esiin säännöllisesti siitä lähtien

Page 4: Semanttinen Web

SEMANTTISEN WEBIN IDEA Idea on kuvata dokumenttien sisällöt niin, että ne 

olisivat paremmin koneiden käsiteltävissä. Jotta kone tietäisi tarkoittaako dokumentissa esiintyvä merkkijono ”Kuusinen” henkilön nimeä, aluetta vai metsämaastoa, on sanan merkitys upotettava dokumenttiin. Koneelle täytyy myös opettaa käsitteiden välisiä suhteita, jotta se osaa sijoittaa sanan oikeaan asiayhteyteen. 

Page 5: Semanttinen Web

ONTOLOGIA Suhteiden kuvaamiseksi semanttinen web 

tarvitsee ontologioita. Ne ovat sanastoja, joissa käsitteet on luokiteltu suhteessa toisiinsa Ontologia eli oppi olevaisesta (kreikan sanoista 

,   'oleminen' ja ­  'oppi') on olevaisen ν ντος λογίαὄ ὄperimmäistä olemusta tutkiva filosofian osa (Wikipedia)

Page 6: Semanttinen Web

SEMANTIIKAN KERROKSET  Semanttinen web koostuu olioista, joiden väliset 

suhteet on määritelty Olio voi olla esimerkiksi dokumentissa esiintyvä 

käsite tai kuva Oliot yksilöidään merkitsemällä ne uri­tunnisteilla

URI (Uniform Resource Identifier) on merkkijono, jolla kerrotaan tietyn tiedon paikka (URL) tai yksikäsitteinen nimi (URN). Erityisesti URI:n erikoistapausta URL:ää (Uniform Resource Locator) käytetään osoittamaan WWW­sivuja

Koska kuvaukset perustuvat sanojen sijasta käsitteisiin, saadaan eroteltua esimerkiksi samalla tavalla kirjoitettavat, mutta erimerkityksiset sanat.

Page 7: Semanttinen Web

… SEMANTIIKAN KERROKSET (XML) Dokumentin osien merkitsemiseen käytetään 

xml­metakieltä• Xml on oikeastaan joustava kielioppi rakenteisten 

dokumenttien määrittämiseen XML (lyhenne sanoista eXtensible Markup Language) on 

merkintäkieli tai standardi, jolla tiedon merkitys on kuvattavissa tiedon sekaan. XML­kieltä käytetään sekä formaattina tiedonvälitykseen järjestelmien välillä että formaattina dokumenttien tallentamiseen. XML­kieli on rakenteellinen kuvauskieli, joka auttaa jäsentämään laajoja tietomassoja selkeämmin. XML:n kehittäjä on World Wide Web Consortium. (Wikipedia)

Xml­dokumenttien rakenne ja käytettävät elementit määritetään xml­skeemoilla

Page 8: Semanttinen Web

…SEMANTIIKAN KERROKSET (RDF) Olioiden väliset suhteet kuvataan xml­kieleen perustuvalla 

W3C:n standardoimalla rdf­tietomallilla RDF (Resource Description Framework) on W3C:n standardi, jolla 

WWW­sivuille voidaan lisätä tietoa sivun merkityksestä. Esimerkiksi sivulla http://www.sakky.fi voi olla 

ominaisuus taitaja, jolla on arvo ammattitaito. RDF­terminologialla sivu on subjekti, ominaisuus on predikaatti ja arvo on objekti. subjekti­predikaatti­objekti­yhdistelmät muodostavat kolmikon (triple). subject: http://www.sakky.fi  predicate: http://www.taitaja2011.fi/ object: ammattitaito

Rdf tarjoaa vain yleiset säännöt suhteiden kuvaamiseen, suhteiden tarkemmat tyypit kuvataan rdf­skeemoilla

Rdf­skeemoilla luodaan sanastoja, jolla voidaan ilmaista resurssien välisiä suhteita hieman vastaavaan tapaan kuin olio­ohjelmoinnissa

Yleisen rdf­mallin lisäksi tarvitaan menetelmä jolla esittää tarkempia aihekohtaisia sanastoja

Page 9: Semanttinen Web

…SEMANTIIKAN KERROKSET (OWL) Sanastojen määrittelyyn kehitetty standardoitu 

owl­kieli (web ontology language) käyttää sekä uri­tunnisteita että rdf:n teknisiä puitteita, mutta tarjoaa lisää tapoja ominaisuuksien ja luokkien kuvailemiseen. 

Rdf:n ja owl:n ansioista eri alueiden ontologioita ja metatietoja voidaan yhdistellä semanttisella tasolla

Page 10: Semanttinen Web

…SEMANTIIKAN KERROKSET (SPARQL) Sparql on standardoitu rdf­muotoisten tietojen 

kyselykieli. Sen avulla voidaan kehittää sovelluksia, jotka hakevat tietoa verkosta käyttäen yhteistä protokollaa

SPARQL on pohjimmiltaan melko yksinkertainen kyselykieli:  kysely nojautuu vahvasti RDF­graafin rakenteeseen 

(Patterns)  SPARQL­kyselyt eivät oletuksena tulkitse 

semanttista tietoa (päättely)  Kysely voi nyt...

 hakea "raakatietoa" RDF­datasta (esim. taulukon URI­nimiä)

 tuottaa tuloksena uuden RDF­graafin (ts. tuottaa RDF­dataa)

Page 11: Semanttinen Web

TIEDON KÄYTTÖKELPOISUUS Metadatan tuottaminen eli annotointi on usein 

”pakkopullaa” ja siitä tulee helposti koko semanttisen webin suurin pullonkaula

Semanttisuuden lisäämisellä voidaan parantaa ennen kaikkea materiaalin haettavuutta ja liitettävyyttä

Dokumenteista on paljon helpompi löytää tietoa, jos aineisto on annotoitu systemaattisesti eikä satunnaisin asiasanoin

Page 12: Semanttinen Web

ANNOTOINTI SOVELLUKSEN AVULLA Ontologioiden hyödyntämiseen ja dokumentin 

annotointiin on olemassa sovelluksia Annotointi voidaan esimerkiksi tehdä 

puoliautomaattisesti niin, että käyttäjä valitsee sovelluksen ehdottamista asiasanoista sopivat

Jos tuloksen tarkkuudella ei ole suurta väliä, voi annotoinnin toteuttaa täysin automaattisesti

Semanttisten tekniikoiden ansiosta hyvin erityyppiset käsitteet yhdistyvät mielekkäästi ja niitä voidaan selailla, etsiä ja analysoida asiayhteyksien perusteella. 

Page 13: Semanttinen Web

SEMANTTISET HAKUKONEET Semanttiset hakukoneet voivat auttaa 

hakusanan yksilöimisessä – esimerkiksi kysymällä tarkoittaako ”Nokia” yritystä vai kaupunkia –ja tarjoamalla muita aiheeseen  liittyviä hakusanoja. 

Myös tulokset ovat mielekkäämpiä, kun kone ymmärtää synonyymit, kielen rakenteen, asioiden ominaisuudet ja niiden väliset yhteydet 

Page 14: Semanttinen Web

VÄLINEITÄ JA SOVELLUKSIA  FinnOnto­projektissa luotiin semanttisen webin ontologioita, työvälineitä ja sovelluksia. 

Ontologiat:  yleinen suomalainen ontologia Yso yleisen suomalaisen asiasanaston pohjalta laadittu kantaontologia.  lisäksi muun muassa toimijaontologia Toimo, paikkaontologia Suo, ajallinen paikkaontologia 

Sapo ja historiaontologia Histo. Palvelut: 

ontologiapalvelin Onki paikkatiedon ontologiapalvelu Onki­paikka

Välineet:  selainpohjainen annotointiväline Saha näkymäperustainen hakukone Ontogator semanttinen suosittelupalvelu Ontodella

Sovellukset:  MuseoSuomi­, KulttuuriSampo­, Opintie­ ja TerveSuomi­portaalit 

Semanttisia tekniikoita hyödyntävät esimerkiksi  Adobe (dokumenttien automaattisesti muodostettu metadata) uutistoimisto AFP (suomalaisen Profiumin toimittama dokumenttien toimitus­ ja 

jakelujärjestelmä)  Nokia (Forum Nokia) Semantic web 2.0 ­hankkeessa mukana mm Wärtsilä ja Rautaruukki. Kehityskohteena 

tietämyksenhallintaan liittyvät, yhteisölliset älykkäät palvelut.