17
Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine Heli Uibo Keeletehnoloogia lektor J. Liivi 2-339 [email protected] http://math.ut.ee/~heli_u

Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine

  • Upload
    edda

  • View
    69

  • Download
    0

Embed Size (px)

DESCRIPTION

Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine. Heli Uibo Keeletehnoloogia lektor J. Liivi 2-339 [email protected] http://math.ut.ee/~heli_u. Süntaktiliselt märgendatud korpused – milleks?. Keeletehnoloogi töövahend: - PowerPoint PPT Presentation

Citation preview

Page 1: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Valdkond: Süntaktiliselt märgendatud korpuste

loomine ja kasutamine

Heli UiboKeeletehnoloogia lektor

J. Liivi [email protected]

http://math.ut.ee/~heli_u

Page 2: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Süntaktiliselt märgendatud korpused – milleks?

• Keeletehnoloogi töövahend:– Grammatikapõhiste meetodite puhul –

süntaksianalüsaatori testimiseks– Statistiliste meetodite puhul – nii

süntaksianalüsaatori “ehitamiseks” kui testimiseks

• Lingvisti töövahend: võimaldab kontrollida süntaksiteooriate kehtivust praktikas, teha päringuid lausestruktuuride kohta jne.

Page 3: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Mida tähendab süntaktiline märgendamine?

1. Fraasistruktuuri märgendamine

Page 4: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Mida tähendab süntaktiline märgendamine? (2)

2. Sõltuvusstruktuuri märgendamine (Dům, který je drahý, si nekoupíme.)

Page 5: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Mida tähendab süntaktiline märgendamine? (3)

Pindsüntaktiline märgendamine (määratud iga sõna süntaktiline funktsioon lauses)

Page 6: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Eesti keele süntaktiliselt märgendatud korpused

• Pindsüntaktiliselt analüüsitud korpus EstCGC

• Puude pank (treebank) Arborest

• Puude pank eesti keele morfoloogia ja süntaksi õpetamiseks

• Sofie paralleelpuudepank

Page 7: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Lause pindsüntaktiliselt märgendatud korpusest<s>

Mitmekesisus mitme_kesi=sus+0 //_S_ com sg nom #cap // **CLB

@SUBJon ole+0 //_V_ main indic pres ps3 sg ps af #FinV #Intr //

@+FMVelu elu+0 //_S_ com sg gen // @NN>vaieldamatu vaieldamatu+0 //_A_ pos sg nom // @AN>omapära oma_pära+0 //_S_ com sg nom // @PRD$. . //_Z_ Fst // </s>

Page 8: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Eesti keele puude pank Arborest

• Koostöö dr. Eckhard Bick’iga, University of Southern Denmark

• Märgendussüsteem: VISL (http://beta.visl.sdu.dk) • Märgendatud nii süntaktilised funktsioonid (S =

subject, P = predicate, O = object, A = adverbial,STA = statement, QUE = question, etc.) kui vormid (fraasistruktuur) (np, vp, pp, advp, adjp, fcl = finite clause, par = paratagma, etc.)

Page 9: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Arborest

• Automaatselt genereeritud EstCGC-st (2500 lauset) reeglitega, mis tuletavad pindsüntaktilisest märgendusest puustruktuuri

• 149 lauset käsitsi parandatud• Reeglid genereerisid 1/3 lausete struktuurid

korrektselt • Reegleid täiendatakse

Veebileht http://corp.hum.sdu.dk/arborest.html

Page 10: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Näitelause eesti keele puude pangast Arborest

Page 11: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Sofie paralleelpuudepank• Alustatud projekti Nordic Treebank

Network raames

• Materjal – esimesed kaks peatükki Jostein Gaarder‘i romaanist "Sofie maailm"

• Keeled: rootsi, saksa, norra, taani, islandi, fääri, eesti

• Sofie Paralleelpuudepanga veebileht:

http://omilia.uio.no/sofie

(user: ntn, password: opera)

Page 12: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Sofie Parallel Treebank

Sophie's father was the captain of a big oil tanker, and was away for most of the year.

Page 13: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Eesti keele morfoloogia ja süntaksi interaktiivsed õpiprogrammid

Projekt VISL (Visual Interactive Syntax Learning) Lõuna-Taani Ülikoolis

• üle 20 keele; eesti keelega alustati 2004. a.• kõikide keelte jaoks loodud ühtses formaadis

süntaktiliselt märgendatud korpused ehk puude pangad

• veebileht: http://beta.visl.sdu.dk/visl

Page 14: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Eesti keele morfoloogia ja süntaksi interaktiivsed õpiprogrammid (2)

Eesti keele õpetamisotstarbeline puude pank: http://beta.visl.sdu.dk/visl/et– 100 lauset tekstina ja visualiseeritavad

süntaksipuuna– õppemängud:

• sõnaliikide tundmine (“Shooting gallery", „Labyrinth“, “Wordfall”)

• fraaside määramine• lause moodustajate süntaktiliste

funktsioonide määramine (“Space rescue”)

Page 15: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Võimalikud uurimisteemad• Korpuse EstCGC märgenduse korrektsuse ja

ühtluse automaatne kontrollimine• Sofie paralleelpuudepanga uurimine:

– erinevate keelte süntaktiliste struktuuride võrdlemine– automaatne fraaside joondamine

• Veebipõhised süntaksimängud: – tutvustamine koolides ja tagasiside kogumine– õpetamisotstarbelise puude panga suurendamine

• Katsetused masintõlke alal: näidetepõhine (EBMT = example-based machine translation) ja statistiline (SMT)

Page 16: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Fraaside joondamine paralleelpuudepangas

Page 17: Valdkond:  Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Süntaksjuhitav statistiline masintõlge

• SMT tööriist GenPar: http://www.clsp.jhu.edu/ws2005/groups/statistical/GenPar.html

• Vahend joondatud puustruktuuride visualiseerimiseks http://www.clsp.jhu.edu/ws2005/groups/statistical/mtv.html