Upload
casey-hopkins
View
39
Download
2
Embed Size (px)
DESCRIPTION
Valency Lexicon of Czech Verbs. Zdeněk Žabokrtský obhajoba disertační práce 29. září 2005 ÚFAL MFF UK. Osnova. Úvod Re šeršní část Teoretická část Praktická část Závěr. Úvod a motivace. - PowerPoint PPT Presentation
Citation preview
Valency Lexicon of Czech Verbs
Zdeněk Žabokrtský
obhajoba disertační práce
29. září 2005
ÚFAL MFF UK
Osnova
• Úvod
• Rešeršní část
• Teoretická část
• Praktická část
• Závěr
Úvod a motivace
• valence – schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury
– stát – někde, o někoho, za něco, za něčím, při někom…
– odpovídat – někomu na něco, za někoho, něčemu
– brát – něco někomu, za něco, roha, zasvé,…
• valenci lexikální jednotky nelze obecně předpovědět pro automatické zpracování potřebujeme slovník
• předpokládané možnosti využití valenčního slovníku– lemmatizace, tagging
– parsing
– word sense disambiguation
– strojový překlad...
• hlavní cíl předkládané práce: vytvořit dostatečně rozsáhlý, kvalitní valenční slovník českých sloves pro využití v NLP
REŠERŠNÍ ČÁST
Zkoumání valence v češtině
• dva dominující teoretické směry– Teorie větných vzorců [Daneš,Hlavsa-87]– Funkční generativní popis [Sgall-67] [Panevová-80]
• existující data– valenční slovník BRIEF [Pala,Ševeček-97]– Český syntaktický slovník [Skoumalová-01]– Slovesa pro praxi [Svozilová et al.-97]– PDT-VALLEX [Hajič et al.-03]– VerbaLex [Hlaváčková,Horák-05]
Zkoumání valence v jiných jazycích
• angličtina– [Fillmore-02] FrameNet– [Levin-93]– [Kingsbury-Palmer-02]
PropBank
• němčina– [Helbig,Schenkel-69]– [Erk et al.-03] SALSA
• polština– [Polanski-92]
• slovenština– [Nižníková,Sokolová-98]
• ruština– [Silnickij-99]– [Mel’čuk,Žolkovskij-84]– ETAP [Boguslavsky-04]
• bulharština– [Popova-87]
• francouzština, holandština– [van den Eynde,Mertens,03]
• angličtina-japonština– [Bond,Shirai-97]
TEORETICKÁ ČÁST
Struktura slovníku
• základní termíny: – lexém– lexikální jednotka– lemma– m-lemma
• v našem slovníku:– lexikální jednotka = formálně popsaný valenční rámec + neformálně
popsaný význam + další atributy
• při návrhu makrostruktury slovníku je třeba zohlednit řadu jazykových jevů:– reflexivita (brát / brát se / brát si )– varianty lemmat (myslet / myslit )– homografie (žít I / žít II)– vidové „dvojice“ (vzít / brát / brávat )– determinovaná slovesa ( jít / chodit)
lexical formslexical units
lexeme
give
gave
givengives
give-1 give-2
give-3
give-4give-5
…
lexical formslexical units
lexeme
give
gave
givengives
give-1 give-2
give-3
give-4give-5
…
Struktura slovníkového hesla
• pro každou LU – valenční rámec – posloupnost slotů– další atributy: příklad užití, glosa, typ kontroly ...
• pro každý slot v rámci– funktor + obligatornost– povrchová forma
Valence v syntaktických stromech:
dvouvrstvý model valence
• zavedení termínů pro explicitní popis výskytů rámců na tektogramatické a analytické rovině– (deep or surface) frame evoker– (deep or surface) frame slot filler– (deep or surface) frame instance
• deep/surface – ve stylu t-roviny a a-roviny PDT 2.0
• zavedení termínů pro koordinační struktury– direct vs. effective children/parents/subtree root– direct vs. terminal coordination member
Surface vs. deep frame evoker (1)
(c)
(a)
(b)
Jan
miluje
Marii Jan
milovat
Marie
Marie se mu
směje
Marie
smát_se
#PersPron
Jan
milovat
Marii Jan
milovat
Mariebude
Surface vs. deep frame evoker (2)
(d) Jan dal
Marii
a
Petrovi hrušku
jablko
Jandát
Marii
a
jablko
dát
Petr hruška
(g)
(e)
(f)
Jan
zpívat
Marii
ale
nebude
bude Jan
zpívat
Marii
ale
zpívat
#Neg
Jan
a
poslouchatbude
hudbu
psát
dopis
Jan
a
poslouchat
hudba
psát
dopis
Jan
bojí
se smát Jan
bát_se
smát_se
#Cor
Surface vs. deep frame filler (1)
Jan
potkal
bratra
svého mladšího
(a)
(b)
(c)
Jan
potkat
bratr
#PersPronmladý
Jan
potkal
a
Marii Petra
Jan
potkat
a
Marie Petr
Jan
čekal
na
Marii
Jan
čekat
Marie
Surface vs. deep frame filler (2)
(d)
(e)
(f)
Jan
slíbil
že
přijde
Jan
slíbit
přijít
#PersPron
Jan
čekal
naa
Marii Petra
Jan
čekat
a
Marie Petr
Jan
čekat
a
Marie Petr
Jan
čekal
na
a
Marii Petra
na
• pozorování: u řady sloves páry velmi blízkých LU– naložit vůz cementem – cement na vůz– odevzdat nález policii – na policii– ukradl bance peníze – peníze z banky– vyčistit šaty od bláta – bláto z šatů– osázet park stromy – stromy do parku– vyjít na kopec – vyjít kopec– oloupat slupku z jablka – jablko
• předpoklad: jde o pravidelné transformace (pravidelné pro skupinu sloves), jejichž znalost lze využít ke snížení redundance slovníku
• trojí projev alternace– změna valenčního rámce– změna lexikálního významu– změna SFE
Alternace
Alternační model valenčního slovníku
lexical formslexical units
lexeme
………
BLU DLU
DLUDLU
BLU DLU
BLU
CLU
CLU
CLU
• zavedení nových termínů– základní lex. jednotka (BLU)
– odvozená lex. jednotka (DLU)
– shluk lex. jednotek (CLU)
• dvě formy slovníku
– minimální (BLU+alternace)
– expandovaná (BLU+DLU)
PRAKTICKÁ ČÁST
Anotační schéma VALLEXu
• výběr sloves ke zpracování
• prostředí pro ruční editace slovníkových hesel
• nástroje umožňující využití existujících jazykových zdrojů
(tradiční slovníky, vzorek z ČNK...)
• logická struktura slovníku (mikrostruktura a makrostruktura)
• fyzická struktura slovníku - datové formáty
• konverze mezi formáty
• nástroje pro vyhledávání
• nástroje pro testování konzistence slovníku
Výběr sloves
• postupné zpracování v dávkách po několika stovkách sloves (resp. m-lemmat)
• hlavní kritérium – četnost podle ČNK
• kumulativní pokrytí slovesných m-lemmat v ČNK:
Anotační prostředí• primární podoba hesel – jednoduchý řádkově-orientovaný
textový formát (regulární jazyk)• editace v textovém editoru WinEdt• režim pro zvýrazňování syntaxe
Příprava slovníku pro publikaci
primarytextfiles
vallex.xml
HTML files
vallex.tex vallex.pdf
txt2xml.plxml2html.pl
xml2latex.pllatex,dvips,ps2pdf
VALLEX 1.0
• první zveřejněná verze valenčního slovníku, podzim 2003
• autoři hesel: Markéta Lopatková, Karolína Skwarska, Václava
Benešová
• cca 1400 sloves (cca 1000 m-lemmat), 4000 valenčních rámců
• distribuce – slovník je zdarma ke stáhnutí po zaregistrování na
Internetu:
http://ckl.mff.cuni.cz/zabokrtsky/vallex/1.0
• neomezená licence pro výzkumné a výukové nekomerční
účely
Možnosti vyhledávání ve VALLEXu
• v primárním textovém formátu
– během anotace přímo ve WinEdt
– vyhledávací WWW interface založený na regulárních výrazech
• v HTML verzi (podle vybraných kritérií)
• v XML verzi (např. pomocí XPath)
Změny od vydání VALLEX 1.0
• kvalitativní změny (VALLEX XML, verze B)– přechod na novou terminologii (lexémy, lexikální
jednotky...)– sloučení vidových protějšků– připraveno na alternační model
• kvantitativní změny – současná (interní) verze VALLEX 1.5:– 1624 lexémů (1841 m-lemmat)– 4414 lexikálních jednotek
ZÁVĚR
Hlavní přínos práce
(1) implementace anotačního schématu, zveřejnění VALLEX 1.0 (nyní cca 130 zaregistrovaných uživatelů)
(2) doplnění teoretického modelu
• upřesnění užívaných termínů
• zavedení nových termínů pro popis instancí valenčních rámců v závislostních stromech
• alternační model slovníku
(3) přehled dalších projektů souvisejících s valencí
Další využití dat/zkušeností/nástrojů
– PDT-VALLEX [Hajič-03]
– VerbaLex [Hlaváčková,Horák-05]
– švédsko-český slovník verbonominálních konstrukcí
[Cinková,Žabokrtský-05]
– VALEVAL [Bojar et al.-05]