10
Egy magyar WordNet felé Miháltz Márton, Dr. Prószéky Gábor MorphoLogic

Egy magyar WordNet felé

  • Upload
    jaxon

  • View
    46

  • Download
    0

Embed Size (px)

DESCRIPTION

Egy magyar WordNet felé. Miháltz Márton, Dr. Prószéky Gábor MorphoLogic. WordNet. Mentális lexikon modell, Princeton 1985- Lexikális szemantikai hálózat Szójelentések, szinonimák , synsetek, fogalmak { l ó:1, háziló:1} vs. { ló:2, huszár:2} Szemantikai relációk - PowerPoint PPT Presentation

Citation preview

Page 1: Egy magyar WordNet felé

Egy magyar WordNet felé

Miháltz Márton, Dr. Prószéky GáborMorphoLogic

Page 2: Egy magyar WordNet felé

WordNet

• Mentális lexikon modell, Princeton 1985-

• Lexikális szemantikai hálózat• Szójelentések, szinonimák, synsetek,

fogalmak{ ló:1, háziló:1} vs. { ló:2, huszár:2}

• Szemantikai relációk{ ló:1, háziló:1} { póniló:1, póni:1 }

{ ló:2, huszár:2} { sakkfigura }

Page 3: Egy magyar WordNet felé

Princeton WordNet

{temperature}

{physical property}

{property}

{attribute}

{abstraction}

{space}

{outer space}{interplanetary

space}

{interstellar space}

{hot} {cold}{baking hot}

{burning}{fiery}

{ice-cold}

{frosty}

{cool}

{abstract}

{see, consider, reckon}

{think, believe}

{judge}

{cryogenics}

{absolute zero}

{convict}

attribute

instance

hypernym

domain

entails

antonym

part

derivative

similar

Page 4: Egy magyar WordNet felé

EuroWordNet: többnyelvű WN

Inter-Lingual

Index (ILI)

Base Concepts

(BC)

Top Ontology

{bicycle, bike}

Holland WN

Spanyol WN

{fiets, rijwiel} {bicicleta, velocipedo}equivalence equivalence

… …hypernym hypernym

Holland BC

Spanyol BC

Page 5: Egy magyar WordNet felé

Magyar WN ontológia (HuWN)

• BalkaNet projekt erőforrások használata– „Mag” rész: BN Concept Set (8 516 synset 13

nyelv alapján)– BN Interlingual Index (PWN 2.0 + SUMO hierarchia)– VisDic editor

• Kiterjesztéses modell (+ más)– Angol synsetek fordítása, relációk átvétele– Alapos kézi ellenőrzés és javítás

• Fél-automatikus módszerek– Korábban kifejlesztett fordító heurisztikák– 70% körüli pontosság (főnevek)

• Meglévő erőforrások integrációja– Magyar Értelmező Kéziszótár meghatározásai– NYTI igei vonzatkeret-adatbázis

Page 6: Egy magyar WordNet felé
Page 7: Egy magyar WordNet felé

HuWN: igék

• Problémák– Homályos jelentésbeli

megkülönböztetések – Inkonzisztens angol WN

Thematikus szerepek, metaforikus jelentések, szelekciós megkötések stb.

• Megoldás– „Vegyes” metodológia:

BCS fordítás + MNSZ vonzatkeret-gyakoriság alapján kiválasztott igék, saját rendezés

– Specifikus magyar relációkIgekötők, -képzők kezelése stb.

Page 8: Egy magyar WordNet felé

Eddigi eredmények

• BCS lefordítása– Gépi fordítás (fedés: 50%)– Synsetek és relációk kézi

ellenőrzése, kiegészítése• Számok

8,600 Synset14,700 Szó21,100 Szójelentés25,200 Reláció

Page 9: Egy magyar WordNet felé

További munka

• Mag rész kiterjesztése– MNSZ és ÉKSz korpuszgyakoriságok

alapján• Ontológia további bővítése

– Főnevek, melléknevek:• Iteratív koncentrikus bővítés PWN alapján• ÉKSz-ben feltárt szemantikai relációk alapján

– Igék:• MNSZ vonzatkeret-gyakoriság alapján• PWN alapján

– 2007: kb. 40K synset

Page 10: Egy magyar WordNet felé

Köszönjük a figyelmet!