11
Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban – Magyar nyelv- és beszédtechnológiai nap 2013. január 18.

Magyar nyelvi szintaktikai elemzőrendszerek

Embed Size (px)

DESCRIPTION

Magyar nyelvi szintaktikai elemzőrendszerek. Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport. A magyar nyelv helyzete a digitális korban – Magyar nyelv- és beszédtechnológiai nap 2013. január 18. Bevezetés. - PowerPoint PPT Presentation

Citation preview

Page 1: Magyar nyelvi szintaktikai elemzőrendszerek

Magyar nyelvi szintaktikai elemzőrendszerek

Vincze Veronika

Szegedi TudományegyetemInformatikai Tanszékcsoport

A magyar nyelv helyzete a digitális korban – Magyar nyelv- és beszédtechnológiai nap

2013. január 18.

Page 2: Magyar nyelvi szintaktikai elemzőrendszerek

Bevezetés• Szintaxis: mondat szavai között

levő nyelvtani kapcsolatok (alany-ige, főnév-névutó stb.) azonosítása (gépi úton)

• Szövegek nyelvtechnológiai feldolgozásának egy lépése

Page 3: Magyar nyelvi szintaktikai elemzőrendszerek

Szintaxis az alkalmazásokban• A szintaktikai elemzés általában

előfeldolgozó lépés egy magasabb rendű feladathoz

• Gépi fordításTegnap az irodában Péter öt levelet írt.

TEMP LOC SUBJ OBJ VERB

Peter wrote five letters in the office yesterday.

SUBJ VERB OBJ LOC TEMP

Page 4: Magyar nyelvi szintaktikai elemzőrendszerek

Számítógépes szintaxis• Szabályalapú elemzés

• Statisztikai elemzés– Nagyméretű adatbázisok (treebankek)– Elemzők (parserek)– Konstituens-nyelvtan– Függőségi nyelvtan

Page 5: Magyar nyelvi szintaktikai elemzőrendszerek
Page 6: Magyar nyelvi szintaktikai elemzőrendszerek

Statisztikai szintaktikai elemzés

• Angol nyelvre kifejlesztett technológiák

• Konstituens- és függőségi alapú elemzők

• Kötött szórend vs. szabad szórend

• Nehezebb-e a magyar, mint az angol?

Page 7: Magyar nyelvi szintaktikai elemzőrendszerek

Magyar nyelvű szintaktikai elemzés

• Magyar:– Ragozó nyelv (gazdag morfológia)

– Szabad szórend

• Szeged (Dependencia) Treebank• 1,2M szövegszó• 82 000 mondat• Konstituensalapú és függőségi kézi

elemzés• Statisztikai elemzők betanítása és

kiértékelése

Page 8: Magyar nyelvi szintaktikai elemzőrendszerek

Kísérletek• Angol elemzők magyar nyelvre

történő adaptálása

• Konstituens- és függőségi elemző is elfogadható eredményeket nyújt

• Nyelvspecifikus hibák

Page 9: Magyar nyelvi szintaktikai elemzőrendszerek

Virtuális csomópontok• létige kijelentő mód jelen idő E/3.

alakja nem jelenik meg a felszínen:

András katona (*van).

András legyen katona!

András katona lesz.

• azonos kezelési mód:

András VAN katona.

Page 10: Magyar nyelvi szintaktikai elemzőrendszerek

Távoli függőségek• Összetartozó elemek távol helyezkednek

el egymástól

A fiúnak látta a kutyáját.• Melléknévi igenevek és főnévi igenevek

módosítói

A század elején jól bevált módszerhez próbálnak meg visszatérni.

Meg kívánta ragadni az alkalmat.

Page 11: Magyar nyelvi szintaktikai elemzőrendszerek

Összegzés• Magyar nyelvű szintaktikai elemzés

• Viszonylag jók a magyar eredmények – nem nehezebb nyelv a magyar

• Nyelvspecifikus sajátosságokra érdemes koncentrálni