DESCRIPTION
Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10. A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális grammatika keretében HunGram kutatócsoport http://hungram.unideb.hu Laczk ó Tibor, Rákosi György & Tóth Ágoston - PowerPoint PPT Presentation
Citation preview
1. diaA projekt az Európai Unió támogatásával, az Európai Szociális
Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
Debreceni Egyetem
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális
grammatika keretében
HunGram kutatócsoport
Debreceni Egyetem, Angol-Amerikai Intézet
{laczkot|rakosigy|tagoston}@delfin.unideb.hu
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
a prezentáció vázlata
f vállalásunk: a HG-1 korpusz elkészítése, adatbázis-kezel rendszer
kifejlesztése
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
1.1 kutatási elzmények, nemzetközi beágyazottság
elméleti keret: lexikai-funkcionális grammatika (LFG) (l.
késbb)
(alkalmazott nyelvészeti) számítógépes implementációs platform: LFG
alapú XLE-keret (Xerox Linguistic Environment ‘Xerox nyelvészeti
környezet’) (l. késbb)
Parallel Grammar – Párhuzamos Nyelvtan
Palo Alto Research Center, PARC (Kalifornia)
Powerset (Microsoft), San Francisco (Kalifornia)
bvebb információk:
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
1.2 kutatási elzmények, nemzetközi beágyazottság
aktív, erteljes nemzetközi együttmködés: angol, német, francia, ír,
japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar
résztvevk
a magyar LFG alapú XLE-s számítógépes nyelvtan fejlesztését Laczkó
Tibor kezdte el a Palo Alto Research Center-ben (PARC)
Fulbright kutatói ösztöndíj
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
1.3 kutatási elzmények, nemzetközi beágyazottság
2008: Lexical-Functional Grammar Research Group
(‘Lexikai-Funkcionális Grammatikai Kutatócsoport’) a DE
Angol-Amerikai Intézetének Angol Nyelvészeti Tanszékén
állandó tagok: Laczkó Tibor (vezet kutató)
Rákosi György (kutató)
Tóth Ágoston (kutató)
a kutatócsoport kiemelt kutatási-fejlesztési területe: HunGram
(Hungarian Grammar ‘Magyar Grammatika’)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
1.4 kutatási elzmények, nemzetközi beágyazottság
a HunGram a ParGram „magyar tagozata” – szoros nemzetközi szakmai
kapcsolat: LFG-konferenciák, rendszeres ParGram-os workshopok
(évente 2)
jelenleg egy négyéves (2008-2012) OTKA projekt keretein belül
folyik a fejlesztmunka
célok:
az eredmények implementálása a HunGram keretében
empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások
felhasználása
a TÁMOP-pályázat illeszkedése a programhoz
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
1.5 kutatási elzmények, nemzetközi beágyazottság
a közeljöv ParGram-os/HunGram-os tervei
2 prezentáció
egy adott (közös) szöveg magyar fordításának HunGram-os elemzése
(urdu mese)
a HunGram legújabb eredményei
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
2.1 elméleti és implementációs keret
Elméleti keret: Lexikai-Funkcionális Grammatika
Alapítók: Joan Bresnan (Stanford)
Ron Kaplan (PARC/Powerset, Inc.)
f-struktúra (funkcionális/grammatikai információk)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
c-struktúra fonológia (nyelvspecifikus)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
2.3 elméleti és implementációs keret
Számítógépes implementáció
LFG-alapú számítógépes nyelvtanának kifejlesztésére.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
2.4 elméleti és implementációs keret
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
2.5 elméleti és implementációs keret
Elsdleges nyelvtanírási feladatok
Tokenizálás, morfológiai elemzés
A lexikon létrehozása és folyamatos fejlesztése
Lexikai tételek létrehozása a morfológián túli nyelvtanilag
releváns jegyek tárolására (argumentumszerkezet, kollokációs
megkötések, stb.).
Manuális munka (sablonok felhasználásával).
A nyelvtan folyamatos tesztelése, hatékonyságjavítás, hibák
kiküszöbölése.
*
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
2.6 elméleti és implementációs keret
Nyelvtanírás
→ Ezzel párhuzamos elméleti kutatómunka, egy LFG alapú átfogó
magyar nyelvtan kéziratának elkészítése.
A nyelvtan jelen készültségi fázisa:
- fnévi csoport kezelése (különösen a birtokos szerkezet és
elliptikus szerkezetek)
- névutós kifejezések elemzése
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.1 HG-1: korpusz
egy alkorpusz kézi egyértelmsítése / annotációja morfológiai és
mondattani címkékkel
szövegek forrása:
Szeged Treebank 2.0: 1,2 M szavas treebank (korpuszannotációját nem
használjuk);
saját gyjtés „nyers” korpusz: fleg szépirodalom, technikai
dokumentációk, hírek
*
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.2 HG-1: programozási feladatok
1) Automatikus mondatokra bontás.
2) Mondatok elemeztetése a készül nyelvtannal feltöltött XLE
elemzvel. Kimenet rögzítése, tárolása XML dokumentumban (a mondat
összes lehetséges elemzését kódolva).
<s id=“a1” txt=“Csak kevés víz van a korsóban.”
src=“fájlnév#pos-pos”>
<e> There is only a little water in the pitcher.
</e>
<pl>
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.3 HG-1: programozási feladatok
*
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.4 HG-1: programozási feladatok
Funkciók:
a többszavas kifejezések lexikai egységként megjelölhetk, a
morfológiai címkék megváltoztathatók
az ágrajzon élek és csomópontok létrehozhatók és törölhetk
a felhasználó által helyesnek vagy rossznak ítélt elemzések
megfelel feljelölése
megjegyzések elhelyezésének lehetsége
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
Ekkor egy mondat így jelenik meg az XML dokumentumban:
<s id=“a1” txt=“Csak kevés víz van a korsóban.”
src=“fájlnév#pos-pos”>
<pl>
</pl>
<e> There is only a little water in the pitcher.
</e>
<a id=“1” t=“a” c=“y”>
<-- fa #1 -->
<-- fa #2 -->
<-- fa #3 -->
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.6 HG-1: programozási feladatok
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.7 HG-1: programozási feladatok
5) On-line lekérdezési felület
keresés szrése morfológiai jegyekre és a keresett szót tartalmazó
összetevre (szrés beállítása rlap segítségével)
a találatok KWIC konkordanciaként való megjelenítése
a konkordanciából kiválasztott mondat ágrajzának
megjelenítése
késbb bvíthet (pl. kollokációk keresése)
Felhasználási lehetségek: nyelvoktatás, nyelvtanulás, lexikográfia,
elméleti nyelvészet
*