Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10
21
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10.
Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10
Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10. A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális grammatika keretében HunGram kutatócsoport http://hungram.unideb.hu Laczk ó Tibor, Rákosi György & Tóth Ágoston - PowerPoint PPT Presentation
Citation preview
1. diaA projekt az Európai Unió támogatásával, az Európai Szociális
Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
Debreceni Egyetem
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális
grammatika keretében
HunGram kutatócsoport
Debreceni Egyetem, Angol-Amerikai Intézet
{laczkot|rakosigy|tagoston}@delfin.unideb.hu
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
a prezentáció vázlata
f vállalásunk: a HG-1 korpusz elkészítése, adatbázis-kezel rendszer
kifejlesztése
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
1.1 kutatási elzmények, nemzetközi beágyazottság
elméleti keret: lexikai-funkcionális grammatika (LFG) (l.
késbb)
(alkalmazott nyelvészeti) számítógépes implementációs platform: LFG
alapú XLE-keret (Xerox Linguistic Environment ‘Xerox nyelvészeti
környezet’) (l. késbb)
Parallel Grammar – Párhuzamos Nyelvtan
Palo Alto Research Center, PARC (Kalifornia)
Powerset (Microsoft), San Francisco (Kalifornia)
bvebb információk:
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
1.2 kutatási elzmények, nemzetközi beágyazottság
aktív, erteljes nemzetközi együttmködés: angol, német, francia, ír,
japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar
résztvevk
a magyar LFG alapú XLE-s számítógépes nyelvtan fejlesztését Laczkó
Tibor kezdte el a Palo Alto Research Center-ben (PARC)
Fulbright kutatói ösztöndíj
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
1.3 kutatási elzmények, nemzetközi beágyazottság
2008: Lexical-Functional Grammar Research Group
(‘Lexikai-Funkcionális Grammatikai Kutatócsoport’) a DE
Angol-Amerikai Intézetének Angol Nyelvészeti Tanszékén
állandó tagok: Laczkó Tibor (vezet kutató)
Rákosi György (kutató)
Tóth Ágoston (kutató)
a kutatócsoport kiemelt kutatási-fejlesztési területe: HunGram
(Hungarian Grammar ‘Magyar Grammatika’)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
1.4 kutatási elzmények, nemzetközi beágyazottság
a HunGram a ParGram „magyar tagozata” – szoros nemzetközi szakmai
kapcsolat: LFG-konferenciák, rendszeres ParGram-os workshopok
(évente 2)
jelenleg egy négyéves (2008-2012) OTKA projekt keretein belül
folyik a fejlesztmunka
célok:
az eredmények implementálása a HunGram keretében
empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások
felhasználása
a TÁMOP-pályázat illeszkedése a programhoz
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
1.5 kutatási elzmények, nemzetközi beágyazottság
a közeljöv ParGram-os/HunGram-os tervei
2 prezentáció
egy adott (közös) szöveg magyar fordításának HunGram-os elemzése
(urdu mese)
a HunGram legújabb eredményei
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
2.1 elméleti és implementációs keret
Elméleti keret: Lexikai-Funkcionális Grammatika
Alapítók: Joan Bresnan (Stanford)
Ron Kaplan (PARC/Powerset, Inc.)
f-struktúra (funkcionális/grammatikai információk)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
c-struktúra fonológia (nyelvspecifikus)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
2.3 elméleti és implementációs keret
Számítógépes implementáció
LFG-alapú számítógépes nyelvtanának kifejlesztésére.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
2.4 elméleti és implementációs keret
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
2.5 elméleti és implementációs keret
Elsdleges nyelvtanírási feladatok
Tokenizálás, morfológiai elemzés
A lexikon létrehozása és folyamatos fejlesztése
Lexikai tételek létrehozása a morfológián túli nyelvtanilag
releváns jegyek tárolására (argumentumszerkezet, kollokációs
megkötések, stb.).
Manuális munka (sablonok felhasználásával).
A nyelvtan folyamatos tesztelése, hatékonyságjavítás, hibák
kiküszöbölése.
*
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
2.6 elméleti és implementációs keret
Nyelvtanírás
→ Ezzel párhuzamos elméleti kutatómunka, egy LFG alapú átfogó
magyar nyelvtan kéziratának elkészítése.
A nyelvtan jelen készültségi fázisa:
- fnévi csoport kezelése (különösen a birtokos szerkezet és
elliptikus szerkezetek)
- névutós kifejezések elemzése
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.1 HG-1: korpusz
egy alkorpusz kézi egyértelmsítése / annotációja morfológiai és
mondattani címkékkel
szövegek forrása:
Szeged Treebank 2.0: 1,2 M szavas treebank (korpuszannotációját nem
használjuk);
saját gyjtés „nyers” korpusz: fleg szépirodalom, technikai
dokumentációk, hírek
*
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.2 HG-1: programozási feladatok
1) Automatikus mondatokra bontás.
2) Mondatok elemeztetése a készül nyelvtannal feltöltött XLE
elemzvel. Kimenet rögzítése, tárolása XML dokumentumban (a mondat
összes lehetséges elemzését kódolva).
<s id=“a1” txt=“Csak kevés víz van a korsóban.”
src=“fájlnév#pos-pos”>
<e> There is only a little water in the pitcher.
</e>
<pl>
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.3 HG-1: programozási feladatok
*
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.4 HG-1: programozási feladatok
Funkciók:
a többszavas kifejezések lexikai egységként megjelölhetk, a
morfológiai címkék megváltoztathatók
az ágrajzon élek és csomópontok létrehozhatók és törölhetk
a felhasználó által helyesnek vagy rossznak ítélt elemzések
megfelel feljelölése
megjegyzések elhelyezésének lehetsége
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
Ekkor egy mondat így jelenik meg az XML dokumentumban:
<s id=“a1” txt=“Csak kevés víz van a korsóban.”
src=“fájlnév#pos-pos”>
<pl>
</pl>
<e> There is only a little water in the pitcher.
</e>
<a id=“1” t=“a” c=“y”>
<-- fa #1 -->
<-- fa #2 -->
<-- fa #3 -->
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.6 HG-1: programozási feladatok
A projekt az Európai Unió támogatásával, az Európai Szociális Alap
társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének
javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén
keresztül a Debreceni Egyetemen”
3.7 HG-1: programozási feladatok
5) On-line lekérdezési felület
keresés szrése morfológiai jegyekre és a keresett szót tartalmazó
összetevre (szrés beállítása rlap segítségével)
a találatok KWIC konkordanciaként való megjelenítése
a konkordanciából kiválasztott mondat ágrajzának
megjelenítése
késbb bvíthet (pl. kollokációk keresése)
Felhasználási lehetségek: nyelvoktatás, nyelvtanulás, lexikográfia,
elméleti nyelvészet
*