21
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsőoktatás minőségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen” Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10.

Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10

  • Upload
    robbin

  • View
    25

  • Download
    0

Embed Size (px)

DESCRIPTION

Debreceni Egyetem Nyelvtechnológia és bioetika workshop Debrecen, 2010. szeptember 10. A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális grammatika keretében HunGram kutatócsoport http://hungram.unideb.hu Laczk ó Tibor, Rákosi György & Tóth Ágoston - PowerPoint PPT Presentation

Citation preview

1. diaA projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
Debreceni Egyetem
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
A magyar nyelv korpusz alapú vizsgálata a lexikai-funkcionális grammatika keretében
HunGram kutatócsoport
Debreceni Egyetem, Angol-Amerikai Intézet
{laczkot|rakosigy|tagoston}@delfin.unideb.hu
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
a prezentáció vázlata
f vállalásunk: a HG-1 korpusz elkészítése, adatbázis-kezel rendszer kifejlesztése
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
1.1 kutatási elzmények, nemzetközi beágyazottság
elméleti keret: lexikai-funkcionális grammatika (LFG) (l. késbb)
(alkalmazott nyelvészeti) számítógépes implementációs platform: LFG alapú XLE-keret (Xerox Linguistic Environment ‘Xerox nyelvészeti környezet’) (l. késbb)
Parallel Grammar – Párhuzamos Nyelvtan
Palo Alto Research Center, PARC (Kalifornia)
Powerset (Microsoft), San Francisco (Kalifornia)
bvebb információk:
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
1.2 kutatási elzmények, nemzetközi beágyazottság
aktív, erteljes nemzetközi együttmködés: angol, német, francia, ír, japán, kínai, norvég, török, vietnámi, arab, spanyol stb. és magyar résztvevk
a magyar LFG alapú XLE-s számítógépes nyelvtan fejlesztését Laczkó Tibor kezdte el a Palo Alto Research Center-ben (PARC)
Fulbright kutatói ösztöndíj
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
1.3 kutatási elzmények, nemzetközi beágyazottság
2008: Lexical-Functional Grammar Research Group (‘Lexikai-Funkcionális Grammatikai Kutatócsoport’) a DE Angol-Amerikai Intézetének Angol Nyelvészeti Tanszékén
állandó tagok: Laczkó Tibor (vezet kutató)
Rákosi György (kutató)
Tóth Ágoston (kutató)
a kutatócsoport kiemelt kutatási-fejlesztési területe: HunGram (Hungarian Grammar ‘Magyar Grammatika’)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
1.4 kutatási elzmények, nemzetközi beágyazottság
a HunGram a ParGram „magyar tagozata” – szoros nemzetközi szakmai kapcsolat: LFG-konferenciák, rendszeres ParGram-os workshopok (évente 2)
jelenleg egy négyéves (2008-2012) OTKA projekt keretein belül folyik a fejlesztmunka
célok:
az eredmények implementálása a HunGram keretében
empirikus nyelvészeti eszköztár, korpusznyelvészeti megoldások felhasználása
a TÁMOP-pályázat illeszkedése a programhoz
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
1.5 kutatási elzmények, nemzetközi beágyazottság
a közeljöv ParGram-os/HunGram-os tervei
2 prezentáció
egy adott (közös) szöveg magyar fordításának HunGram-os elemzése (urdu mese)
a HunGram legújabb eredményei
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
2.1 elméleti és implementációs keret
Elméleti keret: Lexikai-Funkcionális Grammatika
Alapítók: Joan Bresnan (Stanford)
Ron Kaplan (PARC/Powerset, Inc.)
f-struktúra (funkcionális/grammatikai információk)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
c-struktúra fonológia (nyelvspecifikus)
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
2.3 elméleti és implementációs keret
Számítógépes implementáció
LFG-alapú számítógépes nyelvtanának kifejlesztésére.
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
2.4 elméleti és implementációs keret
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
2.5 elméleti és implementációs keret
Elsdleges nyelvtanírási feladatok
Tokenizálás, morfológiai elemzés
A lexikon létrehozása és folyamatos fejlesztése
Lexikai tételek létrehozása a morfológián túli nyelvtanilag releváns jegyek tárolására (argumentumszerkezet, kollokációs megkötések, stb.).
Manuális munka (sablonok felhasználásával).
A nyelvtan folyamatos tesztelése, hatékonyságjavítás, hibák kiküszöbölése.
*
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
2.6 elméleti és implementációs keret
Nyelvtanírás
→ Ezzel párhuzamos elméleti kutatómunka, egy LFG alapú átfogó magyar nyelvtan kéziratának elkészítése.
A nyelvtan jelen készültségi fázisa:
- fnévi csoport kezelése (különösen a birtokos szerkezet és elliptikus szerkezetek)
- névutós kifejezések elemzése
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
3.1 HG-1: korpusz
egy alkorpusz kézi egyértelmsítése / annotációja morfológiai és mondattani címkékkel
szövegek forrása:
Szeged Treebank 2.0: 1,2 M szavas treebank (korpuszannotációját nem használjuk);
saját gyjtés „nyers” korpusz: fleg szépirodalom, technikai dokumentációk, hírek
*
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
3.2 HG-1: programozási feladatok
1) Automatikus mondatokra bontás.
2) Mondatok elemeztetése a készül nyelvtannal feltöltött XLE elemzvel. Kimenet rögzítése, tárolása XML dokumentumban (a mondat összes lehetséges elemzését kódolva).
<s id=“a1” txt=“Csak kevés víz van a korsóban.” src=“fájlnév#pos-pos”>
<e> There is only a little water in the pitcher. </e>
<pl>
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
3.3 HG-1: programozási feladatok
*
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
3.4 HG-1: programozási feladatok
Funkciók:
a többszavas kifejezések lexikai egységként megjelölhetk, a morfológiai címkék megváltoztathatók
az ágrajzon élek és csomópontok létrehozhatók és törölhetk
a felhasználó által helyesnek vagy rossznak ítélt elemzések megfelel feljelölése
megjegyzések elhelyezésének lehetsége
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
Ekkor egy mondat így jelenik meg az XML dokumentumban:
<s id=“a1” txt=“Csak kevés víz van a korsóban.” src=“fájlnév#pos-pos”>
<pl>
</pl>
<e> There is only a little water in the pitcher. </e>
<a id=“1” t=“a” c=“y”>
<-- fa #1 -->
<-- fa #2 -->
<-- fa #3 -->
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
3.6 HG-1: programozási feladatok
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.
TÁMOP-4.2.1/B-09/1/KONV-2010-0007 „A felsoktatás minségének javítása a kutatás-fejlesztés-innováció-oktatás fejlesztésén keresztül a Debreceni Egyetemen”
3.7 HG-1: programozási feladatok
5) On-line lekérdezési felület
keresés szrése morfológiai jegyekre és a keresett szót tartalmazó összetevre (szrés beállítása rlap segítségével)
a találatok KWIC konkordanciaként való megjelenítése
a konkordanciából kiválasztott mondat ágrajzának megjelenítése
késbb bvíthet (pl. kollokációk keresése)
Felhasználási lehetségek: nyelvoktatás, nyelvtanulás, lexikográfia, elméleti nyelvészet
*