71
Nyelv-technológia 2008 - Elmélet

Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelv-technológia

2008

-

Elmélet

Page 2: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

összeállította:Esztergár-Kiss Domokos

- 2 -

Page 3: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

1. Karakterek, kódolási szabványok, Unicode. Diakritikus jelek, multigráfok. Ábécék, akadémiai rendezés, könyvtári rendezés. Fontosabb formanyelvek, TEI. Betűstatisztika, Zipf törvények. A nyelvészeti feldolgozás szintjei.

2. Formális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek minőségének vizsgálata: pontosság és lefedettség, túl- és alulgenerálás. Zárt és nyílt lexikonok.

3. Véges állapotú automata (FSA), véges fordító (FST). A természetes nyelvek morfológiai jelenségei. A kétszintes morfológia kialakulása. A kétszintes morfológia szabályai.

4. Az unifikációs morfológiai modell: a jegyszerkezetek és az unifikálhatóság vizsgálata. Morfológiai művelettípusok. A magyar nyelv speciális morfológiai problémái.

5. A morfológiai elemzés legfontosabb alkalmazásai: helyesírás-ellenőrzés, elválasztás (ragozó) tezaurusz, nyelvhelyesség-ellenőrzés, tövesítés.

6. A morfológiai elemzés többértelműsége. A szófaji egyértelműsítés statisztikai és szabály-alapú módszerei. Jelentés-egyértelműsítés. Felügyelt és nem-felügyelt módszerek.

7. Felszíni és mélyszerkezeti esetek. Fontosabb fogalmi hálók. Fogalmi függőség, forgatókönyvek, szerepek. Ontológiák. A WordNet és relációi.

8. A természetes nyelvek nyelvtanai. A természetes nyelvekben előforduló speciális szerkezetek. Korpuszok alkalmazása a szintaxis kutatásában. Annotált korpuszok, treebank. Párhuzamos korpuszok.

9. Közvetlen összetevős és függőségi reprezentációk. X-vonás nyelvtanok. Szintaktikai elemzési módszerek. RTN és ATN. DAG, jegyszerkezetek, unifikáció.

10. Szótárak és terminológiai adatbázisok. Szótári keresés. A többszavas kifejezések kezelése. Szótárak megfordíthatósága. Gyorsfordítók. Intelligens szótárak készítésének problémái.

11. Az emberi fordítás támogatása. Terminológiai adatbázisok. Párhuzamos korpuszok. Szövegszinkronizáció: célok, módszerek. Fordítómemória. Hasonlósági keresés a fordítómemóriában.

12. Gépi fordítás. Szótárak a gépi fordítás számára. Szótárak reprezentálása. Szabály-alapú fordítási eljárások: közvetlen, közvetítőnyelves, transzfer. Statisztikai gépi fordítás. Minta-alapú fordítás.

- 3 -

Page 4: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

1. Karakterek, kódolási szabványok, Unicode. Diakritikus jelek, multigráfok. Ábécék, akadémiai rendezés, könyvtári rendezés. Fontosabb formanyelvek, TEI. Betűstatisztika, Zipf törvények. A nyelvészeti feldolgozás szintjei.

Története: o Kr.e. 200 000–100 000: ,,előbeszéd”,o Kr.e. 100 000–30 000: kialakul a beszéd,o Kr.e. 9000: megjelenik az írás,o Kr.e. 3500: megjelenik a betűírás,o Kr.e. 700: Kínában nyomtatnak,o 1100: Európában is nyomtatnak,o 1900: megjelenik az írógép,o 1950: megjelenik a számítógép,o 2000: számítógéppel emberi nyelven;;

elnevezések: MT (gépi fordítás), CL (számítógépes nyelvészet), NLP (természetesnyelv-feldolgozás), LE (nyelvmérnökség), HLT (humán nyelvtechnológia);;

Kína: egységes írás (1,3 Mrd ember), Mo: nyelvi sziget, angol: nem kell idegen nyelvet tanulnia, de nem beszélnek jól anyanyelvén;

areális hatás: szomszédból környezetre (pl: latin- olasz, portugál), internet: földrajzi hatás megszűnik, angol változik;

írás: o fajtái: ideografikus (fogalomírás), szótagírás, betűírás;o iránya más lehet, ua hangot is másképp írhatja, ua írásjelet máshogy ejtheti ki;o helyesírás: társadalmi megegyezés egy kód fölött, standard (nyomtatás, kiadó

alakítják szabályokat- Gutenberg galaxis);; nyelvstatisztika: mérnöki tud, nyelvi változást figyeli (könyv, hagyomány alapján),

nyelv változik (de nem felt rossz irányba, nem mindig rossz az ami máskor v máshol van), miket vesz be nyelv (ami illeszkedik; ha nem, akkor torzítja);;

Evolúció: 1950: ötletek, 60: kísérletek, 70: programok, 80: termékek, 90: technológia; deskriptív nyelvészet: 1920-30-as évek, nyelvleírás (olyat, ami eddig nem volt, pl:

indián) + szgép: 1950-es évek (Chomsky, Bar-Hillel) gépi fordítás: Garvin Pál, Toma Péter (1954: 1.gépi fordítórendszer- Systan, IBM-nél);

Chomsky: 1957, Syntactic structures (innentől: generatív nyelvészet), nyelvet le lehet írni formálisan CF nyelvtannal szavakból kiindulva algoritmussal leírható (hasonló mondatokat nem kell újra levezetni)- transzformációval átalakítja;

ALPAC(= Automatic Language Processing Advisory Comitee): 60-as évek közepe, vizsgálat, miszerint nem lehet megcsinálni- projektek 85%-t leállítják computational linguistics (már nem fordítás, hanem nyelvészet; témák: NLP(= Natural Language Processing)- nyelvfeldolg, statisztikák készítése);

Chomsky: Aspects of theory of syntax, 1965 (nyelvet le kell tudni írni, transzformálni, de gép nem tud kitalálni mondatokat, inkább elemzésre használni- transzformációs grammatika elemzésre nem használható- inkább saját elméletet találnak ki, amivel lehet is elemezni, pszicholinguisztika- MI fogalma);

PSG (= Phrase Structure Grammar): 80-as évek, tr-t kikerülendő, Chomsky-féle mondatszerkezet általánosítása; HPSG(= Head driven PSG): HP támogatja;

Language technology: 80-as évek vége, szgép tömeges elterjedése, editor, szövszerk;;

- 4 -

Page 5: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

Szövegek kódolása: o A4-es lap: 25*50= 1250 leütés, 30 betű- 301250 mindent le lehet írni; o 6000 nyelv világon (820 Pápua Új Guinea, 700 Indonézia, 500 Nigéria, 400

India, 300 USA,Mexikó, 100 Vanuatu (200.000 fő)); o Beszélt (anyanyelv+2.): mandarin kínai 1000M, hindi 500M, spanyol 400M,

angol 500M, arab,portugál,bengáli,orosz,német 200M;

Karakterkódolási módszerek: o Fonetikus: úgy írják, ahogy hangzik, pl: magyar közel, fr,angol távolabb;o Fonéma: több hang, mint nyelvi egység (bizonyos betűk máshogy/ugyanúgy

szólnak kontextustól függően, pl: ’n’ – néni,angol (nem ua), honvéd,hamvas (ua)), pl: s (magyar,vietnámi), sh (angol,cigány), ch (fr,portugál), sch (német), sci (olasz), skj (svéd,norvég), sˇ (cseh,szlovák,horvát,szlovén,lett,litván,észt);

o Alapábécé: latin, angol; leghosszabb/rövidebb: khmer/rotokas (74/12 betű), legtöbb/kevesebb fonéma: !Xóő/rotokas (112/11), legtöbb/kevesebb msh: ubyx/rotokas (81/6), legtöbb/kevesebb mgh: !Xóő/ubyx (31/2);

o Diakritikus jelek: olyan, mint latin, csak extra jelölések rajta;o Multigráf: együtt máshogy kell mondani, pl: ’ly’;;

karakter: absztrakt obj, szgépen tárolt szöveg lk (tovább nem bontható) egysége, lehet: betű, szám, írásjel, spec.jel, szövegformázó parancs;

karakterkód: karakternek megfeleltetett számkód, ami szgépen közvetlenül ábrázolható;

karakterkészlet: karaktert és számkódot összerendelő táblázat, meghatározza: milyen karakterek használhatók, kódokat hogyan kell értelmezni (karaktert és vezérlőkar-t is tartalmaz);

kódlap: számkóddal azonosított kar.készlet (szgép: több kar.készletet kezel), pl: ASCII (7 bit= 127 karakter), ISO 8859-2 (Latin-2);

betűkészlet: adott kar.készletet és megjelenítendő kar.képeket összerendelő táblázat, szgépbeli ábrázolásra nincs hatással, csak megjelenítésnél használjuk;

magyar abc kódolásai: e-mail (ékezet nélkül, pl: arvizu, fokabel), távirati (aarviizuue), repülő ékezetes (a’rv’zu”), számkódos (a1rvi1zu3), TeX (\’arv\’it\”u t\huk\hor), SGML/HTML (árv&iacure;zű);;

Unicode és UCS: o 1980-as években igény egységes, minden kar-t leíró kódtáblára- ISO 10646

(ISO szervezet szabványa, UCS= Universal Character Set, csak kar.készlet) és Unicode (amerikai cégek konzorciuma, vannak egyeztetési szabályok);

o 1991: egyesítik két projektet, de megmarad a 2 szervezet, teljesen kompatibilis;

o minden beszélt, holt és egyéb nyelv (pl: Braille) karakterei, eredetileg 16 biten= 2 byte (216= 65536- BMP(= Basic Multilingual Plane)), de bővítették 4 byte-ra (232= 4Mrd); első 255 megegyezik Latin-1 karakterekkel, UCS-2 (2 byte-on), UCS-4 (4 byte-on);

o UTF-8(=Unicode Transformation Format): nem 4x méretnövekedés, hanem átlagosan +10% (angol: 1 byte, magyar 2 byte, ritka formázó karakter: 3 byte), U-0000|0000 – U-0000|007F=127 0...|...., U-0000|0080 – U-0000|07FF=2047 110.|.... 10..|...., 1110|.... 10..|.... 10..|....;

- 5 -

Page 6: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o locale: sokféle nyelvi-területi beállítási lehetőség (pl: kis/nagybetű konverzió, abc rendezés), pl: török pontnélküli i;;

rendezés: rendezési elv hangzás szerint, ábécék közötti átjárás- transzliterálási problémák;

o könyvtári: magyar és idegen nyelvű szavak keverednek (pl: lexikon, atlasz), ált latin betűs abc-t követik (a,b,c,d,e…), többjegyű betűk minden eleme külön számít, nincs ékezet,mellékjegyek, több szóból állót egész kapcsolat v első elem alapján besorolni -

szabvány (MSZ 3401) és belső szakmai útmutatók;o akadémiai:

első betűk abc-beli helye szerint rendezzük, egyjegyű előbb, mint két v háromjegyű (pl: cukor, csata), többjegyű betűk kettőzött változatait különbontjuk (pl: ccs= cs+cs,

kaszinó, kassza, naggyá, nagygyakorlat), mgh rövid és hosszú változatai azonos értékűek (pl: a=á, ö=ő, író,

iroda), rövid mgh előbbre kerül, ha betűsor csak mgh hosszúságban

különbözik (pl: égbolt, egér, éger, koros, kóros, kórós), szóhatárokat (space, kötőjel) nem vesszük figyelembe (közszavak közé

sorolt tulnevek esetén is, pl: kis részben, kissé, Kiss Ernő, kis sorozat, kis számban, tiszafa, Tisza Kálmán, Tisza menti, Tisza-part),

régies írású magyar családneveket, idegen szavakban régi magyar, ill idegen betűket külön kezeljük aa=á, ch=cs, eé=é, cz=c, eö=ö, ew=ö, th=t, ts=cs, y=i,w=v, pl: Czuczor, Cházár, Császár),

számok előre (pl: 1-szer 1 az 1, II. János Pál, 10 kérdés, XIX. Század, acél…);;

nyelvstatisztika: o hang,betűstatisztikák (magyar: a,e,l,n,s,t), titkosírás-megfejtések, Morse-abc,

írógép billentyűzet, nyelvek tipizálhatók n-gráfjaik alapján - szavaknak vannak törvényeik, milyen gyakran fordulnak elő (pl: msh-torlódással kezdődő magyar szavak alig vannak);

o Shannon, 1951;o Küpfmüller szöveggenerálás, 1954: 1,2,3,4-gráfokkal (legjellemzőbb: 3 és 4-

gráf, ha kicsi tanítóhalmaz, akkor nagyobb csoportok eloszlásának megbízhatósága nem elég);

o Statisztikai nyelvtörvények: rang: szó gyakoriságában megfelelő hely a szavak sorában; Zipf 1. törvénye: a bizonyos gyakorisággal előforduló szavak

számának (b) és abszolút gyakorisága négyzetének (F) szorzata állandó: b*F2= C;

Zipf 2. törvénye: egy kellően hosszú szövegben a szó relatív gyakorisága (f) és abszolút gyakorisága (F) is fordítottan arányos rangjával (r): r*f= C’, r*F= K;

Mandelbrot: van összefüggés szavak hosszúsága és rangja között (fordítottan arányos), leggyakoribb szavak nagyon sokszor vannak, annál előrébb listában, annál rövidebb (ha történelem során gyakoribb lesz, akkor lerövidül), első 1000 szinte mindent lefed;;

- 6 -

Page 7: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

Nyelvi feldolgozás szintjei: nyelvészeti egységek: o morféma: nyelv legkisebb jelentéssel bíró elemei, nincs természetes határuk –

szóalaktan (pl: szótő);o szó: nincs definíciója, mindig más egységet tekintünk,

fonológiai (ameddig elér mgh-illeszkedés, pl: ház+am), lexikai (=lexéma, elválasztó jelig), morfológiai (pl: láttam volna), szintaktikai szó (pl: szép+ség+e+im, be kellett volna mennie-

bemennie egy szó, mert rúg és berúg kül dolgot jelent);o szószerkezet, frázis: lexémák, ill mondat alatti egységek, nincs term határuk;o mondat, megnyilvánulás: írásban egyszerűbb;o szöveg: mondatok sora, összefüggések túlmutatnak mondatnyelvtanokon;;

o Geiss: kommunikációban cél, hogy egyértelműen mondjuk dolgokat (problémák kikerülése);

o type: elvileg van ott (pl: szótő), szimbolikus egységek – fonológia;o token: string (ragozott), jelek száma – fonetika;

(pl: kutya, kutyát – statisztikánál ua legyen);;

o modellezési probléma: minél teljesebben modellezni adott természetes nyelv nyelvtanát, leghatékonyabban lehetővé tenni a nyelvleírás szgépes megvalósítását (nyelvi elemző programnak min tár- és időigénnyel kell működnie);;

nyelvészet területei, szintjei: o pragmatika (nyelv használata), o szemantika (jelentéstan- jelentés), o szintaxis (mondattan- mondatok szerkezete, szavak), o morfológia (alaktan- szóalakok szerkezete, morfémák), o fonológia (hangtani felépítés törvényei, előfordulás és váltakozás, fonémák

szerepe és kapcsolatai), fonetika(hangtan- beszédhangok képzése, fizikai tul);;

- 7 -

Page 8: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

Dokumentumformátumok:o TXT: sima szöveges, tömör, esetleges szerkezet, hatékony feldolgozó

eszközök;o PS(= Post Script), PDF(= Portable Document Format): cél: szép, gyors

nyomtatás, nem módosítható, megjelenést alacsony szinten írja le;o DOC, RTF: cél: szép megjelenés, könnyen módosítható (WYSIWYG),

elsikkad szerkezet;o LaTeX: cél: szép megjelenés, szöveges formátum, tartalom között kódolva a

szerkezet és forma, dokumentumsablonok (újat nehéz létrehozni), PS,PDF lesz belőle;;

Jelölő nyelvek: története:

o 60-as évek: elválasztani dokumentum tartalmát és szerkezetét a megjelenéstől,o 1969: GML(= Generalized Markup Language, Goldfarb,Mosher,Lorie),o 1986: SGML(= Standard GML, ISO szabvány lett),o 1989: HTML(= Hypertext ML, egy SGML alkalmazás),o 1998: XML(= eXtensible ML);o kódolás(= markup): szöveg egy interpretációjának reprezentálására használt

módszer – címkézés (minden, ami nem tartalom);o jelölő nyelv(= markup language): szöveg kódolására használt jelölési

szabályok összessége;o címke(= tag, element): adott szövegrész megjelölésére szolgáló eszköz (nyitó

és záró), szigorúan elkülönül szövegtől, pl: \emph, <i>;o proceduális markup: mit kell vele csinálni, pl: <b> Kovács </b>;o deskriptív markup: mit jelent, nem foglalkozunk azzal, hogyan jelenítjük meg,

pl: <author> Kovács </author>;o strukturáltság: címkék egymásba ágyazhatók (doksi struktúrája), de nem

fedhetik át egymást, címkék egymáshoz való viszonya fa-struktúrát definiál;;

metanyelv: olyan szabályrendszer, mely jelölő nyelvek ált szabályszerűségeit definiálja (hogyan kell megadni címkekészletet, egymásba ágyazhatósági szabályokat, azaz megengedett struktúrát, pl: tag-ek kacsacsőrök között, mindig le kell zárni ’/’ jellel), pl: SGML, XML;

konkrét jelölő nyelv: HTML, XHTML; DTD(= Document Type Declaration): jelölő nyelvet ad meg, ezen nyelven kódolt

dok tartoznak egy doktípusba; Követelmények: rugalmas, bővíthető, alkalmazások támogatják, egyszerűen

használható, könnyen elemezhető, feldolgozható, kereshető, ember által olvasható, világos szerkezetű;

HTML: konkrét jelölő nyelv, címkekészlete előre definiált (pl: <body>, <p>), cél: webes megjelenítés (inkább proceduális), egyszerű, sok eszköz, hivatkozásokat jól kezel, de rosszul kereshető, mert hiányzik szerkezet;

XML: SGML-hez képest kötöttebb, könnyen elemezhető (általános elemzők készíthetőek), tartalom és szerkezet;

- 8 -

Page 9: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o címke: mindig van lezárás, beágyazás lehet, átfedés nem (így környfglen- Chomsky-2, nagyságrendileg gyorsabb feldolgozás, mint átfedéssel: környezetfüggő, Chomsky-1), üres: <br/>;

o attribútum: értéke idézőjel között, pl: <s id=”1”> ez </s>;o prológ: fájl elején, egyetlen gyökérelem <?xml version=”1.0’ encoding=”ISO-

8859-2”?> <!DOCTYPE gyökérelem SYSTEM „tutorial.dtd”>;o <!ELEMENT név (tartalom modell)>o tartalom modell: (#PCDATA) v EMPTY /lehet attr, de szöveg nem/ v ANY,

op: +,*,?,| /1 v több, 0,1,…, 0 v 1, vagy/;o <!ATTLIST címke név típus default>o típus: CDATA, NMTOKEN, ID, default: #REQUIRED /kötelező/, #IMPLIED

/opcionális/, adott érték;o spec: ’<’ helyett &lt; ’&’ helyett &amp; ’>’ helyett &gt; ’”’ helyett &quot; ’’’

helyett &apos;;o <!-- megjegyzés -->o pl: <!DOCTYPE szotar [ <!ELEMENT szotar(szocikk+)> <!ATTLIST szocik

kid ID #REQUIRED>, <ELEMENT szocikk (cimszo*, tartalom*)> Í!ELEMENT cimszo (#PCDATA)>];

o jól formázott: megfelel szabványban rögzített összes szintaktikai szabálynak, de nem feltétlenül felel meg dok típus deklarációjának;

o érvényes: jól formázott és megfelel a dok típusú deklarációban meghatározott strukturális követelményeknek;

o célhalmaz: feladat elemei, eredményhalmaz: eljárás eredménye;o precision(= pontosság): |metszet| / |eredmény|, találatokból hány volt

eredetileg jó;o recall(= fedés): |metszet| / |cél|, eredetileg jók közül hányat talált meg;;

CSS(= Cascading Style Sheet): formatting, megadja, hogy egyes elemek hogyan nézzenek ki, elemek öröklik tul-t szülőtől;o szabály: szelektor {tul: érték; tul: érték}, pl: body {color: black}, p{font-

family: „sans serif”};o fglen elemek: h1, h2; beágyazás: ul li, ol li; elemen belül: <div

class=”address”>;o tul: font-size: meduim|larger|15px|70%, font-style: italic, font-weight: bold,

text-decoration: underline, text-trasform: uppervase, color: #ff0000, background-color: #ffffff, text-align: left|center|justify, border: medium red, margin;

o HTML-re is alkalmazható, XML-hez kapcsolva: <?xml-stylesheet type=”text/css” href=”vers.css”?>;;

XPATH: formalizmus, mellyel XML fa részeire hivatkozunk (olyan mint fájlrendszerben);o csomóponttípusok: elem, szöveg, attribútum;o lépés ált alakja: axis::elem[feltétel]o kezdés: ’/’ – abszolút, különben aktuális csomóponthoz viszonyítva;o axis: child:: (elhagyható, pl: /child::vers /vers)/, self::, (.) parent:: (..),

descendant::, descendant-or-self:: (/), ancestor::, attrbute:: (@);

- 9 -

Page 10: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o elem: konkrét v ’*’;o feltétel: [1]..első, [last()]..utolsó, [@id]..van id attribútuma;o fv: name(), count(), aritmetika, stringfeldolgozás, ’|’..kifejezések

összekapcsolása;;

XSLT(= eXtensible Stylesheet Language Transformations): transformation, XPATH-t használja, template-ekből áll, XML-hez kapcsolt érvényes dokumentum: <?xml-sytlesheet type=”text/xsl” href=”vers.xsl”?>;o gyökérelem: <xsl:template match=”elem”>o átalakítás: bemenet (XML) – kimenet (bármi, pl: HTML, txt);o működése: gyökérelemtől végig fájlon, ha van akt elemhez template, akkor

végrehajtja (pl: kiírás: <xsl:value-of select=”a/@id”>, feldolgozás: <xsl:apply-templates select=”.”/>; ha nincs megfelelő template, akkor gyerekcsomópontokat dolgozza fel; ha van, akkor végrehajtja (ekkor gyerekbe nem megy bele);

o default feldolgozás: ha szöveg, akkor kiírja, egyébként semmi;o match, select: XPath kifejezéssel hivatkozunk dok egy részére, pl: match=*

(mindenhova vonatkozik, de nem csinál semmit);o elemek: szöveg kiírása: <xsl:text>, új csomópont: <xsl:element|attribure>,

vezérlés: <xsl:for-each|if|choose>, rendezés: <xsl:sort>, másolás: <xsl:copy-of>, sorszám: <xsl:number>, változó: <xsl:variable>, paraméter: <xsl:param#, output mód (pl: html): <xsl:output>;;;

Elemzés és feldolgozás:

SAX(= Simple API for XML): o az XML sima szöveg, végigolvassuk és közben feldolgozzuk; o elemzés: hol tartunk éppen; o sequential access~ pergamentekercs, csak akt elem érhető el közvetlenül (csak

egy részét látjuk), jó, ha dok csak kis része kell;o esemény-stream: egyszer végigolvassa, nem tárolja;o események: nyitó,záró címke, karakteres adat;o események kezelése: egyedileg megírt, automatikusan hívódik, callback

metódus, push típusú feldolgozás;o előny: kicsi memóriaigény (konstans), nagy dok feldolgozására is jó, gyors;o hátrány: bonyolult struktúra kezelése nehéz;o felhasználás: szövegese kimenetet könnyű elállítani, XML-t nehezebb;;

DOM(= Document Object Model): o az XML fa-struktúra, felépítjük fát memóriában, azt vizsgájuk és

feldolgozzuk; o elemzés: fa felépítése; o random access~ könyv, teljes dokumentum rendelkezésre áll, tetsz elem

elérhető, de nagy memóriaigény;o adatszerkezet: csomópontokból álló fa-struktúrában tárolódik;pull típusú

feldolgozás;o előny: bonyolult struktúrák kezelése egyszerű;

- 10 -

Page 11: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o hátrány: nagy memóriaigény (O(csomópontok száma, illd ok mérete)), csak kis dok kezelhető, lassú;

o felhasználás: fa-struktúra tetsz módosítható, egyszerűen kiírható XML-be;;;

- 11 -

Page 12: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

2. Formális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek minőségének vizsgálata: pontosság és lefedettség, túl- és alulgenerálás. Zárt és nyílt lexikonok.

gépi leírás dualitásai: o szinkron: fontos, ami most van (ami előtte, az nem számít) – egy ember

pillanatnyi szókincse;o diakron: múltba tekintő, időben követi változást – egy kor szavai;o kompetencia: nyelvleíró szabályrendszer, azt kell leírni, amit az ember tud, pl:

rekurzió (elvileg végtelen), bármilyen hosszú mondat előállítható;o performancia: egyszercsak elfogy a levegő (minket érdekel, de nyelvészeket

nem), nem lehet jól érteni (pl: önbeágyazás: A kutya, amelyiket a barátom, akinek a macskája megdöglött, elvitt sétálni, ugat.);

o alulgenerálás: program ajánlja fel (kevés szóval is érthető, de legyen jó);o túlgenerálás: program felismerje (minden szó, amint felhasználó beír, az jó);o pontosság: keresés eredménye (olyat ne találjon, ami nem kell feltétlenül);o fedés: azok, amiket nem állított elő, pedig kellett volna, pl: keresés eredménye

(mit kellett volna megtalálni) – ezt sokszor nem tudjuk!;o véges sok véges szabály: én hozom létre, ha jó sok van belőle, akkor elég;o végtelen sok lehetséges megnyilatkozás: pl: rekurzió (tetsz sok, de 2-nél többet

nem érdemes);o zárt grammatikai osztályok: mindegy milyen lexikális leírás, formális nyelvek;o nyílt gr osztályok: valóságban nincs zárt, pl: tulnevek (bármit lehet mondani-

többiek segítenek beépíteni);;

morfológiai tipológia: o izoláló: külön mondja egymás után (nincsenek ragok), pozíció nem mindegy,

nincs szóalaktan, pl: kínai, lassan angol is;o flektáló: vannak toldalékok, de nem mond el sokat róla, tőváltozások, sok

szinkretizmus, túlterhelt szóalakok (pl: „-en”), pl: német, szláv, picit angol (sing-sang-song);

o agglutináló: szétdarabolható, toldaléksorok, igeragozás (tárgyas, alanyi)- flektáló tul, pl: török;

o inkorporáló nyelv: szó és mondat között nincs term határ (pl: igébe berakja fn-t), pl: csukcs, aleut;

o sémi: nem beágyaz, hanem szavak msh váza van meg, mgh változik;o konkatenatív morfológia: egymás után fűzhető;o nem-konkatenatív morfológia;;

alapfogalmak: o morf: tő, toldalék, pl: bagoly, -hoz, -ért;o allomorf: jelentést nem különbözteti meg, pl: bagoly/bagly-, ló/lov-, -nak/-

nek, de: darvak/daruk nem allomorf;o morféma: absztrakt alak, ami egyszerre mindkét allomorfra bomlik, pl: bagOly

(O..metabetű), lOv, -nAk;o szuppletív alakok: egymás rokonai, a kivételek, pl: go/went, gut/besser,

volt/van/lesz;o részlegesen szuppletív alakok: pl: France/French/Franco;;

- 12 -

Page 13: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

művelettípusok: o inflexió(= ragozás): jel (magyar képződmény), pl: house+s, ház+ak;o deriváció(= képzés): képző, pl: dis+establish+ment, pázmány+os+od+ó;o morfológiai osztályok: a tövek viselkedési osztályai inflexióik szerint, cél:

szintaktikai szerep belepasszoljon mondatba;o lexikális osztályok: nemtől függően más ragok, probléma: egy szónak egyik

nyelven más neme, mint másik nyelven;o igeragozás(= konjugáció): itt is inflexió;o névszóragozás(= deklináció): itt is inflexió;o paradigma: morfológiai osztályok rendszere, azaz toldalékok egy adott

tőtípushoz kapcsolódó rendszere (minden ugyanúgy toldalékolódik, mindegy mit jelentett), általában ragozási paradigma van (képzési kevésbé);;

jelölés: o szám; o személy (pl: látunk= látom+k – tömbösödő toldalék);o eset: általában nem jelölik, de magyar igen;o nem;o idő: múlt (rég, közel,elbeszélő, összetett), jelen, jövő (pl: gondoland), pl:

magyar szegény időrendszer;o mód: kij, felsz, felt, óhajtó, kötő (pl: el kell, hogy menjek);o hasonlítás: alap, közép, felső, túlzó;o igenem: cselekvő, műveltető, szenvedő (pl: el van utazva), visszaható;o aspektus: folyamatos cselekvő(= megszakítható, pl: keres, csinál), folyamatos

nem-cselekvő(= nem megszakítható, pl: virágzik, van neki), befejezett (pl: megindul, kitalál);

o igei aspektus(= időviszony): meghatározza mondataspektust, pl: óvodás kora óta tud angolul – hetente háromszor tud angolul;

o igenevesítés: más nyelveknél önálló nevek, morfológiailag leválasztható, inflexiónak vehető (pl: fn-i, mn-i, hat-i, igei igenevek);;

jelölés módjai: o affixum(= toldalék): általában;o szuffixum(= végződés): kimondottan a végén;o infixum: pl: ház+a+i+m;o cirkumfixum: pl: leg+nagy+obb (nagy érdekes toldalékolása: nagy+ok, de

magas+ak, oks+ak);o reduplikáció: szótag megduplázódik, pl: tagalog nyelvben: sulat/susulat

(ír/írni fog);o klitikum: proklitikum (pl: a, dr), euklitikum (bármihez hozzárakható, pl: okos-

e);o összetételek: fúgaelem is lehet (pl: ’s’), pl:

Leben+s+versicherung+s+gesellschaft, de nem mindent jó egybe írni (pl: A magyar emberevés közben nem beszél.);

o inkorporáció: poliszintetikus nyelveknél, pl: csukcs (man+naki+ure+qepl+uwicwen+mak = Pl-1-Imp+éjjel+hosszú+ladba+játszik+Pl-1 = Labdázzuk éjjel jó hosszú ideig!);;

- 13 -

Page 14: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

problémás esetek: o inflexió: pl: tooth/teeth, criteria, indices;o deriváció: pl: járda, óvoda;o összetétel: pl: blueberry, strawberry, raspberry, esernyő;o jelentés: egy csésze tea – teaszűrő;o ortográfia(= zárójelezési paradoxon): ((magyar nyelv)ű), ((barokk fuvol(ista))

– (első((fuvol)ista)), ((haza(ad))ás) – (szabad((rúg)ás));o furcsaságok: morfológiai idiómák, pl: man-of-war, ládafia;

morfonológia: morfológia és fonológia határán, hangtanilag befolyásol;o hangsúlyváltás: magyarban nincs nagyon (pl: hát – hangsúlyból lehet

megállapítani, mit jelent), pl: contrást/cóntrast, impórt/import;o hosszváltozás: pl: kutya/kutyá-;o hangmagasság-változás: pl: chicewa;o ablaut: pl: k-t-b – katab/kattab/aktab/ktatab;o mutáció: flektáló nyelvek tipikus formája, pl: sing/sang/song;o hasonulás: ortográfiában néha jelölve, néha nem, pl: higgy/hagyj;o konverzió: fagy, nyom;o zérótoldalék: ua helyen ua toldalék kétféleképpen, pl: fut (nem futik)/játszik, a

kutya+0 gazdája (’ja’-ból kéne kitalálni) – 0 és semmit megkülönböztetése nehéz feladat;;

morfoszintaxis: szintaktikai szintű morfológiai funkciók;o egyeztetés: Nom, Dat (magyarnál igén látszik);o vonzatkeret-változás: lexikonban jó, de mondatban szintaktikailag nem, pl:

Victor believes Frank. Victor believes Frank to be a liar. Victor disbelieves Frank. *Victor disbelieves Frank to be a liar.

o passzivizáció: pl: Valaki(subj) kipróbálta az autót(obj). A valaki által kipróbált autó(subj);

o ágenitívusz: alanyi formában van, 0 toldalékkal, pl: Az apától megdicsért gyerek.

o ergatívusz: furcsa, tárgyas ige alanya alanyi ragokkal, pl: kaukázusi, baszk, ausztrál, Két sör rendel.;;

morfológiai elméletek: strukturalizmus- Hockett, 1958 (ősi, statikus, lexikális, görög-latin módszerrel szemben) előállítós módszer:

o word-and-paradigm: ősi görög-latin módszer;o item-and-arrangement: puszta elrendezés szabályok által (folyamatban

levezethető);o item-and-process: felszíni és mögöttes alakok (lépésenként);o generatív és poszt-generatív elméletek: csak áttételesen hatnak fejlődésre, pl:

Chomsky, Halle, Aronoff, Kiparsky ,Zwicky, McCarthy, Lieber, Anderson, Marantz, Baker, Dressler;

o forradalmasító elméletek: Kaplan and Kay (1981), Koskenniemi (1983);;;

- 14 -

Page 15: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

3. Véges állapotú automata (FSA), véges fordító (FST). A természetes nyelvek morfológiai jelenségei. A kétszintes morfológia kialakulása. A kétszintes morfológia szabályai.

morfológiai elemző: program, ami szóalakot elemi morfémáira bontja, meghatározza morfémák lexikális alakját és morfo-szintaktikai tulajdonságait (akár más nyelvtani tul-t is), pl: walk/walks/walking/walker/walkable;

szóábrázolás:

o angol inflexiós morfológia formálisan: q0- reg-noun- plural v q0- irreg-pl-nourn ill irreg-sg-noun (pl: fox+s, mice, mouse);

o betűfa: szavak ábrázolása állapotokkal, össze lehet vonni;o átmenetgráfos szótárábrázolás: de la Briandais (1959) ötlete- állapot-

összevonás, pl: alma, alom, apa, apad;o trie(= szófa): igaz-hamis ágak, szavak rákövetkező kar-vel címkézett

élsorozat, szót megtaláljuk, ha végigjárjuk a fát karakterenként;o módosított szófa: levelek tömörítettebb ábrázolása, mivel véges sok elem van

(pl: első 3 betű megvan, akkor végét kitalálja, pl: alm- alma), akkor éri meg, ha szóvégek jelentősen különböznek;

o további módosítások: előtagok elkülönítése (pl: igekötők, pre-, anti-), tipikus, ill ritka betűpárok egyedi kódolása; oka: angolban 262=676 indító betűpárból csak 309 létezik (ebből 88 alig néhány szó elején);

o Kay-féle: Martin Kay (1977), tömörítés numerikus prefixekkel (ne írjuk ki kar-t, hanem azt, hogy hányban hasonlít előzőhöz), akkor éri meg, ha szókezdetek hasonlóak, pl: alma – 0, alom – 2, anya – 1, anyag – 4, így szótár: alma, 2om, 1nya, 4g;;

elemzés alapfogalmai: o szókészlet, szótárábrázolás, keresési lépések, túlgenerálás, zártság;o nyelv: füzérek(=string) halmaza;o reguláris nyelv: füzérek olyan halmaza, mely konkatenációval, iterációval és

egyszerű halmazműveletekkel hozható létre, pl: {„a”};o reguláris kifejezés: reg nyelvet leíró kompakt forma, pl: a; o véges állapotú automata: absztrakt gép, mely reg nyelvet fogad el, output-

van-e ilyen (bool), pl: OO;o transzducer: ez is absztrakt gép, output- mi volt (van másik szalagja), pl:

almafa: alma[FN]+fa, almák: alma[FN]+k[PL] (átmenetek: a:a- l:l- m:m- á:a- ε:[FN]- ε:+- k:k- ε:[PL]), almával: alma[FN]+VAl[IN] (átmenetek: … v:V- a:A- l:l- ε:[IN], ez absztrakt A, mivel lehet val/vel);

- 15 -

Page 16: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o kapcsolat: reg kif jelöli nyelvet, reg kif átírható DVA-ba, DVA kódolja nyelvet;;

o o Generatív nyelvtan: Chomsky

(1957), formális nyelveket jól kezeli- természetes nyelvet modellezni reguláris nyelvvel (bizonyos szintaktikai jelenségekre nem elég- kéne környezetfüggő, de azért morfológiai leírásra alkalmas), pl: kutya+t= kutyát, perec+vAl= pereccel;

o sorba rendezett újraíró szabályok, pl: Sabc alkalmazásakor S eltűnik;o szabályokat egymás után alkalmazzuk, sorrend számít;o szabályalkalmazás után elemzés új szintje következik;o elvileg mindkét irányba működik (de igazából csak lexicalsurface);o lexical string- Rule 1- Rule 2- …- Rule n- surface(= felszíni) string;

ez lenne jó, ha véges állapotú átmenetháló: lexical- single rule FST(= Finite State Transducer)- surface;

o problémák rákövetkezéssel: labiális(= nyelv?) realizáció: Nm, dentális realizáció: Nn, m után: pm, ez szabályokkal: Nm / _p; else, n. pm / m_; pl: kaNpat kammat, de kammat kammat, kaNpat, kampat aszimmetrikus;

o párhuzamosság: Kimmo Koskenniemi (1983), generatív szabályokat egy szabállyá alakító algoritmus (ha minden szabályt be tudok kényszeríteni reg. kif-be, így nincs köztes szint – minden automata eldönti, hogy lehet-e) kétszintes morfológia;

o szalagon csak 1x megyünk végig, mindig szalagpárokat nézzük (ha mindkét szabály egyezik, akkor mehetünk tovább);

o reguláris(= véges állapotú) eszköz morfológia leírására;o párhuzamosan futnak, így automaták metszetét számolja ki;o szabályok sorrendje nem számít;o csak 1 szabály, összesen 2 szint (lexical – surface = mögöttes – felszíni);o kétirányú szabályok;o lex- Rule 1,Rule 2,…,Rule n- surf; o példák:

1.) y:i <=> _0:e; spy0+s spie0s; 2.) X:X_, +:0_, e:0 v:v__+:0; move+edmov00ed; 3.) ált szabály: k:0, specifikus: k:v – nem diszjunktak- konfliktus!;;

- 16 -

Page 17: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

Kétszintes szabályok: o L:S=>E csak akkor, de nem mindig (L csak E környezetben realizálódik S-

ként, S-ként realizált L nem megengedett E környezetben, ha L:S, akkor annak E körny-ben kell lennie, de attól még L:S is engedélyezett lehet E-ben);

o L:S<=E mindig, de nem csak akkor (L mindig S-ként realizálódik E-ben, S-ként realizált L nem megengedett E-ben, ha L illeszkedik E környezetbe, akkor L:S, persze L:S előfordulhat máshol is);

o L:S<=>E akkor és csak akkor (mindkét irány fennáll, L:S kötelező E-ben, L:S sehol máshol nem fordulhat elő);

o L:S/<=E soha (L soha nem realizálódik S-ként E környezetben, ha L E-ben áll, akkor L:S fenn kell álljon);

o pl: t:c=>i, t/c i/i @/@ --- 1:/2: 2/0 1/1 1/0; t:c<=_i, t/c t/t i/i @/@ --- 1:/2: 1/1 2/2 1/0 1/1; t:c<=>_i, t/c t/@ i/i @/@ --- 1:/2:/3. 3/3/0 2/2/0 1/0/1 1/1/0; t:c/<=_i:e, t/c i/e @/a --- 1:/2: 2/2 1/0 1/1;;

Kétszintes rendszer: o felhasználó környezetfüggő szabályokat ír, minden jelenségre egy szabály –

többi a rendszer dolga, kompozíció (összerakni kétszintes rendszer szótárábrázolással);

o abc megadható (pl: subset C..msh, subset V..mgh), lexikonok és folytatási osztályok (biz toldalék után mi jöhet még), metakarakterek, spec szimbólumok (minden, üres, akármi), szabályfordító és táblázatos forma;

o gazdaságossági kérdések: mit érdemes belerakni rendszerbe és mik kivételek (pl: mouse/mice) lookup vs elemzés;

o metszet és kompozíció lexikonokkal: source lexicon o R1&R2…Rn lexical transducer;

o technikai kérdések: preprocesszálás, technikai toldalékok (elemzés: lyj, lly jj, pl: bagoly+al);;

reguláris műveletek transzdúcerekkel: o minimális nyelvek (~[]..nem elfogadó, []..elfogadó, a..nemelfelf,

(a)..elfelf), iteráció(a*, a+), konkatenáció (a0b, a:0 b:a, a b:0), keresztszorzat (a .x. b, [ab] .x. c), kompozíció (a:b .o. b:c, a:b .o. b .o. b:c);;;

- 17 -

Page 18: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

4. Az unifikációs morfológiai modell: a jegyszerkezetek és az unifikálhatóság vizsgálata. Morfológiai művelettípusok. A magyar nyelv speciális morfológiai problémái.

alapfogalmak: o morf: tő, toldalék, pl: bagoly, -hoz, -ért;o allomorf: jelentést nem különbözteti meg, pl: bagoly/bagly-, ló/lov-, -nak/-

nek, de: darvak/daruk nem allomorf;o morféma: absztrakt alak, ami egyszerre mindkét allomorfra bomlik, pl: bagOly

(O..metabetű), lOv, -nAk;o szuppletív alakok: egymás rokonai, a kivételek, pl: go/went, gut/besser,

volt/van/lesz;o részlegesen szuppletív alakok: pl: France/French/Franco;;

művelettípusok: o inflexió(= ragozás): jel (magyar képződmény), pl: house+s, ház+ak;o deriváció(= képzés): képző, pl: dis+establish+ment, pázmány+os+od+ó;o morfológiai osztályok: a tövek viselkedési osztályai inflexióik szerint, cél:

szintaktikai szerep belepasszoljon mondatba;o lexikális osztályok: nemtől függően más ragok, probléma: egy szónak egyik

nyelven más neme, mint másik nyelven;o igeragozás(= konjugáció): itt is inflexió;o névszóragozás(= deklináció): itt is inflexió;o paradigma: morfológiai osztályok rendszere, azaz toldalékok egy adott

tőtípushoz kapcsolódó rendszere (minden ugyanúgy toldalékolódik, mindegy mit jelentett), általában ragozási paradigma van (képzési kevésbé);;

problémás esetek: o inflexió: pl: tooth/teeth, criteria, indices;o deriváció: pl: járda, óvoda;o összetétel: pl: blueberry, strawberry, raspberry, esernyő;o jelentés: egy csésze tea – teaszűrő;o ortográfia(= zárójelezési paradoxon): ((magyar nyelv)ű), ((barokk fuvol(ista))

– (első((fuvol)ista)), ((haza(ad))ás) – (szabad((rúg)ás));o furcsaságok: morfológiai idiómák, pl: man-of-war, ládafia;

Unifikáció: [kategória= NP (Nominal Phrase), egyeztetés= [szám= egyes]], [kategória= NP (Nominal Phrase), egyeztetés= [személy= 3.]] [kategória= NP (Nominal Phrase), egyeztetés= [szám= egyes, személy= 3.]]; ((if ciklusmentes gráf- DAG= Directed Acycled Graph));;

HUMOR (=High-speed Unification MORpfology): o jegy-érték párok, o unifikáció, o ld. Prolog (meg kell mondani, melyik argumentumot unifikálja, de nem

rögzített aritás, itt neve van az értékeknek), o unifikáció vs unifikálhatóság, o minden tul jegyként,

- 18 -

Page 19: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o folytatási osztályok, o nincs más „valós” művelet (csak unifikálhatóság-ellenőrzés);;

szóalaktani alapséma: tő – ((relatív) tő / relatív toldalék) – nemterminális toldalék – (relatív tő / relatív toldalék) – nemterminális toldalék – (relatív tő / (relatív) toldalék) – terminális toldalék;;

folytatási osztályok: pl: névszói toldalékolás: FN- PL- ACC|DAT|INS v IGE- ÁS- ACC|DAT|INS;

magyar morfo-fonológia: o névszó (nsz/ige), o fn (fn/mn,szn), o szótári (alapalak/nem), o elöl (elölképzett/hátul), o kerek (ajakkerekítéses/nem), o PL (tsz/nem), o PLkötő (kötőhanggal/nem), o PERS (birt.szem.ragos/nem), o ACC (tárgyesete van/nincs), o ACCkötő (kötőhanggal/nem), o DAT (részes esete van/nincs), o INS:ß (eszközh. esete van/nincs), o ÁS (ás-és képzős/nem);;

pl: szó [] [+névszó +fn +szótári –elöl –kerek –PL…] (balra nincs üzenete); nak [+névszó –elöl +DAT] [] (jobbra nincs üzenete);;;

- 19 -

Page 20: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

5. A morfológiai elemzés legfontosabb alkalmazásai: helyesírás-ellenőrzés, elválasztás (ragozó) tezaurusz, nyelvhelyesség-ellenőrzés, tövesítés.

hibák és normák: o helyesírási normák, szabályok, gépi helyesírás ellenőrzés; o formai és jelentéstani szempontok gépi kezelése; o gép, mint nyelvhelyességi tanácsadó; o probléma: neheze értelmezhető elemzések;;

tipikus hibák: o karakter, o valódi helyesírási, o nyelvhelyességi, o tipográfiai hibák, o helyesírás-ellenőrzés szavak szintjén, o szó (spell check) és nyelvhelyesség (nagyobb string)-ellenőrzés viszonya, o nyelvi programrendszer hibái (pl: kör/kőr- kőrút, házit/házít, tanít/tanit);;

szavak szintjén javítható hibák: o betűhiba (elütés), o hibás egybeírás, o hibás kötőjel, o szóismétlés (pl: az az);

nem javítható: o hibás különírás, o központozási, o egyeztetési, o szórendhiba, o vonatkozó nm helytelen használata, o stílushiba (helytelen szóhasználat), o értelmes szóhiba (pl: rézékelő);;

szóellenőrzés moduljai: o alapszótár és morfológia, o ajánlómodul és adatbázisai, o időleges sajátszótárak, o kiegészítő szótárak, o kizáró szótárak, o ragozó sajátszótárak;;

Levenshtein-távolság: Hamming általánosítása (nem csak egyforma hosszúakra, nem csak betűcsere, hanem beszúrás és törlés);

Damerau-Levenshtein-távolság: Hamming másik ált (min beszúrás, törlés, csere segítségével kiszámított távolság 2 füzér között), elütések 80%-a korrigálható (de csak 1 elütés);;

szóellenőrzés menete: o morfológiai elemzés (van-e/nincs ilyen szó, pl: kérdésse), o ajánlás (törlés, pl: érdésse, kérdése, kérésse; helycsere, pl: ékrdésse, kérdéses;

nyelvspecifikus csere, pl: kérdéssé), o ellenőrzés morfológiai elemzéssel (pl: kérdése, kérdéses, kérdéssé);;

- 20 -

Page 21: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

nyelvhelyesség-ellenőrzés szóhatáron túl: o lehetséges-e mondatszintű (grammar chekcer?), o parciális elemzések, o hibanyelvtan vs nyelvtan, o hibaelemzések (hibák súlyozása), o hiba és nem-hiba határának elmosódása, o nyelvi v formai hibák szűrésének preferálása, o stílusellenőrzés (pl: A magyar ember evés közben nem beszél.);

mondatszinten felismerhető jelenségek: o névelőegyeztetés (pl: Az kutya ugat.), o vesszőhiány (pl: Nem látok vak vagyok., hogy előtt vessző), o algoritmikus/szemantikus/hibás szóösszetétel (pl: hat lábú/kecske béka/azután

a nő után), o hiányos szerkezetek (pl: Megy hasú ebédelni.), o téves szóhasználat (Egyenlőre nincs mit tenni.), o idegen szava szűrése (Elromlott a printer.), o terjengős kif (pl: büntetést eszközöl), o trágár szavak (pl: Le van sz*rva.), o szóközhiány/felesleg (pl: Nem ,én nem akarom.);;

automatikus szövegelválasztás: o automatikus és interaktív módszerek, o elválasztás alapszabályai, o morfológiai felülbírálás kérdése, o alternatív elválasztások kezelése (többértelműség, szabályok

engedékenysége), o tipográfiai szempontok (pl: Iván-t nem választjuk el), o különleges elválasztások helyes kezelése (hosszú kettős msh, msh-

háromszorozódás); szabályok:

o #VV – #VV (autó), #VC- #VC (alaki), o VV# – VV# (hazai), VV – V-V (ba-uxit), o VC1C2V – VC1-C2V (er-kély), o VCiCiV – VCi-CiV (vet-tem), o VCc1c2V – VC-c1c2V (mor-zsa), Vc1c2CV – Vc1c2-CV (asz-tal), o Vc1c1c2 – Vc1c2-c1c2V (ösz-sze); o probléma: leg-előre, legelő-re;

angol: Oxford vs Longman dictionary (hy-po-thesis vs py-poth-e-sis);; számítógépes szinonimaszótárak és tezauruszok:

o tezaurusz: szavak közötti kapcsolódást mutatja (1 él- szinonima), o tárolási és keresési problémák, o rokon értelműség definíciója,o automatikus csere problémái,o tő-visszaállítás, o többértelműség kezelése, o lexikai és szintaktikai szó különbségéből adódó nehézségek, o összetett szavak szinonimái,

- 21 -

Page 22: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o morfológiai generálás minta alapján; o probléma: szemetek- látószervetek, hulladékok; nemzetét- nemzet-

parasztság- parasztságát; o megoldás: forrásszó- fogalomkörök (jelentések)- szinonimák listája;;;

- 22 -

Page 23: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

6. A morfológiai elemzés többértelműsége. A szófaji egyértelműsítés statisztikai és szabály-alapú módszerei. Jelentés-egyértelműsítés. Felügyelt és nem-felügyelt módszerek.

lexikai többértelműségek kezelése: pl: One minute has 60 seconds. There is only minute difference between the pictures.;

strukturális többértelműségek kezelése: pl: Time flies like an arrow. (időlegyek olyanok.., időzíts legyeket);

többszavas kifejezések (terminusok) kezelése: pl: Flying planes can be dangerous (flying..röptetés);

idiómák kezelése: pl: The country has gone to the dogs.; PP kapcsolások kezelése: pl: The man saw the girl with the telescope.;;

felügyelt egyértelműsítés: o címkék és címkézett korpusz kiválasztása,o szótárkészítés címkézett korpusz használatával,o többértelműség kezelése: szógyakoriság, toldalékgyakoriság, címkesorozat-

valség,o tesztadatok címkézése szótári információ alapján,o egyértelműsítés statisztikai, hibrid és szabálya alapú módszerekkel,o az egyértelmű minőségének kiszámítása;o fajtái: statisztikai (ML, n-gram, Viterbi, HMM), szabályalapú, neurális hálós;

nem felügyelt egyértelműsítés: o címkézetlen korpusz kiválasztása,o szótárkészítés tanulóadatok használatával,o többértelműség kezelése: szógyakoriság, toldalékgyakoriság, címkesorozat-

valség,o tesztadatok címkézése bevezetett szótári információ alapján,o egyértelműsítés statisztikai, hibrid és szabálya alapú módszerekkel,o az egyértelmű minőségének kiszámítása;o fajtái: statisztikai (Baum-Welch), szabályalapú, neurális hálós;;

o Brill-tagger: szabályalapú egyértelműsítés, 1993; hibavezérelt transzformációs egyértelműsítő, mely minden szóhoz hozzárendel egy címkét és ezeket változtatja előre definiált szabályok futtatásával;

inicializáció: ismert szavak (leggyakoribb címkéjükkel indulnak), ismeretlen szavak (tulnév, ha nagybetűs; köznév, ha nem);

tanulófázis: minden alkalmazható szabályra iteratív kiszámoljuk hibaesélyt, szabály alkalmazása utáni hibák számából kivonjuk szabály alkalmazása előtti hibák számát- kiválasztjuk legjobb szabályt,hozzáadjuk szabályhalmazhoz és alkalmazzuk szövegre,addig ismételjük, amíg nincs szabály adott küszöb fölötti hibaértékkel;

szabályok: lexikális szabályok inicializációhoz: szó címke IF feltétel (pl: -tion szóvég-azonosítás),környezeti szabályok címkeválasztáshoz: címke1 címke2 IF feltétel (pl: előző/következő címke X);;

- 23 -

Page 24: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o szógyakoriság: legegyszerűbb valségi modell, adott szónak tanulóanyagban leggyakoribb címkéjét rendeli szóhoz;

o Viterbi: címkesorozat valségeire építő n-gram modell;o HMM (= Hidden Markov Model): kettő kombinációja;o Baum-welch: HMM ismeretlen paramétereinek becslésére, általánosított EM

algoritmus;;

környezetfüggő (= koreferenciális annotálás): NER: névkifejezések felismerése, pl: [LOC China] [PER John] [ORG Reuters]; jelentés-egyértelműsítés:

o feladat: The party that won the elections… The party yestersay celebrated her birthday…

o poliszémia-homonímia: pl: gép, nap, ár;o értékelés: pontosság/fedés, baseline (leggyakoribb jelentés%), felső korlát

(humán egyetértés);;

WSD módszerek: a gépi fordítás egyik legkritikusabb problémája, pl: chair = elnök, szék; azonos fordítású jelentések összevonhatóak (durvább felbontás, nagyobb pontosság), közeli rokonságban lévő nyelvek közötti fordításban sokszor átvihető;;

nem felügyelt: kézzel létrehozott szótár, WN-alapú klaszterezés; felügyelt: statisztikai (naiv Bayes neuronháló), példaalapú, döntésifa alapú;

o tanítása: tanítópéldák feldolgozása (szegmentálás, tokenizálás, szófaj-egyértelműsítés, lemmatizálás, ill kontextusból jegyvektorok képzése); tanulás a példákon (minden többértelmű szóhoz külön modell);;

kontextuális jegyek: lokális (= szintaktikai) jegyek:

o vizsgált szó aktuális alakja (kis/nagybetű, szám, eset), o funkciószavak és írásjelek 2+2-es ablakban(???), o POS-címkék 2+2-es ablakban, o tartalmas szavak 3+3-as ablakban, o kollokációk (olyan szókapcsolat, amelynek két vagy több szava általában

együtt fordul elő, pl: nap + fogyatkozás, nap + lopás), o bigramok (két szó csoportja), o explicit szintaktikai infók (pl: többértelmű szót tartalmazó N Pfeje);

globális (= tematikus) jegyek: tartalmas szavak a teljes kontextusban sorrendtől éstávolságtól fglenül;;;

- 24 -

Page 25: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

7. Felszíni és mélyszerkezeti esetek. Fontosabb fogalmi hálók. Fogalmi függőség, forgatókönyvek, szerepek. Ontológiák. A WordNet és relációi.

szintaxis: pl: Jane sold a book to Bill. (S (NP (NOUN Jane)) (VP (VERB sold)

(NP (DET a) (NOUN book))

(PP (PREP to) (NP (NOUN Bill)))))

jelentés: cél: olyan tul, ami nem szintaxis, de jelentésre vonatkozik;o sok mondat –egy jelentés: mondat más szórenddel mást jelent, de

sokféleképpen mondott mondat ua-t jelentheti, pl: Jane sold a book to Bill. A book was sold by Jane to Bill. A book was sold to Bill by Jane. (sell (agent Jane) (object book) (counter-agent Bill) (tense past));

o hasonló mondat – különböző jelentés: szó lexikai tul alapján meghatározni, pl: Mom baked for 3 hours. The pie baked for 3 hours. (pl: Mom- süt, cake- sül), (baked (agent Mom) (duration 3 hours)) (baked (object pie) (duration 3 hours));

szintaktikai szerepek és jelentés viszonya: agent – subject, object – direct object, counter-object – indirect object;

pl: mély esetek (agent, instrument, source, goal, time, duration); világismeretet tárolni, pl: Péter megvette Az ember tragédiáját. – vett könyvet?; A

szakállas nők- valóságban nincs; Chomsky: A színtelen zöld eszmék dühösen alszanak.)- szövegek nagy része

előfeltételezéseken alapszik, de meddig kell tudni előre dolgokat (pl: a vetítő- teremben ok, de utcán);

computational semantics: jelentéstani kutatás, 70-es évektől; világ-modell-elmélet: elméletek a modellek leírásai, modellek a világ közelítése;;

fogalmi hálók: statikus tudást leírja, lex+proceduális szemantika összemosódik, o hierarchiák (IS-A, HAS-A, PART-OF)- relációk- logikai összefüggések-

világismereti összefüggések- ezeket géppel megvalósítható eszközrendszer; o pl: bárány egy állat; ha szárnya van, repül- ellenpl: strucc; o kisujjam (élőlény v nem), kéz (has-a v part-of); o vki fut, vmi zöld- f(x)- logika egyként kezeli, pedig más;;

híres fogalmi hálók: o korai pszicholingvista irány (Quillian, Minsky, Charniak, Schank); o logikai (Hendrix); o szintetizáló (Sowa fogalmi gráfjai, IBM logikát és statikus leírást egyesíti); o információtechnológiai

Cyc: nem nyílt, egész világot leírni, kézzel szedték össze, drága; MindNet: Microsoft, Eucarta enciklopédia, gépi elemző alapján

generálva, profi elemző+tudásbázis; FrameNet: Fillmore: igékben van minden tudás, ezért amilyen jegy

kell igének, azt kezelik le, jól átvihető más nyelvekre; o későbbi pszicolingvista irány (statikus gráf nem elég jó, WordNet: Princeton

egyetem, világ közössége építi, EuroWordNet, eXtendedWordNet);;

- 25 -

Page 26: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

Logikák: o 1.rendű, o magasabb rendű (elbonyolítja mat apparátust, de közelebb világ

reprezentációjához), o modális (kül világképek), o intenzionális logika (egyes állítások egy világban, másikak mindenhol

érvényesek, pl: keres (ami nincs azt is lehet), talál (ami nincs azt nem lehet), Azt álmodtam, hogy esik az eső (nem igaz), Péter mondta, hogy esik (lehet igaz, de nem biztos)),

o Montague elmélete (rule-to-rule hipotézis, alap: jelentés kompozícionális elemekből+reprezentáció, jó gépi reprezentáció),

o elvi problémák;;

logikai szemantikai levezetés: NP- Det, Adj, N {sem(NP,X)= qtf(Det,X) sem(Adj,X) & sem(N,X)},a= Det{qtf(X,exist(X))}, fat= Adj{sem(X,fat(X))}, man= N{sem(X,male(X)&hum(X)},a fat man – exists(X) fat(X) & male(X) & hum(X);

formális szemantika: jól használható demonstrációra, embereknél szokványos dolgok egybevonva, nem részenként (pl: jaitok);

fogalmi függőség (= conceptual dependency): o igeosztályai: ATRANS (birtok vagy felügyelet absztrakt transzfere), PTRANS

(objektum fizikai transzfere), MTRANS (mentális fogalom transzfere), MBUILD (új információ létrehozása), PROPEL (egy tárgy fizikai erővel történő mozgatása), MOVE (egy állat testrészének mozgatása), IGNEST (egy állat valamit megeszik), EXPEL (egy állat kiad valamit), SPEAK (hang létrahozása), ATTEND (egy érzékszerv fókuszálása);

o állapotosztályai: Health (-10 to 10, pl: -10: dead, 3: sick), Fear (-10 to 0), Mental state (-10 to 10, pl: -7: depressed, -2: sad, 3: happy, 7: euphoric), Hunger (-10 to 10, pl: -8: starving, 5: full, 8: stuffed);

o pl: Mary took a book from John. ((actor Mary) (action MTRANS) (object book) (direction (to Mary)(from John)))

Schank: eseményábrázolás, pl: John<=>PTRANS- John ran. Johnheight(>average)- John is tall. dog(POSS-BY) John- John’s dog.

John ate ice cream. The plants grew. Bill shot bob. John ran yesterday.

forgatókönyvek: o pl: Jane was hungry. She decided to go to a restaurant. She ordered spaghetti

and a Pepsi. Thewaitress brought it quickly so when she left, she left her a large tip. Did Jane eat anything?

o tipikus eseménysor: étterem: entering- seating- ordering- serving- eating- paying- leaving;

o alapismeretek: Roles: patron (human, adult), waiter (human, adult, female), cook…; Header: planner- patron, goal- satisfy(hunger); Body: event chain;;

- 26 -

Page 27: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o tematikus szerepek: action, process, transfer, spatial, temporal, ambient;; Ontológia: célja: világismeret és fogalmak kapcsolatainak leírása, hogy logikai

következtetéseket is meg lehessen fogalmazni; o felsőszintű kategóriák: rendkívül absztrakt

fogalmakkal dolgozik (fizikai, absztrakt, tárgy, séma, leírás, struktúra, helyzet, ok, cél),

o alsó szintű (buszvezető, néző);; SUMO (= Suggested Upper Merged Ontology):

o 2000 óta, ált magas szintű ontológia(1000 fogalom,4000 axióma,750 szabály); o specifikus magas szintű ontológiák: pl: pénzügyi tranzakciók; 20000 fogalom,

60000 axióma, o ebből alacsonyabb ontológiákra leképezés, IEEE tulajdon, de public domain;;

WordNet: célja: szavak szinonimahalmazokba (synset) sorolása és ezek közötti viszony rögzítése; itt is vannak igékhez tematikus szerepek;

koncepciógráf: célja: mondatok szemantikai tartalmának formális rögzítése ember által is olvasható módon; csomópont(synset), él(spec v ált, tagja, része);

WordNet tematikus szerepei: ágens (akaratlagos cselekvő), experiens (átél), patiens (átél+megváltozik), recipiens, force, theme, result, location, content, instrument, beneficiary, source, goal;

pl: The waiter spilled the soup. (agent), John has a headache. (experiencer), The wind blows. (force), John broke the ice. (theme), I drove to Portland (goal).

WordNet relációk: o fn: hyperym (tágabb fogalom felé, pl: fürdőszoba-> szoba), o hyponym (altípus felé), o member-of = holonym (tagtól csop felé, pl: fa-> erdő)), o has-member = meronym (csoptól tag felé, pl: faculty-> prof), o part-of = holonym (résztől egész felé, pl: kád-> fürdőszoba), o has-part = meronym (egésztől rész felé), o has instance (fogalomtól konkrét példány felé, pl: főváros-> Bp),o instance (konkrét példánytól fogalom felé), o antonym (ellentét), o ige: hypernym (ált felé, pl: megy-> mozog), o troponym (spec felé, pl: mozog-> fut-rohan-ballag), o entailment (következtetés, pl: horkol-> alszik), o antonym;;

EuroWordNet: fogalmakat kapcsolják össze, szinkronizáció más nyelvekkel; pl: holland BC (= Base Concept)- ILI (= InterLingual Index)- spanyol BC;

HuWN (=magyar WordNet): o BalkaNet erőforrásait használja, o kiterjesztéses modell (angol fordítások, relációk átvétele), o alapos kézi ellenőrzés, o félautomata módszerek (korábban kifejlesztett fordító heurisztikák, fn-re 70%-

os pontosság), o meglévő erőforrások integrációja (Magyar Értelmező Kéziszótár

meghatározásai);;;

- 27 -

Page 28: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

8. A természetes nyelvek nyelvtanai. A természetes nyelvekben előforduló speciális szerkezetek. Korpuszok alkalmazása a szintaxis kutatásában. Annotált korpuszok, treebank. Párhuzamos korpuszok.

Korpusz: ténylegesen előforduló írott v lejegyzett beszélt nyelvi adatok gyűjteménye; a szöveget válogatják, rendezik; nem feltétlenül egész szövegek; tartalmazza bibliográfiai adatokat, szerkezeti egységeket;

Treebank: szerkezetileg elemzett szövegkorpusz; morfológiailag elemzett, olykor egyértelműsített, ált szintaktilailag is elemzett;;

korpuszelemzés szintjei: o egyszerű szöveg,o különböző annotációk mindenféle hipotézisek teszteléséhez,o szófaji egyértelműsítés (POS-tagging: pl: Brown corpus, BNC, Szeged),o névkifejezések (NER: nevek, idézetek),o szintaktikai elemzés (treebank, pl: Lancaster(IBM), Penn Treebank, Szeged2),o jelentés-egyértelműsítés (pl: SEMCOR),o dialógus-elemzés (pl: MAPTASK, TRAINS),o konferencia-kezelés (pl: MUC, Lancaster, GNOME);

korpusz méretének mérőszámai: o hány token van benne = mekkora a korpusz (pl: token: $22,5, George

W.Bush/George Bush/Bush),o korpusznormalizálás (pl: The/the/THE, Calif./California, MTA/Magyar

Tudományos Akadémia),o hány type van benne = hány különböző szó van benne,o type-ok gyakorisága;;

Brown Corpus: o Standard American English,o 1. modern korpusz (1961: Francis and Kucera),o 500 szöveg (darabja 2000 szó)- 1 millió token,o források: amerikai könyvek, újságok, folyóiratok,o témakörök: 15 (sci-fi, regény, sajtó, tudományos művek),o POS-taggelt: 87 osztály, címkézett, kiegyensúlyozott;o CLAWS (= Constituent Likelihood Automatic Word-tagging System):

* not, ABL pre-qualifier (quite, rather, such), ABN pre-quantifier (all, half), AT singular article (a, an, every), ATI article (the, no), BE (be), BED (were), BEDZ (was), BEZ (is), CD cardinal number (two, three, hundred), CD-CD hyphenatad cardinal number (1985-1995), DO (do) DOD (did) HV (have)

- 28 -

Page 29: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

IN perposition (after, by, of, for, since), JJ general adjective (happy), JJT morphologically superlative adjective (biggest), NN singular common noun (boy, pencil), NN$ genitive singular common noun (boy’s), RB adverb (else, about, afterwards), TO infinitival TO, VB base form of lexical verb, VBD past tense of lexical werb, HL headline, TL title, NC emphasized; pl: wanna/VB+TO (=want to), television/NN has/HVZ yet/RB to/TO

work/VB out/RP a/AT;;

o többértelműség: pl: The man still saw her. The/AT, man/NN, man/VB, still/NN, still/VB, still/RB, her/PPO, her/PP$;

o egyértelműsítés rákövetkezés-gyakorisággal: p(AT)= 1,000, P(AT-NN)= 0,186, p(AT-VB)= 0,001, p(NN-NN)= 0,040, p(NN-VB)= 0,009, p(NN-RB)= 0,040,p(AT-NN-NN)= p(AT-NN)*p(NN-NN)= 0,0744,p(AT-NN-VB)= p(AT-NN)*p(NN-VB)= 0,0167;

o többértelműségi statisztika: egyértelmű (1 tag): 35340, 2 tag: 4100, 3 tag: 264, 4 tag: 61;;

Susanne: 120.000 token, Brown szintaktikailag elemzett részhalmaza; Lancaster: 1M, UK, pl: [N The_AT world_NN1 N][V owes_VVZ [N a_AT1

cosiderable_JJ debt_NN1[P of_IO [N grantitude_NN1 N]P]N]V]; Penn Treebank: 2M, szintaktikailag elemzett, 1. szintaktikailag elemzett korpusz,

alapjai: Brown Corpus, Wall Street Journal Corpus, ATIS coprus;o ADJP adjective phrase,o ADVP adverb phrase,o FRAG fragment,o NP noun phrase,o PP prepositional phrase,o VP verb phrase,o X unknown, uncertain,o CD cardinal number,o DT determiner,o FW foreign word,o JJ adjective,o NN noun singular,o NNS noun plural,o PRP personal pronoun,o RB adverb,o SYM symbol,o TO to,o VB verb, base form,o VBD verb, past tense;

- 29 -

Page 30: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o pl: [S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] [V has_VHZ arrived_VVN safely_RR V] ._. S];

BNC (= British National Corpus): 100M, szófajilag egyértelműsített; Szeged: 1,2M, kiegyensúlyozott, morfológiailag elemzett;

o 1. magyar annotált korpusz; o források: szépirodalom (pl: RejtőJenő, Szerd Antal, George Orwell), 14-16

évesek fogalmazásai, újságcikkek(Népszabadság, Népszava, Magyar Hírlap, HVG), számítógépes szövegek (Windows 2000, Computer World magazin), jogi szövegek (gazdasági társaságok, szerzői jogokról szóló törvények);

o morfológiailag egyértelműsített, Brill: 96%, HMM: 96%; Szeged Koprusz 2.0: szintaktikailag is elemzett; szabályok egy részét a konzorcium

nyelvész szakértői készítették (kézzel definiált), ezeket az annotált treebankből szgépes taulási módszerekkel kinyert szabályokkal egészítették ki;

o ADVP határozói szerkezetek,o ADJP jelzős szerkezetek,o PP névutós szerkezetek,o PA,INF igeneves szerkezetek,o tagadószók, igekötők, igék és kötőszavak;

Magyar Nemzeti Szövegtár: 187,6M, morfológiailag elemzett; 1998 óta, MTA, rengeteg sajtó (DIA, MEK, index.hu forumok, joganyagok), szolvákiai, kárpátaljai, erdélyi, vajdasági;;

ENGCG (= Constraint Grammar Parser for English): a parsing scheme;o @+FAUXV finite auxiliary verb,o @-FAUXV nonfinite auxiliary verb,o @+FMAINV finite main verb,o @-FMAINV nonfinite main verb,o @SUBj subject,o @OBJ object,o @I-OBJ indirect object,o @PCOMPL-S subject complement,o @PCOMPL-O object complement,o @APP apposotion,o @N title,o @DN determiner;

pl: <i>: „i” <*> <NONMOD> PRON PERS NOM SG1 SUBJ @SUBJ,<started>: „start” <SV> V PAST VFIN @+FMAINV,<work>: „work” N NOM SG @OBJ;;;

- 30 -

Page 31: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

9. Közvetlen összetevős és függőségi reprezentációk. X-vonás nyelvtanok. Szintaktikai elemzési módszerek. RTN és ATN. DAG, jegyszerkezetek, unifikáció.

mondatszerkezet leírásának főbb eszközei: o közvetlen összetevős nyelvtan:

előny: magasabb szintű kategóriák bevezetésének lehetősége, hátrány: szintaktikai viszonyok egy részének kifejezhetetlensége;

o függőségi szerkezet: előny: szintaktikai függőség kifejezésének lehetősége, hátrány: magasabb szintű kategóriák kezelhetetlensége;

o X-vonás nyelvtan: közös megoldás;;

közvetlen összetevős szerkezet: pl: Megbántottam őt. S-> VP, VP V PP, PP NP Acc, NP- Pron, (N..noun, V..verb, P..phrase, PP..preposition, Pron..szem nm, Det..ne, AP..mn);

projektív fa: o címkézett zárójelezés, nem

kereszteződhetnek ágak, transzformáció megnehezíti (pl: A szemben lakó szomszéd v A szomszéd szemben lakik);

o pl: [S [NP [Det A] [AP [Adv szemben] [AP lakó]] [N szomszéd]] [VP [N fűnyíróval] [V ébresztett.]]]

o 80-as években szétválaszt: ID (= immediate dominance: mi függ mitől adott szerkezetben (konkrét fa)), LP (= linear precedence: mi mit előzhet meg (egész nyelvtanban, pl: ne megelőzi fn-t));

o szerkezet mindig ua (SVO), legfeljebb nullelemek (pl: Elvitte – alany?, tárgy?);

o kevesebb elem vs bonyolultabb fa (pl: téged: Acc (toldalékolt fn) vs NP- Pron);;

függőségi reprezentáció: o csak reláció a fontos (szavak viszonya egymással), o élek: funkciók nevei (pl: Predicate, Subject,

SubjComplement, Determinant, Modifier), o franciák preferálják, pl: root- main- subj, comp-

det,attr (pl: This is a sample tree.);;

X-vonás: összetevők és függőség; S NP VP:o S gyermekei, de nem fejezi ki a függőségi leírás; o VP a szerkezet feje, de ezt közvetlen összetevős leírás nem fejezi ki) X-

vonás szabály: V” N’ V’ (ige kiterjesztett állapota fn csop, ige csop, V” a V max projekciója, tehát a mondat fej az ige),

o csak endocentrikus szerkezetekre (vmelyik elem mindig fontosabb másiknál);;

- 31 -

Page 32: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

X-vonás tul: o megőrzi összetevős és függőségi leírás előnyeit; o X-nél magasabb, de XP(= X”)-nél alacsonyabb szerkezeteket is jól le lehet

vele írni (pl: The tall man, The tall he; do so); o különféle bővítmények megkülönböztethetőek; o szófajok feletti általánosítás (X= V/N/P/Adv/Det); o szintjei: X (fej, lexikális szerk), X’ (köztes szerk), XP=X” (max szerk, a

frázis); vonásszám-változás, ha kötelező bővítmény;; X-vonás szabályok:

o X” (specifier) X’, o (X’ X’ adjunct), o X’ X (complement);o pl: XP- spec, X’- adj, X’- compl, X- head; o VP- V’- AP, V’- V, NP azaz: often eat pie; o NP- D, N’- AP, N’- NP, N azaz: these tall ling. teacher; o PP- P’- AP, P’- P, NP azaz: deeply in love; o NP- NP, N’- N, PP azaz: Mary’s book of poetry; o VP- V’- PP, V’- V azaz ate on Monday; o NP- N’- PP, N’- N azaz: book on the table;;

BU: alulról felfele elemző, párhuzamos (helyem van sok), szabályokat tippelek, hogy van-e, pl: Book that flight. book- Noun (nem jön ki), book- Verb (jó);

TD: felülről lefelé, mélységi (időm van sok), csak olyan szabály, ami léteik (többször kérdezek rá ugyanarra), pl: Does this flight inculde a meal? S- NP VP, v S- NP V…;

összehasonlítás: o BU: bemenettel inkonisztens szabályokkal nem tölti az időt, minden

részszerkezet kompatibilis a bemenet valamely részével; o TD: mindig mondatszimbólummal végződik, minden résszerkezetnek van

helye a végső fában; o optimális: kombináció (BU-elemzés előfordulási valségekkel, TD-elemzés

BU-jóslással);;

- 32 -

Page 33: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

strukturális többértelműség: I shot an elephant in my pijamas. (elefánt van pizsamában v én), pl: can you book TWA flights (súlyok: NP- PNoun: 0.35, NP- Noun: 0.05);;

Balsarok-elemzés: B A-nak balsarka, ha van A-nak B-vel kezdődő levezetése, TD-nél gyorsítás (fölös utakat nem járunk be), de egyre mélyebb balrekurziót nehéz megérteni, pl: A fiú, aki a barátom, akiről a kollégám mesélt, meghívott, elment.; jobbrekurzió mélysége nem gond;;

Konjunkció és PP jelenségek problematikája: pl: dogs in houses and cats (dogs in houses | and cats v dogs in | houses and cats);;

Ismétlődő részszerkezetek: visszalépéses TD elemzés, pl: 4: a flight, 3: a flight from Ind, 2: a flight from Ind to Houston, 1: a flight from Ind to Houston on TWA;;

Earley algoritmus: o párhuzamos TD elemzés, o din programozáson alapszik (exp idejű problémát polinom idejűvé redukálja), o lényege: repetitív részszerkezet-kezelés eliminálása, o magja: N+1 elemű táblázat és pontozott szabály (pozíció: előtte, közben,

utána= predictor, scanner, completer), csak előre lép, 1x megy végig; o pl: Chart[0]: γ- °S (dummy start state), S- °NP NP, S- °VP, VP- °Verb,

VP- °VerbNP, NP- °Det Nominal,,… (minden lehetséges szabály 0. pozíciója- inicializálás, mind prediktor);

o Chart[1]: Verb- book° (ez az első szó, scanner), VP- Verb°, VP- Verb° NP, S- VP°, NP- °Det Nominal (igét tartalmazó elemek előrelépnek, completer; S- °NP NP kiesik, mert ige volt);

o Chart[2]: Det- that° (scanner), NP- Det °Nominal (elsül a szabály, completer), o Chart[3]: Noun- flight° (scanner), NP- Det Nominal° (ezt fejezem be,

completer), VP- Verb NP°; o végén: S- VP°, NP- Det Nominal°, VP- Verb NP° (végére értem);;

Jegyszerkezet: o sokszor nem atomi (hierarchiába rendezhető), o szabályból szabályosztály lesz, o érték: atomi szimbólum,jegyszerkezet, o jegy-érték párok (ekkora részhalmazra vonatkozik), o jegy-ösvény (többféle jegy vezet atomihoz, nem egyetlen jegynek van értéke,

hanem ösvénynek, pl: [egyeztetés[szám]]= „egyes”), o fejjegyek (ha 2 szerkezetet összevetek, unifikálok- továbbviszi jegyét),

lábjegyek (csak akt műveletnél kellenek), o pl: VPto (to-t kérő igék), tV (tárgyas ige), 3sgNP, Sthat; o reprezentációja: <cat>= v, <finite>= +, <agr:plural>= -, <agr:person>= 3;;

Unifikáció: DAG (=Directed Acycled Graph), lehet több szülő, pl: ige- alanya, esete, szám, személy; fn- szám ha szám ugyanoda mutat, akkor egyezniük kell); struktúra (így összehasonlíthatóak jegyek, pl: vonásszám is jegy: 0,1,2);

- 33 -

Page 34: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

PATR-II formalizmus (lexikális elem, szabály);;

kiterjesztések: o ösvény-egyenlőtlenség (magasabb szinten el lehet dönteni, hogy unifikálható-

e, pl: és-típusú elágazás nem), o negáció (nem olyan, hogy..), o halmaz-értékű jegyek (nem konkrét értékeket definiál), o diszjunkció, o jegyszerkezet-leíró metanyelv (pl: olyan

állat nincs, aminek 4 füle,4 lába van);;

RTN (= Recursive Transition Network): o legtipikusabb mondatelemző módszer, de

ember nem biztos, hogy így csinálná; o DVA-k halmaza- rek hívják egymást, élek címkéin másik DVA neve (DVA

működése+ figyelni akt bemeneti pozíciót, akt állapotot, hova kell visszatérni- veremkezelés);

o CF(=context free) nyelvet definiál (de néhány mondat nem fér bele CF-be, ezért slightly CS- O(n7)), DVA(reg nyelvek) O(n) idő alatt elemezhető, de RTN veremautomata, ezért csak O(n3);;

ATN (= Averaged TN): o RTN bővítése, élekre bármit lehet írni, nem CF (~Turing-gép), o Lisp nyelven alapszik, pl: WRD* (terminális), CAT* (category, más

automata), PUSH*, POP* (veremkezelés), JUMP* (máshova ugrik), GETR* (reg-t kiolvas), APPEND, SETR, TO;

o pl: be fogom fejezni (be..igekötő- lesz hozzá ige, nézze meg);;;

- 34 -

Page 35: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

10. Szótárak és terminológiai adatbázisok. Szótári keresés. A többszavas kifejezések kezelése. Szótárak megfordíthatósága. Gyorsfordítók. Intelligens szótárak készítésének problémái.

emberi fordítás gépi támogatása: forrásszöveg- fordító- fordítás- lektor- ellenőrzött fordítás;

fordító szgépes segédeszközei: (forrásszöveg+1+3a+3b+4)- fordító- fordítás; 1. forrásszöveg- (fordítómemória+2)- fordítási javaslat- fordító; 2. forrásszöveg- szövegpár szinkronizáló rendszer- szinkr szövegpár- fordítómem; 3a. (forrásszöveg+szótárak)- előfordító rendszer- kiszótározott forrásszöveg- fordító; 3b. (forrásszöveg+szótárak)- előfordító rendszer- ismeretlen szavak- terminológiakezelő rendszer- fordító; szótárak- intelligens szótárkezelő rendszer- fordító;

lektor: (forrásszöveg+1+2a+2b)- lektor- ellenőrzött fordítás;1. (lektor+fordítás+forrásszöveg)- szövegpár szinkronizáló rendszer- szinkronizált szövegpár- konzisztencia ellenőrző rendszer- inkonzisztenciák- lektor;2a. (terminológiakezelő rendszer+szótárak)- új terminológia- lektor;3a. (intelligens szótárkezelő rendszer+szótárak)- lektor;

terminológus: szakter kezelője; 50-60000 alapszótár + 10000 szakszó;;ismeretlen szavak- terminológus- terminológiakezelő rendszer- (új terminológia+szótárak);

szótárak típusai: o nyomtatott, elektronikus, o terminológiai adatbázisok, o közvetlen (ember) és közvetett (gép használja fel) elektronikus szótárak, o 1,2,többnyelvű, o forrásnyelv és célnyelv aszimmetriája;

szerkesztési elvek: o önálló, ill utaló szócikkek és felépítésük; o szócikkfej (címszó, homonima (= azonos alakú, de több jelentéssel rendelkező

szó, melynek jelentései között nem tárható fel logikus kapcsolat, pl: vár, ír, fog, ár), álhomonima (pl: toll), alak+írásváltozat, kiejtés, elválasztás, szófaj, főbb toldalékos alakok, nyelvtani megjegyzés, stílusminősítés);

o jelentéscsoportok (alap+jelentésárnyalat) értelmezések és példák (csak néhány szó fontos);

o szólás, közmondás (minden szava fontos), más szavakkal összetétel, származékok;;

- 35 -

Page 36: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

címszavak: o élő köznyelvi szavak, o idegen szavak (pl: bazár 300 éve még az volt), o kifogásolható (régen helytelen, illetlen, nyelvhelyességileg nem jó), o peremszókincs (régies, argó, nagyon új);;

segéd+szakszótár: megváltozott szerep, értelmező, tájnyelvi, szakmai- terminológia;; sajátszótárak: osztott terminológiakezelő rendszer, bővítés (jogosultságok kezelése);;

internetes szótárszolgáltatás kritériumai Web2-vel: o folyamatosan bővíthető kínálat, sajátszótár-készítési lehetőség, o tetsz webes tartalom integrált megjelenítése, kifejezések intelligens kezelése, o közösségi jelenlét, egymás segítésének+kritikák fóruma, o rendszer szemantikus ismereteinek erősítése felhasználó keresési szokásainak

elemzésével, o könnyű keresés-indítás, saját menthető beállítások (körny személyre szabása);;

keresési technikák el szótárakban: o betű szerint, o csonkolt, o hasonlósági keresés (fuzzy, spell), o nyelvi alapú bemeneti oldalon, o nyelvi alapú találati oldalon, o kifejezések kezelésének problémái:

alcímszó, kulcsszó-választás, indexek, ua kifejezés több címszó alatt;; többszavas kif keresése:

o csak címszóként, o betű szerint, o teljes szöveggel, o reg.kif-ként, o tőindexekkel;;

nyelvfüggő szótárproblémák: o forrás és célnyelv abc-jének ismerete, o abc-rend ismerete, o fonetika kezelése, o nyelvi keresésnél grammatikai információval kompatibilitás;;

jobboldal szerepe: o nyomtatott- csak tipográfiai; elektronikus- új lehetőségek;o abc-környezet helyett szinonimák, o többféle jelentés kezelése, o új találati ablak- kifordítani;;

megjelenítés: XML-ben feldolgozni, felület: HTML; ablakos kommunikáció nehézségei: kilépni adott alkalmazásból, elindítani, kinyitni,

felnagyítani, beírni, klikkelni, átmozgatni, lekicsinyíteni, bezárni, vissza eredeti alk-ba;;

- 36 -

Page 37: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

gyorsfordítók: amikor infó kell, akkor amit kérek (nem többet), de azt gyorsan és automatikusan- pop-up viselkedés; kijelölhetőség, automatikus indíthatóság;;

rávetítős mo: o szöveg(rész)-felismerés, o nyelvi elemzés (morfológia, lemmák, szókapcsolatok), o szótári keresés (tövesítve v lin), o megjelenítés (buborék v fix ablak), o log (infógyűjtés: 70% találati arány, +10000 szó +5%, +20 szó, amit kerestek

+5%); koincidencia gráf: aki ezt kérdezte, az még mit kérdezett (pl: bor-sör, tooth-

bluetooth);;

intelligens szótárak készítésének problémái: o szótárforrások (XML) nyomtatás-centrikus megoldásai, o szótár embereknek készül (nem gépnek), o perjel (pl: {arcára fagy/ráfagy az arcára} a mosoly), o többszörös előfordulás (pl: elássa a csatabárdot- elás, bárd, csatabárd), o ellentmondó előfordulás (pl: get ahead- 1.boldogul, 2.előrejut), o tilde (szót nyomtatott szótárak hullámként írják helyspórolás miatt- mo:

röptében kigenerálja tilde helyére szót), o morfológia (ragozásnak illeszkednie kell, pl: tőzsde: ~’n, de melyik lesz

hosszú mgh!), o nagybetű (god: G~ ez nem: Ggod lesz!), o vonzat (fontos v lehet mást is betenni?), o példa (1 szóhoz 20 jelentés), o lásd (végigdől/= végigvágódik), o pontos találatok probléma (keresett kifejezés vmelyik része hiányzik- fuzzyval

megkeresni);;;

- 37 -

Page 38: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

11. Az emberi fordítás támogatása. Terminológiai adatbázisok. Párhuzamos korpuszok. Szövegszinkronizáció: célok, módszerek. Fordítómemória. Hasonlósági keresés a fordítómemóriában.

emberi fordítás gépi támogatása: forrásszöveg- fordító- fordítás- lektor- ellenőrzött fordítás;

fordító szgépes segédeszközei: (forrásszöveg+1+3a+3b+4)- fordító- fordítás; 1. forrásszöveg- (fordítómemória+2)- fordítási javaslat- fordító; 2. forrásszöveg- szövegpár szinkronizáló rendszer- szinkr szövegpár- fordítómem; 3a. (forrásszöveg+szótárak)- előfordító rendszer- kiszótározott forrásszöveg- fordító; 3b. (forrásszöveg+szótárak)- előfordító rendszer- ismeretlen szavak- terminológiakezelő rendszer- fordító; szótárak- intelligens szótárkezelő rendszer- fordító;

lektor: (forrásszöveg+1+2a+2b)- lektor- ellenőrzött fordítás;1. (lektor+fordítás+forrásszöveg)- szövegpár szinkronizáló rendszer- szinkronizált szövegpár- konzisztencia ellenőrző rendszer- inkonzisztenciák- lektor;2a. (terminológiakezelő rendszer+szótárak)- új terminológia- lektor;3a. (intelligens szótárkezelő rendszer+szótárak)- lektor;

terminológus: szakter kezelője; 50-60000 alapszótár + 10000 szakszó;;ismeretlen szavak- terminológus- terminológiakezelő rendszer- (új terminológia+szótárak);

párhuzamos korpuszok: megfeleltetések; ha több száz millió szavas lefordított szövegek lennének- fordítás statisztikai alapon megoldható lenne (ember: 1 könyv: 100.000 szó, művelt ember: napi 10.000 szó- életben: 300 millió; de gép: sokkal többre képes), pl: Rosetta kő (görög, denotikus, hieroglifa);

- 38 -

Page 39: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

szövegszinkronizáció: kétnyelvű szövegpárban az egymás fordításának tekinthető szövegegységek meghatározása;

o szövegeket párba állítani (alignment), technikailag nehezen kezelhető;o bekezdés ált egy egység, de benne lévő mondatok nem feltétlenül;o típusok: bekezdés/mondat/kifejezés/szószintű; o teljes (minden egységnek van párja) / részleges (pontosság/fedés probléma);;

felhasználása: o fordítómemóriák bővítése: párok kész fordításként felhasználhatóak később;o párhuzamos korpuszok építése: később statisztikai fordítórendszer (tudjon

tanulni belőle);o fordítások terminológiai konzisztenciájának vizsgálata: forrásszövegben lévő

szakkifejezéseket a fordításban megkeressük (pl: MyComupter – Sajátgép);o kétnyelvű terminológia gyűjtése;

módszerek csoportosítása: o hossz alapú (=length based alignment): Gale and Church (1991, 1993), csak

szövegegységek hosszait vizsgálja, valószínűségi modell, din programozás; előnyei:

globálisan optimális megoldást keres, teljes szinkronizáció, robosztus (minden szövegegységnek van hossza);

hátrányai: nem elég hosszakat vizsgálni, ezért könnyen eltéved, beszúrásokat és elhagyásokat rosszul kezeli, költséges din programozás (O(n2), de ha mátrix átló körüli

elemeit számítjuk ki, akkor jóval hatékonyabb- konfidenciasáv);;

o lexikai információn alapuló: teljes szinkronizáció;;o horgonykereső: horgony (szövegegységek egymásnak nagy pontossággal

megfeleltethető pontjai, pl: dátum, személynév), először csak két horgony, ami összeköti szövegpárokat, olyan szavak

keresése, amelyek gyakran fordulnak elő együtt a szövegpár két oldalán kb azonos pozícióban (heurisztika)- ezekből horgonyokat határoz meg;

kisebb szinkronizálandó szegmensekre bontható a szöveg (ezeken belül újra horgonyokat keresnek), részleges szinkronizáció;

horgonyválasztás: latin írás (kivéve német): azonos alakú (nagybetűs), azonos szótövű szavak- morfológia kell hozzá, azonosan kezdődő szavak (cognates, pl: parlament, parliament,

Europa, Europe, Európa), de görög-cirill átírás nehézkes; nem latin írás: szótár alapján;;

statisztikai horgonyszűrés: horgonyjelöltek (forrás ás fordításbeli) pozíciói alapján

kiszámolják a lineáris regressziós egyenest; heurisztikus adaptív szűrő: egyenestől mért távolságok alapján

hisztogramot készítenek (ezzel szűrik horgonyokat); lineáris regressziós egyenes 99,9%-os konfidenciasávja (sávon

kívülre került horgonyokat eldobják);;o hibrid módszerek;;

- 39 -

Page 40: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

fordítómemóriák: alapfunkciói:

o export/importo szövegelemzés: központozás (előfeldolgozás), markup (pl: vastagbetűs),

NER (tulnevek és „kódolt” szövegrészek, pl: dátum, ábra, szám, táblázat);o nyelvi elemzés:

szólista-előkészítéshez lemmatizálás (szavakat szótári alakra hozni), automatikus terminológiakeresés terminológiabankokból, szintaktikai elemzés többszavas kifejezések azonosításához, szórend-normalizálás, frázishatárok megállapítása;

o szegmentálás: fordítási egységek megállapítása egynyelvű felszíni elemzéssel, szinkronizálás alapvető feltétele;

o szövegszinkronizálás: forrásnyelvi – célnyelvi párok létrehozása;o terminológiakivonatolás:

induló szótárral, szövegstatisztikákon alapul, fordítási munkával kapcsolatos becslések alapja;

o visszakeresés: pontos találat, környezet szerint is pontos találat (ICE= In Context Exact), fuzzy találat;

o módosítás, javítás: update-folyamat;o automatikus fordítás:

automatikus visszakeresés, automatikus csere, igazi gépi fordítás, intelligens fordítómemória funkciók;

o szövegmemória: szerzői és fordító;o ((konzisztenciaellenőrzés (k-szor így fordították, akkor k+1. is ugyanúgy),

anonimizálás (neveket kivenni), Trados(= translation with DOS), copyright (szavak önmagukban nem védhetőek le, de a szótárba szervezés igen)));

előnyei: o konzisztens dokumentumok előállítása (nagy projekteknél elengedhetetlen),o gyorsít (1x kell fordítani),o spórol (fordítóiroda tudja, mit tartalmaz induló memória és mit kell igazán

fordítani),o gazdaságos egy projekten belül is (menet közben már segít);

hátrányai: o mondatok újrafelhasználhatóságán alapul,o ma szokásos fordítói munkafolyamatok átszervezésével jár,o vannak nem támogatott dokumentumformátumok,o sok idő megtanulni,o szabadúszó fordítóknak drága és bonyolult,o minden bemenetnek elektronikusnak kell lennie,o korábbi fordításokat is át kell alakítani a fordítómemóriának megfelelő

alakúra,o hibák is szaporodnak;

- 40 -

Page 41: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

keresés a fordítómemóriában: o minden TM-beli (=Translation Memory) mondathoz generálunk numerikus

értéket (fuzzy kulcs, n-gram, ált: trigram technológián alapul); o speciális indexfájlban tároljuk egyértelmű azonosítóval (térkép, ahol egy adott

ponttól bizonyos sugáron belül keresünk);o kereséskor kiszámítjuk a keresendő mondat fuzzy-indexét, legkisebb

távolságú indexfájlbeli mondat lesz a találat;o hosszú mondatok kis helyen való tárolása (kisbetűsítés, nem alfabetikus

karakterek, pl: betűközök eltávolítása);;o trigramosítás:

fuzzy-index maradékszámítással: rem((prim1

2*char1+prim1*char2+char3)/ prim2); pl: prim1= 41, prim2= 47 (pl 40 karakteres angol abc),

l= char(12), e= char(5), r= char(18) fuzzy-index(’ler’)= rem((12*1681+ 5*41+ 18)/ 47)= 44;

fuzzy kulcs: 47 bájtos tömb (minden bájt egy trigram-érték darabszámát mutatja, itt: 45. bájt értéke 1-el nő) – tetsz hosszú mondat reprezentálható;;

o keresés fuzzy indexben: prim1-nél nagyobb prímosztó (itt: 43, 47, 51, 53,…), de minél

nagyobb, annál kisebb esély, hogy nagyon különböző mondatokhoz hasonló kulcsot rendeljünk;

ha egy kulcshoz több mondat tartozik, akkor mindegyik részt vesz füzér-összehasonlításban;

indexfájl: fuzzy csomópontok linkelt listája ternális fa alakjában (<,=,>);

előnyei: ternális fa inkább széltében nő, mint mélységében (és ugye a mélység számít az összehasonlítási lépéseknél), van hozzá jó keresési algoritmus;

keresési kulcs és adatbáziskulcs közti távolság az abszolút különbség;;o optimalizálás a kereséshez:

min 3 alfabetikus karakter kell (mert vannak ilyen mondatok: C (3), A4-0191,…);

szavak számát kulcs elé illesztjük prefixként (távolságszámításnál magasabb súly)- legjobb kulcs megtalálására irányuló keresés gyorsul;

algoritmus eredménye: összes hasonló mondat kistávolságú fuzzy kulcsokkal lesz tárolva (de nem feltétlenül minden közeli kulcs hasonló mondat, ugyanakkor távoli kulcs is adhat hasonló mondatot);;

o füzér-összehasonlítás: ált Levenshtein-távolsággal; cél: min számú törlés, beszúrás, helyettesítés; din épülő mátrix, amelynek minden pozícióján

adott részfüzérek Leveshtein-távolsága áll; mondatokra is alkalmazható (az eredetivel ellentétben); optimalizálható, hogy első különböző karaktertől készítjük el (nemcsak

elölről, hanem hátulról is), pl: hosszú hasonló mondatnál 0,5%-ra is csökkenthető a mátrix mérete;

- 41 -

Page 42: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

karaktermanipulációkat lehet súlyozni is: nagybetű-kisbetű helyettesítés: 1, diakritikus jelek (betű fölé v alá helyezett mellékjel) cseréje: 2, egyéb csere: 4, törlés súlya < beszúrás súlya;;

fordítómemóriákkal kapcsolatos szabványok: o TMX (= Translation Memory eXchange): XML standard, TM adatok egyszerű

kicserélésére; definiálása 2 szinten: fordítási egység (Translation Unit: <tu>), meta-markup: alacsonyabb szintű (Segment: <seg>);

implementációs szintjei: 1. szint: Plain Text Only: adatok <seg> elemeken belül sima szövegek

Content Markup nélkül, szoftverüzenetek fordítására elég, de formázott dokumentumoknál nem;

2. szint: Content Markup: formázott dokumentumokra (pl: SRX);;o TBX (= TermBase eXchange): terminológiai adatok cseréjére részletes lexikai

információval, ISO szabvány;o SRX (= Segmentation Rules eXchange): TMX kiegészítése, hatékonyabb csere

érdekében;o GMX (= GILT Metrics): Globalization, Internationalization, Localization,

Translation, GMX-V (volume), GMX-C (complexity), GMX-Q (quality);o OLIF (= Open Lexicon Interchange Format): nyílt XML formátum

terminológiai és lexikai adatok cseréjére;o XLIFF (= XML Localization Interchange File Format): ált alkalmazott;o TransWS (= Translation Web Services): o xml:tm: új megközelítés, text memory koncepción alapszik;;

fontosabb fordítómemóriák: o megvásárolható: Déja Vu, STAR transit, SDLX, Trados, WordFast, MemoQ

(magyar fejlesztés), o letölthető: OmegaT, Transolution, Open Language Tools;;

automatikus kiértékelés: o kézi: lassú, vannak statisztikai módszerek;o ha nagy tesztkorpusz, akkor közelít objektívhez;o BLEU (= BiLingual Evaluation Understudy) :

2002, IBM fejlesztés, átfedés emberi referenciafordításokkal, fordítási minőség mérése; [options] <candidate file> <reference file 1> [reference file 2..n] pontszám: n-gram találatok (candidate és reference között) átlaga, ált:

n= 3 v 4; zöld= 4-gram illeszkedik, piros= nem illeszkedik; pl: The gunman was shot to death by the police.

The gunman was shot (zöld) kill. (piros)The gunman was shot (zöld) dead (piros) by the police. (kék)Police (sárga) killed (piros) the gunman. (lila);;;

- 42 -

Page 43: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

12. Gépi fordítás. Szótárak a gépi fordítás számára. Szótárak reprezentálása. Szabály-alapú fordítási eljárások: közvetlen, közvetítőnyelves, transzfer. Statisztikai gépi fordítás. Minta-alapú fordítás.

ezt olvassuk a GF (= gépi fordításról): o nem érdemes foglalkozni vele, mert nem fog Shakespeare-t fordítani;o haszontalan, mert marhaságokat fordít (pl: The spirit is willing, but the flesh is

weak – A vodka jó, de a hús gyenge.);o ált gyenge minőség- gyakorlatban használhatatlan;o elveszi fordítók munkáját;o japánok már kifejlesztettek telefonos rendszert, ami egyből angolra fordít;o dél-amerikai indián nyelv: logikailag tökéletes szerkezet- könnyen lehet gépi

fordító rendszert csinálni vele;; ez igaz GF-ről:

o hasznos, mert METEO rendszer 1977 óta használja (1990 óta 45000 szót fordít minden nap);

o nem olyan jó a minősége, de legalább gyors;o néha minőség is jó, pl: METEO: kimenetek 4% igényel emberi korrekciót;o nem fenyegeti fordítók munkáját;o fejlesztése időigényes, sok kutatási téma; o gyakorlatban akkor megvalósítható, ha felhasználó komoly munkát fektet

egyedi felépítésbe;;

lexikai többértelműségek kezelése: pl: One minute has 60 seconds. There is only minute difference between the pictures.;

strukturális többértelműségek kezelése: pl: Time flies like an arrow. (időlegyek olyanok.., időzíts legyeket);

többszavas kifejezések (terminusok) kezelése: pl: Flying planes can be dangerous (flying..röptetés);

idiómák kezelése: pl: The country has gone to the dogs.; PP kapcsolások kezelése: pl: The man saw the girl with the telescope.;;

fordítási stratégiák: forrásnyelvű szöveg- SLT (= Source Language Text analízis, absztrahálás, ált nyelvre)- interlingua- TLT (= Target Languagae Text generálás)- célnyelvű szöveg;valóságban 2 nyelv sajátosságai (pici logika: formális mondat, szintaktikai szerkezet),de nem teljesen általános nyelv;;

közvetlen fordítás: SLT- morfológiai analízis- kétnyelvű szótár lookup- helyi újrarendezés- TLT; lépései:

o morfológiai analízis,o szavak tartalmának lexikai transzfere,o prepozíciók kezelése,o SVO újrarendezés,o egyveleg (rendezés),

- 43 -

Page 44: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o morfológiai generálás;o közvetlen fordítás jellemzői:

egyes állapotok nincsenek készen, csak a végén, rengeteg lépésből áll, minden lépés adott nyelvi jelenséget dolgoz fel, legfontosabb eszköz: kétnyelvű szótár, probléma: helyes kimenetei szórend és megfelelő toldalékolás

előállítása;;o átrendező művelet:

transzfer és generálás (célnyelv lexikális elemeinek szósorozata a kimenet) kombinációja,

modularitás teljes hiánya, Systran és Meteo ilyen átrendezéseit írták át később transzfer-

rendszerré;;o Systran: egyik legrégibb gépi fordítással foglalkozó cég, 1968, EU használja;

analízis: MDL (=Main Dictionary Lookup)- LINIT (= Initialisation Module)- HOMOR (= Homograph Resouliton)- NPHRASE (= Identification of Noun Phrases)- PASS0 (= Clause Analysis)- PASS1 (= Major Systactic Relationships)- PASS2 (= Identification and linking of coordinate constructions)- PASS3 (= Subject and Predicate Identification)- PASS4 (= Prerositional phrase attachment,semantic relationships and Remaining Ambiguity resolution)-

transzfer: LEX (= Lexical Routines)- SYN (= Target Language word selection)- REARR (= Word order rearrangement)-

szintézis: SYNRTNS (= Synthesis routines);;

közvetítőnyelves fordítás: SLT- morfológiai analízis- interlingua (logika, kognitív ontológia, eszperantó speciális változata): SL to interlingua translation- interlingua to TL translation- TL text generálása- TLT;

pl: John likes the film. Le film plait á Jones. Das Film gefällt Jones.

o közvetítőnyelves fordítás jellemzői:

nem létezik mindent kielégítő közvetítőnyelv,

soknyelvű rendszerek esetén jó, a két fordítási lépés egy-egy közvetlen

fordítás;;;

- 44 -

Page 45: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

transzfer fordítás: SLT- parsing (SL parse tree)- transfer- generation (TL parse tree)- TLT;

o lexikális transzfer: szerkezeti transzfer:

hibrid szabály/példa alapú fordító: o nincs külön szótár és külön nyelvtan,o csak minta-párok: bemenet/interpretáció szerkezet-párok,o egyetlen elemzési menet: nincs rákövetkező művelet (pl: transzfer),o célszerkezet generálás: elemzés

mellékterméke;

példa alapú fordító: SLT- find most analogous examples-

retreive corresponding target language examples- combine examples- TLT;;

statisztikai fordítás: spanyol + statisztikai analízis (sp/eng bilingual text)- broken english + statisztikai analízis (eng text)- english;

problémák: o nyelvmodell:

adott e angol string, amihez rendel P(e)-t,

jó angol string- magas P(e), rossz- alacsony P(e));

o fordítási modell: feladata: megtalálni legjobban illeszkedő bemenetet e angol

kimenethez; P(f|e) tanulását párhuzamos korpuszból kell megoldani; nincs elég adat P(f|e) közvetlen becslésére; érdemes folyamatot több lépésre osztani; adott <f,e> stringpár a hozzárendelt P(f|e) valséggel, ha <f,e> egymás fordítása- magas P(f|e), ha <f,e> nem egymás fordítása- alacsony P(f|e));

- 45 -

Page 46: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o dekódoló algoritmus: nyelvmodell+ fordítási modell+ bemenő f mondat, amihez meg kell találni e fordítást- P(e)*P(f|e) maximalizálásával;;

EM (= Expectation Maximization) algoritmus: o inicializálás: minden kapcsolat azonos súlyú,o valség hozzárendelése hiányzó adatokhoz,o paraméterbecslés teljes adatokból,o iterálás (megtanulja, hogy bizonyos kapcsolatok

gyakoribbak, pl: la és the között);o pl: p(la|the)= 0,453, p(bleu|blue)= 0,563;;

frázis alapú modellek: o szószinten nehéz törlés, beszúrás, ezért bemenetet frázisokra (gyakran

előforduló összefüggő szósorozatok) szegmentáljuk;o minden frázist lefordítunk célnyelvre,

majd átrendezzük;o nem kompozícionális frázis is fordítható;o minél több adat, annál több hosszú frázis tanulható meg;

frázis alapú modell kialakítása: o (Maria, Mary), (no, did not), (slap, daba una

bofetada), (a la, the), (bruja, witch), (verde, green);

o (Maria no, Mary did not), (no daba una bofetada, did not slap), (daba una bofetada a la, slap the), (bruja verde, green witch);

o (Maria no daba una bofetada, Mary did not slap), (no daba una bofetada a la, did not slap the), (a la bruja verde, the green witch);

o (Maria no daba una bofetada a la, Mary did not slap the), (daba una bofetada a la bruja verde, slap the the green witch);

o (Maria no daba una bofetada a la bruja verde, Mary did not slap the green witch);;

nyelvmodell kialakítása: o trigram-valségekkel közelíthető;o pl: p(witch|the green) > p(green|the witch)o a web n-gramjai: human / machine translation bigram: 99% / 97%, trigram:

97% / 92%, 4-gram: 85% / %80%, 5-gram: 65% / 56%;;o simítás nyelvmodellhez: ha nem elég nagy a korpusz,

pl: ha z sose követte xy-t szövegekben, de attól z követhette y-t, ekkor xyz talán nem olyan rossz;

ha nem követte, akkor z lehet elfogadható szó; ha nem is elfogadható, akkor nagyon kis valség; pl: a= előfordulás(„xyz”)/ előfordulás(„xy”),

simítva: b(z|xy)= 0,95* előfordulás(„xyz”)/ előfordulás(„xy”)+ 0,04* előfordulás(„yz”)/ előfordulás(„z”)+ 0,008* előfordulás(„z”)/ összes látott szó+ 0,0002;;

- 46 -

Page 47: Szabályozás: viselkedésének befolyásolása egy …eszdo/itk/nyelvtech_vizsga.doc · Web viewFormális nyelvek alkalmazása a természetes nyelvek leírásában. A nyelvmodellek

Nyelvtechnológia 2008 - elmélet

o problémák: tulnevek (másolás, transzliterálás, szótárból újraalkotás); számmal alkotott kifejezések, dátumok, mennyiségek (saját fordítási táblák); fn-i csoportok (nyelvileg előelemezni);

o mo: hibrid rendszerek (pl: EuroMatrix);;;;

- 47 -