86
INF2820 Datalingvistikk – V2017 11. Gang – 20.3 Jan Tore Lønning

INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

INF2820 Datalingvistikk – V201711. Gang – 20.3Jan Tore Lønning

Page 2: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

I dag• (Fra sist Trekkstrukturer og unifikasjon

• (J&M, seksj 15.1, J&M, seksj. 15.2)• Trekkstrukturer i NLTK

• NLTK-boka seksj. 9.2• Trekkbaserte grammatikker (=Unifikasjonsgrammatikker)

• Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3• Subkategorisering:

a. Enkel løsning, grammatikk 1 og 2b. Valg på kategori, grammatikk 3 og 4c. Valg på hel struktur, grammatikk 5

• Forhold til grammatiske modeller• Implementasjon og parsing

2

Page 3: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Trekkstrukturer

• Lang tradisjon i lingvistikk

• Eks.: fonologi• En mengde trekk og

verdier:• For hvert trekk er det

definert hvilke verdier som er mulige

• Et skritt videre:• Hele trekkstrukturer

som verdier3

Page 4: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Trekkstrukturer som grafer

• To alternative notasjoner for det samme4

Directed Acyclic Graphs

(DAGs)

Attribute Value Matrices(AVMs)

Page 5: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Trekkstrukturer - formelt• To endelige mengder

• F = {f1, f2, …, fn}• A = {a1, a2, …, an}

• En trekkstruktur over F og A er• Atomær, dvs et element i A, eller• Ikke‐atomær. Det er et objekt. Dette inneholder

• En mengde trekk, dvs en delmengde av F: f’1, f’2, …, f’j• Til hvert av disse trekkene er det en verdi, som igjen er en trekkstruktur (atomær eller ikke‐atomær)

525. mars 2017

Begrensning:En trekkstruktur kan ikke inneholde to par av trekk og verdier (fk,  ak), (fp,  ap) der fk = fp, men ak =/= ap

Observasjon:To trekkstrukturer som inneholder de samme trekk‐verdiparene kan være identiske, men behøver ikke være 

det(som dictionaries i python)

Page 6: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Unifikasjon av trekkstrukturer

25. mars 2017 6

Page 7: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

25. mars 2017 7

Page 8: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Unifikasjon - grafisk

8

AGRSUBJ

PERS

NUM

3rd

sg

AGR

AGRSUBJ

Page 9: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Unifikasjon - grafisk

9

AGR

AGRSUBJ

PERS

NUM

3rd

sg

AGRSUBJ

PERS

NUM

3rd

sg

AGR

AGRSUBJ

Page 10: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Subsumpsjon og unifikasjon

Subsumpsjon

• F subsummerer G• ”F er minst like generell som G”•• Hvis og bare hvis:

• F er atomær og F=G• Ellers

• For hvert trekk x i F: F(x) subsumerer G(x)

• For alle stier p, q in F:Hvis F(p) = F(q), såG(p) = G(q)

Unifikasjon

• H er unifikasjonen av F og G

• H = • Hvis og bare hvis

••• Og H er den mest

generelle slike trekkstrukturen

25. mars 2017 10

Page 11: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

I dag• (Fra sist Trekkstrukturer og unifikasjon

• (J&M, seksj 15.1, J&M, seksj. 15.2)• Trekkstrukturer i NLTK

• NLTK-boka seksj. 9.2• Trekkbaserte grammatikker (=Unifikasjonsgrammatikker)

• Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3• Subkategorisering:

a. Enkel løsning, grammatikk 1 og 2b. Valg på kategori, grammatikk 3 og 4c. Valg på hel struktur, grammatikk 5

• Forhold til grammatiske modeller• Implementasjon og parsing

11

Page 12: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

NLTK - implementasjon>>> fs1 = nltk.FeatStruct(TENSE='past', NUM='sg')>>> fs1[NUM='sg', TENSE='past']

>>> print(fs1)[ NUM   = 'sg'   ][ TENSE = 'past' ]

>>> from nltk import FeatStruct>>> fs2 = FeatStruct(CAT='vp', AGR = fs1)

>>> print(fs2)[ AGR = [ NUM   = 'sg'   ] ][       [ TENSE = 'past' ] ][                          ][ CAT = 'vp'               ]

1225. mars 2017

Page 13: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

NLTK - implementasjon>>> fs3 = fs2.unify(FeatStruct(

"[AGR = ?x, SUBJ = [AGR = ?x]]"))

>>> print(fs3)[ AGR  = (1) [ NUM   = 'sg'   ] ][            [ TENSE = 'past' ] ][                               ][ CAT  = 'vp'                   ][                               ][ SUBJ = [ AGR ‐> (1) ]         ]

1325. mars 2017

Page 14: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

I dag• (Fra sist Trekkstrukturer og unifikasjon

• (J&M, seksj 15.1, J&M, seksj. 15.2)• Trekkstrukturer i NLTK

• NLTK-boka seksj. 9.2• Trekkbaserte grammatikker (=Unifikasjonsgrammatikker)

• Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3• Subkategorisering:

a. Enkel løsning, grammatikk 1 og 2b. Valg på kategori, grammatikk 3 og 4c. Valg på hel struktur, grammatikk 5

• Forhold til grammatiske modeller• Implementasjon og parsing

14

Page 15: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Gram.1. Regler med trekkstrukturer• S  NP         VP

• NP          Det         N

• V               ’serve’

• V                    ’serves’

• En ikke‐terminal suppleres med en partiell trekkstruktur• Mulig deling mellom trekkstrukturene i en regel

• Terminalene er uendret

25. mars 2017 15

Page 16: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Betingelser på grammatikalitet

25. mars 2017 16

NP, VP,

V,N,DET, NP,

N,DET,

S,

the restaurant serves many fish

Hvert lokalt tre må tillates av en grammatikkregel

Page 17: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

R1:  S  NP                   VP

Lokalt tre tillatt av regel – eks 1

• Regelen R1 svarer til et lokalt tre t2• R1 tillater t1 hvis t1 «utvider» t2,• Mer formelt: hvis t2 subsummerer t1

1725. mars 2017

NP, VP,

S, Hvert lokalt tre må tillates av en grammatikkregel

t1:

Page 18: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Subsumpsjon av trær

• Vi kan utvide definisjonen av subsumpsjon fra trekkstrukturer til trær med trekkstrukturer på nodene

• Et tre T subsummerer et tre T’ dersom• Trekkstrukturen på T subsummerer strukturen på T’

• Inkludert at hvis T har en kategori, så har T’ samme kategori• Hvis T har døtrene D1, D2, …, Dn, 

• så har T’ like mange døtre D’1, D’2, …, D’n, der• Di subsummerer D’i for i = 1, 2, …, n, og

• Alle delinger i T er også delinger i T’.

18

Page 19: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Tolkning av grammatikk

• Et tre T med trekkstrukturer er tillatt av grammatikk G hvis og bare hvis. 

• Hvis t1, t2, …, tn er alle de lokale trærne i T,så fins det tilsvarende regler i G, si g1, g2, …, gn s.a.: tre ti er tillatt av regel gi for i= 1, 2, …, n

• Hvis T’ er  et annet tre tillatt av de samme reglene g1, g2, …, gn, på tilsvarende subtrær og T’ subsummerer T, så subsummerer T også T’.

1925. mars 2017

"Det skal ikke være med mer i treet enn  det reglene krever. "

Page 20: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikker – to alternative format

1. Trekkstrukturer i reglene

• NLTK er et (begrenset) forsøk på å implementere dette formatet

2. Regler + likninger

• Jurafsky og Martin

25. mars 2017 20

Page 21: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikker – to alternative format

1. Trekkstrukturer i reglene 2. Regler + likninger

25. mars 2017 21

• S  NP       VP

• NP        Det       NOM

• V                   ’serves’•

Page 22: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Lokalt tre tillatt av regel –eks 1

• J&M‐format:• Det lokale treet lystrer alle likningene

2225. mars 2017

NP, VP,

S, Hvert lokalt tre må tillates av en grammatikkregel

Page 23: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Lokalt tre tillatt av regel –eks 2

• Regler + likninger:• Det lokale treet lystrer alle likningene

DET  the<DET AGR PERS>=3rd

• Trekkstr. i regelDET[AGR=[PERS=‘3rd’]]‐> ‘the’ 

25. mars 2017 23

DET, Hvert lokalt tre må tillates av en grammatikkregel

the

DET,

the

Page 24: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Sammenlikning av formatene

1. Trekkstrukturer i reglene

• Utvid ikke‐terminaler med partielle trekkstrukturer

• Variable i trekkstrukturene for deling («reentrancy»)

• Brukt for eksempel i tidlig Head‐driven PhraseStructure Grammars (HPSG)

2. Regler + likninger

• Legg likninger til CFG‐reglene• En likning mellom

• To stier, eller• En sti og en atomær verdi

• Inspirert av• PATR• Lexical‐Functional Grammar

25. mars 2017 24

Blir det samme(før evt utvidelser)

Page 25: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

I dag• (Fra sist Trekkstrukturer og unifikasjon

• (J&M, seksj 15.1, J&M, seksj. 15.2)• Trekkstrukturer i NLTK

• NLTK-boka seksj. 9.2• Trekkbaserte grammatikker (=Unifikasjonsgrammatikker)

• Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3• Subkategorisering:

a. Enkel løsning, grammatikk 1 og 2b. Valg på kategori, grammatikk 3 og 4c. Valg på hel struktur, grammatikk 5

• Forhold til grammatiske modeller• Implementasjon og parsing

25

Page 26: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Videre

• Vise noen eksempler på hvordan trekk og unifikasjon anvendes i moderne lingvistiske teorier, spesielt til subkategorisering:

• ved å lage en serie av grammatikk(fragment)er• gå lengre enn NLTK• være mer detaljert enn J&M• og samtidig se hvor mye av dette som kan og ikke

kan gjøres i NLTKs fcfg-er

26

Page 27: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Subkategorisering• Tidligere 3 VP‐regler for mønstrene:

• VP  V sleep• VP  V  NP love• VP  V  NP  NP give

• Men det er mange andre mønstre (jfr. Oblig. 2)• VP  V  NP  PP[to] give• VP  V  NP  VP[inf] persuade• VP  V  CP tell (that Mary left)• VP  V  NP  CP tell (John that Mary left)• VP  V  AP grow• VP  V  NP PP save• etc.

• Hvert verb kan forekomme i noen slike mønstre – ikke i andre• Mål: Unngå overgenerering og falske flertydigheter

2725. mars 2017

Page 28: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Løsning med CFG• Innføre forskjellige kategorier (ikke‐terminaler) for de forskjellige verbene, f.eks:

• VP  IV• VP  TV  NP• VP  DTV  NP  NP• IV  sleep• TV  love• DTV  give• Osv.

• Svakheter med denne løsningen:• Mange regler• Mange kategorier• Manglende generalisering: «verb er verb»

2825. mars 2017

Page 29: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Med eksempelgrammatikk 1

• Eksempel først i seksjon 9.3 i NLTK-boka.

29

VP[TENSE=?t, NUM=?n] ‐> V[SUBCAT=intrans, TENSE=?t, NUM=?n] VP[TENSE=?t, NUM=?n] ‐> V[SUBCAT=trans, TENSE=?t, NUM=?n] NP VP[TENSE=?t, NUM=?n] ‐> V[SUBCAT=clause, TENSE=?t, NUM=?n] SBarV[SUBCAT=intrans, TENSE=pres, NUM=sg] ‐> 'disappears' | 'walks' V[SUBCAT=trans, TENSE=pres, NUM=sg] ‐> 'sees' | 'likes' V[SUBCAT=clause, TENSE=pres, NUM=sg] ‐> 'says' | 'claims' V[SUBCAT=intrans, TENSE=pres, NUM=pl] ‐> 'disappear' | 'walk' V[SUBCAT=trans, TENSE=pres, NUM=pl] ‐> 'see' | 'like' V[SUBCAT=clause, TENSE=pres, NUM=pl] ‐> 'say' | 'claim' V[SUBCAT=intrans, TENSE=past, NUM=?n] ‐> 'disappeared' | 'walked' V[SUBCAT=trans, TENSE=past, NUM=?n] ‐> 'saw' | 'liked' V[SUBCAT=clause, TENSE=past, NUM=?n] ‐> 'said' | 'claimed'

Page 30: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Noen observasjoner - anvendelse

• Eksempelet viser en mulig behandling av subkategorisering av verb

• Generaliserer over verb • Men like mange regler som i en CFG • Skal se alternative måter senere

30

S NP[NUM=?x] VP[NUM=?x]VP[TENSE=?t, NUM=?n] ‐> V[SUBCAT=intrans, TENSE=?t, NUM=?n] VP[TENSE=?t, NUM=?n] ‐> V[SUBCAT=trans, TENSE=?t, NUM=?n] NP VP[TENSE=?t, NUM=?n] ‐> V[SUBCAT=clause, TENSE=?t, NUM=?n] SBar

Page 31: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

En generalisering av formalismenEksempelgrammatikk 2

• ’serves’

25. mars 2017 31

• Så sist at grammatikk 2 sees på som en notasjonell variant av grammatikk 1

Page 32: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

NLTK og grammatikk 2• NLTKs format for trekkgrammatikker tillater ikke regler som i

grammatikk 2.• Men vi kan «lure» NLTKs fcfg ved å innføre en ‘’dummy’’

kategori og la alle fraser være av denne kategorien, f.eks.:

3225. mars 2017

X[CAT=S]   ‐> X[CAT=NP,AGR=?x]  X[CAT=VP,AGR=?x]X[CAT=NP,AGR=?x] ‐> X[CAT=Det,AGR=?x]  X[CAT=N,AGR=?x] X[CAT=VP,AGR=?x] ‐> X[CAT=V,AGR=?x] X[CAT=NP] 

X[CAT=V,AGR =[NUM = 'sg', PERS = '3rd']] ‐> 'serves'

Obs: Parsing kan bli mindre effektiv

Page 33: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikk 2 i likningsformalismen

• I likningsformalismen som brukes i J&M kan grammatikker som grammatikk 2 skrives med regler som denne (fra J&M seksj. 15.5.2)

33

Page 34: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Eksempelgrammatikk 2: subkat.

• serves

• osv.3425. mars 2017

Tilsvarende løsning som i grammatikk 1Samme styrker og svakheter

Page 35: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

I dag• (Fra sist Trekkstrukturer og unifikasjon

• (J&M, seksj 15.1, J&M, seksj. 15.2)• Trekkstrukturer i NLTK

• NLTK-boka seksj. 9.2• Trekkbaserte grammatikker (=Unifikasjonsgrammatikker)

• Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3• Subkategorisering:

a. Enkel løsning, grammatikk 1 og 2b. Valg på kategori, grammatikk 3 og 4c. Valg på hel struktur, grammatikk 5

• Forhold til grammatiske modeller• Implementasjon og parsing

35

Page 36: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Eksempelgrammatikk 3

• says(Kim says that Lee is asleep)

• serves(The restaurant serves fish)

3625. mars 2017

Den samme regelen virker for alle verb som tar ett argument.

Resten i leksikon

Page 37: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Eksempelgrammatikk 3

3725. mars 2017

En regel for hvert mulig antall av argumenter til en V

Resten i leksikon

Page 38: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Eksempelgrammatikk 3

• says

• serves

3825. mars 2017

‐COMP2Forhindrer verb som tar 2 argumenter her

‐COMP2Forhindrer at disse verbene tar flere enn to argumenter

Page 39: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Så langt, grammatikk 3

• Færre og mer generelle regler• Mer informasjon i leksikon• Et verb velger sine argumenter

39

Page 40: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

I NLTK

• NLTK boka drøfter denne type løsninger (seksj. 9.3), men implementerer dem ikke.

• Denne løsningen kan implementeres i NLTKs fcfgmed samme trikk som for grammatikk 2:

40

X[CAT=VP,AGR=?x] ‐> X[CAT=V,AGR=?x,SC=[COMP1=?y,‐COMP2]]    X[CAT=?y] 

X[CAT=V, AGR=[NUM=sg,PERS=3rd],SC=[COMP1=NP,‐COMP2]] ‐> 'serves'

Page 41: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

X-bar (husker du?)• En frase har tre nivåer:

• Full frase, eks. NP (= N’’)• Ord, eks N• Midtnivå, eks. N’ (kalt ”Nominal” i J&M)

• Felles struktur for fraser av ulike kategorier: NP, VP, PP

• En del egenskaper er felles for NP og hodet N (og N’=Nom), f.eks. kasus

• En del egenskaper er delt mellom VP og V, f.eks. tempus

41

For generell form og mer informasjon, se 

Wikipedia

Bar V N PP Adj?

2 S: V’’ NP: N’’ PP: P’’

1 VP: V’ Nom: N’ PP: P’

0 V N P

Page 42: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

42

N’’=NP

N’=NOM

N’=NOM

N’=NOM

N’=NOM

N

A’’=AP

A’’=AP

P’’=PP

P’’=PP

DET

An

old

boring

professor of German

from Sweden

Page 43: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikk 4 basert på X-bar• Vi representerer det som er felles mellom N, Nom og NP i et trekk «head»

• Tilsvarende for S, VP og V, og for P og PP, osv. • Hva med forskjellen mellom NP (=N’’), Nom (=N’), N (ordet)?• Flere muligheter. En av dem er å bruke et trekk for dette BAR:

43

Page 44: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Head-complement rule+Lexicon

• serves

• with

4425. mars 2017

En regel for verb som tar ettkomplementuavhengig av komplementets kategori

Samme regel virker for PP  P  NP

Resten i leksikon

Page 45: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Head complement-rules

4525. mars 2017

En regel for hvert mulig antall (0, 1, 2) av argumenteruavhengig av kategori

Resten i leksikon

Page 46: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Specifier rules

• hamburger

4625. mars 2017

Den første regelen vil både dekkeS  NP VPNP  DET  NOM

Page 47: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Eksempel

47

with a hamburger

Page 48: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Leksikalsk regel

48

with a hamburger

Page 49: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Head-complement-0-regel

49

with a hamburger

Page 50: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Resultat

50

with a hamburger

Page 51: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Leksikalsk regel (?)

51

with a hamburger

Page 52: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Head-specifier-regel-1

52

with a hamburger

Page 53: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Resultat

53

with a hamburger

Page 54: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Leksikalsk regel

54

with a hamburger

Page 55: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

HC-1-regel

55

with a hamburger

Page 56: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Resultat

56

with a hamburger

Page 57: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikk 4 i NLTKs fcfg-formalisme• Kan vi uttrykke grammatikk 4 i NLTKs fcfg‐formalisme (med trikket for kategorier)?

• Noe går, men regler hvor strukturer både er delt og (delvis) instansiert er ikke mulig å uttrykke i fcfg‐grammatikker, f.eks.

5725. mars 2017

Page 58: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Vurdering av grammatikk 4

• Denne uttrykker langt på vei en generell X-bar grammatikk

• Noen fenomener er problematiske:• Skal enhver SPEC være BAR2, f.eks. er dette

naturlige for DET?• Er alle argumenter fulle fraser (BAR2), f.eks.

• Kari prøvde [å synge] (er dette en V’?)• Det er ikke bare kategorien til argumentet som avgjør

om det kan være komplement• F.eks. form Kari hørte [Ola synge]. (+INF)

5825. mars 2017

Page 59: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikk 4b• Grammatikk 4 er gjort enkel – dels for å få plass til strukturene

• serves

• serves

5925. mars 2017

Vi kunne like gjerne brukt dette formatet

I stedet for dette dette formatet

Page 60: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikk 4b

• og tilsvarende for de andre reglene

6025. mars 2017

Sammen med denne regelen

I stedet for dette denne regelen

Page 61: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Så langt

• Grammatikk 4b vil beskrive akkurat det samme som grammatikk 4

• Men med dette formatet ser vi muligheten for at hodet kan stille flere krav til sine komplementer og SPEC., f.eks. at den må ha en spesiell form

• Vi kan legge inn mere i f.eks. COMP1

61

Page 62: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

62

Frasetyper. Kan være argum

enter. Ulik 

subkategoriseringav verb. 

(J&M, fig 15.3)

Page 63: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

I dag• (Fra sist Trekkstrukturer og unifikasjon

• (J&M, seksj 15.1, J&M, seksj. 15.2)• Trekkstrukturer i NLTK

• NLTK-boka seksj. 9.2• Trekkbaserte grammatikker (=Unifikasjonsgrammatikker)

• Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3• Subkategorisering:

a. Enkel løsning, grammatikk 1 og 2b. Valg på kategori, grammatikk 3 og 4c. Valg på hel struktur, grammatikk 5

• Forhold til grammatiske modeller• Implementasjon og parsing

63

Page 64: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikk 5

• Hovedide: Hodet kan spesifisere hele strukturen til sine komplementer og til specifier – ikke bare kategorien

• Spesielt kan hodet spesifisere • «Bar-nivået» på argumentene• Formen til argumentene f.eks. finit/infinite

• Grammatikkformalismen må tillate variable over hele strukturer

64

Page 65: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

65

house

Head‐specifier regel

Head‐complement regel‐0

Eksempel på leksikalsk oppslag, eller egentlig:‐Leksikalsk oppslag +‐Leksikalsk regel som gir entallsform

Page 66: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

66

Head‐complement‐regler

Page 67: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

67

sleeps

Page 68: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

68

gives

Page 69: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

69

gives

Page 70: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

70

persuades

Page 71: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikk 5 i NLTKs fcfg?

• NLTK tillater ikke variable over hele strukturer.• F.eks. kunne vi ønsket å skrive• X[HEAD=?y, VAL=[BAR=1, SPEC=?z]]  

X[HEAD=?y, VAL=[BAR=0, SPEC=?z, COMP1=?u, COMP2=False]] ?ufor

71

Page 72: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikk 5 i NLTKs fcfg?

• Vi kan ikke skrive grammatikk 5 direkte i NLTK selv med vårt trikk

• Vi kan ta noen av ideene og gjøre litt mer ut av subkat enn i grammatikk 3/4

72

Page 73: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikk 5 i likningsformatet

• I prinsippet er dette mulig• J&M, seksj. 15.3.3 skisserer tre suksessive

løsninger til subkat som svarer omtrent til våre• Grammatikk1/2• Grammatikk 3/4• Grammatikk 5

• Men gjør noen litt rare ting

73

Page 74: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Grammatikk 5 i likningsformatet

• F.eks burde

• Heller vært

• Hvis argumentets CAT er bestemt av <VP subcat> skal den ikke også i regel

• SUBCAT kan ikke være et HEAD-trekk fordi det ikke er delt mellom mor og datter

74

X

X

Page 75: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

I dag• (Fra sist Trekkstrukturer og unifikasjon

• (J&M, seksj 15.1, J&M, seksj. 15.2)• Trekkstrukturer i NLTK

• NLTK-boka seksj. 9.2• Trekkbaserte grammatikker (=Unifikasjonsgrammatikker)

• Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3• Subkategorisering:

a. Enkel løsning, grammatikk 1 og 2b. Valg på kategori, grammatikk 3 og 4c. Valg på hel struktur, grammatikk 5

• Forhold til grammatiske modeller• Implementasjon og parsing

75

Page 76: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Unifikasjonbaserte/trekkstrukturbasertegrammatiske teorier

• Flere ”moderne” grammatiske teorier/modeller/rammeverk

• Bruker: trekk («features») og unifikasjon• Leksikaliserte:

• Mye informasjon i leksikon• Få frasestrukturregler.

• Inklusive• Generalized Phrase Structure Grammar (GPSG)• Head‐Driven Phrase Structure Grammar (HPSG)• Lexical‐Functional Grammar (LFG)

76

Page 77: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Hvert rammeverk består av

1. Grunnleggende unifikasjonsformalisme2. Utvidelser og begrensninger i forhold til denne 

formalismen3. Prinsipper som gjelder for alle menneskespråk4. Språkspesifikke regler og leksika

• ( (2) og (3) er ofte nøstet i hverandre og vanskelige å skille.)

77

Page 78: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

HPSG og oss

• HPSG endrer og utvider det vi har gjort:• Lister for subkategorisering av komplementer

• Bruk av typer og arv

78

Page 79: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Lister (HPSG)

• HPSG bruker lister i VAL(ency) trekket• BAR2 tilsv. tom SPEC-liste og tom COMPS-liste• BAR1 tilsv. tom COMPS-liste

79We HPSG

persuades

Page 80: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Fotnote

• Vi har i HPSG skilt argumentene mellom• SUBCAT som en liste av komplementer• SPEC, specifier, f.eks. subjekts-NP til et verb

• Begge lærebøkene har også eksempler med SUBCAT-lister:

• NLTK har en liste av CAT-navn (tilsv. grammatikk 3/4)• J&M har en liste av strukturer (tilsv. grammatikk 5)

• Begge legger også specifier (subjekts NP) (først) på SUBCAT-lista og har ikke SPEC-trekk

• Tilsvarer en tidlig variant av HPSG

80

Page 81: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

I dag• (Fra sist Trekkstrukturer og unifikasjon

• (J&M, seksj 15.1, J&M, seksj. 15.2)• Trekkstrukturer i NLTK

• NLTK-boka seksj. 9.2• Trekkbaserte grammatikker (=Unifikasjonsgrammatikker)

• Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3• Subkategorisering:

a. Enkel løsning, grammatikk 1 og 2b. Valg på kategori, grammatikk 3 og 4c. Valg på hel struktur, grammatikk 5

• Forhold til grammatiske modeller• Implementasjon og parsing

81

Page 82: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Implementasjon av unifikasjon

• Du må kunne:• Gitt to trekkstrukturer f1 og f2:

• Avgjøre om de er unifiserbare• Hvis de er unifiserbare, konstruere en struktur f3 som er

resultatet av å unifisere de to.

• J&M seksj 15.4 er ikke pensum:• Trenger ikke å kunne konstruksjonen med ekstra

pekere

82

Page 83: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Parsing med trekkgrammatikker

• Vi har sett hvordan vi kan bygge trær med trekkstrukturer for setninger ut i fra en trekkgrammatikk

• Dette kan kombineres med alle parsingalgoritmene vi har sett for CFG:

• Parsingalgoritmen holder rede på rekkefølgen vi bygger treet

• Det er en komplikasjon når vi skal bygge flere trær

• Enten det er ved baktrackking: RD, SR• Eller ved tabell: CKY, Chart

83

Page 84: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Eksempel

• S  NP[AGR=?x] VP[AGR=?x] • NP[AGR=?x]  Det[AGR=?x] Nom[AGR=?x]• Nom[AGR=?x]  N[AGR=?x]• Nom[AGR=?x]  N[AGR=?x] Nom[AGR=?x]• Det  ‘the’• N[AGR=sg]  hamburger• N[AGR=pl]  resturants

84

Page 85: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Eksempel fortsatt

85

restaurantshamburgerthe restaurantshamburgerthe

N[NUM=sg]

Nom[NUM=sg]

NP[NUM=sg]

Det[NUM=sg] Det[NUM=pl] N[NUM=sg] N[NUM=pl]

Nom[NUM=pl]

Nom[NUM=pl]

NP[NUM=pl]

N[NUM=pl]

Den ene analysen gjør the til sg, den andre gjør den til pl

Page 86: INF2820 Datalingvistikk – V2017 · Sammenlikning av formatene 1. Trekkstrukturer i reglene • Utvid ikke‐terminaler med partielle trekkstrukturer • Variable i trekkstrukturene

Løsning

• En backtrack-parser må kunne omgjøre unifikasjoner som ikke fører frem, her at the’sNUM er sg.

• En tabellparser (CKY eller Chart) som vil lage begge alternativ må kopiere strukturer før de unifiseres

• Være klar over problemet og prinsippet for løsninger

• Ikke se på detaljer, • J&M, seksj 15.5 ikke pensum.

8625. mars 2017