Complexity in grammarKritik des algorithmischen Komplexitätsbegri�s
Timm Lichte
HHU Düsseldorf
WS 2015/2016, 04.11.2015
SFB 991
Letzte Sitzung: formale Komplexitätsbegri�e
Was verursacht Komplexität?Größe (von Alphabet/Wort/Grammatik)Entropie (eines Wortes)⇒ informatische Komplexität
Beschreibungsaufwand (für Alphabet/Wort/Sprache/Grammatik)⇒ Beschreibungskomplexität
Mächtigkeit (einer Sprache/Grammatik)⇒ relative extensionale Komplexität
Berechnungsaufwand (des Wortproblems einer Sprache)⇒ algorithmische Komplexität
Lichte (HHU) 2
Letzte Sitzung: algorithmische × extensionale Komplexität
HPSG, TG, TM af (n) semi-entscheidbar
LFG, LBA a2n, W n
NPPanbncn. . . , W k
TAG, EPDA anbmcndm, WW O (n6)
CFG, PDA anbmcmdn, WW R O (n3)
FSA anbmckd l O (n)
type 3: regular
type 2: context-free
type 1: context-sensitive
type 0: recursively enumerable
mildly context-sensitivealso nur schwachkontextsensitiveGrammatikformalis-men???
Lichte (HHU) 3
Zwei kritische Stimmen
Berwick, Robert C. & Amy S. Weinberg. 1984. The Grammatical Basisof Linguistic Performance: Language Use and Acquisition. Cambridge,MA: MIT Press.
Verteidigung der Transformationsgrammatik/GB-Theorie
⇒ Grammatikgröße hat einen wesentlichen Einfluss!
Pollard, Carl. 1996. The nature of constraint grammar. Paperpresented at the 11th Pacific Conference of Language, Informationand Computation (PACLIC).
Verteidigung der HPSG
⇒ Natürliche Sprache ist womöglich semi-entscheidbar!
⇒ Theorien sollte sich aller Mi�el bedienen dürfen!
Lichte (HHU) 4
Berwick & Weinberg (1984): Aufbau
Kap. 1 “Computational and linguistic theory”Grundbegri�e: TM, Komplexität, TG, GB
Kap. 2 “Grammars and models of language use”Competenz vs. Performanz, Derivational Theory of Complexity
Kap. 3 “Generative power and linguistic theories”Grammatikgröße, e�izientes Parsen, asymptotische Komplexität
Kap. 4 “Transformational Grammar: A formal analysis”Kritik an Lexical-Functional Grammar (LFG)
Kap. 5 “Parsing and Government-Binding Theory”Marcus Parser
Kap. 6 “Language acquisition and Transformational Grammar: Amodern view”
Lichte (HHU) 5
Berwick & Weinberg (1984): Kapitel 1
Chomsky-Hierarchie versus algorithmische Komplexitätsklassen:
What is the relationship between the Chomsky language classesand time complexity classes? As it turns out, there is no cleanone-to-one correspondence between them. This lack of fit is aproblem for anyone who would like to argue on the basis of a timecomplexity result that one or another Chomsky language class ismore “natural” than another; (S.9)
Context-sensitive languages take linear space for their recogni-tion by definition and at worst exponential time. But some strictlycontext-sensitive languages, languages that are not context-free,are recognizable in real time; for example, the “triple counting” lan-guage anbncn is so recognizable. (S.10)
Lichte (HHU) 6
Berwick & Weinberg (1984): Kapitel 1
Erkennung versus Parsing:
Yet another stumbling block is the di�erence between just recog-nizing a language and parsing it. Recognizing a language is easier.All the TM has to do is accept or reject sentences. Parsing isat least this hard. Not only does the machine have to say whetheror not a sentence is in a given language, but also it must write downa representation of how that sentence was derived with respectto some fixed grammar. [. . . ] Parsing, then, is grammar relative;recognition is not. (S.10)
But are such languages always parsable in real time, given a gram-mar? The answer is no. (S.10)
Beispiel: ca+ (d |e)CFG: S → cX , S → cY , X → aX , X → aD,
Y → aY , Y → aE , E → e, D → dLichte (HHU) 7
Berwick & Weinberg (1984): Kapitel 3
Vorteile von “e�icient recognizability”:
psychological plausability; grammar can be transparently em-bedded
learnability of a language
Aber: Sprachen der Transformationsgrammatik können semi-entscheidbarsein.
Ziel: Rehabilitation von TG
Lichte (HHU) 8
Exkurs: Transformationsgrammatik
Chomsky (1957; 1965)
CFG Lexikon
Deep Structure “kernel sentences”
Conceptual StructureTransformationen
Surface Structure
Phonological Structure
Lichte (HHU) 9
Exkurs: Transformationsgrammatik
Chomsky (1957; 1965)
“kernel sentences”
S
NP
Peter
VP
V
loves
NP
Susan
=⇒
S
NP
Susan
VP
AUX
is
V
loved
PP
P
by
NP
Peter
NP1 V NP2 → NP2 AUX V by NP1
Komplexitätstheoretisch sehr problematisch: Das Wortproblemfür TG ist unentscheidbar (Peters & Ritchie 1973).
Lichte (HHU) 10
Berwick & Weinberg (1984): Kapitel 3
Rehabilitation von TG: Strategien
Transformationen entfernen: GPSG (Gazdar 1981), LFG (Ka-plan & Bresnan 1982)
Transformationen einschränken: Extended Standard Theory(decidable), GB
Zeigen, dass natürliche Sprache ine�izient/semi-entscheidbarist (Hintikka 1974; Chomsky 1980)
Konkurrenten schwächen: GPSG/CFG & LFGalgorithmische Komplexität kritisieren
Lichte (HHU) 11
BW84: Kapitel 3 – Konkurrenten schwächen
Gazdar’s argument (S.87)
(1) People parse sentences rapidly.
(2) The sentences of any context-free language can be parsedrapidly.
(3) Gazdar’s phrase-structure grammars generate only context-free languages.
(4) Not all languages generated by transformational grammarscan be parsed rapidly.
Conclusion: The theory of transformational grammar can-not provide an explanation of how people parse sentences; incontrast, a theory that can weakly generate only context-freelanguages can provide such an explanation.
“But is this line of argument valid? We believe not.”
NL , CFL ⊂ P
Lichte (HHU) 12
BW84: Kapitel 3 – algorithmische Komplexität kritisieren
We shall see that biologically relevant parsing e�iciency need not beprimarily determined by general, mathematically defined measuresof e�iciency. Therefore, although mathematical e�iciency measuresmay apply in an abstract, formal sense to rank context-free phrasestructure grammars as “be�er” than transformational grammars,this ranking may be relevant only in formal theory, not in bio-logical practice. (S.88)
“biological practice” = Parsen von konkreten Sätzen mit konkretenGrammatiken
⇒ Verhalten bei realistischen Satzlängen (“relevant rangeproblem”)
⇒ Rolle der Grammatikgröße (“implementation problem”)
Lichte (HHU) 13
BW84: Kapitel 3 – nochmal die Chomsky-Hierarchie
Was ist “e�icient parsability”? (S.89–93)
kubisch / O (n3)
PTIME
“real time”
⇒ PTIME und “real time” entsprechen keinem Chomsky-Typ!
Lichte (HHU) 14
BW84: Kapitel 3 – nochmal die Chomsky-Hierarchie
HPSG, TG, TM af (n)
LFG, LBA a2n, W (#W )k
anbncn. . .W k
TAG, EPDAanbmcndm,W#WWW
CFG, PDAanbmcmdn,W#W RWW R
FSA anbmckd l
type 3: regular
type 2: context-free
type 1: context-sensitive
mildly context-sensitive
type 0: recursively enumerable
deterministicreal-timedefinable(Rosenberg 1967)
Lichte (HHU) 15
BW84: Kapitel 3 – algorithmische Komplexität kritisieren
“asymptotic complexity”kn2 versus k ′n3: Je größer n, desto unwichtiger k und k ′.
limn→∞
kn2 < k ′n3
k und k ′ representieren “implementation details”, von denenabstrahiert wird.Frage: Ist das auch “biologically relevant”?
In contrast cognitive measures must focus on what range of inputsentence lengths are actually encountered in biological practice, forthe “constant” values in front of the functional forms are proxies forthe mental representations that parsing algorithms presumably areto use.
“relevant range problem”⇒ realistischer Bereich für n“implementation problem”⇒ Einfluss von k und k ′ in diesemBereich
Lichte (HHU) 16
BW84: Kapitel 3 – algorithmische Komplexität kritisieren
“relevant range” bei n3 versus 2n
0 2 4 6 8 10 12
0
1,000
2,000
3,000
4,000
n3
2n
n
Lichte (HHU) 17
BW84: Kapitel 3 – algorithmische Komplexität kritisieren
“relevant range” bei n6 versus 2n
0 5 10 15 20 25 30
0
0.2
0.4
0.6
0.8
1
·109
n6
2n
n
Lichte (HHU) 18
BW84: Kapitel 3 – algorithmische Komplexität kritisieren
“implementation” = Grammatikgröße
Beispiel für den Einfluss der Grammatikgröße
Komplexität des Early-Algorithmus:[5] k |G |2n3
Sei |G | = 500 und n = 20:
5002
203 ≈301
5002 ≈ 632
Lichte (HHU) 19
BW84: Kapitel 3 – algorithmische Komplexität kritisieren
Einfluss der “implementation” bei n3 versus 2n
0 2 4 6 8 10 12 14 16
0
2
4
6
·105
100 · n3
10 · 2n
n
Nota bene:|G | kann sich erheblich(z.B. exponentiell) un-terscheiden!
Lichte (HHU) 20
Berwick & Weinberg (1984): Zusammenfassung
Die Chomsky-Hierarchie hat keinen passenden Typ für natür-liche Sprache.
Asymptotische algorithmische Komplexität ist zu abstrakt.
Tatsächliche algorithmische Komplexität kann bei mächtigerenGrammatiken geringer sein.
⇒ Mächtige Grammatikformalismen sind unsere Freunde!
Lichte (HHU) 21
Pollard (1996)
Ist die Mächtigkeit/Komplexität eines Grammatikformalismuswirklich so wichtig?
Pollard (1996)
If physicists required the formalism to constrain the theory
Editor: Professor Einstein, I’m afraid we can’t accept thismanuscript of yours on general relativity.
Einstein: Why? Are the equations wrong?
Editor: No, but we noticed that your di�erential equations areexpressed in the first-order language of set theory. This isa totally unconstrained formalism! Why, you could havewri�en down ANY set of di�erential equations!
⇒ Der Formalismus ist nicht Teil der Theorie! Deshalb sollte manden Formalismus so mächtig/bequem wir möglich machen.(Bei Pollard: HPSG)
Lichte (HHU) 22
Pollard (1996)
Sollte man die Mächtigkeit berücksichtigen? Zwei Standpunkte:
Nein! HPSG/Pollard (1996): Der Formalismus ist nicht Teil der Theo-rie! Deshalb sollte man den Formalismus so mächtig/bequemwir möglich machen.
Ja! TAG: Der Formalismus ist Teil der Theory, deshalb soll er sokomfortabel wie möglich und so mächtig wie nötig sein!
Geschmacksfrage? Letztendlich ja!
Richard Feynman 1964 (The Character of Physical Law) (LINK)
Suppose you have two theories A and B, which look completely di�erentpsychologically with di�erent ideas in them. But all the consequences thatare computed are exactly the same. Suppose we have two such theories,how are we gonna decide which one is right: no way, not by science!
However, for psychological reasons, in order to guess new theories, thesetwo theories are very far from equivalent. Therefore we must keep all thetheories in our head.
Lichte (HHU) 23
[1] Berwick, Robert C. & Amy S. Weinberg. 1984. The grammatical basis of linguisticperformance: Language use and acquisition. Cambridge, MA: MIT Press.
[2] Chomsky, Noam. 1957. Syntactic structures. Den Haag: Mouton.[3] Chomsky, Noam. 1965. Aspects of the theory of syntax. Cambridge, MA: The MIT Press.[4] Chomsky, Noam. 1980. Rules and representations. Oxford, UK: Basil Blackwell.[5] Earley, Jay. 1970. An e�icient context-free parsing algorithm. Commun. ACM 13(2).
94–102. http://doi.acm.org/10.1145/362007.362035.[6] Gazdar, Gerald. 1981. Unbounded dependencies and coordinated structure. Linguistic
Inquiry 12. 155–182.[7] Hintikka, Jaakko. 1974. Quantifiers vs. quantification theory. Linguistic Inquiry 5(2).
153–177. http://www.jstor.org/stable/4177815.[8] Kaplan, Ron M. & Joan Bresnan. 1982. Lexical-functional grammar: A formal system for
grammatical representation. In Joan Bresnan (ed.), The mental representation ofgrammatical relations, 173–281. Cambridge, MA: MIT Press.
[9] Peters, Stanley P. & Robert W. Ritchie. 1973. On the generative power oftransformational grammar. Information Sciences 6. 49–83.
[10] Pollard, Carl. 1996. The nature of constraint grammar. Paper presented at the 11thPacific Conference of Language, Information and Computation (PACLIC).
[11] Rosenberg, Arnold L. 1967. Real-time definable languages. Journal of the Association forComputing Machinery 14(4). 645–662.