Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Mathematik A (Analysis)1
Christian Groh
27. August 2008
1Universitat Mannheim, HWS 2008/2009. Dr. Christian Groh, L7, 3-5, Zi. 4.04,
Inhaltsverzeichnis
1 Einleitung 11
2 Funktionen von zwei Variablen 15
2.1 Vokabular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Darstellung: Graphen und Isohohenlinien . . . . . . . . . . . . . . . . . . . 18
2.3 Hohenlinien: Berechnen und Zeichnen . . . . . . . . . . . . . . . . . . . . . 20
3 Partielle Ableitungen, Totales Differential und die Kettenregel 23
3.1 Partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Das Totale Differential . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Die Kettenregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Die Steigung von Hohenlinien 35
5 Aussagenlogik 43
6 Konkave und konvexe Funktionen 45
6.1 Eine Variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.2 Zwei Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3
7 Multivariate Optimierung 51
7.1 Notwendige Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.2 Hinreichende Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.3 Konkave und konvexe Funktionen . . . . . . . . . . . . . . . . . . . . . . . 54
7.4 Extrema am Rande . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8 Optimierung mit Nebenbedingung 59
8.1 Einsetzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.2 Tangentialverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.3 Der allgemeine Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
8.4 Einsetzverfahren vs. Tangentialverfahren und weitere Beispiele . . . . . . . 70
8.5 Die Methode nach Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8.6 Interpretation des Lagrangemultiplikators . . . . . . . . . . . . . . . . . . . 76
8.7 Hinreichende Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8.8 Randextrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
9 Der Extremwertsatz 83
9.1 Extrema bei Funktionen einer Variablen . . . . . . . . . . . . . . . . . . . 83
9.2 Der Extremwertsatz bei Funktionen von zwei Variablen . . . . . . . . . . . 88
10 Komparative Statik und der Implizite Funktionen Satz 91
10.1 Erinnerung: der Satz uber implizite Funktionen . . . . . . . . . . . . . . . 92
10.2 Funktionen einer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
10.3 Mehrere Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4
11 Integration 103
11.1 Einfuhrung und Erinnerung . . . . . . . . . . . . . . . . . . . . . . . . . . 103
11.2 Partielle Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
11.3 Doppelintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5
Zur Philosophie dieser Vorlesung
und dieses Skriptes
Mathematik fur Wirtschaftswissenschaftler muss sich - an irgendeiner Stelle - mit Opti-
mierungsproblemen beschaftigen. Schließlich ist Optimieren das grundlegende Verhalten
einer Okonomie.
Mochte man nun eine Vorlesung Analysis fur Wirtschaftswissenschaftler halten und ein
Skript dazu schreiben, versucht man sich an der Kombination zweier Extreme. Zum einen
gibt es die Analysis, wie sie an einer Mathematikfakultat gehalten wurde. Hier wurde man
mit formaler Logik, Mengenlehre, Abbildungen, Grenzwerten und Stetigkeit beginnen
und dann zur Differenzierbarkeit gelangen - Optimierungsprobleme sind normalerweise
nicht Bestandteil einer Einfuhrungsvorlesung in Analysis in der Mathematik. Zum andern
konnte man sich an einer reinen Kochrezeptveranstaltung orientieren, in der nur noch
Optimierungsprobleme gerechnet werden, ohne zu wissen, was man da eigentlich tut. Hier
habe ich versucht, den Mittelweg zu finden, der folgenden Nebenbedingungen Rechnung
tragt:
• geringes Zeitbudget: die Vorlesung ist lediglich zweistundig und das 12 oder 13
Wochen lang.
• die Anforderungen in den Folgeveranstaltungen, fur die diese Vorlesung die Voraus-
setzungen schaffen soll.
• die Vorkenntnisse der Studierenden, die diese Veranstaltung im ersten Semester
besuchen.
Aus all dem leiten sich folgende Aspekte ab:
1. Die Vorlesung folgt nicht der Vorgehensweise einer klassischen Analysisvorlesung.
7
Es macht z.B. keinen Sinn, eine ε−δ-Definition von Stetigkeit zu bringen, wenn man
hinterher mit dieser Definition nichts mehr macht und Stetigkeit auch im weiteren
Studium keine besonders große Rolle mehr spielt. Ahnliches gilt fur viele andere
Bestandteile einer klassischen Analysisvorlesung: eine ubermassige Betonung von
Folgen, Reihen, Grenzwerten etc. wurde nur auf Kosten der Optimierung gehen und
von den meisten Studierenden aber nie mehr benotigt werden. Es macht auch keinen
großen Sinn, all diese Konzept allzu unvollstandig oder oberflachlich zu behandeln.
Also kommen sie erst gar nicht vor.
2. Ausgehend von dem Problem der Wirtschaftswissenschaften, der Optimierung unter
Nebenbedingungen, arbeitet die Vorlesung zielgerichtet darauf hin. Das zweite große
Thema sind lineare Approximationen durch Differentiale; auch diese werden uns
standig begegnen, wenn auch weniger plakativ und offensichtlich. All dies bedeutet,
dass die zu erlernende Mathematik immer im situativen Kontext zu sehen ist. Davon
ausgehend leiten sich auch dann auch die einzelnen Themen ab: Funktionen von zwei
Variablen, partielle Ableitungen, Hohenlinien, Totales Differential etc.
3. Das knappe Zeitbudget zwingt dann dazu, andere Dinge komplett wegzulassen. Dazu
gehort insbesondere alles, was an Schulmathematik bekannt sein musste: Funktionen
einer Variablen, Ableitungen, Graphen und auch die Grundlagen der Intergralrech-
nung. Wir beginnen also sofort mit Funktionen von mehreren Variablen. Das mag
zu Beginn nicht ganz einfach sein. Aber im Prinzip machen wir hier so etwas wie
Klasse 14 in der Schule: das, was wir schon uber Funktionen einer Variablen wissen,
ubertragen wir nun auf mehrere (zwei...) Variablen.
4. Auch die Reihenfolge der Themen macht deutlich, dass die Optimierung im Vorder-
grund steht: zuerst kommt alles, was wir fur die Losung von Optimierungsproble-
men brauchen. Hier steht auch mehr das Rechnen im Vordergrund. Danach kommen
Themen, die mathematisch durchaus etwas anspruchsvoller sind: zunachst behan-
deln wir den Extremwertsatz (hier braucht man dann doch wieder einen zumindest
intuitiven Begriff der Stetigkeit und muss wissen was offene bzw. kompakte Men-
gen sind). Danach geht es eventuell noch um diverse Werkzeuge der komparativen
Statik (Envelopetheoreme), die auch nicht mehr ganz so elementar sind. Unterwegs
wird uns immer wieder der Satz uber Implizite Funktionen begleiten; auch dieser
ist nicht so ganz einfach.
5. Viele Themen, die sehr sinnvoll waren, konnen nicht behandelt werden. Das gilt
insbesondere fur die Volkswirte: diese benotigen - je nach Spezialisierung - erheblich
mehr Mathematik, als diese Vorlesung abdecken kann. Diese Mathematik muss man
sich entweder im Selbststudium aneignen, an die Mathematikfakultat gehen oder
8
versuchen, eine eigene Veranstaltung Mathematik fur Volkswirte zu organisieren.
Eine solche Veranstaltung musste dann allerdings etwas spater im Studium kommen
und sollte am besten in Verknupfung mit der jeweiligen Anwendung stehen: z.B.
allgemeine Gleichgewichtstheorie oder Spieltheorie. Dort muss man sich schon recht
intensiv mit Stetigkeit, Grenzwerten, Topologie und Fixpunktsatzen beschaftigen.
Auch die Integration, die man insbesondere in der Statistik benotigt, konnen wir
hier nicht wirklich besprechen.
9
Kapitel 1
Einleitung
Das Hauptziel dieser Veranstaltung wird sein, dass wir Probleme folgender Art untersu-
chen konnen.
Peter interessiert sich nur fur Apfel und Birnen. Dabei geht es ihm umso besser je mehr
Apfel bzw. Birnen er konsumiert. Apfel kosten 1 Euro und Birnen 2 Euro. Leider besitzt
Peter nur 10 Euro, die er nur fur den Konsum von Apfeln und Birnen ausgibt. Das ist ein
typisches Problem, wie es in der Veranstaltungen der Mikrookonomie im Grundstudium
vorkommt. Das Problem erscheint etwas konstruiert und unrealistisch; das ist es auch. Es
sollte aber recht schnell klar werden, dass es sich hier nur um ein Beispiel handelt. Statt
Apfel und Birnen konnte man auch uber die optimale Gestaltung eines Aktienportfolios
nachdenken und naturlich interessiert man sich in der Regel nicht nur fur zwei Objekte,
sondern fur mehrere. Man nennt sowas ein Optimierungsproblem unter Nebenbe-
dingungen. Optimierung, weil irgendetwas, hier Peters Wohlergehen moglichst optimal,
also moglichst groß werden soll. Nebenbedingung, weil nicht alles erlaubt ist: Peter unter-
liegt einer Geldbeschrankung und Apfel und Birnen sind nun mal leider nicht umsonst.
Die mathematische Darstellung sieht so aus: Sei x die Menge an Apfeln und y die Menge
an Birnen. Das Wohlergehen von Peter wird durch eine Funktion f(x, y) beschrieben.
Das bedeutet: jeder Kombination von x Apfeln und y Birnen wird eine Zahl f(x, y)
zugeordnet, die aussagt, wie gut es Peter mit x Apfeln und y Birnen geht. Diese Zahl
ist der Funktionswert. Der Funktionswert steigt in x und y: je mehr Apfel oder Birnen
Peter isst, desto großer ist sein Wohlergehen. Fur die Funktion f konnte man sich z.B.
f(x, y) = x+y vorstellen. Das sieht recht einfach und plausibel aus. Und vielleicht wissen
ja auch einige von Ihnen schon, wie man mit solchen Optimierungsproblemen umgeht.
Man konnte sich aber auch f(x, y) = x1/2 ·y5/2 vorstellen. Das sieht dann nicht mehr ganz
11
so einfach aus. Und wir wollen naturlich fur alle moglichen Falle gewappnet sein....
Aus der Schule kennen Sie sicher auch noch Funktionen, die irgendwie so aussahen: f(x) =
x2 oder f(x) = (x − 3)(x + 4). Im Unterschied zu unserem Beispiel hier hingen diese
Funktionen nur von einer Variablen x ab. Die Funktion, die Peters Wohlergehen mißt,
hangt von zwei Variablen x und y ab.
Peter mochte also sein Wohlergehen maximieren, muss aber die Preise und sein Budget
berucksichtigen. Mathematisch schreibt man das so:
maxx,y
f(x, y)
unter der Nebenbedingung:
1x + 2y = 10 x, y ≥ 0.
Die Nebenbedingung besagt, dass die Mengen der konsumierten Guter, multipliziert mit
den jeweiligen Preisen, das Budget nicht ubersteigen durfen. Die Funktion f heisst bei
solchen Problemen ubrigens Zielfunktion.
Wir wollen also den Hochpunkt (kunftig: das Maximum) von f finden, aber unter einer
Nebenbedingung. Genauer gesagt geht es uns um die Extremstellen von f , denn wir wollen
ja wissen, welche Mengen an Apfeln und Birnen Peter optimalerweise konsumiert. Dabei
darf Peter aber insgesamt nur soviel Apfel und Birnen essen, wie es uns die Nebenbedin-
gung erlaubt. Die zweite Bedingung, x, y ≥ 0, ist einfach okonomisch sinnvoll: Apfel und
Birnen kann man nur in nichtnegativen Mengen konsumieren.
Es sollte Ihnen noch bekannt sein, dass man Extremstellen findet, indem man die erste
Ableitung Null setzt. Das ist zumindest eine notwendige Bedingung fur das Vorhandensein
eines Maximums oder Minimums. Nun haben wir hier aber eben nicht nur eine Variable,
sondern zwei. Dennoch werden wir auch hier ganz ahnlich vorgehen: wir werden also
lernen, wie wir Funktionen mit mehreren Variablen ableiten, was nicht wirklich schwer
ist. Wir werden lernen, wie man solche Funktionen grafisch darstellt und schließlich, wie
wir die Nebenbedingung berucksichtigen.
Aus der Schule kennen einige von Ihnen Aufgaben solchen Typy unter der Uberschrift
Extremwertaufgaben. Haufig besteht das Problem darin, einen recht kompliziert ge-
schriebenen Aufgabentext in eine Zielfunktion und eine Nebenbedingung umzuschreiben.
Dann kann man die Nebenbedingung auflosen und in die Zielfunktion einsetzen. Dann hat
man nur noch eine Variable in der Zielfunktion und kann von dieser die Maximumstel-
le bestimmen. Wir werden dieses Losungsverfahren wiedersehen, werden uns aber auch
12
Gedanken daruber machen mussen, was denn zu tun ist, wenn wir die Zielfunktion nicht
explizit nach einer der Variablen auflosen konnen.
Der Beginn...
Wir werden am Anfang damit beginnen, ein paar Werkzeuge einzufuhren. Dazu braucht
man etwas Geduld, da ja am Anfang nicht so ganz klar ist, wofur man denn all diese
Werkzeuge braucht. Wir werden diese Werkzeuge nicht in aller mathematischer Genauig-
keit besprechen, sondern es wird meist darum gehen, was man mit diesen Werkzeugen so
machen kann. Und dann kommt naturlich auch der Moment, wo man alles zusammenbaut.
Und spatestens dann sollte man die einzelnen Werkzeuge gut beherrschen.
13
Kapitel 2
Funktionen von zwei Variablen
2.1 Vokabular
Wir beginnen mit einer nicht sehr formalen Erinnerung, was unter einer Funktion einer
Variablen zu verstehen ist.
Im folgenden bezeichne R die Menge der reellen Zahlen. Gehort x zur Menge der reellen
Zahlen, schreiben wir x ∈ R. Wir wollen hier nicht die ganzen schonen Eigenschaften
der reellen Zahlen wiederholen oder ansprechen. Wir wollen uns fur den weiteren Verlauf
allerdings merken, dass sie insbesondere “keine Lucke“ enthalten, dass ich zwischen zwei
reellen Zahlen immer noch eine weitere finden kann. Also zwischen 0.9999 und 1 werde
ich immer noch eine (genau genommen: unendlich viele) reelle Zahlen finden. Die ubliche
grafische Darstellung von R ist die aus der Schule bekannte die Zahlengerade. Die Menge
R ist also die Menge aller Zahlen auf der Zahlengeraden.
Es sei auch noch einmal kurz an die anderen Zahlenmengen erinnert: N ist die Menge der
naturlichen Zahlen, also {1, 2, 3, ...}, Z die Menge der ganzen Zahlen und Q die Menge
der rationalen Zahlen. Auch bei den ganzen und rationalen Zahlen gehe ich davon aus,
dass Sie eine Vorstellung davon haben, worum es sich dabei handelt. Die Vereinigung der
rationalen und der irrational Zahlen bildet eben die Menge der reellen Zahlen.
Sei D eine Menge. Eine Funktion f einer Variablen x ist eine Vorschrift, die jedem
Element aus D genau ein Element aus R, also eine reelle Zahl, zuordnet. Man schreibt
f : D → R. Wir nennen D den Definitionsbereich. Was ist hier dieser Definitionsbereich
D? Meist ist D eine Teilmenge von R, den reellen Zahlen. Dabei kann es sich z.B. um die
Menge N der naturlichen Zahlen handeln. Die Menge D schreibt man meist als Intervall,
15
z.B. D = [1, 2]. Das bedeutet: alle reellen Zahlen zwischen 1 und 2, wobei die 1 und die
2 dazugehoren. So etwas nennt man ein geschlossenes Intervall. Gehort die 1 dazu, die 2
aber nicht, schreibt man D = [1, 2) und nennt das ein halboffenes (oder halbgeschlossenes
Intervall). Und das offene Intervall? Bitte schon: D = (1, 2).
Man kann aber auch vollig andere Definitionsbereiche haben, wie eines der folgenden
Beispiele zeigt. Die Menge “hinter dem Pfeil“ nennen wir Wertebereich.
Beispiele 2.1. (i) Man definiere f : R→ R durch f(x) = x2. Das ist eine “ordentliche“
Funktion: jedem x wird genau eine relle Zahl zugeordnet.
(ii) Diese Vorschrift ist keine Funktion: f : R → R mit f(x) =√
x. Warum? Nun, der
Wertebereich ist R, also darf ich alle Zahlen aus R nehmen. also z.B. -4. Die Wurzel ist
aber fur negative reelle Zahlen nicht definiert.
(iii) Sei N die Menge der naturlichen Zahlen. Dann ist f : N → N mit f(n) = n2
keine
Funktion. Warum? Das erkennen Sie nun sicher selbst.
(iv) Sei D = {VfB Stuttgart, Schalke 04,...,MSV Duisburg} und
f : D → {1, 2, ..., 18}
Diese Funktion ordnet jeder Mannschaft der ersten Fussballbundesliga eine der naturlichen
Zahlen von 1 bis 18 zu. Die Funktion soll dabei so aussehen: die Mannschaft mit den
meisten Punkten bekommt die 1, die mit den zweitmeisten Punkten die 2 usw. Gibt es
Gleichstand bei den Punkten, zahlt die bessere Tordifferenz usw.
Das Resultat dieser Funktion ist naturlich die wochentliche Tabelle der Fussball-Bundesliga.
Was sollte man nun unbedingt zu Funktionen einer Variablen bereits konnen?
Nun, Sie sollten wissen, was das ist. Dann sollten Sie solche Funktionen ableiten konnen.
Sie sollten die Kettenregel, die Produktregel und die Quotientenregel beherrschen. Sie
sollten wissen, wie man Extremstellen solcher Funktionen per Hand (!) (also nicht mit
dem GTR1 oder mit einem Matheprogramm) bestimmen kann.
Auch bei Funktionen von zwei Variablen x und y ordnen wir jedem Element aus der
Menge eines Definitionsbereichs D genau eine reelle Zahl zu. Nur sieht hier der Definiti-
onsbereich D anders aus. Da wir nun zwei Variablen haben, wahlen wir unsere Argumente
(meistens) aus R2. Dazu spater mehr, wir kommen zunachst einmal zur folgenden
1Graphikfahiger Taschenrechner
16
Definition 2.1 (Funktion von zwei Variablen). Eine Funktion f von zwei Variablen
x und y ist eine Vorschrift, die jedem Punkt (x, y) ∈ D eine Zahl f(x, y) ∈ R zuordnet.
Wir schreiben
f : D → R, (x, y) 7→ f(x, y).
Man nennt: f die Funktionsvorschrift, D den Definitionsbereich, R den Wertebereich,
(x, y) die Argumente und f(x, y) den Funktionswert von f am Punkt (x, y).
Man bezeichnet x und y manchmal auch als unabhangige oder exogene Variablen und
bezeichnet z = f(x, y) als die abhangige oder endogene Variable.
Nun ein paar Worte zum Definitionsbereich. Bei uns wird D meist eine Teilmenge des R2
sein, wir betrachten also oft folgenden Funktionstyp:
f : R2 → R.
Der Raum R2 wird durch eine Ebene veranschaulicht, wir haben also einen Freiheitsgrad
mehr als bei unserer Zahlengeraden. Man sagt auch: wir haben eine eine Dimension mehr.
Jeder Punkt des Definitionsbereichs R2 wird durch zwei geordnete Zahlen dargestellt.
“Geordnet“deshalb, weil der Punkt (1,2) ein anderer ist als der Punkt (2,1). Ein Punkt
im R2 wird auch als V ektor oder 2 − V ektor bezeichnet. Die Menge aller moglichen
2 − V ektoren bildet dann den R2. In okonomischen Anwendungen bewegen wir uns oft
im Raum R2+: das sind alle nichtnegativen Punkte des R2. Oft werden wir den Definiti-
onsbereich nicht explizit hinschreiben, entweder, weil aufgrund der Anwendung ohnehin
klar ist, was der Definitionsbereich ist, oder weil aufgrund der Funktionsvorschrift klar ist,
dass nicht der ganze R2 als Definitionsbereich herhalten kann. Ist x ∈ [a, b] und y ∈ [c, d]
mit a, b, c, d ∈ R, schreiben wir oft auch D = [a, b]× [c, d].
Nun ein paar Beispiele fur ordentliche Funktionen von zwei Variablen.
Beispiele 2.2. (i) f(x, y) = xy mit D = R2.,
(ii) f(x, y) = ln(x) + y2 mit D = R2+.
(iii) f(x, y) =√
x + y4 mit D = R2+.
Es sollte Ihnen klar sein, dass die Funktionsvorschrift nicht immer f heißen muss und
dass auch die Variablen nicht immer mit x und y bezeichnet sein mussen. Noch zwei
Hinweise zum Beispiel von eben: in dieser Vorlesung wird “ln“ immer die Notation fur
den naturlichen Logarithmus sein und wir schreiben oft xy fur x · y.
17
Um den Funktionswert an einer bestimmten Stelle (x0, y0) zu berechnen, setzt man den
Punkt (x0, y0) einfach in die Funktionsvorschrift ein.
Beispiele 2.3. (i) Sei f(x, y) = 2x + x2y3 mit D = R2+. Dann ergibt sich f(1, 3) =
2 + 1 · 27 = 29 und f(3, 1) = 2 · 3 + 9 · 1 = 15.
(ii) Sei f(x, y) = xy +√
x mit D = R2+. Dann ist f(2, 12) = 24 + 2
√3 und f(12, 2) =
24 +√
2.
(iii) Sei f(x, y) = 3x − x2 + 4y − y2 − 12xy und sei a ∈ R. Dann ist f(a, a + 1) =
3a−a2 +4(a+1)− (a+1)2− 12(a(a+1)) = −5
2a2 + 9
2a+3. Man berechne zur Ubung
f(a + 1, a) einmal selbst!
(iv) Sei f(x, y) = xa · yb mit a, b ∈ R. Dann ist f(4, 5) = 4a · 5b und f(5, 4) = 5a · 4b.
(v) Sei f(x, y) = exy. Dann ist f(0, 4) = e0·4 = e4·0 = 1 = f(4, 0).
Naturlich konnen wir uber mehr als zwei Variablen reden: eine Funktion f von n Va-
riablen x1, ...xn mit Definitionsbereich D ordnet jedem Punkt (x1, .., xn) ∈ Rn eine Zahl
f(x1, ..., nx) ∈ R zu. Wir schreiben: f : Rn → R, (x1, ..., xn) 7→ f(x1, ...xn)
2.2 Darstellung: Graphen und Isohohenlinien
Sie werden sich sicher alle noch an die Graphen von Funktionen einer Variablen erinnern:
jedem Argument auf der x-Achse wurde ein Element auf der y− Achse zugeordnet. Fur
diese Darstellung benotigen wir die Ebene und wir haben zwei Richtungen, in die wir
gehen konnen: die x−Richtung und, fur den Funktionswert, die y−Richtung. Man kann
auch sagen: wir haben zwei Freiheitsgrade, in die wir uns bewegen konnen und die Zahl der
Freiheitsgrade nennt man auch Dimension. Die Graphen von Funktionen zweier Variablen
kann man nicht so einfach zeichnen, wir bekommen ja sozusagen einen Freiheitsgrad oder
eben eine Dimension dazu: wir haben zwei Argumente, x und y und einen Funktionswert
z = f(x, y), macht insgesamt drei. Man kann also Graphen von Funktionen mit zwei
Variablen nur im 3-dimensionalen Raum darstellen. Die grafische Darstellung des Raumes
R3 nennt man auch Anschauungsraum; ein Begriff, den Sie sich aber nicht merken mussen.
Definition 2.2 (Graph). Sei f : R2 → R eine Funktion. Der Graph von f ist die Menge
aller Punkte (x, y, z = f(x, y)) im Raum R3, die man erhalt, wenn man x und y durch
alle moglichen Werte ihres Definitionsbereichs laufen lasst.
18
(Figur 1)
In Figur 1 haben wir einen solchen Graphen. Wie wir sehen, benotigen wir drei Dimensio-
nen, x, y und z, um ihn zeichnen zu konnen. Um die Punkte auf der Flache zu bekommen,
nimmt man immer einen x−Wert, einen y−Wert, setzt diese in die Funktionsvorschrift ein
und erhalt den Funktionswert z = f(x, y). Also ganz wie in den Beispielen 2.3 von oben.
Fuhrt man die Berechnungen genauso fur alle moglichen Argumente durch und tragt man
das Ergebnis jeweils auf der dritten Achse sein, erhalt man den Graphen.
Graphen lassen sich im allgemeinen nur von Computerprogrammen gut zeichnen. Bes-
ser zeichnen - zumindest bei zwei Variablen - lasst sich eine solche Funktion, wenn wir
nur ihre Isohohenlinien betrachten. (Iso: griech.: gleich.) Die Isohohenlinien sind ein
ziemlich wichtiges Konzept, wir werden viel mit ihnen arbeiten. Außerdem hat man das
Gefuhl, dass einige VWL-Veranstaltungen eigentlich nur aus Isohohenlinien bestehen.
Worum geht es? Bei Isohohenlinien handelt es sich um all die (x, y)− Werte, die jeweils
den gleichen (daher der Name) Funktionswert f(x, y) = c ergeben. Wir werden auch
oft sagen: es handelt sich um all die (x, y)−Werte, die dasselbe Niveau f(x, y) = c erge-
ben. Da es sich um bei einer Hohenlinie nur um die (x, y)−Werte handelt, konnen wir
eine Hohenlinie schon in der zweidimensionalen Ebene darstellen und konnen auf kom-
plexe dreidimensionale Graphen verzichten. Der Trick ist also, auf eine Dimension zu
verzichten und nur die Hohenlinien in der Ebene zu betrachten. Wir konnen daher ein
einfaches (x, y)−Koordinatensystem verwenden, um die Isohohenlinien darin zu zeichnen.
Isohohenlinien stellen also eine Projektion des dreidimensionalen Graphen von f auf die
zweidimensionale (x, y)-Ebene dar. Im folgenden werden wir uns meist das “Iso“ sparen
und nur von Hohenlinien sprechen.
Auf einer Wetterkarte heißen die Isohohenlinien Isobaren und stellen Orte mit gleichem
Luftdruck dar. In der Mikrookonomie, einem Gebiet der Volkswirtschaftslehre, heißen
sie Indifferenzkurven und stellen Orte mit den Guterbundeln dar, die denselben Nutzen
stiften.
(Figuren 2 und 3)
Die Figuren 2 und 2 zeigen solche Hohenlinien zusammen mit den entsprechenden Funk-
tionen. Naturlich mussen Hohenlinien nicht immer “dunne“Linien sein, man kann ja auch
ganze Flachen mit der gleichen Hohe haben. Bei uns wird es sich aber eigentlich immer
um “dunne“ Linien handeln.
Nun folgt nochmals eine Definition einer Isohohenlinie in Worten. Doch zuvor noch kurz
19
eine Bezeichnung. Sei M eine beliebige Menge. Dann wird die Menge aller x aus M , die
die Eigenschaft e besitzen, so bezeichnet:
{x ∈ M : x hat die Eigenschaft e}.
Definition 2.3 (Isohohenlinien). Sei f eine Funktion von x und y. Dann heißt
{(x, y) ∈ R2 : f(x, y) = c}
Isohohenlinie von f zu f(x, y) = c.
Wenn Ihnen diese etwas formale Definition nicht gefallt, konnen Sie es sich auch so merken:
Eine Isohohenlinie ist der geometrische Ort aller (x, y)−Kombinationen, die denselben
Funktionswert c ergeben.
Entlang einer Hohenlinie gilt also f(x, y) = c. Fur einen anderen Funktionswert, z.B. den
Funktionswert d wurde dann f(x, y) = d gelten und eine Hohenlinie bestunde aus allen
(x, y)− Kombinationen, bzw. aus allen Punkten (x, y), die den Funktionswert f(x, y) = d
ergeben. Wie kann man sich die Konstruktion einer Hohenlinie vorstellen? Man nimmt,
fur f(x, y) = c, alle Punkte (x, y) die exakt c ergeben und projiziert sie auf die xy−Ebene. Etwas konkreter und anschaulicher kann man vorgehen, wenn wir die Gleichung
fur unsere Hohenlinie explizit ausrechnen konnen. Darum geht es im nachsten Schritt.
2.3 Hohenlinien: Berechnen und Zeichnen
Entlang einer Hohenlinie gilt f(x, y) = c. Wenn man diese Gleichung nach y losen kann,
erhalt man y explizit als eine Funktion von x. Leider wird das nicht immer moglich sein,
aber in einer großen Zahl von Fallen geht es eben doch. Die Funktion, die wir erhalten
ist eine Gleichung fur unsere gesuchte Hohenlinie. Da wir dann eine Funktion mit y als
Funktionswert und x als Argument bzw. als Variable haben, konnen wir mit ihr (fast)
alles anstellen, was wir aus der Schule (noch) uber Funktionen einer Variablen wissen.
Insbesondere konnen wir diese Funktion zeichnen und ableiten (und damit ihre Steigung
bestimmen). Wir erinnern wir uns namlich daran, dass die Ableitung einer Funktion einer
Variablen x an einer Stelle x0 naherungsweise die Steigung der Funktion an dieser Stelle
misst. Spater in der Vorlesung werden wir sehr an Steigungen von Hohenlinien interessiert
sein.
Beispiele 2.4. (i) Sei f(x, y) = xy. Wir wollen eine Gleichung fur die Hohenlinie
bestimmen, die die Funktion f(x, y) = xy fur den Funktionswert c = 10 darstellt.
20
Wir losen also die Gleichung
xy = 10
nach y und bekommen
y = 10/x
fur alle x 6= 0 als Gleichung fur die gesuchte Hohenlinie. Suchten wir eine Hohenlinie
zum Niveau c = 35, hatten wir y = 35/x fur alle x 6= 0.
(ii) Sei f(x, y) = ex+y und c = 1. Wir bestimmen die Gleichung fur die Hohenlinie, wir
losen also
ex+y = 1
nach y. Wir bekommen, durch Logarithmieren,
y = −x
als gesuchte Gleichung.
(iii) Sei f(x, y) = x2 + y2 mit x, y ≥ 0. Wir suchen eine Gleichung fur alle Niveaus
c > 0, losen also
x2 + y2 = c
nach y. Hier bekommt man
y =√
c− x2
und es sollte x ≤ √c gelten.
(iv) Sei f(x, y) = exy2−2x−4y. Hier wird es Ihnen schwer fallen, die Gleichung f(x, y) =
c explizit nach y aufzulosen.
Hat man die Gleichung einer Hohenlinie explizit berechnet, kann man sie dann auch
zeichnen; schließlich haben wir ja dann immer recht einfache Funktionen, in denen y von
x abhangt.
Zwei letzte Bemerkungen noch: das Auflosen nach y ist hier lediglich als eine Art “Kon-
vention“ zu verstehen. Man kann die Gleichung f(x, y) = c naturlich auch nach x auflosen.
Und naturlich haben wir auch noch nicht geklart, was denn passiert, wenn wir einen Fall
wie in (iv) in den letzten Beispielen haben: hier kann man nicht explizit nach y (oder x)
auflosen. Wir werden spater einen weiteren Trick kennen lernen, um auch in diesem Fall
einiges uber die entsprechenden Hohenlinien aussagen zu konnen.
21
Kapitel 3
Partielle Ableitungen, Totales
Differential und die Kettenregel
3.1 Partielle Ableitungen
Fur eine Funktion f einer Variablen x misst die Ableitung f ′(x) die Anderungsrate, also
um wieviel sich f(x) (ungefahr) andert, wenn x sich andert. Man sollte sich nochmals
klar machen, warum die Ableitung nur die ungefahre Anderung misst. Dafur allerdings
ist sie hervorragend geeignet. Im folgenden nehmen wir außerdem immer an, dass wir
alles auch ableiten durfen, was wir ableiten wollen. Das mag etwas mysthisch klingen,
aber leider kann man Ableitungen nicht immer bilden. Eine wichtige Voraussetzung ist,
dass die Funktion stetig ist, also keine Sprungstellen aufweist. Wir werden spater auf
diesen Punkt zuruckkommen und verhalten uns momentan so, als gabe es damit keine
weiteren Probleme.
Zur Notation: wir kennen die Schreibweise f ′(x) fur die Ableitung einer Funktion f mit
einer Variablen x. Wir werden manchmal auch statt f ′(x) die Notation
df(x)
dx
verwenden. Diese Bruchschreibweise hat zwei Interpretationen:
1. Die erste Interpretation ist eigentlich gar keine richtige Interpretation. Die Bruch-
schreibweise ist dann also nur eine andere Schreibweise fur die Ableitung.
2. Wir konnen aber die Schreibweise df/dx auch wie einen echten Quotienten inter-
pretieren. Das bedeutet dann, dass wir hier df im Verhaltnis zu dx betrachten. Das
23
d wiederum steht dann fur Differenz bzw. Anderung. Dann bedeutet df/dx nichts
weiter als
Anderung im Funktionswert
Anderung im Argument.
Hier ist also eine Schreibweise, die zwei Anderungen ins Verhaltnis setzt. Wir werden
sehen, dass diese Interpretation ganz praktisch sein kann.
Sei also z.B. f(x, y) = ln(x3) · y + 2y2. Wir wollen wissen, wie sich f andert, wenn ich x
oder y andere. Der Trick ist nun folgender: ich weiß ja, wie ich Funktionen einer Variablen
ableiten muss. Also betrachte ich die Variable (z.B. y), die mich nicht interessiert, als
Konstante und bilde die Ableitungen nach der Variablen, die mich interessiert. Betrachte
ich y als Konstante und leite nach x ab, bekomme ich
df(x, y)
dx=
1
x33x2 · y + 0 =
3y
x.
Und ebenso erhalt man
df(x, y)
dy= ln(x3) + 4y.
Da wir nur einen Teil der Variablen betrachten und die andere Variable konstant halten,
nennt man die Ableitungen bei Funktionen mehrerer Variablen partielle Ableitungen.
Man schreibt fur solche Ableitungen ∂ anstatt d (um zu verdeutlichen, dass wir nach
einer Variablen ableiten).
Definition 3.1 (Partielle Ableitung). Sei f eine Funktion von zwei Variablen x und
y. Dann bezeichne
∂f(x0, y0)
∂x
die partielle Ableitung von f nach x am Punkt (x0, y0). Die partielle Ableitung sagt uns,
wie sich f andert, wenn sich x “ein bisschen“ andert.
Fur die partiellen Ableitungen selbst gelten die Rechenregeln fur Ableitungen bei Funk-
tionen mit einer Variablen: Kettenregel, Produktregel, Quotientenregel etc. Spatestens
zu diesem Zeitpunkt sollten Sie auch wieder richtig fit in diesen Regeln sein; es ist klar,
dass Funktionen von zwei Variablen schon etwas komplexer sein konnen als Funktionen
einer Variablen. Wenn man dann schon mit den Ableitungsregeln bei Funktionen einer
Variablen Probleme hat, wird es schnell ziemlich unangenehm.
24
Man nennt die Liste der partiellen Ableitungen an einer Stelle (x, y) auch den Gradienten
von f an der Stelle (x, y). Der Gradient wird durch das Symbol ∇ bezeichnet:
∇f(x, y) =
(∂f(x,y)
∂x∂f(x,y)
∂y
)
Der Gradient ist ubrigens keine Zahl oder so etwas, sondern ein Vektor.
Manchmal findet man fur die partiellen Ableitungen auch die Notation
f ′1(x, y) oder fx(x, y)
und
f ′2(x, y) oder fy(x, y).
Es folgen weitere Beispiele fur partielle Ableitungen.
Beispiele 3.1. (i) Die Cobb-Douglas-Funktion:
f(x, y) = xαyβ.
fur positive Parameter α, β. Dann lauten die partiellen Ableitungen
∂f(x, y)
∂x= αxα−1yβ
∂f(x, y)
∂y= βxαyβ−1
Die Cobb-Douglas-Funktion hat ihren Namen von ihren Entdeckern Cobb und Douglas.
Diese stellten fest, dass sich die Produktion in bestimmten Industrien ziemlich gut durch
eine solche Funktion beschreiben lasst. Die Variablen x und y sind dann Inputs, z.B. Ar-
beitsstunden und Maschinenstunden, der Funktionswert f(x, y) gibt den damit erzielten
Output wieder. Im Original hat die Cobb-Douglas-Funktion allerdings noch einige Varia-
blen mehr....Sie wird in der Mikrookonomie sehr, sehr oft verwendet.
(ii) Sei f(x, y) = exyx + x2. Dann ist
∂f(x, y)
∂x= exy + xexyy + 2x
Sie haben sicher gemerkt, dass hier die Produktregel zum Einsatz kam. Wie lautet die
partielle Ableitung nach y?
25
(iii) Sei f(x, y) = 3x− x2 + 4y − y2 − 12xy
Dann sind
∂f(x, y)
∂x= 3− 2x− 1
2y
und
∂f(x, y)
∂y= 4− 2y − 1
2x.
(iv) Sei f(x, y) = ln(x + yx2)− 4x.
Dann haben wir
∂f(x, y)
∂x=
1
x + yx2· (1 + 2xy)− 4.
Hier benotigen wir die Kettenregel. Wir bilden zunachst die aussere Ableitung der ln-
Funktion. Das Ergebnis, 1/(x + yx2), multiplizieren wir dann mit der inneren partiellen
Ableitung nach x, das ist 1 + 2xy. Der Rest ist klar.
(iv) Sei f(x, y) = g(x + yx2) − 4x, wobei g eine weitere Funktion von x und y, genauer
von x + yx2, ist.
Dann haben wir
∂f(x, y)
∂x= g′(x + yx2) · (1 + 2xy)− 4.
Auch hier benotigen wir die Kettenregel. Wir bilden zunachst die aussere Ableitung der
Funktion g. Da wir uber die Funktion g sonst nichts weiter wissen, ist hier die Ableitung
einfach g′. Das wird dann wieder mit der inneren Ableitung multipliziert.
Wie bei Funktionen einer Variablen haben wir auch hier eine graphische Interpretation:
die partielle Ableitung fx(x, y) entspricht der Steigung der Tangenten an einem Punkt
der Kurve, die man bekommt, wenn man y festhalt und nur noch die x−Werte variiert.
Man bekommt also das graphische Analog zur Rechnung: eine Variable wird festgehalten
und dadurch ist man wieder in der Welt der Funktionen einer Variablen.
(Figur 4)
Partielle Ableitungen als Approximationen
Wozu sind partielle Ableitungen gut? Nun, man kann, wie bei Funktionen einer Variablen,
Abschatzungen von Anderungen vornehmen. Betrachten wir eine Funktion z = f(x, y) an
26
einem beliebigen, aber festen Punkt (x, y) und sei ∆ das Symbol fur eine tatsachliche
Anderung, also z.B. andert sich x um ∆ = 3.8. Dann gilt zweifellos
∆z = f(x + ∆x, y)− f(x, y).
Denn hier steht: Anderung im Funktionswert=Funktionswert ausgewertet an der neuen
Stelle minus Funktionswert an der alten Stelle.
Die Idee ist nun, die exakte Anderung auf der rechten Seite dieser Gleichung durch die
partielle Ableitung zu ersetzen, also
f(x + ∆x, y)− f(x, y) ≈ ∂f(x, y)
∂x∆x. (3.1)
Hier bedeutet ≈, dass es sich um eine gute Annaherung handelt. Denn eine Ableitung gibt
ja nicht die exakte Anderung wieder, sondern ist nur eine sehr, sehr gute Annaherung.
Die “Gleichung“ (3.1) besagt somit letztlich, dass die Anderung im Funktionswert sich
ergibt aus der Anderung in x, ∆x, multipliziert mit dem Effekt, den diese Anderung auf
den Funktionswert hat (das ist die partielle Ableitung ∂f(x,y)∂x
).
Wir sind mit dieser Annaherung auch schon sehr zufrieden, also ersetzen wir das ≈ durch
das viel angenehmere = und schreiben
∆z =∂f(x, y)
∂x∆x
Wenn wir mit solchen Approximationen arbeiten, werden wir statt ∆z die Notation dz
schreiben. Wir ersetzen also die tatsachliche Anderung ∆z durch die approximative Ande-
rung dz und verwenden auch auf der rechten Seite die Notation dx. Das ergibt dann:
dz = df(x, y) =∂f(x, y)
∂xdx (3.2)
oder eben
f(x + dx, y) = f(x, y) +∂f(x, y)
∂xdx (3.3)
Der Ausdruck in Gleichung (3.3) bedeutet also naherungsweise: Neuer Funktionswert
= alter Funktionswert + Anderung in x mal dem Effekt, den diese Anderung auf den
Funktionswert hat.
Der Ausdruck
∂f(x, y)
∂xdx
hat einen besondere Namen und wir kommen zu nachsten
27
Definition 3.2 (Differential). Der Ausdruck
∂f(x0, y0)
∂xdx
heißt Differential am Punkt (x0, y0).
Wie gut ist die Approximation mittels eines Differentials?
Beispiele 3.2. Sei f(x, y) = 4x2 + 5y. Wir starten an der Stelle (10,10). Dort haben
wir f(10, 10) = 450. Nun wollen wir wissen, wie sich der Funktionswert andert, wenn
sich x um 0.5 andert, also ∆x = 0.5. Ohne Differential haben wir f(10.5, 10) = 491, also
∆f = 41. Diese Zahl bekommt man durch Einsetzen von x = 10.5 und y = 10 in die
Funktionsvorschrift.
Mit dem Differential ergibt sich
df(10, 10) =∂f(10, 10)
∂x· dx = 8 · 10 · 0.5 = 40,
da wir x an der Stelle 10 betrachten. Unsere nahrungsweise Anderung, df = 40, liegt also
ziemlich nahe an der tatsachlichen Anderung, ∆f = 41. Man kann sich davon uberzeugen,
dass die Naherung umso besser wird, je kleiner man die Anderungsschritte wahlt.
Ableitungen hoherer Ordnungen
Eine partielle Ableitung ist im Allgemeinen wieder eine Funktion von zwei Variablen.
Dann konnen wir aber z.B. fx(x, y) wiederum nach x oder y ableiten. Ebenso konnen wir
fy(x, y) wiederum nach x oder y ableiten. Wir erhalten somit vier zweite Ableitungen.
Auch hierfur gibt es wieder eine Notation. Zum Beispiel schreibt man meist fur die zweite
Ableitung, die man erhalt, wenn man f zweimal nach x ableiten
∂2f(x, y)
∂x2.
Die Hochzahlen sind hier nicht wortlich zu nehmen, sie bedeuten hier lediglich, dass es sich
um die zweite Ableitung handelt, wobei zweimal nach x abgeleitet wird. Wir verwenden
meist eine andere Schreibweise fur diese zweite Ableitung und schreiben fxx(x, y). Das
bedeutet: wir leiten zweimal nach dem ersten Argument, x, ab.
Fur die zweite Ableitung, die man erhalt, wenn man erst nach x und dann nach y ableitet,
schreibt man
∂2f(x, y)
∂x∂y.
28
Hier ware die andere Schreibweise fxy(x, y). Diese zweite Ableitung nennt man auch oft
die Kreuzableitung.
Haufig fasst man die zweiten Ableitungen in einer Matrix zusammen und nennt diese die
Hesse Matrix Hf(x, y).
Definition 3.3 (Hesse-Matrix). Wir nennen
Hf(x, y) =
(∂2f(x,y)
∂x2
∂2f(x,y)∂x∂y
∂2f(x,y)∂y∂x
∂2f(x,y)∂y2
)
die Hesse Matrix von f an der Stelle (x, y). Manchmal schreiben wie auch einfach nur H
fur die Hesse-Matrix.
In unserer anderen Schreibweise ware das
H =
(fxx(x, y) fxy(x, y)
fyx(x, y) fyy(x, y)
).
Beispiele 3.3. (i) Sei f(x, y) = 3x− x2 + 4y − y2 − 12xy. Die ersten Ableitungen sind
∂f(x, y)
∂x= 3− 2x− 1
2y
und
∂f(x, y)
∂y= 4− 2y − 1
2x.
Um die Hesse Matrix der zweiten Ableitungen zu bilden, leiten wir also jede dieser parti-
ellen ersten Ableitungen nochmals partiell nach x und y ab und erhalten
H =
(−2 −1
2
−12−2
).
(ii) Sei f(x, y) = xay fur a > 0. Dann ist die Hesse-Matrix gegeben durch
H =
(a(a− 1)xa−2y axa−1
axa−1 0
).
Der aufmerksame Betrachter (und naturlich auch die aufmerksame Betrachterin) dieser
Beispiele stellt folgendes fest: die Matrix der zweiten Ableitungen ist symmetrisch in dem
Sinne, daß die Elemente der Matrix neben der Hauptdiagonalen gleich sind. Mit anderen
Worten: es scheint zu gelten, dass
∂2f(x, y)
∂x∂y=
∂2f(x, y)
∂y∂x.
29
Die Kreuzableitungen scheinen also gleich zu sein, das bedeutet insbesondere, dass ich
beim Rechnen nur drei zweite Ableitungen bilden muss. Die Frage ist nun naturlich:
wie allgemein ist diese Beobachtung? Die Antwort ist sehr ermutigend, wie die folgende
Behauptung zeigt
Satz 3.1 (Vertauschungssatz). Fur fast alle Funktionen f(x, y) gilt
∂2f(x, y)
∂x∂y=
∂2f(x, y)
∂y∂x.
fur alle (x, y) ∈ D.
Das war also die erste, richtige Behauptung in dieser Vorlesung. Man nennt solche Be-
hauptungen auch Satz oder auch Proposition. Mathematisch exakt formulierte Behaup-
tungen sehen allerdings etwas anders aus als die obige. Sie enthalten so gut wie immer
irgendwelche Voraussetzungen oder Bedingungen unter denen die Behauptung gilt. Dazu
kommt noch das Argument, warum die Behauptung gilt. Das ist dann der Beweis der
Behauptung.
Im obigen Satz ware insbesondere zu prazisieren, was “fast alle“ bedeutet. Fur uns be-
deutet es einfach: bei allen Funktionen, die wir in dieser Vorlesung (und naturlich auch
in der Klausur...) sehen werden, gilt diese Behauptung.
Wir werden hier einige Behauptungen uns Satze etwas praziser formulieren, andere weni-
ger. Bei einigen Behauptungen wird auch wichtig sein, dass Sie auch wirklich das Argu-
ment (den Beweis) verstanden haben, warum die Behauptung gilt. Bei anderen Behaup-
tungen - und dazu gehort der Vertauschungssatz - genugt es, das Ergebnis anwenden zu
konnen.
3.2 Das Totale Differential
Mit der partiellen Ableitung konnen wir die Frage beantworten: wie andert sich der Funk-
tionswert, wenn sich x oder y ein kleines bisschen andern?
Nun stellen wir folgende Frage: wie andert sich der Funktionswert von f , wenn wir x und
y andern? Wir kennen ja schon den Begriff des Differentials. Das war der Ausdruck
∂f(x, y)
∂xdx
Damit konnen wir ja Anderungen naherungsweise bestimmen, also
df(x, y) =∂f(x, y)
∂xdx.
30
Das Totale Differential ist nun einfach eine Erweiterung des Differentials. Wir werden
sehen, dass die naherungsweise Anderung bei einer Funktion von zwei Variablen die Sum-
me der beiden partiellen Ableitungen ist, multipliziert mit der jeweiligen Anderung. Ich
werde das Totale Differential definieren, dann gibt es ein Beispiel und dann folgt noch
eine Erklarung, warum wir eine Summe von partiellen Ableitungen betrachten. Das ist ja
nicht so klar, man konnte ja auch das Produkt betrachten.
Definition 3.4 (Totales Differential). Das Totale Differential (manchmal auch nur:
Differential) von f am Punkt (x0, y0) lautet
df(x0, y0) =∂f(x0, y0)
∂xdx +
∂f(x0, y0)
∂ydy.
Die Anderung in f ergibt sich daher aus der Summe der Differentiale: einmal haben wir
die Anderung in x (also dx) mal dem Effekt, den diese Anderung hat (also die partielle
Ableitung nach x). Dazu addieren wir die Anderung in y (also dy) mal dem Effekt, den
diese Anderung hat (also die partielle Ableitung nach y). Außerdem ist zu beachten, dass
wir diese ganze Operation an einem bestimmten Punkt (x0, y0) durchfuhren.
Beispiele 3.4. Sei f(x, y) = 4x2 + 5y. Wir starten an der Stelle (10,10). Dort haben wir
f(10, 10) = 450. Nun wollen wir wissen, wie sich der Funktionswert andert, wenn sich x
und y um 0.5 andern, also ∆x = ∆y = 0.5. Ohne Differential haben wir f(10.5, 10.5) =
493.5, also ∆f = 43.5.
Das Totale Differential:
df(10, 10) =∂f(10, 10)
∂x· dx +
∂f(10, 10)
∂y· dy = 8 · 10 · 0.5 + 5 · 0.5 = 42.5,
da wir x und y an der Stelle 10 betrachten. Unsere naherungsweise Anderung, df = 42.5,
liegt ziemlich nahe an der tatsachlichen Anderung, ∆f = 43.5. Man kann sich davon
uberzeugen, dass die Naherung umso besser wird, je kleiner man die Anderungsschritte
wahlt.
Warum nun betrachtet man die Summe der partiellen Ableitungen? Dieser Abschnitt wird
nun vielleicht etwas kompliziert, er braucht auch ein kleines bisschen Vektorrechnung und
Lineare Algebra. Aber das sollte zu schaffen sein.
Wir uberlegen uns zunachst, wie man sich das Totale Differential graphisch vorzustellen
hat. Bei einer Funktion einer Variablen sieht das doch so aus: die Ableitung entspricht der
Steigung der Tangenten an einer bestimmten Stelle der Funktion. Wir approximieren hier
also die wahre Steigung einer moglicherweise gekrummten Funktion durch die Steigung
31
einer Geraden. Bei Funktionen von zwei Variablen entspricht das Totale Differential der
Steigung einer Tangentialebene an einer bestimmten Stelle der Funktion. Die Ebene
kommt eben daher, dass wir bei Funktionen von zwei Variablen eine Dimension mehr
haben. Also approximieren wir nicht mehr mit einer Geraden, sondern mit einer Ebenen.
Und genau daher kommt die Summe in der Definition. Denn wenn wir eine Ebene im
Raum R3 darstellen wollen, lautet die Parameter-Form einer solchen Ebene
z = P + s · u + t · v.
Hierbei handelt es sich zweifellos um eine Summe. Dabei ist z ∈ R3 ein Punkt auf der
Ebene, P ist ein Punkt und u, v Vektoren in R3 und s, t ∈ R. Die Vektoren u und v sind
linear unabhangig, d.h. sie zeigen in verschiedene Richtungen. Alle Linearkombinationen
von u und v liegen auf unserer Ebene.
Zusatzlich betrachten wir das Totale Differential:
f(x0 + ∆x, y0 + ∆y) = f(x0, y0) +∂f
∂x(x0, y0)∆x +
∂f
∂y(x0, y0)∆y. (3.4)
Wie passen nun die Gleichung (3.4) und die obige Parameter-Form einer Ebene zusam-
men? Nun, wir konnen die Ebene parametrisieren durch
z = ((x0, y0, f(x0, y0)) + s(1, 0,∂f
∂x(x0, y0)) + t(0, 1,
∂f
∂x(x0, y0))
Das ergibt nach den Rechenregeln der Vektoraddition
z = (x0 + s, y0 + t, f(x0, y0) +∂f
∂x(x0, y0)s +
∂f
∂x(x0, y0)t)
Schreibt man nun ∆x fur s und ∆y fur t, sehen wir, dass die rechte Seite von (3.4) genau
der Parameter-Form einer Ebene entspricht und dass daher die Gleichung (3.4) der ana-
lytische Ausdruck fur die Tatsache ist, dass die Tangentialebene eine gute Approximation
des wahren Graphen der Funktion ist.
Es wird auch deutlich, wie die Richtungsvektoren unserer Ebene durch die partiellen
Ableitungen bestimmt werden: in der Tat zeigen ja Ableitungen ungefahr an, wie sich
ein Funktionswert andert, wenn ich an einer Variablen drehe. Hier habe ich sozusagen
zwei Moglichkeiten oder Richtungen, in die ich gehen kann: einmal in die x− Richtung
und einmal in die y −Richtung. Die Richtung wird mir durch die partiellen Ableitungen
angegeben.
Naturlich kann man eine Ebene im Raum R3 auch durch eine nicht-parametrisierte Glei-
chung darstellen. Hier arbeitet man nicht mit Linearkombinationen, sondern wendet die
Tatsache an, dass eine Ebene im R3 vollstandig bestimmt ist durch einen Punkt auf der
Ebene und die Steigungen der Ebene in die x− bzw. in die y−Richtung. Auch hier kann
man die Verbindung zum Totalen Differential gut aufzeigen.
32
3.3 Die Kettenregel
Wie lautete nochmal die Kettenregel bei Funktionen einer Variablen? Außere Ableitung
mal innere Ableitung! Ist x eine Funktion von t ∈ R und f eine Funktion von x, dann ist
df(x)
dt=
df(x(t))
dt= f ′(x(t))x′(t).
Nehmen wir nun an, dass z eine Funktion von x und y ist mit z = f(x, y). Ausserdem
hangen beide Variablen y und x von einer Variablen t ab. Wir haben also
z = f(x(t), y(t)).
Dann gilt die Kettenregel:
dz
dt= fx(x, y)
dx
dt+ fy(x, y)
dy
dt.
Auch hier gilt also jeweils: aussere Ableitung (die partielle Ableitung) mal innere Ablei-
tung (dx/dt bzw. dy/dt ).
Beispiele 3.5. Sei f(x, y) = Ax2 + By mit x = ln t und y =√
t fur A,B, t > 0. Wir
wollen dz/dt bestimmen. Mit Hilfe der Kettenregel bekommen wir
dz
dt= 2Ax · 1
t+ B · 1
2√
t.
Ersetzt man die Funktionen fur x bzw. y, bekommt man
dz
dt= 2A ln t · 1
t+ B · 1
2√
t.
Wurde man die Ausdrucke fur x und y direkt einsetzen, hatten wir die Funktion
f(t) = A(ln t)2 + B√
t.
Bilden wir nun df/dt, stellen wir fest, dass wir denselben Ausdruck wie oben erhalten,
denn wir haben
f ′(t) = 2A(ln t)1
t+
B
2√
t.
Die Kettenregel bietet uns also eine Abkurzung, da wir die Funktion fur x und y nicht
erst einsetzen mussen, um die Ableitung nach t zu bekommen.
33
Kapitel 4
Die Steigung von Hohenlinien
Sei f(x, y) = c. Unsere Fragestellung lautet nun: angenommen, y andert sich. Um wie
viel andert sich x, wenn ich dabei auf derselben Hohenlinie mit f(x, y) = c bleibe? Solche
Anderungen kennen wir ja bei Funktionen einer Variablen auch als Steigung einer Funk-
tion, daher wollen wir uns nun uberlegen, wie wir die Steigung einer Hohenlinie ermitteln
konnen.
Bevor es losgeht, hier noch ein Wort der Vorsicht: es geht nicht darum, wie sich der
Funktionswert andert. Es geht also nicht um die Steigung der Funktion selbst. Sowas
berechnet man mittels der partiellen Ableitung bzw. mittels des totalen Differentials. Es
geht vielmehr um die Frage: um wieviel andert sich y, wenn sich x ein kleines bisschen
andert und ich aber auf derselben Hohenlinie mit der Gleichung f(x, y) = c bleibe, ich
also den Funktionswert konstant halte?
Moglichkeit 1: Linie und Steigung explizit ausrechnen
Angenommen, wir konnen die Gleichung f(x, y) = c explizit nach y = y(c, x) losen.
Dann ist die Steigung der Hohenlinie an einem Punkt x durch
dy
dx= y′(x)
gegeben, wobei wir die Ableitung am Punkt c = f(x, y) auswerten mussen.
Die Auswertung am Punkt c = f(x, y) erfolgt, weil die Steigung unserer Funktion im xy−Raum gebildet wird und daher nicht von der dritten Dimension, also dem Funktionswert
c, abhangen sollte. Also mussen wir die explizite Auflosung sozusagen wieder ruckgangig
machen und fur y nach der Ableitung wieder substituieren.
35
Beispiele 4.1. Sei f(x, y) = xy mit xy = 10. Also haben wir
y = 10/x
als Gleichung fur die Hohenlinie. Die Steigung der Hohenlinie an einem Punkt x mit
f(x, y) = xy = 10 ist also durch
dy
dx= −y
x
gegeben. Warum ist das so? Die Ableitung ergibt
y′(x) = −10
x2
Nun setzen wir wieder 10 = yx ein und erhalten obigen Ausdruck. Ist x = 2, betragt die
Steigung −2.5 (y ist dann 5).
Obwohl es schon in der Einleitung dieses Kapitels steht, hier noch einige Bemerkungen zur
Interpretation: eine Ableitung misst im allgemeinen, wie sich der Funktionswert andert,
wenn ich am Argument der Funktion ein bisschen drehe. Genau dasselbe passiert hier:
die Steigung einer Hohenlinie misst, um wie viel sich y andern muss, wenn sich x um
ein kleines bisschen andert und ich nach wie vor auf derselben Hohenlinie bleiben will.
Auch hier - wie bei jeder Ableitung - sollte man sich vergegenwartigen, dass die Ableitung
nichts weiter ist als die Steigung der Tangenten an einem Punkt der Funktion. Daher kann
es durchaus sein, dass wir meistens die wahre Anderung unter- oder uberschatzen. Aber
dieser Schatzfehler ist so klein, dass wir ihn vernachlassigen konnen.
Moglichkeit 2: Totales Differential/Kettenregel
Wie aber soll man vorgehen, wenn wir keine explizite Gleichung haben, weil wir nicht
explizit nach y losen konnen und wir aber dennoch was uber die Steigung aussagen wollen?
Betrachten wir die Gleichung
f(x, y) = exy2 − 2x− 4y = −3.
Diese Gleichung einer Hohenlinie kann ich nicht explizit nach y losen. Aber eigentlich
interessieren wir und ja auch nun nicht so sehr fur die explizite Gleichung der Hohenlinie
als vielmehr fur eine Ableitung dy/dx.
Hier hilft uns das totale Differential
df(x, y) = fx(x, y)dx + fy(x, y)dy.
36
Warum? Das Argument ist eigentlich ziemlich einfach. Denn: entlang einer Hohenli-
nie gilt df = 0. Der Ausdruck df = 0 bedeutet namlich nichts anderes, als dass sich
der Funktionswert nicht andert. Aber genau das ist ja auf einer gegebenen Isohohenlinie
der Fall. Schließlich ist die Hohenlinie der geometrische Ort aller Punkte, die denselben
Funktionswert ergeben, so dass sich f nicht andert. Also haben wir, auf einer Hohenlinie,
df(x, y) = 0 = fx(x, y)dx + fy(x, y)dy
oder
dy
dx= −fx(x, y)
fy(x, y),
fur fy(x, y) 6= 0.
Wenden wir das auf unser erstes Beispiel dieses Abschnitts mit f(x, y) = xy an.
Wir haben
dy
dx= −fx(x, y)
fy(x, y)= −y
x,
was auch exakt unserer Losung von oben entspricht.
Fur das kompliziertere Beispiel, bei dem wir nicht explizit auflosen konnen, bekommen
wir
dy
dx= − y2exy2 − 2
2xyexy2 − 4
fur 2xyexy2 − 4 6= 0. Wollen wir beispielsweise die Steigung am Punkt (0, 1) bestimmen,
dann ware die Steigung −1/4.
Dieser Zusammenhang ist uns so wichtig, dass wir ihn nochmals als einen Satz formulieren.
Satz 4.1 (Steigung Isohohenlinie). Die Steigung einer Isohohenlinie einer Funktion
f(x, y) an einer Stelle (x0, y0) ist durch
dy
dx= −fx(x0, y0)
fy(x0, y0)
gegeben, wobei fy(x0, y0) 6= 0.
Man beachte hier, wie bei jeder Ableitung, dass Ableitungen punktweise definiert sind:
ich nehme also einen ganz bestimmten Punkt (x0, y0) und betrachte dort die Ableitung
bzw. Steigung der Hohenlinie.
Hier nochmals ein paar Beispiele.
37
Beispiele 4.2. (i) Gegeben sei die Funktion f(x, y) =√
xy mit x, y > 0. Wir sollen die
Steigung einer Hohenlinie fur f(x, y) = c im Punkt (x, y) = (a, b) berechnen. Mittels des
totalen Differentials bekommen wir zuerst
dy
dx= −
y2√
xy
x2√
xy
= −y
x.
Ausgewertet am Punkt (a, b) haben wir
dy
dx= − b
a.
(ii) Gegeben sei die Funktion f(w, e) =√
w − eθ
fur w, e ≥ 0. Der Parameter θ ∈ R sei
ebenfalls positiv, also θ > 0.
Die Steigung einer Hohenlinie ist also durch
dw
de= − −
1θ
12√
w
gegeben. Das kann man noch umformen und man bekommt
dw
de=
2√
w
θ.
Dieses Beispiel zeigt uns zweierlei. Erstens: es gibt naturlich auch Hohenlinien mit posi-
tiven Steigungen. Zweitens: die Variablen heißen nicht immer x und/oder y.
Man kann die Aussage von Satz 4.1 auch anders erhalten. Wir starten wieder mit (f(x, y) =
c. Wenn wir das auflosen konnten bzw. durften, konnten wir das ja auch als f(x, y(x)) = c
schreiben. Nun differenzieren wir mit Hilde der Kettenregel beide Seiten nach x und er-
halten
fx(x, y(x)) · 1 + fy(x, y(x))y′(x) = 0.
Wir haben jeweils außere Ableitung mal innere Ableitung und da wir ja hier die außeren
Ableitungen nach beiden Argumenten x und y bilden steht hier - wie beim totalen Diffe-
rential - die Summe. Den erhaltenen Ausdruck formen wir nun weiter um bzw. losen ihn
nach y′(x) auf. Man bekommt
y′(x) =dy
dx= −fx(x, y(x)
fy(x, y(x).
Nun stellen wir noch fest, dass wir die Auflosbarkeit nach x ja nur angenommen haben
und schreiben wieder y statt y(x) und bekommen wieder
dy
dx= −fx(x, y(x)
fy(x, y(x).
Als nachstes werden wir das Problem der Steigungen von Hohenlinien noch etwas anders
betrachten. Dazu werden wir den Begriff der impliziten Funktion einfuhren.
38
Implizite Funktionen
Hier wollen wir kurz etwas ausholen und ein kleines bisschen mathematischer werden.
Was passiert hier eigentlich genau? Das totale Differential hilft uns genau dann, wenn wir
eine Gleichung f(x, y) = c nicht explizit nach y losen konnen. Indem wir aber das totale
Differential anwenden, tun wir so, als gabe es einen solchen Funktionszusammenhang
y = y(x), denn schließlich bilden wir ja auch eine Ableitung dy/dx. Also: wenn wir
explizit auflosen konnen, machen wir das und bilden erst dann die Ableitung. Wenn wir
nicht auflosen konnen, vertauschen wir sozusagen die Reihenfolge und bilden die Ableitung
zuerst (mittels des totalen Differentials) und fragen uns nicht wirklich, ob es uberhaupt
eine explizite Funktion y = y(x) gibt. Wir wollen nun untersuchen, wie diese beiden
Fragen zusammenhangen:
1. Gegeben eine Gleichung f(x, y) = c, gibt es eine explizite Losung y = y(x)?
2. Wie steht es mit der Ableitung dy/dx?
Betrachten wir dazu ein weiteres Beispiel mit
f(x, y) = x2 + y2 = 1 (4.1)
Das ist eine Funktion der Form f(x, y) = c. Man nennt solche Funktionen auch implizite
Funktionen. Das sind Funktionen, bei denen beide Variablen x und y auf derselben
Seite einer Gleichung stehen. Wir sagen dann, dass y implizit als Funktion von x definiert
ist. Bei expliziten Funktionen steht das y auf der einen Seite der Gleichung, das x auf
der anderen Seite. Wir stellen naturlich sofort fest, dass die Definition fur Hohenlinien y
immer als implizite Funktion von x definiert, denn entlang einer Hohenlinie gilt ja
f(x, y) = c
Die Variablen x und y stehen auf der selben Seite der Gleichung, also haben wir bei
Hohenlinien immer eine implizite Funktion.
Frage: existiert nun immer eine Funktion y = y(x)? Das ist der erste Teil der obigen
Frage. Losen wir obige Gleichung nach y auf, bekommen wir
y = ±√
1− x2
Hier kann ich zwar nach y auflosen, habe aber keine eindeutige Auflosung, da sowohl
die positive wie auch die negative Wurzel Teilauflosungen sind. Das ist aber ein gewisses
Problem, da ich dann ja nicht mehr y als Funktion von x habe. Die Tatsache, dass wir
39
eine implizite Funktion wie (4.1) hinschreiben konnen, bedeutet also noch nicht, dass
wir damit y auch automatisch als eine Funktion von x definieren konnen. Damit das
so ist, musste man ja jedem x genau ein y zuordnen konnen, das ist ja die Definition
einer Funktion. Fur x > 1 gibt es aber kein y, welches (4.1) erfullt. Wenn wir aber einen
bestimmten Punkt nehmen, z.B. (x, y) = (0, 1) und drehen dann ein bisschen an x, dann
gibt es ein eindeutiges y, das die Gleichung erfullt und zum “neuen“ x passt. Wenn wir
jedoch den Punkt (x, y) = (1, 0) betrachten, dann klappt das nicht so gut. Links davon,
also an Stellen x = 1− ε mit ε klein, aber strikt positiv, habe ich zwei Losungen. Rechts
davon habe ich gar keine Losung mehr. Es scheint also so zu sein, dass manchmal eine
Auflosung nach y zumindest lokal, das bedeutet: an einer bestimmten Stelle, moglich ist.
Betrachten wir nun den zweiten Teil unserer Frage. Am Punkt (x, y) = (0, 1) konnen wir
dy
dx(0, 1) = −fx(0, 1)
fy(0, 1)=
0
2= 0
bilden. Das klappt insbesondere, weil fy(0, 1) = 2 6= 0. Und an diesem Punkt (0, 1) haben
wir ja auch gesehen, dass y = y(x) wohldefiniert ist. Am Punkt (1, 0) hingegen haben wir
dy
dx(1, 0) = −2
0.
Das ist nicht definiert und genau an diesem Punkt (1, 0) konnten wir y auch nicht als
Funktion von x definieren.
Es scheint also so, als wurden die Antworten auf unsere beiden Fragen zusammenhangen.
Wenn wir die Ableitung dy/dx an einem bestimmten Punkt (x0, y0) bilden konnen, dann
existiert an diesem Punkt auch eine Funktion y0 = y(x0), auch wenn wir diese nicht exakt
hinschreiben konnen. Die notwendige und hinreichende Bedingung dafur ist
fy(x0, y0) 6= 0.
Die Existenz der Ableitung dy/dx ist also gleichzusetzen mit der Existenz einer Funktion
y = y(x). Das ist die Aussage des Satzes uber implizite Funktionen, den ich hier
angeben mochte.
Satz 4.2 (Satz uber implizite Funktionen). Sei f(x, y) eine Funktion von x und y.
Außerdem existieren die partiellen Ableitungen von f an einer Stelle (x0, y0) und sei
f(x, y) = c.
Wenn fy(x0, y0) 6= 0, dann gibt es eine Funktion y = y(x), die um den Punkt x0 definiert
ist, so dass gilt
40
(a) f(x, y(x)) = c
(b) y(x0) = y0
(c)
y′(x0) =dy
dx= −fx(x0, y0)
fy(x0, y0).
Auch diesen Satz gebe ich ohne Beweis an, Sie sollten die Problematik anhand des Wurzel-
Beispiels verstanden haben. Es reicht dann, sich folgendes zu merken: wenn wir die Ablei-
tung dy/dx an einer Stelle (x0, y0) mittels des totalen Differentials bilden konnen, wenn
also fy(x, y) 6= 0, dann muss auch eine Funktion y = y(x0) existieren. Diese Existenz ist
auch dann gewahrleistet, wenn wir die Funktion, wie im obigen Beispiel, nicht explizit
aufschreiben konnen.
41
Kapitel 5
Aussagenlogik
Wir werden im folgenden oft die Begriffe “notwendig“ und “hinreichend“gebrauchen. Zum
Beispiel so: ist die erste Ableitung einer Funktion einer Variablen an einer Stelle x gleich
Null, ist das nur notwendig, aber nicht hinreichend fur die Existenz einer Maximumstelle
in x. Ganz klar: es kann dort auch eine Minimumstell vorliegen. Das bedeutet aber: die
Aussagen “die erste Ableitung ist Null“und die Aussage “wir haben dort ein Maximum“
sind nicht aquivalent. Aquivalent? Notwendig? Wir wollen nun kurz etwas genauer daruber
nachdenken, wie diese Begriffe zu verstehen sind. Daher folgen nun ein paar Bemerkungen
zur Aussagenlogik. Eigentlich konnte man diese Bemerkungen an fast jeder Stelle der
Vorlesung machen, nun machen wir sie eben hier.
Behauptungen, die entweder wahr oder falsch sind, heißen in der Mathematik Aussagen.
Beispiele 5.1. (i) f ′(x∗) = 0
(ii) f nimmt sein Maximum an der Stelle x∗ an.
(iii) Stefan wohnt in Mannheim.
(iv) Stefan wohnt in Deutschland
Gemeint sind dabei immer Aussagen, die eindeutig wahr oder falsch sind. Es gibt Aussa-
gen, bei denen sich nicht so eindeutig sagen lasst, ob sie wahr oder falsch sind: “Dieser
Satz ist falsch“ oder “Dieser Berg ist hoch“.
Seien nun P und Q zwei Aussagen, so dass gilt: Wenn P wahr ist, so ist auch Q wahr. Man
schreibt: P ⇒ Q und nennt dies eine Implikation. Folgende Sprechweisen sind synonym:
43
• P impliziert Q
• wenn P , dann auch Q
• P ist eine hinreichende Bedingung fur Q
• Q ist notwendig fur P .
Beispiele 5.2. (i) S wohnt in Mannheim ⇒ S wohnt in Deutschland
(ii) f nimmt sein Maximum an der Stelle x∗ an ⇒ f ′(x∗) = 0.
Hier noch eine kleine Warnung: auch wenn P falsch ist, kann man durch richtige Folge-
rungen richtige Aussagen erhalten. Die Aussage 1 = −1 ist offenbar falsch, wenn man
beide Seiten quadriert, erhalt man 1 = 1, was eine richtige Aussage ist. Also kann man
nicht zeigen, oder beweisen, dass eine Aussage P wahr ist, in dem ich aus P
eine wahr Aussage folgere.
Wenn P ⇒ Q wahr ist, kann es auch sein, dass Q ⇒ P wahr ist. Wir schreiben: P ⇔ Q
und nennen dies eine Aquivalenz. Hier sind folgende Sprechweisen synonym:
• P ist aquivalent zu Q
• P dann und nur dann, wenn Q
• P ist notwendig und hinreichend fur Q.
• P ist genau dann wahr, wenn Q wahr ist.
Hier ist wichtig, dass eine Aquivalenz in beide Richtungen gilt und man also auch beide
Richtungen ⇒ und ⇐ uberprufen muss.
Aus einer Implikation folgt nicht automatisch die Aquivalenz: “Stefan wohnt in Mann-
heim“ ⇒ “Stefan wohnt in Deutschland“. Daraus folgt offensichtlich nicht, dass die Im-
plikation Stefan wohnt in Deutschland ⇒ Stefan wohnt in Mannheim wahr ist, er kann
auch woanders in Deutschland wohnen. Naturlich gehen wir bei diesem Beispiel davon
aus, dass es die Stadt Mannheim auch nur in Deutschland gibt...
Zum Abschluß dieses kleinen Exkurses: Wenn P eine Aussage ist, so wird die Negation
von P mit ¬P bezeichnet. Es gilt: P ⇒ Q, wenn und nur wenn ¬Q ⇒ ¬P . Die beiden
Aussagen P ⇒ Q und ¬Q ⇒ ¬P sind also aquivalent.
44
Kapitel 6
Konkave und konvexe Funktionen
Wir wollen uns nun etwas mit dem Krummungsverhalten von Funktionen beschaftigen.
Das wird bei den Optimierungsaufgaben entscheidend sein: eine Funktion, deren Schaubild
wie ein Hugel aussieht (also eine auf den Kopf gestellte Parabel bei einer Variablen), hat
beispielsweise eine eindeutige Maximumstelle im Innneren des Definitionsbereichs, ein
Minimum kann dort nicht vorliegen.
6.1 Eine Variable
Wir beginnen mit Funktionen einer Variablen. Sei also f : [a, b] → R eine Funktion einer
Variablen.
Definition 6.1. Eine Funktion f : [a, b] → R heißt konvex, wenn fur alle x, y ∈ [a, b]
und alle α ∈ (0, 1) gilt:
f(αx + (1− α)y) ≤ αf(x) + (1− α)f(y).
f ist strikt konvex, wenn in der Ungleichung stets ein < steht.
Das bedeutet: bei einer konvexen Funktion ist der Funktionswert an einem Mittelwert
(αx + (1 − α)y) immer kleiner oder gleich dem Mittelwert der Funktionswerte ist. Gra-
phisch bedeutet dies, dass die Sehne, die f(a) und f(b) verbindet , stets uber der Funktion
liegt. Nun ist obige Ungleichung in der Praxis etwas umstandlich und es gibt ein einfache-
res Kriterium: man betrachte z.B. f(x) = x2, x ≥ 0. Das ist sicher eine konvexe Funktion.
Geht man von Null nach rechts, sieht man, dass die Funktion steigt und zwar immer
schneller. Das bedeutet aber auch, dass die Tangenten an das Schaubild von f eine immer
45
großere Steigung haben. Das bedeutet aber nichts anderes als das f ′, also die Ableitungs-
funktion von f , eine monoton steigende Funktion ist. Dann muss aber f ′′(x) ≥ 0 gelten.
Daraus folgt
Satz 6.1. Sei f : (a, b) → R eine zweimal diffbare Funktion. Dann sind folgende Aussagen
aquivalent:
1. f ist konvex.
2. f ′ ist monoton steigend.
3. f ′′(x) ≥ 0 fur alle x ∈ (a, b).
Bei strikter Konvexitat hat man f ′′(x) > 0 fur alle x ∈ (a, b).
Naturlich gibt es auch noch den Fall, dass die Steigung einer Funktion immer mehr ab-
nimmt. Solche Funktionen nennt man konkav.
Definition 6.2. Eine Funktion f : [a, b] → R heißt konkav, wenn fur alle x, y ∈ [a, b]
und alle α ∈ (0, 1) gilt:
f(αx + (1− α)y) ≥ αf(x) + (1− α)f(y).
f ist strikt konkav, wenn in der Ungleichung stets ein > steht.
Satz 6.2. Sei f : (a, b) → R eine zweimal diffbare Funktion. Dann sind folgende Aussagen
aquivalent:
1. f ist konkav.
2. f ′ ist monoton fallend.
3. f ′′(x) ≤ 0 fur alle x ∈ (a, b).
Bei strikter Konkavitat hat man f ′′(x) < 0 fur alle x ∈ (a, b).
Nun wollen wir diese Begriffe auf Funktionen von zwei Variablen ubertragen. Sei also
f : D → R eine Funktion von zwei Variablen mit D ⊂ R2.
Die Definition einer konvexen Funktion muss hier naturlich etwas ganz ahnliches aus-
drucken als bei Funktionen einer Variablen: die Tangentialebene in einem beliebigen Punkt
(x, y) ∈ D liegt unter dem Graphen von f . Seien nun z = (x, y) und z′ = (x′, y′) zwei
Punkte in D.
46
Definition 6.3 (Konvexe Funktion). Eine Funktion f : D → R, D ⊂ R2 heißt konvex,
wenn fur alle z, z′ ∈ D und alle α ∈ (0, 1) gilt:
f(αz + (1− α)z′) ≤ αf(z) + (1− α)f(z′).
f ist strikt konvex, wenn in der Ungleichung stets ein < steht. f heißt konkav falls −f
konvex ist.
Man beachte, dass wir hier keine eigene Defintion fur die Konkavitat einer Funktion
angegeben haben. Man macht sich aber schnell klar, dass die Konvexitat von −f nichts
anderes bedeutet als dass eine Tangentialebene an den Graphen von f immer oberhalb
des Schaubildes von f liegt, dass also
f(αz + (1− α)z′) ≥ αf(z) + (1− α)f(z′)
gilt.
6.2 Zwei Variablen
Ahnelt das Schaubild unserer mehrdimensionalen Funktion also einem Hugel mit einem
eindeutigen Gipfel, hat man eine konkave Funktion. Sieht das Schaubild eher aus wie eine
Tasse, ist die Funktion konvex.
Auch hier suchen wir nun nach einem einfachen Kriterium, um die Konvexitat bzw. Konka-
vitat einer Funktion festzustellen. Und auch hier betrachtet man die zweiten Ableitungen.
Das ist nun allerdings etwas komplizierter, denn wir haben ja - bei einer Funktion von zwei
Variablen - vier zweite Ableitungen, die wir in der Hesse-Matrix sammeln. Und genau die
benotigen wir nun wieder.
Die folgenden Zusammenhange werden aus Zeitgrunden leider wohl etwas unklar bleiben.
Wer es etwas genauer wissen will, muss beim Thema ”Quadratische Formen“ nachsehen.
Falls am Ende des Semesters noch etwas Zeit bleibt, werden wir noch dazu kommen. Es
ist ubrigens auch ein Thema. was fast ein bisschen mehr in eine Vorlesung uber lineare
Algebra gehort.
Sei A nun zunachst eine allgemeine 2× 2 Matrix der Form
A =
(a b
b c
).
47
Definition 6.4 (Determinante). Der Ausdruck ac − b2 heißt Determinante von A
und wir schreiben det A.
Die folgenden Definitionen sind eigentlich Satze, da uns aber etwas der background fehlt,
gebe ich sie als Definitionen an.
Definition 6.5. Eine 2× 2 Matrix A der Form
A =
(a b
b c
)
heißt genau dann positiv definit, wenn sowohl a > 0 als auch det A > 0 gilt. Sie heißt
negativ definit, wenn sowohl a < 0 als auch det A > 0 gilt. Sie heißt indefinit, falls
gilt det A < 0.
Definition 6.6. Eine 2× 2 Matrix A der Form
A =
(a b
b c
)
heißt genau dann positiv semidefinit, wenn gilt: a ≥ 0, det A ≥ 0 und c ≥ 0.
Satz 6.3. Eine 2× 2 Matrix A der Form
A =
(a b
b c
)
heißt genau dann negativ semidefinit, wenn gilt: a ≤ 0, det A ≥ 0 und c ≤ 0.
Es zeigt sich nun, dass Definitheit und Konvexitat bzw. Konkavitat zusammenhangen.
Satz 6.4. Sei f : D → R eine zweimal partiell diffbare Funktion und sei H die Hesse-
Matrix zu f .
Folgende Aussagen sind aquivalent
1. f ist konvex.
2. H ist positiv semidefinit fur alle (x, y) ∈ D.
Satz 6.5. Sei f : D → R eine zweimal partiell diffbare Funktion und sei H die Hesse-
Matrix zu f .
Folgende Aussagen sind aquivalent
48
1. f ist konkav.
2. H ist negativ semidefinit fur alle (x, y) ∈ D.
Bei Funktionen einer Variablen ist die strikte Ungleichung f ′′(x) > 0 hinreichend, aber
nicht notwendig fur die strikte Konvexitat einer Funktion f . Analog ist die strikte positive
Definitheit von H nun hinreichend, aber nicht notwendig fur die strikte Konvexitat von
f im Falle von zwei Variablen.
Satz 6.6. Sei f : D → R eine zweimal partiell diffbare Funktion und sei H die Hesse-
Matrix zu f . Wenn H positiv definit ist, dann ist f strikt konvex.
Satz 6.7. Sei f : D → R eine zweimal partiell diffbare Funktion und sei H die Hesse-
Matrix zu f . Wenn H negativ definit ist, dann ist f strikt konkav.
49
Kapitel 7
Multivariate Optimierung
Optimierungsaufgaben sind zentral fur die Wirtschaftswissenschaften. Dort geht es schließ-
lich meist darum, dass irgendwas, z.B. ein Gewinn, moglichst groß werden soll oder etwas
anderes, z.B. die Kosten einer Firma, moglichst klein werden sollen. Man mochte also,
dass irgendetwas optimal wird. Da man Gewinne und/oder Kosten durch Funktionen von
zwei oder mehreren Variablen ausdrucken kann, muss man diese Funktionen optimieren.
Das heißt aber nichts anderes, als dass wir die Maxima bzw. Minima dieser Funktionen zu
finden haben. Wir machen also eigentlich nichts anderes als eine Fortsetzung der aus der
Schule bekannten Kurvendiskussion: wir suchen Hochpunkte (Maxima) und Tiefpunkte
(Minima) von Funktionen. Nur dass diese Funktionen jetzt zwei Variablen haben.
Definition 7.1. Ein Punkt (x∗, y∗) ist ein globaler Maximumpunkt von f , wenn f(x∗, y∗) ≥f(x, y) fur alle (x, y) ∈ D. Dann ist f(x∗, y∗) das globale Maximum von f .
Ein Punkt (x∗, y∗) ist ein lokaler Maximumpunkt von f , wenn f(x∗, y∗) ≥ f(x, y) fur alle
(x, y) hinreichend nahe bei (x∗, y∗). Dann ist f(x∗, y∗) ein lokales Maximum von f .
Ein Punkt (x∗, y∗) ist ein globaler Minimumpunkt von f , wenn f(x∗, y∗) ≤ f(x, y) fur alle
(x, y) ∈ D. Dann ist f(x∗, y∗) das globale Minimum von f .
Ein Punkt (x∗, y∗) ist ein lokaler Minimumumpunkt von f , wenn f(x∗, y∗) ≤ f(x, y) fur
alle (x, y) hinreichend nahe bei (x∗, y∗). Dann ist f(x∗, y∗) ein lokales Minimum von f .
Maxima oder Minima nennt man auch Extrema.
Man kennt auch noch die Bezeichnung striktes Maximum bzw. striktes Minimum. Dann
werden die ≥ durch > ersetzt, analog definiert man strikte Minima.
51
Folgende Fragen werden uns hier beschaftigen: Wie berechnet man solche Maximum-
bzw. Minimumpunkte? Gibt es uberhaupt immer Maximum- bzw. Minimumpunkte? Wir
werden uns die nachsten Kapitel hauptsachlich mit der ersten Frage beschaftigen. Zur
(ebenfalls) spannenden zweiten Frage der Existenz solcher Optimalpunkte kommen wir
ein bisschen spater.
7.1 Notwendige Bedingungen
Im folgenden wollen wir Maximumpunkte (und Minimumpunkte) finden, die nicht am
Rand von D liegen. Das bedeutet: wenn D = [a, b] × [c, d], wollen wir uns zunachst um
Punkte, die strikt im Inneren von D liegen. Man spricht dann auch von inneren Punkten
und von inneren Maxima bzw. Minima. Extrema konnen aber auch am Rand liegen,
dazu spter mehr.
Wir unterscheiden dabei zunachst nicht zwischen lokalen und globalen Extrema. Ange-
nommen, wir haben ein Maximum am Punkt (x0, y0). Wenn wir y0 festhalten, hangt f nur
von x ab. Dann muss aber in x0 die Steigung der Tangenten an das (partielle) Schaubild
von f Null sein; genauso wie bei einem Maximum bei Funktionen mit einer Variablen.
Mit anderen Worten: die erste partielle Ableitung von f nach x muss Null sein. Ebenso
muss die erste partielle Ableitung nach y Null sein.
Definition 7.2 (Sationarer Punkt). Ein innerer Punkt (x, y), in dem beide partiellen
Ableitungen nach x und y Null sind, heißt stationarer Punkt.
Satz 7.1 (Notwendige Bedingungen). Wenn eine Funktion f(x, y) an einem inneren
Punkt (x∗, y∗) ein Maximum hat, dann ist dieser Punkt ein stationarer Punkt:
∂f(x∗, y∗)∂x
= 0
∂f(x∗, y∗)∂y
= 0.
Man nennt diese notwendigen Bedingungen auch Bedingungen erster Ordnung. Sie liefern
uns ein Gleichungssystem in zwei Variablen x und y, welches wir hoffentlich losen konnen.
Analog konnen wir fur dieses Gleichungssystem auch schreiben ∇f(x, y) = 0. Hier ist
dann zu beachten, dass die Null auf der rechten Seite der Gleichung keine Zahl, sondern
der Nullvektor ist.
(Figur 5)
52
Beispiele 7.1. Sei f(x, y) = 3x− x2 + 4y− y2− 12xy. Wir wollen zeigen, dass (x0, y0) =
(16/15, 26/15) ein stationarer Punkt ist. Also stellen wir die Bedingungen erster Ordnung
auf:
∂f(x, y)
∂x= 3− 2x− y/2 = 0
∂f(x, y)
∂y= 4− 2y − x/2 = 0.
Das ergibt ein Gleichungssystem mit zwei Gleichungen und zwei Variablen. Die Werte
x∗ = 16/15 und y∗ = 26/15 sind tatsachlich die Losungen dieses Gleichungssystems.
Es ist klar, dass die notwendige Bedingung sowohl fur lokale als auch fur globale innere
Extrema die relevante notwendige Bedingung ist.
Zusatzlich zu Maximum- und Minimumpunkten kann es auch Sattelpunkte geben.
Definition 7.3 (Sattelpunkt). Ein Sattelpunkt (x∗, y∗) ist ein stationarer Punkt, so
dass es Punkte (x, y) beliebig nahe an (x∗, y∗) gibt mit f(x, y) < f(x∗, y∗) und dass es
auch Punkte mit f(x, y) > f(x∗, y∗) gibt.
Figur 7 zeigt einen Sattelpunkt. Man kann sich einmal Gedanken daruber machen, warum
wir zwar zwischen globalen und lokalen Extrema unterscheiden, aber nicht zwischen lo-
kalen und globalen Sattelpunkten.
7.2 Hinreichende Bedingungen
Leider, wie uns Figur 6 zeigt, sind nicht alle stationaren Punkte Maxima, es kann sich auch
um Minima oder sogenannte Sattelpunkte handeln. Sattelpunkte sind Punkte, von denen
aus der Funktionswert in eine Richtung ansteigt, in die andere Richtung aber abfallt,
ganz wie der Sattel oder Joch in einem Gebirge. Bei einem Maximum hingegen muss
der Funktionswert in allen Richtungen kleiner werden, wenn ich mich vom Maximum
wegbewege: wenn ich auf der x−Achse vom Maximum aus nach links oder rechts gehe,
muss der Funktionswert kleiner werden, ebenso auf der y−Achse. Und naturlich muss das
auch in alle anderen Richtungen gelten, in denen ich mich vom Maximum fortbewege. Fur
ein Minimum gilt ein analoges Argument. Und da wir nicht genau wissen, was wir nun
von einem stationaren Punkt zu halten haben, mussen wir uns also auch noch die zweiten
Ableitungen ansehen.
53
Um lokale Extrema zu charakterisieren, wussten wir gerne, wie denn die Funktion f in der
Nahe eines stationaren Punktes (x∗, y∗) gekrummt ist. Mit anderen Worten: wenn wir wis-
sen, dass in der Nahe eines stationaren Punktes f konkav ist, dann haben wir dort sicher
ein lokales Maximum. Aus Kapitel 6 wissen wir, dass Konkavitat bzw. Konvexitat einer
Funktion mit der Definitheit der Hesse-Matrix der zweiten Ableitungen zusammenhangt.
Ist die Hesse-Matrix am Punkt (x∗, y∗) negativ definit, dass ist die Funktion um diesen
Punkt herum konkav.
Man hat dann folgenden
Satz 7.2 (Hinreichende Bedingungen). Sei ∇f(x∗, y∗) = 0. Dann gilt
1. Wenn die Hesse-Matrix Hf(x∗, y∗) negativ (positiv) definit ist, dann ist (x∗, y∗) ein
lokaler Maximumpunkt.
2. Wenn die Hesse-Matrix Hf(x∗, y∗) indefinit, so ist x∗ kein Extremum, sondern ein
Sattelpunkt.
3. Falls Hf(x∗, y∗) = 0, kann man keine Aussage treffen.
Wir setzen nun
A = fxx(x∗, y∗), B = fxy(x
∗, y∗), C = fyy(x∗, y∗).
Damit folgt
Korollar 7.1. Sei (x∗, y∗) ein stationarer Punkt einer Funktion f(x, y). Dann gilt
1. Wenn A < 0 und AC −B2 > 0, dann ist (x∗, y∗) ein lokaler Maximumpunkt.
2. Wenn A > 0 und AC −B2 > 0, dann ist (x∗, y∗) ein lokaler Minimumpunkt.
3. Wenn AC −B2 < 0, dann ist (x∗, y∗) ein Sattelpunkt.
4. Wenn AC −B2 = 0, dann kann (x∗, y∗) ein Sattelpunkt, ein lokales Maximum oder
ein lokales Minimum sein.
7.3 Konkave und konvexe Funktionen
Fur lokale Extrema betrachten wir also das Krummungsverhalten einr Funktion nahe
eines stationaren Punktes (x∗, y∗). Die Suche nach Maxima oder Minima wird aber noch
54
erheblich einfacher, wenn wir von vorneherein Informationen uber den Gesamtverlauf von
f haben. Denn klar ist: sieht die ganze Funktion f aus wie ein Hugel, so muss jeder
stationare Punkt ein Maximumpunkt sein, ja, es muss sich dann sogar um den globalen
und einzigen Maximumpunkt handeln. Wir wissen mittlerweile: solche Funktionen heißen
konkav. Und das ist genau die Eigenschaft, die uns hier weiterhilft.
Folgende Aussage sollte unmittelbar einleuchten.
Satz 7.3. Sei f : D → R eine diffbare konkave Funktion. Wenn
∇f(x∗, y∗) = 0
gilt fur ein (x∗, y∗) ∈ D, dann ist x∗ ein globales Maximum von f .
Schliesslich konnen strikt konkave Funktionen nur ein Maximum haben und jedes lokale
Maximum ist damit auch zugleich ein globales Maximum.
Satz 7.4. Wenn f : D → R strikt konvex ist, dann hat f hochstens ein (globales) Maxi-
mum.
Beispiele 7.2. (i) Wir nehmen unser Beispiel von oben wieder auf. Sei also f(x, y) =
3x − x2 + 4y − y2 − 12xy. Wir wollen zeigen, dass x0 = 16/15 und y0 = 26/15 ein
Maximum ist. Wir hatten oben gesehen, dass wir hier einen stationaren Punkt haben. Die
Hesse Matrix ist gegeben durch
H =
(−2 −1/2
−1/2 −2
).
Wie man sieht, sind die Elemente auf der Hauptdiagonalen kleiner Null. Der Term, der
auch die Kreuzableitung benotigt, ist det H = 4− 1/4 > 0. Also ist auch diese Bedingung
erfullt. Wir haben eine konkave Funktion und unser stationarer Punkt ist ein Maximum.
Die stationaren Punkte einer Funktion fallen also in drei Kategorien: Maximumpunkte,
Minimumpunkte und Sattelpunkte. Um lokale Extrempunkte zu finden, setzt man die
stationaren Punkte in die Hesse-Matrix ein und pruft, was denn nun vorliegt. Um das
globale Maximum zu finden nimmt man dann den Maximumpunkt von allen lokalen
Maximumpunkten, der den hochsten Funktionswert ergibt. Analog fur den globalen Mi-
nimumpunkt.
55
7.4 Extrema am Rande
Nun kann es aber durchaus noch sein, dass wir Funktionen betrachten, bei denen wir
Extrema am Rande des Definitionsbereichs haben. Bei diesen konnen wir namlich die
Methode der stationaren Punkte nicht anwenden. Das hat damit zu tun, dass am Rande
des Definitionsbereichs die ersten Ableitungen im allgemeinen ungleich Null sind.
Beispiele 7.3. Sei f(x, y) = x2 + 5y mit D = [0, 10] × [0, 10]. Unsere Aufgabe sei, ein
globales Maximum zu finden.
Bildet man die ersten partiellen Ableitungen, bekommt man
∂f(x, y)
∂x= 2x
und
∂f(x, y)
∂y= 5.
Setzt man diese beiden Ableitungen Null, folgt aus der zweiten Gleichung 5=0, was si-
cher Unsinn ist. Also bekommen wir fur unser Gleichungssystem ∇f(x∗, y∗) = 0 keine
vernunftige Losung. Bildet man die Hesse-Matrix, stellt man fest, dass die beiden Ab-
leitungen fxx(x, y) und fyy(x, y) nichtnegativ sind und die Kreuzableitungen Null. Das
gilt sogar fur alle (x, y), also ist die Funktion konvex und unser Kandidat ist sicher kein
globales Maximum. Nun steigt die Funktion aber in beiden Argumenten, also muss das
globale Maximum wohl bei der Randlosung (x∗, y∗) = (10, 10) liegen.
Was ist mit einem Minimum? Auch hier sehen wir, dass der Funktionswert am kleinsten
wird, wenn wir einfach beide Werte x und y gleich Null setzen.
Wir haben hier also ein Beispiel, wo die Methode der stationaren Punkte alleine bei der
Suche nach Maxima nicht weiterhilft: wir konnen unser Gleichungssystem nicht wirklich
nach x und y zufriedenstellend.
Randextrema sind unangenehm, weil die Standardrezepte meist nicht funktionieren und
man etwas kreativ sein muss. Ein guter Hinweis auf Randextrema sind
• monoton steigende bzw. fallende erste partielle Ableitungen von f
• unsinnige oder keine Losungen von ∇f(x, y) = 0.
Es kann also sein
56
• noch zusatzliche lokale Extrema am Rande des Definitionsbereichs haben.
• uberhaupt keine Extrema im Innern des Definitionsbereichs haben. Dann haben wir
auch keinen stationaren Punkt.
• uberhaupt keine Extrempunkte haben.
Es ist klar, dass es generell uberhaupt nur Sinn macht, nach irgendwelchen Extrema zu
forschen bzw. alle zu finden, wenn wir irgendwie sicherstellen konnen, dass es uberhaupt
welche gibt. Konnen wir also Bedingungen aufstellen, die fur die Existenz eines Maximums
bzw. eines Minimums hinreichend sind? Antwort: ja, diese Bedingungen gibt es und wir
werden sie spater kennen lernen.
57
Kapitel 8
Optimierung mit Nebenbedingung
Nun kommt der große Moment, wo wir alle unsere bisherigen Erkenntnisse zusammenfugen
und uns dem eigentlich Ziel der Vorlesung zuwenden: Optimierung unter Nebenbedin-
gungen. Wir kommen also kurz auf das Beispiel zu Beginn der Vorlesung zuruck. Peter
mochte die Menge an Apfeln x und die Menge an Birnen y so wahlen, dass sein Wohlerge-
hen f(x, y) moglichst groß wird. Nun spezifizieren wir die Funktion f(x, y) und nehmen
an, dass sein Wohlergehen durch f(x, y) = xy beschrieben wird. Ob man das einfach so
sagen darf, kann oder sollte, ist nicht Gegenstand einer Matheveranstaltung, sondern von
Mikrookonomievorlesungen. Man nennt eine solche Funktion auch eine Nutzenfunktion.
Naturlich ware das Problem ohne Nebenbedingung recht langweilig: die Funktion wurde
ihr Maximum jeweils bei der Menge von Apfeln und Birnen annehmen, die irgendwo bei
“Unendlich“ liegt (wenn es kein Bauchweh gibt)... Damit das Problem interessant wird,
gibt es die Nebenbedingung x + 2y = 10. (Apfel kosten 1, Birnen 2 Euro, insgesamt hat
Peter 10 Euro).
Mathematisch aufgeschrieben ist das
maxx,y
xy
unter der Nebenbedingung:
1x + 2y = 10 x, y ≥ 0.
Wir nennen die zu maximierende Funktion f(x, y) = xy auch Zielfunktion und bezeich-
nen im folgenden ein solches Optimierungsproblem unter Nebenbedingungen mit (P ).
Nochmals: was bedeutet eine solche Problemformulierung? Wir wollen x und y so wahlen,
dass eine Funktion f , hier f(x, y) = xy moglichst gross wird. Allerdings durfen, laut
Problemstellung, x und y nicht alle Werte annehmen. Sonst wurde man namlich einfach x
59
und y auf “unendlich“ setzen und man ware fertig. Der Witz von Maximierungsproblemen
unter Nebenbedingungen ist gerade, dass x und y nicht jeden Wert annehmen durfen. Hier
ist es so, dass sie nur so kombiniert werden durfen, dass x + 2y = 10 gilt.
Wir betrachten nun zwei Moglichkeiten, dieses Problem zu losen. Die erste Methode setzt
die Nebenbedingung einfach in unsere Zielfunktion ein. Die zweite Methode verwendet
die Steigung der (Iso)hohenlinien.
8.1 Einsetzverfahren
Das ist das Verfahren, was einigen von Ihnen noch aus der Schule bekannt sein konnte.
Wir losen die Nebenbedingung nach einer der Variablen auf und setzen
Wir starten, indem wir die Nebenbedingung explizit z.B. nach x auflosen. Hier also
x = 10− 2y.
Dann setzt man diesen Ausdruck fur x in die Zielfunktion f(x, y) = xy. Man hat
f(x, y) = y(10− 2y) = f(y).
Damit bekommt man eine Funktion f(y), die eben nur noch von einer Variablen y
abhangt. Was ist also passiert? Wir haben ein Problem der Optimierung unter Nebenbe-
dingungen durch einen recht simplen Trick in ein Problem verwandelt, das wir gut kennen:
wir sollen den Maximumpunkt einer Funktion einer Variablen finden. Fur diese Funktion
muss man nun also den y Wert suchen, der sie maximiert; wir suchen also das Maximum
von f(y) = y(10− 2y). Die notwendige Bedingung ergibt
−2y + 10− 2y = 0
bzw. y = 5/2. Ist das auch wirklich ein Maximum fur f(y)? Ja, denn die zweite Ableitung
von f ist uberall negativ. Im folgenden wollen wir aber die hinreichenden Bedingungen
zweiter Ordnung eher etwas vernachlassigen, die Beispiele werden alle so gewahlt sein,
dass die notwendige Bedingung auch hinreichend ist.
Wir konnen nun y = 5/2 in unsere Nebenbedingung einsetzen und dies dann nach x losen.
Wir haben also
x + 2 · 5
2= 10.
Oder x = 5. Also lost der Punkt (x∗, y∗) = (5, 5/2) unser Optimierungsproblem.
60
Das ist eine prima Methode, da sie sehr einfach ist. Und man sollte sich immer an sie
erinnern. Denn wir werden noch kompliziertere Verfahren kennenlernen. Da man aber
nicht mit Kanonen auf Spatzen schießen sollte, ist es immer gut, auch einfach Rezepte
zur Hand zu haben. Das war so eines. Aber: wenn die Nebenbedingung eine komplizierte
Funktion ist, klappt die Einsetzmethode leider nicht oder ist zu schwierig. Das ist insbe-
sondere dann der Fall, wenn wir die Nebenbedingung nicht nach einer der beiden Variablen
auflosen konnen. Und das ist naturlich auch dann der Fall, wenn wir - was Mathematiker
- lieben, etwas allgemeiner uber Optimierungsprobleme mit Nebenbedingungen nachden-
ken wollen. Bevor wir zur allgemeinen Formulierung kommen, hier aber nochmal anhand
eines Beispiels ein zweiter, schon recht allgemeiner Weg.
8.2 Tangentialverfahren
Ein Maximierungsproblem
Wir werden nun ein geometrisches, graphisches Argument bemuhen. Dieses Argument ist
sehr intuitiv und dennoch genau; außerdem tauchen die Zeichnungen, die wir sehen wer-
den, in exakt derselben Form auch in Mikro- bzw. Makrookonmie wieder auf. Ausserdem
bildet das Tangentialverfahren die Grundlage fur die allgemeinste Methode, die wir spater
betrachten werden: die Methode nach Lagrange.
Und hier brauchen wir nun all unser Wissen uber Hohenlinien. Betrachten wir die Hohen-
linie unserer Nebenbedingung x + 2y = 10 im (x, y)− Raum. Merke: fur die (implizite)
Funktion der Nebenbedingung gibt es nur eine Hohenlinie, da ja die Idee einer Nebenbe-
dingung genau die ist, dass x und y nur bestimmte Werte annehmen durfen.
Wir zeichnen nun diese Hohenlinie, indem wir die Nebenbedingung nach y auflosen,
y = 5− 1
2x.
Das ist eine Gerade mit der Steigung −1/2.
Nun betrachten wir die Hohenlinien unserer Zielfunktion f(x, y) = xy. Fur eine bestimmte
Hohe c haben wir also
xy = c
als Gleichung fur die Hohenlinie.
61
Auch das konnen wir nach y losen und wir haben
y = c/x.
Auch diese Hohenlinien konnen wir - fur beliebige c einzeichnen. Merke: da unsere Ziel-
funktion f(x, y) = xy in x und y steigt, der Wert der Zielfunktion also immer grosser
wird, je weiter wir uns nach rechts oben bewegen, hatten wir also gerne einen Punkt
(x, y), der moglichst weit rechts oben liegt...denn das Niveau c = f(x, y) wird ja dann
immer grosser. Aber wie weit konnen wir nach rechts oben gehen? Denn wir haben ja
auch unsere Hohenlinie der Nebenbedingung und wir durfen nur Punkt auf dieser Linie
wahlen. Um das zu beantworten, fugen wir die Bilder zusammen.
Betrachten wir nun einen beliebigen Punkt auf der Hohenlinie der Nebenbedingung, in
dem eine Hohenlinie der Zielfunktion die Hohenlinie der Nebenbedingung schneidet. Wir
nennen diesen Punkt A. Die Frage ist: kann so ein Punkt das Maximum sein? Offensicht-
lich nicht: nehmen wir einen anderen Punkt B, der leicht links von A - aber immer noch
auf der Hohenlinie der Nebenbedingung liegt. Nun sehen wir, dass Punkt B eine Hohen-
linie der Zielfunktion mit einem hoheren Niveau entspricht. Also kann der alte Punkt A
kein Maximum gewesen sein. Ist Punkt B ein Maximum? Nein, wenn die Hohenlinie der
Zielfunktion durch diesen Punkt wieder die Hohenlinie der Nebenbedingung schneidet.
Folglich sind wir dann in einem Maximum, wenn gilt, dass die Hohenlinie der
Nebenbedingung tangential zur Hohenlinie der Zielfunktion ist.
Diese außerst wichtigen Zusammenhang formulieren wir gleich als
Satz 8.1 (Tangentialbedingung). Ein Punkt ((x0, y0) lost (P ), wenn im Punkt (x0, y0)
gilt, dass eine Isohohenlinie der Zielfunktion tangential zur Isohohenlinie der Nebenbedin-
gung ist.
Warum ist das so wichtig? Nun, wie Sie sehen, geht es hier nur um die Steigungen. Von
denen wissen wir aber, wie wir sie bekommen, auch wenn wir nicht explizit nach x oder y
auflosen konnen. Und wie wir sehen werden, wird die Tangentialmethode die Grundlage
fur alle Verfahren sein, die uns helfen, wenn wir allgemeiner vorgehen, oder wenn wir die
Gleichungen der Hohenlinien nicht explizit nach x oder y auflosen konnen.
Wie sieht das nun hier im Beispiel konkret aus? Die Steigung unserer Hohenlinie der
Nebenbedingung ist −1/2. Wie bekommt man die Steigung der Zielfunktion? Nun rechnen
wir mit dem totalen Differential und denken auch daran, dass wir die Steigung als eine
62
Funktion von y und x bekommen wollen. Also
dy
dx= −fx(x, y)
fy(x, y)= −y
x.
Diese Steigung hatten wir auch bekommen, wenn wir yx = c nach y aufgelost hatten,
das Resultat nach x abgeleitet hatten und dann wieder c = xy gesetzt hatten. Aber das
wissen Sie ja alles schon aus dem Kapitel uber “Steigungen von Hohenlinien“.
Steigungen gleichsetzen gibt:
1
2=
y
x
oder x = 2y. Das kann man in die Nebenbedingung x + 2y = 10 einsetzen und man
bekommt wieder (x∗, y∗) = (5, 5/2) als Maximumpunkt unseres Optimierungsproblems
unter Nebenbedingungen. Wir vernachlassigen weiterhin die Bedingungen zweiter Ord-
nung und durfen davon ausgehen, dass die Aufgabe so gestellt ist, dass der gefundene
Punkt auch tatsachlich ein Maximum ist.
Es ist ahnlich wie bei den Steigungen der Hohenlinien: die Einsetzmethode funktioniert
nicht immer, oder bietet manchmal etwas komplizierte Rechnungen. Die Tangentialme-
thode funktioniert so gut wie immer. Sie macht naturlich Probleme, wenn wir durch
0 teilen oder wenn wir gar kein inneres Maximum haben. Denn wenn wir kein inneres
Maximum haben, kann es auch keine Tangentialbedingung geben. Am Rand des Defi-
nitionsbereichs gilt eine solche Tangentialbedingung nicht. Und, wie schon erwahnt: die
Tangentialmethode ist auch wesentlicher Bestandteil, der Hauptmethode der Optimierung
unter Nebenbedingungen, der Methode nach Lagrange.
Ein Minimierungsproblem
Als weiteres Beispiel minimieren wir mal was. Unser Problem lautet:
minx,y
x + 2y
unter der Nebenbedingung:
xy =25
2
fur x ≥ 0, y ≥ 0.
Auch hier konnen wir beruhigt annehmen, dass, sollten wir eine Losung finden, dies auch
das Minimum sein wird. Auf hinreichende Bedingungen, d.h. auf Fragen nach Konkavitat
oder Konvexitat werden wir noch zu sprechen kommen. Hier geht es erst mal darum, eine
gewisse Routine im Finden von Extrema unter Nebenbedingungen zu entwickeln.
63
Wir versuchen wieder unsere beiden Verfahren, beginnen aber dieses mal mit der Gleich-
setzung der Steigungen. Denn wir ahnen, dass sich ein Minimierungsproblem nicht so
sehr von einem Maximierungsproblem unterscheidet und wir ahnen auch, dass es wahr-
scheinlich wieder darauf hinauslauft, dass wir eben wieder die Steigungen der Hohenlinien
gleichsetzen werden. Dennoch wollen wir auch hier wieder unser Bild dazu zeichnen, die
graphische Methode ist doch recht anschaulich.
Zuerst zeichnen wir wieder die Hohenlinie unserer Nebenbedingung in ein (x, y)-Diagramm.
Das sind also alle (x, y)−Kombinationen, fur die gilt
xy = 25/2.
Um das halbwegs vernuntig zeichnen zu konnen, losen wir das nach y auf, also
y =25
2x.
Wenn man das nun zeichnen will, setzt man fur x ein paar Werte ein und bekommt
y(1) = 12.5, y(2) = 6.25, y(2.5) = 5 usw. Das zeichnen wir ein und haben damit die
Hohenlinie unserer Nebenbedingung. Auf dieser Kurve mussen alle (x, y)−Kombinationen
liegen, aus denen wir wahlen.
Jetzt zur Zielfunktion, f(x, y) = x+2y. Wenn man diese Funktion anstarrt, stellt man fest,
dass sie in x und y steigt: wenn x bzw. y grosser werden, steigt auch der Funktionswert
f(x, y) = x+2y. Wir wollen aber diese Funktion minimieren...also wurden wir am liebsten
x und y gleich Null setzen. Wenn wir aber x = y = 0 in unsere Nebenbedingung einsetzen
steht da 0 · 0 = 25/2, was offensichtlich Unfug ist. Wir konnen nicht auf 25/2 kommen,
wenn wir x = y = 0 setzen....
Graphisch ubersetzt heißt das: am liebsten wurden wir x und y dort wahlen, wo sich
die y−und die x−Achse treffen. Das geht aber nicht, wir mussen auf der Kurve bleiben.
Also zeichnen wir nun unsere Zielfunktion ins Bild. Die Gleichung fur die Hohenlinie der
Zielfunktion heißt
x + 2y = c,
fur ein beliebiges Niveau c.
Das konnen wir nach y losen und bekommen
y =c
2− 1
2x.
Zeichnen wir das fur c = 20. Dann lautet die obige Gleichung
y = 10− 1
2x.
64
Das wollen wir nun zeichnen. Wie zeichnet man eigentlich eine solche Gerade? Man erin-
nert sich dunkel, dass zum Zeichnen einer Geraden eigentlich zwei Punkte genugen. Den
ersten bekommt man, wenn man x = 0 setzt, denn dann ist y = 10. Den zweiten Punkt
bekommt man, wenn man y = 0 setzt, denn dann ist x = 20. Also haben wir die Punkt
(0, 10) und den Punkt (20, 0). Diese Punkte verbinden wir und zeichnen die Gerade ein,
am besten gleich in obiges Diagramm.
Offensichtlich schneidet die Hohenlinie der Zielfunktion unsere Nebenbedingung. Und:
eigentlich wollen wir soweit wie moglich nach links unten, Richtung Null...kann einer der
Schnittpunkt, z.B. der links oben unser gesuchtes Minimum sein? Nein!!! Denn wenn ich
mich etwas auf unserer Nebenbedingung nach rechts unten bewege, kann ich die Hohenlinie
der Zielfunktion, die Gerade, wieder etwas in Richtung Ursprung verschieben, werde also
“kleiner“ und das ist ja das Ziel, weil ich die Zielfunktion minimieren will.
Und so kann ich weiter und weiter die Gerade in Richtung Ursprung verschieben, bis
es nicht mehr weiter geht, weil ich sonst die Hohenlinie der Nebenbedingung verletzen
wurde. Also muss das Minimum unter der Nebenbedingung dort liegen, wo die Nebenbe-
dingungskurve tangential zu einer Isohohenlinie der Zielfunktion ist. Das bedeutet aber
nichts weiter, als das die Steigungen gleich sind....
Die Steigung der Zielfunktion ist −1/2. Die Steigung der Nebenbedingung ist − yx. Gleich-
setzen der Steigungen ergibt x = 2y. Das setzen wir in unsere Nebenbedingung ein:
y · 2y =25
2
oder
y2 = 25/4
Als Losung bekommen wir (durch Wurzeln und da y ≥ 0 sein muss), dass y = 5/2.
Damit ergibt sich x = 5. Also losen (x∗, y∗) = (5, 5/2) unser Minimierungsproblem unter
Nebenbedingungen.
Ganz kurz noch zur Einsetzmethode beim Minimierungsproblem: wir setzen y = 252x
in die
Zielfunktion ein und bekommen, da wir dann nur noch uber die Variable x minimieren
mussen, das Problem
minx
x +25
x
Die Bedingung erster Ordnung ergibt
1− 25
x2= 0
65
oder
x2 = 25
oder, da x ≥ 0,
x∗ = 5.
Das setzen wir wieder in die umgeformte Nebenbedingung ein und bekommen y∗ = 5/2.
Eine Frage noch zum eben betrachteten Minimierungsproblem: Ist das Zufall, dass hier
wieder dieselben Werte fur x und y herauskommen (5 und 5/2) als im “alten“ Maximie-
rungsproblem
maxx,y
xy
unter der Nebenbedingung
x + 2y = 10??
Nein, es ist kein Zufall: wenn man namlich die Losungen unseres Maximierungsproblems
in die Zielfunktion des Maximierungsproblems einsetzt, bekommt man
f(x∗, y∗) = 5 · 5
2=
25
2.
Genau diese Zahl, 25/2, habe ich aber als das Niveau angenommen unter dass der Wert
unserer Zielfunktion im Minierungsproblem nicht sinken darf. Und da die Nebenbedingung
von der Formel her genauso heißt wie die Zielfunktion im “alten“Maximierungsproblem,
kommt hier auch dasselbe (x∗, y∗) raus.
Setzt man z.B. im Minimierungsproblem xy = 10 als Nebenbedingung ergeben sich an-
dere Losungen: dann losen namlich (2√
5,√
5) das Minimierungsproblem (wieder mit der
Zielfunktion f(x, y) = x + 2y).
8.3 Der allgemeine Fall
Nun wollen wir uberprufen, ob wir unser Beispiel verallgemeinern konnen. Wir werden
das fur den Fall einer Suche nach einem Maximum tun, fur ein Minimum sind die forma-
len Argumente analog. Insbesondere werden wir in diesem Abschnitt zeigen und sehen,
dass Tangentialverfahren und Einsetzverfahren letzten Endes auf dieselbe (notwendige)
Bedingung hinauslaufen.
66
Tangentialverfahren
Allgemein formuliert lautet unser Problem - fur den Fall der Suche nach einem Maximum
- so: wir wollen x und y so wahlen, dass der Funktionswert f(x, y) der Zielfunktion f
moglichst groß, also maximal wird. Das geschieht unter der Nebenbedingung g(x, y) = c.
Also: x und y durfen nur so gewahlt werden, dass wir alle Punkte (x, y), die auf der
Hohenlinie c liegen, durch die Funktion g(x, y) beschreiben konnen. Im Eingangsbeispiel
entspricht
g(x, y) = c
also
x + 2y = 10.
Mathematisch kurz zusammengefasst lautet unser Problem also:
maxx,y
f(x, y)
unter der Nebenbedingung
g(x, y) = c.
Wir wissen: (1) um unser Maximum zu bekommen, setzen wir die Steigungen der Isohohen-
linien der Zielfunktion und der Nebenbedingung gleich. (2) diese Steigungen konnen wir
mittels des totalen Differentials hinschreiben. Wie berechnet man sie Steigungen? Da wir
im allgemeinen Fall nicht explizit nach y auflosen konnen, erinnern wir uns an den Satz
uber implizite Funktionen. Der sagt uns ja, dass wir, auch wenn wir die Auflosung nicht
hinschreiben konnen, dennoch wissen, dass eine solche Auflosung existiert und dass
y′(x0) =dy
dx= −fx(x0, y0)
fy(x0, y0)
falls fy(x0, y0) 6= 0. Und genau das verwenden wir fur das folgende Resultat.
Satz 8.2. Wenn (x∗, y∗) unser Maximierungsproblem unter Nebenbedingungen (P ) lost,
dann muss gelten
fx(x∗, y∗)
fy(x∗, y∗)=
gx(x∗, y∗)
gy(x∗, y∗).
Um x∗ und y∗ zu berechnen, setzt man also die Steigungen gleich, d.h. man bildet das
Verhaltnis
fx(x, y)
fy(x, y)=
gx(x, y)
gy(x, y).
67
Das ist eine Gleichung mit zwei Variablen. Nimmt man noch die Nebenbedingung
g(x, y) = c
dazu, haben wir zwei Gleichungen, die wir nach den beiden Variablen x∗ und y∗ losen
konnen.
Einsetzverfahren
Auch allgemein wollen wir zeigen, dass die Einsetzmethode zum gleichen Ziel fuhrt. Um
die Nebenbedingung einsetzen zu konnen, nehmen wir an, dass wir die Nebenbedingung
g(x, y) = c
nach y auflosen konnen. Wir haben hier y als eine implizite Funktion von x definiert
und gehen davon aus, dass eine Funktion y = y(x) existiert, die wir durch Auflosen von
g(x, y) = c bekommen.
Unsere “neue“ y−Funktion setzen wir nun in die Zielfunktion ein. Dann haben wir
f(x, y(x))
als neue Zielfunktion.
Die hangt nur von x ab, also haben wir das Problem
maxx
f(x, y(x))
Das mussen wir nun ableiten. Da wir aber (hoffentlich) die Kettenregel noch kennen,
wissen wir, was zu tun ist:
df
dx= f ′1(x, y(x)) + f ′2(x, y(x)) · y′(x) = 0
Wenn x∗ unser Problem lost, muss
fx(x∗, y(x∗)) + fy(x
∗, y(x∗)) · y′(x∗) = 0
gelten. Die (hinreichende) Bedingung zweiter Ordnung vernachlassigen wir hier und/oder
nehmen einfach an, dass sie erfullt sind. Es ist aber eine gute Ubung, sie sich selbst einmal
- auch in dieser etwas allgemeineren Form - aufzuschreiben.
Die Bedingung erster Ordnung kann man umschreiben in
− fx(x∗, y(x∗)
fy(x∗, y(x∗))= y′(x∗).
68
Nun betrachten wir wieder unsere Nebenbedingung und ersetzen auch hier y durch y =
y(x), da wir ja nach wie vor annehmen, dass wir die Nebenbedingung auflosen konnen
und sie als eine Funktion y = y(x) schreiben konnen. Wir schreiben
g(x, y(x)) = c
fur die Nebenbedingung. Nun haben wir beide Funktion, die Zielfunktion und die Neben-
bedingung als Funktionen geschrieben, die nur noch von x abhangen. Da wir oben die
Zielfunktion mittels der Kettenregel nach x abgeleitet haben, machen wir dies nun auch
fur die Nebenbedingung:
dg
dx= gx(x, y(x)) + gy(x, y(x)) · y′(x) =
dc
dx.
Das ist aber aquivalent zu
gx(x, y(x)) + gy(x, y(x)) · y′(x) = 0.
Hier kommt die Null auf der rechten Seite daher, dass die rechte Seite von g(x, y) = c
eine Konstante, c, ist, deren Ableitung nach x, also dc/dx Null ergibt. Da wir aber die
Nebenbedingung schon richtig ernst nehmen, bilden wir die Ableitung von g nach x nicht
irgendwo, sondern entlang der Kurve (oder Geraden) g(x, y) = c. Also mussen wir auch c
nach x ableiten, was eben Null ergibt.
Auch die soeben erhaltene Gleichung konnen wir nach y′(x) losen und erhalten
−gx(x, y(x))
gy(x, y(x))= y′(x).
Diese Ausdruck fur y′(x) setzen wir oben ein und bekommen (wieder), dass fur ein opti-
males x∗ gelten muss
gx(x∗, y(x∗))
gy(x∗, y(x∗))=
fx(x∗, y(x∗))
fy(x∗, y(x∗)).
Das ist eine Gleichung in einer Variablen x, die wir nach x∗ losen konnen. Das erhaltene
x∗ setzen wir in die Nebenbedingung ein und erhalten unser y∗(x∗) = y∗. Also haben wir
wieder
gx(x∗, y∗)
gy(x∗, y∗)=
fx(x∗, y∗)
fy(x∗, y∗).
Wir merken uns also: wir konnen unsere Optimalbedingung auch herleiten, ohne dass wir
irgendein geometrisches Argument bemuhen. Und auch hier bildet der Satz uber implizite
Funktionen die eigentliche mathematische Grundlage fur das, was geschieht: wie konnen
nicht explizite auflosen, konnen aber dy/dx angeben und berechnen und wissen - gemaß
des Satzes - eben dann auch, dass eine solche Auflosung existiert und wir unser Optimie-
rungsproblem so behandeln konnen, als wurden wir Zielfunktion und Nebenbedingung
explizit nach y auflosen.
69
8.4 Einsetzverfahren vs. Tangentialverfahren und wei-
tere Beispiele
Naturlich stellt sich hier die Frage, warum man das Tangentialverfahren uberhaupt anwen-
den sollte, wenn doch die Einsetzmethode so viel schneller und einfach ist. Im folgenden
also ein paar Hinweise zu Fehlerquellen, insbesondere beim Einsetzverfahren.
1. Falsches Ausrechnen der Steigung.
Dieser Fehler passiert eigentlich mehr beim Tangentialverfahren.
Angenommen, man soll die Steigung einer Kurve
f(x, y) = xy = c
ausrechnen. Mittels des totalen Differentials ergibt sich schnell
dy
dx= −fx(x, y)
fy(x, y)= −y
x.
Diese Steigung hangt von x und y ab. Und das ist auch gut so: denn wollen wir das
jetzt z.B. mit einer anderen Steigung gleichsetzen und irgendwas ausrechnen, brauchen
wir auch beide Variablen in unserer Steigung.
Wenn man dagegen die Gleichung nach y auflost, hat man ja
y(x) =c
x.
Auch das kann man jetzt nach x ableiten, also hat man
dy
dx= − c
x2.
Wenn man jetzt nicht noch einmal kurz nachdenkt, wundert man sich im weiteren Re-
chenverlauf, wo denn das y geblieben ist. Hier darf man also nicht vergessen, dass wir
ja die Gleichung an einem bestimmten Punkt c betrachten. Also mussen wir fur c auch
wieder xy = c einsetzen. Dann haben wir
dy
dx= −yx
x2= −y
x,
was wir auch schon oben mittels des totalen Differentials bekommen haben. Beim totalen
Differential kann dieser Fehler nicht passieren.
2. Schwierige Rechnungen durch Auflosen.
70
Betrachten wir dazu folgende Abwandlung unseres allerersten Beispiels:
maxx,y
x12 y
unter der Nebenbedingung
x + 2y = 10.
Wir setzen die umgeformte Nebenbedingung x = 10−2y in die Zielfunktion ein und haben
dann
(10− 2y)1/2y
zu maximieren. Die erste Ableitung soll man Null setzen:
1
2(10− 2y)−1/2 · (−2y) + (10− 2y)1/2 = 0.
Dies ist sicher nicht sehr schwierig, wenn man sich der Potenzgesetze erinnert und z.B.
beide Seiten mit (10− 2y)1/2 multipliziert....Dann hat man
1
2· (−2y) + 10− 2y = 0,
oder y∗ = 10/3. Fur x bekommt man ebenfalls x∗ = 10/3. Wie gesagt, schwierig ist es
nicht, aber man hat halt ein paar Schritte mehr und kann ein paar Rechenfehler mehr
machen. Und vielleicht gibt es ja auch Probleme, wo ich die Nebenbedingung nur sehr
schwer nach x oder y auflosen kann.
Wenn man die Steigungen gleichsetzt, hat man:
dy
dx= −fx(x, y)
fy(x, y)= −x−1/2y
2x1/2
als Steigung fur eine Hohenlinie der Zielfunktion. Das muss nun gleich −1/2 sein, also der
Steigung der Hohenlinie der Nebenbedingung:
−x−1/2y
2x1/2= −1
2.
Die 2 fallt auf beiden Seiten weg, das Minuszeichen auch und schon steht, da x−1/2 =
1/x1/2, die Gleichung
y
x= 1,
bzw. y = x. Das in die Nebenbedingung eingesetzt ergibt x∗ = y∗ = 10/3. Ich finde hier
das Tangentialverfahren einfacher.
71
Ein letztes Beispiel. Angenommen, die Aufgabenstellung lautet
minx,y
x + y
unter der Nebenbedingung
ln(x) + ln(y) = 5.
Lost man hier die Nebenbedingung z.B. nach x auf, haben wir
x = e5−ln(y).
Das setzt man nun in die Zielfunktion ein und hat und muss nun
miny
e5−ln(y) + y
losen. Die Bedingung erster Ordnung lautet:
e5−ln(y) · −1
y+ 1 = 0.
Das musste man nun nach y losen....und die Losung dann wieder in
x = e5−ln(y)
einsetzen.
Spatestens an dieser Stelle konnte man sich an die Sache mit der Gleichheit der Steigungen
erinnern...die Steigung der Zielfunktion ist−1, die Steigung der Nebenbedingung ist−y/x.
Wenn man das gleichsetzt, hat man y = x.
Das kann man einsetzen in die Nebenbedingung und erhalt
2 ln(x) = 5,
bzw.
x∗ = e5/2 = y∗.
Also: ich werbe hier bewusst ganz haufig fur die Methoden, die vielleicht auf den ersten
Blick etwas schwieriger sind: “Totales Differential anstatt Auflosen nach y und einfach
ableiten“ oder “Tangentialverfahren anstatt Einsetzmethode“. Und naturlich fuhrt der
einfachere Weg auch oft zum Ziel. Nur ware es schade, wenn man nur den einfachen Weg
kennt und der dann plotzlich nicht mehr funktioniert. Deshalb versucht man manchmal in
der Mathematik (und nicht nur dort) auch Wege zu gehen, die vielleicht etwas schwieriger
sind, aber dafur allgemeiner einsetzbar.
72
8.5 Die Methode nach Lagrange
Nun kommen wir zu der Standardmethode der Optimierung unter Nebenbedingungen, der
Methode nach Lagrange. Auch sie wird uns als wichtigstes Ergebnis liefern, dass man die
Steigungen der Hohenlinien von Nebenbedingung und Zielfunktion gleichsetzen muss, um
ein Extremum unter Nebenbedingungen zu finden. Also nicht wirklich viel Neues....In den
VWL-Veranstaltungen wird die Methode haufig einfach angeschrieben, auch wenn man
gleich die Steigungen gleichsetzen konnte bzw. das Einsetzverfahren bemuhen konnte. Die
Lagrangemethode ist also fast so etwas wie ein wissenschaftliches Ritual, und Ritualen
muss man manchmal Genuge tun.
Naturlich muss noch auch noch einiges zur Ehrenrettung der Lagrangemethode gesagt
werden. Sie wird uns dabei helfen, hinreichende Bedingungen fur Extrema unter Neben-
bedingungen zu finden und sie wird uns auch dabei helfen, zu sehen, wie sich der Wert
der Zielfunktion im Optimum verandert, wenn sich die Beschrankung andert. Außerdem
bildet die Lagrangemethode die Grundlage fur kompliziertere Optimierungsprobleme, z.B.
wenn wir Ungleichungen als Nebenbedingungen haben oder wenn wir mehr als eine Ne-
benbedingung haben.
Also doch soviel Nutzliches, dass es sich lohnt, zu starten.
Unser Problem lautet wieder
maxx,y
f(x, y)
unter der Nebenbedingung
g(x, y) = c.
Wir definieren die Lagrangefunktion L durch
L(x, y) = f(x, y)− λ(g(x, y)− c)
Dabei nennen wir λ den Lagrangemultiplikator oder den Lagrangeparameter. Er ist zunachst
nur eine Konstante, wir werden jedoch spater noch sehen, dass es durchaus eine ziemlich
vernunftige Interpretation fur λ gibt.
Wie geht man nun vor? Man schreibt zunachst die Lagrangefunktion hin. Dann bildet man
die partiellen Ableitungen der Lagrangefunktion nach x und y und setzt diese gleich Null.
Diese beiden Gleichungen, zusammen mit der Nebenbedingung, ergeben die folgenden drei
73
Gleichungen
fx(x, y)− λgx(x, y) = 0 (8.1)
fy(x, y)− λgy(x, y) = 0 (8.2)
g(x, y)− c = 0. (8.3)
Diese drei Gleichungen sind nun nach x, y und λ zu losen. Diese Bedingungen nennt man
auch die Bedingungen erster Ordnung: wenn x∗ und y∗ unser Problem losen, dann mussen
sie diese Bedingungen erfullen. Manchmal bezeichnet man die dritte Bedingung auch als
die Ableitung der Lagrangefunktion nach λ, was sicherlich mathematisch ebenfalls korrekt
ist. Im allgemeinen wird die Losung fur λ eine strikt positive Zahl ergeben, also λ∗ > 0..
Warum gibt uns diese Methode unser Extremum unter Nebenbedingungen? Nun: die
Lagrangemethode ist aquivalent zur Tangentialmethode. Und von der wissen wir ja, dass
sie uns zum Ziel fuhrt. Genau das ist die Aussage von
Satz 8.3. Ein Punkt (x∗, y∗) lost die Bedingungen erster Ordnung im Langrangeverfahren
genau dann, wenn der Punkt (x∗, y∗) die Losung des Tangentialverfahrens ist.
Beweis. Es handelt es sich um zwei aquivalente Aussagen, also mussen wir beide Rich-
tungen der Aussage betrachten. Zunachst zeigen wir, dass aus den Bedingungen erster
Ordnung der Lagrangemethode die Tangentialbedingung folgt. Dann zeigen wir, dass aus
der Tangentialbedingung die Langrangebedingungen folgen.
Angenommen, wir sind in einem Maximum (x∗, y∗). Betrachten wir unsere Bedingungen
erster Ordnung aus der Lagrangemethode, losen eine der Bedingungen nach λ und setzen
das Ergebnis in die andere Bedingung ein bekommen wir
fx(x∗, y∗)
fy(x∗, y∗)=
gx(x∗, y∗)
gy(x∗, y∗),
wobei wir darauf achten, dass die Nenner jeweils von Null verschieden sind. Aber diesen
Ausdruck kennen wir ja schon. Durch unsere graphischen Uberlegungen wissen wir, dass
das nichts anderes heißt als: Steigung der Hohenlinie der Zielfunktion gleich Steigung der
Hohenlinie der Nebenbedingung. Das ist aber genau der Inhalt der Tangentialbedingung.
Nun die andere Richtung des Beweises: aus der Tangentialbedingung folgen die Bedingun-
gen erster Ordnung der Lagrangemethode. Wenn - im Optimum - die Steigungen gleich
sind, ergibt eine einfach Umformung dass
fx(x∗, y∗)
gx(x∗, y∗)=
fy(x∗, y)
gy(x∗, y∗).
74
Bezeichne λ nun den gemeinsamen Wert dieser Bruche, also z.B.
fx(x∗, y∗)
gx(x∗, y∗)= λ.
Das konnen wir schreiben als
fx(x∗, y∗)− λgx(x
∗, y∗) = 0.
Ebenso erhaltem wir
fy(x∗, y∗)− λgy(x
∗, y∗) = 0.
Und diese beiden Bedingungen entsprechen exakt den Bedingungen erster Ordnung (8.1)
und (8.2), die wir aus der Lagrangefunktion gewinnen.
Q.E.D.
Probieren wir die Lagrange Methode noch einmal an einem Beispiel aus:
maxx,y
3 ln(x) + ln(y)
u.d.N.
3x + 5y = 20.
Die Lagrangefunktion lautet
L(x, y) = 3 ln(x) + ln(y)− λ[3x + 5y − 20]
Die Bedingungen erster Ordnung lauten
3
x− λ3 = 0 (8.4)
1
y− λ5 = 0 (8.5)
3x + 5y − 20 = 0 (8.6)
Nun konnen wir die erste durch die zweite dieser Gleichungen teilen und bekommen
3y
x=
3
5
bzw. x = 5y fur x 6= 0. Das konnen wir in die dritte Gleichung einsetzen und bekommen
x∗ = 5 und y∗ = 1. Außerdem konnen wir dann noch λ∗ = 1/5 berechnen.
Es ist leicht nachzuprufen, dass unsere “alten“ Methoden genau dasselbe Resultat fur x∗
und y∗ ergeben hatten, was sicherlich sehr beruhigend ist.
75
Welche Methode denn nun?
Es scheint etwas viel zu sein: Einsetzmethode, Steigungsmethode und jetzt noch die La-
grangemethode...zum Gluck fuhrt alles zum selben Ziel. Was nimmt man wann?
Wenn man einfach nur ein Maximum oder Minimum unter Nebenbedingungen finden
mochte und auch sonst (z.B. in einer Klausuraufgabe) nichts weiter dabei steht, pruft
man, ob die Einsetzmethode funktioniert. Sie ist die einfachste. Oder man riskiert erst
gar nicht, dass das vielleicht nicht geht und probiert gleich die Steigungsmethode.
Nur wenn es verlangt ist, dass man die Lagrangefunktion explizit hinschreiben soll und
das Problem mit ihr losen soll (aus was fur einem Grund auch immer), dann schreibt
man die Lagrangefunktion auch hin und lost diese nach den optimalen Werten und nach
λ. Ausserdem kann man gewisse Einsichten nur mit der Lagrangemethode gewinnen; zu
einer von ihnen kommen wir nun.
8.6 Interpretation des Lagrangemultiplikators
Wir betrachten wieder unser Problem
maxx,y
f(x, y)
u.d.N.
g(x, y) = c.
Im Allgemeinen werden die Werte x∗ und y∗, die dieses Problem losen, von c abhangen,
also schreiben wir x∗(c) bzw. y∗(c).
Die Zielfunktion nimmt also im Optimum auch einen Wert an, der von c abhangt:
f ∗(c) = f(x∗(c), y∗(c)).
Betrachten wir z.B. unser altes Problem
maxx,y
xy
aber nun unter der Nebenbedingung
x + 2y = c.
76
Wir rechnen x∗(c) = c/2 und y∗(c) = c/4 als Maximum aus. Unsere Zielfunktion nimmt
also im Optimum den Wert c2/8 an.
Die Frage ist nun: wie andert sich der Wert dieser Zielfunktion, also das Maximum, wenn
sich c um ein kleines bisschen andert? Das ist ein typisches Problem der so genannten
komparativen Statik: wie andern sich Variablen im Optimum (also Maximum oder
Minimum), wenn wir an einem Parameter des mathematischen Modells drehen? Muss ich
dafur jeweils das ganze Optimierungsproblem von Neuem berechnen? Nein, denn auch
hier hilft uns das totale Differential, denn fur den allgemeinen Fall haben wir
df ∗(c) = fx(x∗, y∗)dx∗ + fy(x
∗, y∗)dy∗.
Die Sterne bedeuten: wir betrachten das totale Differential am optimalen Punkt (x∗, y∗).
Aus den Bedingungen erster Ordnung der Lagrangemethode haben wir fx(x∗, y∗) =
λgx(x∗, y∗) und fy(x
∗, y∗) = λgy(x∗, y∗). Das setzen wir ein und bekommen
df ∗(c) = λgx(x∗, y∗)dx∗ + λgy(x
∗, y∗)dy∗.
Das λ konnen wir ausklammern...
df ∗(c) = λ(gx(x∗, y∗)dx∗ + gy(x
∗, y∗)dy∗).
Was ist der Ausdruck in der Klammer?
Da wir uns auf der Nebenbedingung bewegen, gilt, wegen g(x∗, y∗) = c auch, dass (totales
Differential)
gx(x∗, y∗)dx∗ + gy(x
∗, y∗)dy∗ = dc
Also haben wir
df ∗(c) = λdc,
bzw.
df ∗(c)dc
= λ.
Mit anderen Worten: λ misst, wie sich das Maximum (oder das Minimum) andert, wenn
wir c um eine kleine Einheit erhohen. In unserem obigen Beispiel konnen wir λ = c/4
berechnen. Das bedeutet: wenn wir c um ein kleines bisschen erhohen, dann erhoht sich
der Wert unserer Zielfunktion um c/4.
Wir konnen auch hier wieder obigen Ausdruck als Differential auffassen und schreiben:
df ∗(c) = λdc
77
Also: Anderung im Funktionswert am Optimum=λ mal Anderung in c.
Hier ein Zahlenbeispiel: fur c = 10 ist das Maximum f ∗(c = 10) = 25/2 = 12.5 an.
Wir haben λ = 5/2. Wenn wir also c erhohen, sagen wir auf c = 11, konnen wir also
abschatzen, dass das neue Maximum ungefahr 15(=12.5+2.5) sein wird, ohne das ganze
Problem neu durchrechnen zu mussen.
Machen wir dennoch die Kontrolle:
maxx,y
xy
u.d.N.
x + 2y = 11.
Gleichsetzen der Steigungen ergibt wieder x = 2y, in die Nebenbedingung damit und wir
bekommen x∗ = 22/4 und y∗ = 11/4 als neues Maximum. Das in die Zielfunktion gesteckt
ergibt
f ∗(c = 11) = 242/16 = 15.125.
Oben haben wir - letztlich wieder einmal mittels Verwendung des Differentials - geschatzt,
dass der neuen Funktionswert 15 sein wird. Also eine ziemlich gute Abschatzung.
Wir konnen ubrigens auch eine Aussage uber das Vorzeichen von λ treffen.
Satz 8.4. Seien fx(x, y) > 0, fy(x, y) > 0, gx(x, y) > 0, gy(x, y) > 0 fur alle (x, y), die
die Nebenbedingung g(x, y) = c erfullen. Dann gilt fur eine Losung (x∗, y∗) des Optimie-
rungsproblems, dass λ∗ > 0.
Beweis. Die Bedingungen erster Ordnung mittels des Lagrangeansatzes lauten ja
fx(x, y)− λgx(x, y) = 0 (8.7)
fy(x, y)− λgy(x, y) = 0 (8.8)
g(x, y)− c = 0. (8.9)
Angenommen, fur eine Losung des Optimierungsproblemes (x∗, y∗) gilt λ∗ ≤ 0. Da in
(8.7) und (8.8) alle partiellen Ableitungen im relevanten Bereich - der Menge aller (x, y)
mit g(x, y) = c - strikt positiv sind, waren dann beide Gleichungen nicht erfullt. Dann
haben wir aber auch das Optimierungsproblem nicht gelost, da wir ja wissen, dass sie
notwendigerweise erfullt sein mussten. Widerspruch.
78
Also muss λ∗ > 0 gelten.
Q.E.D.
Man kann sich die Aussage dieses Satzes auch intuitiv klar machen: Wenn λ = 0 ware,
dann ware das ja so, als wurde die Nebenbedingungen uberhaupt keine Rolle spielen.
Denn dann sehen die Bedingungen erster Ordnung ja genau so aus wie bei einem Opti-
mierungsproblem ohne Nebenbedingungen. Was ist mit λ < 0? Angenommen, wir haben
ein Maximierungsproblem. Wir haben oben gesehen, dass λ anzeigt, um wie viel sich das
Maximum f(x∗, y∗) andert, wenn wir c, den Wert der Beschrankung andern. Bei λ∗ < 0
hieße das aber beispielsweise in Peters Problem: wenn er mehr Geld hat, sinkt sein Wohl-
ergehen im Optimum. Das ist sicher kein sehr sinnvolles Ergebnis.
8.7 Hinreichende Bedingungen
Die Methode der Lagrangemultiplikatoren gibt uns nur notwendige Bedingungen fur die
Losung unseres Maximierungs- bzw. Minimierungsproblems unter Nebenbedingungen an.
Woher wissen wir also, ob wir auch wirklich ein Maximum bzw. ein Minimum gefunden
haben? Dazu reicht es aus, die Lagrangefunktion auf Konkavitat bzw. Konvexitat zu
prufen. Warum? Angenommen, ein Punkt (x∗, y∗) maximiert die Lagrangefunktion fur
alle (x, y). Dann gilt
L(x∗, y∗) = f(x∗, y∗)− λ(g(x∗, y∗)− c) ≥ L(x, y) = f(x, y)− λ(g(x, y)− c)
fur alle (x, y). Wenn (x∗, y∗) dann auch noch die Nebenbedingung g(x∗, y∗) = c erfullt,
dann folgt aus obiger Gleichung (da die beiden Terme in der Klammer, also hinter dem
λ, beide Null sind), dass
f(x∗, y∗) ≥ f(x, y)
fur alle (x, y) mit g(x, y) = c. Somit lost (x∗, y∗) auch wirklich das eigentliche Maximie-
rungsproblem. Wann aber maximiert ein stationarer Punkt die Lagrangefunktion? Nun,
wenn diese konkav ist. Das wissen wir bereits aus dem Abschnitt uber Optimierung oh-
ne Nebenbedingungen. Also mussen wir lediglich die Konkavitat der Lagrangefunktion
uberprufen und haben somit gerade folgenden Satz bewiesen.
Nochmal: wenn die Lagrangefunktion konkav ist, maximiert ein stationarer Punkt der
Lagrangefunktion die Lagrangefunktion. Wenn aber ein stationarer Punkt der Lagrange-
funktion diese maximiert, dann lost er auch unser eigentliches Problem der Maximierung
von f unter der Nebenbedingung g(x, y) = c.
79
Satz 8.5. Angenommen, (x∗, y∗) sei ein stationarer Punkt fur die Lagrangefunktion L(x, y).
Wenn die Lagrangefunktion L konkav in (x, y) ist, dann lost (x∗, y∗) das Maximierungs-
problem.
Wenn die Lagrangefunktion L konvex in (x,y) ist, dann lost (x∗, y∗) das Minimierungs-
problem.
Wie uberprufen wir Konkavitat bzw. Konvexitat der Lagrangefunktion? Genauso wie bei
Optimierungsproblemen ohne Nebenbedingung, nur dass wir eben die Lagrangefunktion
auf Konkavitat bzw. Konvexitat uberprufen. Die Lagrangefunktion ist konkav falls, fur
alle (x, y) ∈ D
Lxx(x, y) ≤ 0,Lyy(x, y) ≤ 0 und Lxx(x, y)Lyy(x, y)− (Lxy(x, y))2 ≥ 0.
Die Lagrangefunktion ist konvex falls, fur alle (x, y) ∈ D
Lxx(x, y) ≥ 0,Lyy(x, y) ≥ 0 und Lxx(x, y)Lyy(x, y)− (L′′xy(x, y))2 ≥ 0.
Beispiele 8.1. Gegeben sei folgendes Problem:
maxx,y
xαyβ
mit 0 < α < 1, 0 < β < 1, x ≥ 0, y ≥ 0 unter der Nebenbedingung
x + 2y = c.
Ich behaupte, dass ein stationarer Punkt der Langrangefunktion ein Maximum ist, falls
α + β ≤ 1.
Hier ist das Argument: Die Lagrangefunktion lautet
L(x, y) = xαyβ − λ[x + 2y − c].
Die Hesse Matrix dieser Funktion ergibt sich als
(α(α− 1)xα−2yβ αβxα−1yβ−1
αβxα−1yβ−1 β(β − 1)xαyβ−2
)
Wir wenden die Kriterien an: Lxx(x, y) ≤ 0, da 0 < α < 1. Ebenso haben wir Lyy(x, y) ≤0, da 0 < β < 1. Nun zum letzten Term. Wir mussen das Vorzeichen von
α(α− 1)xα−2yβ · β(β − 1)xαyβ−2 − [αβxα−1yβ−1]2
80
ermitteln. Wenn man den vorderen Term zusammenfasst und im hinteren Term das Qua-
drat in die Klammer multipliziert haben wir
αβ(α− 1)(β − 1)x2α−2y2β−2 − α2β2x2α−2y2β−2.
Hier kann man nun ausklammern:
αβx2α−2y2β−2[(α− 1)(β − 1)− αβ].
Wann ist dieser Term ≥ 0? Da alles vor der eckigen Klammer positiv ist, kommt es auf
den Term in der Klammer an und
(α− 1)(β − 1)− αβ ≥ 0
gilt, wenn α + β ≤ 1.
Wenn wir dann also ein (x0, y0) finden, dass die Bedingungen erster Ordnung fur unsere
Lagrangefunktion lost, dann muss dieser Punkt (x0, y0) auch ein Maximum sein. Es kann
naturlich sein, dass der Parameter λ auch in der Hesse Matrix noch auftaucht. Dann
erinnert man sich daran, dass λ > 0 gilt.
Es gibt auch - wie im Falle der Optimierung ohne Nebenbedingungen - lokale Bedingungen
zweiter Ordnung. Diese involvieren aber das Auswerten von Hesse Matrizen mit drei Spal-
ten und drei Reihen und sind nicht besonders anschaulich. Zudem werden in den meisten
Anwendungen ohnehin Probleme betrachtet, deren Lagrangefunktion global konkav bzw.
konvex ist. Also verzichten wir grosszugig auf die lokalen Bedingungen zweiter Ordnung.
Beim Einsetzverfahren muss man ubrigens etwas anders vorgehen: hier muss ich nicht
die Lagrangefunktion auf Konkavitat uberprufen, sondern muss mich mit der Funktion
f(x, y(x)) beschaftigen. Das ist die Funktion f , nachdem ich die Nebenbedingung einge-
setzt habe. Anhand dieser Funktion muss ich dann fur jede Nullstelle der ersten Ableitung
checken, ob es sich um ein Maximum oder um ein Minimum handelt.
Was passiert, wenn mir das Lagrangeverfahren mehrere stationare Punkte liefert? Ei-
gentlich mussten wir dann lokale hinreichende Bedingungen betrachten, aber, wie schon
gesagt, das lassen wir lieber....also bleibt uns nur, die Kandidaten in die Zielfunktion
einzusetzen und zu schauen, bei welchem Punkt wir ein Maximum oder ein Minimum
erreichen, wir vergleichen also die Funktionswerte.
81
8.8 Randextrema
Auch bei Optimierungsproblemen mit Nebenbedinungen kann es zu den ungeliebten Randlosun-
gen kommen. Betrachten wir das Problem
maxx,y
x2 + 5y
u.d.N.
x + y = 10.
Das ist eine Variante des Beispiels, welches wir in Abschnitt 7.4 hatten. Stellt man
die Lagrangefunktion auf und lost die Bedingungen erster Ordnung, erhalt man wie-
der x = 5/2 als Losungskandidat (nachrechnen!). Aus der Nebenbedingungen hat man
dann y = 15/2. Doch ist das wirklich unser Maximum? Eine Untersuchung ergibt, dass
die Lagrangefunktion nicht konkav ist...also konnen wir uns nicht sicher sein, was wir da
gefunden haben. Noch viel schlimmer: die Lagrangefunktion ist konvex, also haben wir
mit (x, y) = (5/2, 15/2) ein Minimum gefunden. Man sieht aber auch, dass die Funktion
in beiden Argumenten steigt. Also muss das Maximum am Rand liegen, aber auf der
Nebenbedingung. Das bedeutet: entweder ist x oder y gleich Null. Setzt man x = 10 und
y = 0, sieht man schnell, dass hier der Funktionswert großer ist, als wenn y = 10 und
x = 0.
82
Kapitel 9
Der Extremwertsatz
Wir wollen uns nun mit der Frage beschaftigen, welche Funktionen uberhaupt Extrema,
also Maxima bzw. Minima haben. Dazu machen wir es uns zunachst so einfach wie moglich
und betrachten Funktionen mit einer Variablen und lassen auch die Nebenbedingung weg.
Unser Ziel wird der Extremwertsatz sein: dieser gibt hinreichende Bedingungen an, wann
wir ein Maximum bzw. ein Minimum haben. Man kann diesen Satz dann sehr leicht auf
Funktionen mehrerer Variablen (mit oder ohne Nebenbedingungen) erweitern. Wichtig ist
aber, dass man fur eine Variable verstanden hat, worum es geht. Auch wichtig ist, dass
man verstanden hat, dass es hier (nur) um einen Existenzsatz geht: solche Satze sagen in
der Mathematik nur, wann bzw. dass etwas existiert. Wir werden also auf der Suche sein,
nach einer Aussage der Form “...es gibt ein...“. Das bedeutet in der Mathematik dann
immer: “es gibt mindestens ein“. Existenzaussagen dieser Form sagen nichts daruber aus,
wie denn jetzt die Losung genau aussieht, bzw. wie man sie bekommt. Diese Existenzsatze
sagen nur, dass es eine gibt. Das ist manchmal aber schon ganz schon viel wert...
9.1 Extrema bei Funktionen einer Variablen
Betrachten wir also eine Funktion f : D → R. Hier ist D ⊆ R. Der Einfachheit halber
werde ich auch bei Funktionen einer Variablen von einem Maximumpunkt sprechen, auch
wenn ich eigentlich nur den x−Wert meine, also eine Maximalstelle.
Definition 9.1. Ein Punkt c ∈ D ist ein Maximumpunkt fur f , wenn f(c) ≥ f(x) fur
alle x ∈ D. Wir sagen, dass f dann sein Maximum im Punkt c erreicht.
Die Definition fur einen Minimumpunkt geht analog....die Definition fur einen strikten
83
Maximumpunkt wurde dann ein > statt ein ≥ verwenden. Extremum ist auch hier wie-
der der Oberbegriff fur ein Maximum oder ein Minimum. Und auch bei Funktionen einer
Variablen konnen wir wieder zwischen lokalen und globales Extrema unterscheiden: bei
einem lokalen Minimum z.B. ist der Funktionswert an dieser Stelle kleiner als die Funk-
tionswerte ganz nah um diese Stelle herum, es kann aber sein, dass es “weiter weg“ noch
Punkte gibt, bei denen die Funktion kleinere Werte annimmmt.
Bevor wir zum Existenzsatz kommen, laufen wir uns schon noch ein bisschen warm und
reden erst einmal daruber, wie wir denn hier ein Maximum oder Minimum finden. Denn:
wenn wir eins gefunden haben, brauchen wir naturlich auch keinen Existenzsatz mehr.
Den braucht man dann nur, wenn man es nicht ausrechnen kann, will oder soll. Ich mochte
hier, ohne besonderen Grund, mit den lokalen Extrema beginnen. Eine erste, manchmal
aber zu einfache Antwort ist: wir setzen die erste Ableitung gleich Null (notwendige Be-
dingung), finden also einen (oder mehrere) stationare Punkte und checken dann noch die
zweite Ableitung (hinreichende Bedingung). Ist die an einem stationaren Punkt kleiner
(bzw. kleiner oder gleich) Null, haben wir ein Maximum.
Das Beispiel f(x) = x4 macht sofort klar, dass das so nicht immer klappt. An der Stelle
x = 0 ist die erste Ableitung Null, also f ′(0) = 0, aber die zweite Ableitung ist an dieser
Stelle auch Null. Dennoch konnen wir durch eine kurze Zeichnung schnell feststellen,
dass wir an dieser Stelle ein Minimum haben. Also mussen wir etwas genauer sein. Wir
stellen fest: links von x = 0 fallt die Funktion, rechts davon steigt sie wieder. Mit anderen
Worten: links von x = 0 gilt f ′(x) < 0, rechts davon gilt f ′(x) > 0. Ein weiteres Beispiel,
was in diese Kategorie fallt, ware f(x) = x3. Sie sollten sich auch hier nochmals klar
machen, dass Nullsetzen der ersten Ableitung hier nicht zum Maximumpunkt fuhrt. Wir
lernen aus diesen Beispielen das folgende: das Entscheidende bei einem Maximum ist nicht
so sehr das Vorzeichen der zweiten Ableitung. Es ist vielmehr der Vorzeichenwechsel
der ersten Ableitung an der Stelle f ′(x) = 0, der immer weiterhilft. Also kann
es manchmal notig sein, sich die ersten Ableitungen rechts und links eines stationaren
Punktes anzusehen. All dies fassen wir nun zusammen.
Satz 9.1. Wenn x ein lokales Extremum (Maximum oder Minimum) ist, so ist f ′(x) = 0.
Man nennt x dann einen stationaren Punkt.
Satz 9.2. Sei f ′(c) = 0. Dann ist c ein lokales Maximum, wenn eine der folgenden
Bedingungen erfullt ist:
• f ′′(c) < 0.
• f ′(c) ≥ 0 fur x ≤ c und f ′(c) ≤ 0 fur x ≥ c.
84
Es sollte eine leichte Ubung fur Sie sein, den analogen Satz fur ein lokales Minimum zu
formulieren.
Ganz besonders einfach ist das alles, wenn f eine konvexe oder konkave Funktion ist. Das
kennen Sie zwar nun schon hoffentlich, aber eine kleine Wiederholung schadet ja nie...
Eine Funktion f ist (streng) konkav, wenn f ′′(x) ≤ (<)0 fur alle x ∈ D. Eine Funktion
f ist (streng) konvex, wenn f ′′(x) ≥ (>)0 fur alle x ∈ D.
Die folgende Behauptung ist dann klar.
Satz 9.3. Ist f eine konkave Funktion, dann sind folgende Aussagen aquivalent:
(i) c ist ein stationarer Punkt.
(ii) c ist ein lokales Maximum.
Ist f eine konvexe Funktion, ist naturlich ein Punkt c genau dann ein stationarer Punkt,
wenn c ein lokales Minimum ist.
Wie bei Funktionen von zwei Variablen gelten Aussagen mit stationaren Punkten ins-
besondere fur Extreme im Inneren des Definitionsbereichs. Aber naturlich kann man ein
Maximum oder Minimum auch am Rand des Definitionsbereichs haben: wie man sich
schnell klar macht, muss bei einem lokalen Maximum am rechten Rand des Definitionsbe-
reichs die erste Ableitung an dieser Stelle groser oder gleich Null sein; haben wir dagegen
z.B. ein lokales Minimum am linken Rand des Definitionsbereichs, ist dort die erste Ab-
leitung kleiner oder gleich Null.
Satz 9.4. Sei f : [a, b] → R. Wenn b ein lokaler Maximumpunkt ist, dann gilt f ′(b) ≥ 0.
Wenn a ein lokaler Maximumpunkt ist, dann gilt f ′(a) ≤ 0.
Auch hier konnen Sie sicher problemlos den analogen Satz fur ein Minimum formulieren.
Mochte man also nun ein globales Maximum suchen, muss man zuerst alle stationaren
Punkte finden und prufen, ob es sich dort um lokale Maxima handelt. Dann sollte man
noch die Randpunkt des Definitionsbereichs in f einsetzen, um zu checken, ob das globale
Maximum vielleicht an einem der beiden Rander liegt.
Nun brauchen wir noch ein paar Begriffe, zunachst den der Stetigkeit. Grob gesagt ist
ein Funktion stetig, wenn eine kleine Anderung im Argument keine große Anderung im
Funktionswert bewirkt.
85
Die mathematische Definition geht so: wir nahern uns mit unserer Variablen x einem
Punkt a. Das schreibt man auch limx→a. Dann wollen wir, dass der Funktionswert, also
f(x) auch am Punkt a den Funktionswert des Punktes a annimmt und nicht irgendeinen
anderen Wert. Eine Funktion f ist also stetig an einer Stelle x = a, wenn wir alle moglichen
Annaherungen von x−Werten an a betrachten, und aber gleichzeitig der Funktionswert
dieser x−Werte dann auch genau den Funktionswert an der Stelle a trifft.
Definition 9.2 (Stetigkeit). Eine Funktion f : D → R ist stetig an einer Stelle a, wenn
limx→a f(x) = f(a).
Also mussen die folgenden Bedingungen erfullt sein:
• f muss an der Stelle x = a definiert sein.
• Der Grenzwert von f(x), wenn x gegen a geht, muss existieren. Das bedeutet: es
muss sich um eine reelle Zahl handeln (also nicht plus oder minus unendlich)
• Der Grenzwert muss genau f(a) sein.
Alle Funktionen der Form axn + bxn−1 + ... + c (das sind Polynome) sind stetig. Die
e−Funktion ist stetig, der Logarithmus ist stetig, Summen, Produkte, Quotienten und
Differenzen von stetigen Funktionen sind stetig, Verkettungen von stetigen Funktionen
sind ebenfalls stetig. Und naturlich gilt: wenn ich von einer Funktion eine schone, normale
Ableitung bilden kann, dann ist sie stetig. Umgekehrt gilt das nicht: es gibt Beispiele
fur stetige Funktionen, die ich nicht an jeder Stelle so einfach ableiten kann, z.B. die
Funktion f(x) = |x|. An der Stelle x = 0 habe ich Probleme mit der Ableitung: dort gibt
es einen Knick...und wir wissen ja: Ableitung= Steigung der Tangenten an diesem Punkt.
Allerdings kann ich an einem Knick den Funktionsverlauf eben nicht durch eine Tangente
annahern, deren Steigung der Steigung der Funktion irgendwie entspricht. Also kann ich
die Betragsfunktion am Punkt x = 0 nicht ableiten. Aber ich kann die zeichnen, ohne den
Stift vom Blatt zu nehmen, also ist sie stetig.
Hier noch ein Hinweis. Der mathematische Begriff der Stetigkeit stimmt nicht immer
mit unserer Intuition uberein, dass unsere Funktion keine Lucken hat. Sei D = [0, 1] ∪{2} und f : D → R irgendeine Funktion. f ist stetig in 2, obwohl die Funktion dort
springt. Warum? Jede Annaherung aus D, mit der wir uns 2 nahern, muss ja irgendwann
hinreichend nahe an 2 sein. Bei dieser Definitionsmenge geht das aber nur, wenn die
x−Werte, mit denen wir uns der 2 annahern, eben genau 2 sind....dann ist aber auch der
Funktionswert f(x) = 2 und das ist er auch an der Stelle 2, f(2) = 2. Man nennt einen
86
solchen Punkt, wie 2 hier, einen isolierten Punkt und wir haben gelernt, dass an isolierten
Punkten einer Definitionsmenge jede Funktion stetig ist.
Nun ist noch ein letzter Begriff zu klaren, der eines abgeschlossenen, beschrankten
Intervalles. Was ein abgeschlossenes Intervall ist, durfte klar sein, namlich ein Intervall
der Form [a, b]. Ein offenes Intervall ware dann (a, b). Ein Intervall ist beschrankt, wenn
links und rechts des Intervalles Schranken angeben kann, in die das Intervall reinpasst.
Anders formuliert: Ein unbeschranktes Intervall ware eines, bei welchem wir am rechten
oder linken Intervallrand ein plus oder minus unendlich stehen haben.
Wir konnen nun unseren Satz aufschreiben.
Satz 9.5 (Extremwertsatz). Sei f eine stetige Funktion auf einem abgeschlossenen
beschrankten Intervall [a, b]. Dann hat die Funktion f sowohl ein Minimum als auch ein
Maximum.
Anstatt eines Beweises ist es einleuchtender, sich klar zu machen, was passieren kann,
wenn eine oder alle der hinreichenden Bedingungen in diesem Satz nicht erfullt sind. Die
Betonung liegt hier auf “kann“: es sind nur hinreichende Bedingungen, keine notwendigen.
Wir konnen also auch ein Maximum haben, wenn die Funktion nicht stetig ist. Nur: wenn
sie stetig ist (und wenn der Definitionsbereich abgeschlossen ist), dann haben wir sicher
ein Maximum....hier ist es vielleicht nochmal hilfreich, sich die Bedeutung von “notwendig
“und “hinreichend“klar zu machen.
Betrachten wir also ein paar Beispiele: naturlich werden diese Beispiele so einfach sein,
dass man schon anhand einer Zeichnung sieht, ob die Funktion denn nun ein Maximum hat
oder nicht. Dennoch: anhand der leichten Beispiele kann man vielleicht doch ein bisschen
erkennen, was die obigen, hinreichenden Bedingungen bewirken, bzw. was schief gehen
kann, wenn sie nicht erfullt sind.
1. f : [1, 5] → R mit f(x) = x + 1. Diese Funktion ist stetig. Außerdem ist der Defi-
nitionsbereich abgeschlossen und beschrankt. Also hat die Funktion ein Maximum
und ein Minimum.
2. f : [1, 5] → R mit f(x) = 3x2 + 4x + 1. Diese Funktion kann man nicht so einfach
zeichnen. Aber sie ist ganz sicher eine stetige Funktion, hat keine Sprunge und
hat einen abgeschlossenen und beschrankten Definitionsbereich. Also hat sie ein
Maximum und ein Minimum.
3. f : [1, 5) → R mit f(x) = x+1. Diese Funktion hat keinen abgeschlossenen Definiti-
onsbereich. Es kann also sein, dass sie kein Maximum oder Minimum hat. Zeichnen
87
wir die Funktion: wir stellen fest, sie hat kein Maximum....fur x ganz nahe an 5
kommen wir immer naher an den Funktionswert 6 dran, aber wir erreichen ihn
nicht, da die 5 nicht mehr im Definitionsbereich liegt. Also konnen wir keine Zahl c
bestimmen mit f(c) ≥ f(x) fur alle x ∈ [1, 5). Die Funktion hat aber ein Minimum
im Punkt x = 1.
4. f : [1, 5) → R mit f(x) = 2 fur 1 ≤ x < 2 und f(x) = 1 + x fur 2 ≤ x ≤ 5. Auch
diese Funktion hat kein Maximum....aber die Funktion hat unendlich viele Minima:
alle Punkte im Intervall [1, 2) sind Minima der Funktion.
5. f : [1, 5] → R mit f(x) = x fur 1 ≤ x ≤ 2 und f(x) = 1 fur 2 < x ≤ 5. Hier sehen
wir, dass es sich nur um hinreichende Bedingungen handelt: diese Funktion ist nicht
stetig und dennoch hat sie ein Maximum am Punkt x = 2.
6. f : [1, 5] → R mit f(x) = x2 fur 1 ≤ x ≤ 2 und f(x) = 6 − x fur 2 < x ≤ 5. Auch
diese Funktion ist abschnittsweise definiert. Aber sie hat an der Stelle x = 2 keinen
Sprung; also ist sie stetig, der Definitionsbereich ist beschrankt und abgeschlossen,
also hat die Funktion ein Maximum, was man naturlich auch im Bild sieht.
9.2 Der Extremwertsatz bei Funktionen von zwei Va-
riablen
Wenn wir nun den Extremwertsatz schon einmal haben, konnen wir ihn auch ganz leicht
auf den Fall von Funktionen von zwei Variablen ausdehnen. Wir betrachten also eine
Funktion f von zwei Variablen x und y. Auch hier konnen wir uber Stetigkeit reden:
eine Funktion von zwei Variablen ist dann stetig, wenn es in ihrem Graphen keine Locher
oder Sprunge gibt. Hier muss man sich wieder die dreidimensionalen Bilder zu Beginn des
Semesters vorstellen....
Auch hier brauchen wir neben der Stetigkeit auch eine Bedingung fur die Definitionsmen-
ge D. Diese ist nun zweidimensional, da wir ja die Funktion fur jedes (x, y)−Paar definiert
haben. Die Definitionsmenge konnen wir also in einem (x, y)−Koordinatensystem darstel-
len. Also dem Raum, in dem wir die ganze Zeit unsere Isohohenlinien betrachtet haben.
Was wir brauchen, sind auch hier Begriffe der Beschranktheit und der Abgeschlossenheit
von Mengen im Raum R2.
Zunachst eine etwas saloppe Definition der Beschranktheit. Fur eine genauere Definition
brauchten wir Vektoren bzw. einen Abstandsbegriff fur den Rm.
88
Definition 9.3. Eine Menge S ⊂ R2 ist beschrankt, wenn die Menge in einem Kasten
mit endlicher Seitenlange k enthalten ist.
Beschrankt heißt also: ich kann die Menge D in einen Kasten packen, und die Menge D
ist immer vollstandig drin enthalten.
Was bedeutet hier abgschlossen? Vielleicht ist es einfacher, zunachst uber offene Mengen
zu reden. Hierzu definieren wir zunachst Uε(a) als einen Ball bzw. einen Kreis mit dem
Radius ε um den Punkt a. Hier ist ε klein, jedoch strikt positiv.
Definition 9.4. Eine Menge S ist offen wenn fur alle a ∈ S gilt: b ∈ Uε(a) ⇒ b ∈ S.
Eine Menge S ist also offen, wenn wir uns folgendes vorstellen konnen: wir sind in der
Menge S und durfen uns nur in kleinsten Schritten bewegen. Um jeden Punkt a darf ich
mich nur in einem kleinen Radius von ε bewegen. Bei einer offenen Menge kann ich dann
nie aus dieser Menge herausfallen. Grob gesprochen konnte man auch sagen: bei einer
offenen Menge gehort der Rand nicht dazu.
Definition 9.5. Eine Menge S ⊂ R2 ist geschlossen, wenn ihr Komplement S = R2\Soffen ist.
Da bei einer offenen Menge die Randpunkte nicht dazugehoren, kann man auch sagen:
eine Menge ist abgeschlossen, wenn ihre Randpunkte dazugehoren.
Haufig nennt man eine Menge S, die abgeschlossen und beschrankt ist, auch eine kom-
pakte Menge.
Beispiele 9.1. (i) Die Menge
S = {(x, y) : x + 2y = 10, x, y ∈ R}
ist abgschlossen, aber nicht beschrankt: diese Menge ist eine Hohenlinie und sicher gehort
der Rand dazu, also ist die Menge abgeschlossen. Da aber x und y bis ins Unendliche
wachsen konnen, ist die Menge nicht beschrankt.
(ii) Die Menge
S = {(x, y) : x + 2y = 10, x ≥ 0, y ≥ 0}
ist abgeschlossen und beschrankt.
89
(iii) Die Menge
S = {(x, y) : x + 2y < 10, x ≥ 0, y ≥ 0}
ist offen und beschrankt.
(iv) Die Menge
S = {(x, y) : x2 + y2 < 1}
ist offen und beschrankt.
Der Extremwertsatz fur Funktionen von zwei Variablen lautet nun ganz ahnlich wie die
Variante fur Funktionen einer Variablen.
Satz 9.6 (Extremwertsatz). Wenn die Funktion f : D → R2 stetig ist und ihre Defi-
nitionsmenge D eine abgschlossene und beschrankte Menge ist, dann hat die Funktion f
sowohl ein Maximum als auch ein Minimum auf D.
Bei Optimierungsproblemen unter Nebenbedingungen entspricht die Definitionsmenge ge-
nau der Menge von (x, y)−Kombinationen, die wir gemass der Nebenbedingungen wahlen
durfen. Das bedeutet: um zu uberprufen, ob ein Maximierungsproblem sicher eine Losung
hat, betrachten wir unsere Nebenbedingung und checken, ob die (x, y)−Kombinationen,
die wir wahlen durfen, eine abgeschlossene, beschrankte Menge bilden. Ist die Zielfunktion
dann noch stetig, ist die Existenz eines Maximums und eines Minimums gesichert.
Beispiele 9.2. Betrachten Sie das Problem
maxx,y
ex2y3
unter der Nebenbedingung:
3x + 5y = 10 x, y ≥ 0.
Die Zielfunktion ist ganz sicher einer stetige Funktion. Die Nebenbedingung ist eine Linie,
alle Punkte auf der Linie gehoren zur Linie, also ist die Menge der (x, y), die duch die Ne-
benbedingung vorgegeben ist, abgeschlossen. Ich kann die Menge auch in einen Kasten mit
endlicher Seitenlange packen, also ist die Menge beschrankt. Mittels des Extremwertsatzes
folgern wir dann, das unser Problem eine Losung hat.
90
Kapitel 10
Komparative Statik und der
Implizite Funktionen Satz
Bis jetzt haben wir gesehen, wie wir expliziet Losungen von Optimierungsproblemen,
also z.B. Maximumpunkte, berechnen. Der Extremwertsatz sagt uns, ob sie uberhaupt
existieren.
Nun wollen wir uns mit der Frage beschaftigen, wie sich diese Maximalpunkte andern,
falls sich andere Parameter des (mathematischen) Modells andern. Eigentlich tauchte
diese Frage in der ein oder anderen Ubungsaufgabe immer mal wieder auf, damit Sie
sich an diese Art der Fragestellung etwas gewohnen. Die Fragen klangen immer so:“Wie
andert sich...wenn sich...andert¿‘ Nun schauen wir uns dieses Problem (noch einmal) etwas
genauer an. Es geht also um Fragen folgender Art:
• Wie andert sich die nachgefragte Menge nach einem Gut, wenn sich das Einkommen
des Konsumenten, der Preis oder ein Steuersatz andert?
• Wie andert sich die kostenminimale Inputkombination einer Unternehmung, falls
sich ein Faktorpreis oder ein Parameter der Technologie andert?
An einer anderen Stelle wurden wir mit einer ahnlichen Frage konfrontiert: wie andert
sich der Wert der Zielfunktion, also das Maximum oder Minimum, falls sich der Wert der
Beschrankung andert? In diesem Fall war es der Lagrangeparameter λ, der uns bei der
Beantwortung dieser Frage half. Fragen dieser Art fasst man unter dem Stichwort kom-
parative Statik zusammen. Komparativ, weil man einen Zustand vor einer Anderung
mit dem Zustand nach einer Anderung vergleicht. Was ist noch wichtig?
91
• Es andert sich immer nur ein Parameter im Modell, alle anderen werden festgehalten.
• Man erfasst den Effekt dieser Anderung durch Ableitungen bzw. Differentiale. Das
heißt man betrachtet die Anderungen naherungsweise. Wir haben aber anhand von
vielen Beispielen schon gesehen, dass diese Naherungen ziemlich gut sind.
• Man interessiert sich oft nur fur das Vorzeichen der Anderung (das Vorzeichen der
Ableitung), also ob die Nachfrage steigt oder fallt, wenn sich der Preis andert.
• Man nennt die Variablen im Modell, die man zunachst berechnet, also Maximum-
punkte oder Minimumpunkte oder sonstige Losungen - z.B. Gleichgewichte in Ma-
kromodellen - auch endogene Variablen. Man nennt die Parameter im Modell, an
denen man dreht, auch oft exogene Variablen. Man mochte also wissen, wie
sich die endogenen Variablen eines Modells andert, wenn sich eine exo-
gene Variable andert.
10.1 Erinnerung: der Satz uber implizite Funktionen
Bevor wir uber komparative Statik zu reden, wollen wir das wichtigste Hilfsmittel dazu
noch einmal studieren: wir wollen noch einmal uber implizite Funktionen und den Satz
uber implizite Funktionen reden.
Implizite Funktionen tauchten zum ersten Mal im Zusammenhang mit Hohenlinien auf.
Wir haben sie allerdings auch schon im Zusammenhang mit Optimierungsproblemen ge-
sehen. Dort tauchten Sie - wenn auch etwas versteckt - in Ubungsaufgaben auf, bei denen
es eben um die Frage ging, wie sich ein Maximum- oder Minimumpunkt andert, wenn sich
ein (exogener) Parameter andert. Und das ist eben genau komparative Statik.
Zur Erinnerung: eine implizite Funktion wird durch eine Gleichung bestimmt, bei der die
uns interessierenden Variablen auf derselben Seite der Gleichung stehen.
Das erste Beispiel, das wir gesehen haben, war eine Hohenlinie. So ist beispielsweise y fur
f(x, y) = x + yx + y = c implizit als Funktion von x definiert (und x auch implizit als
Funktion von y). Diese Gleichung konnen wir explizit nach y auflosen und dy/dx = y′(x)
bilden. Das ist nun auch fur kompliziertere Funktionen so, die wir nicht explizit nach y
auslosen konnen. Denn fur diese Falle haben wir ja den Satz uber implizite Funktionen,
der uns sagt: falls fy(x0, y0) 6= 0, existiert eine Funktion y = y(x), auch wenn wir sie nicht
92
explizit hinschreiben konnen. Die Ableitung dieser Funktion ist
dy
dx= −fx(x, y)
fy(x, y)
fur alle (x, y) gleich oder nahe bei (x0, y0). Das ist dann die Steigung der Hohenlinie am
Punkt (x0, y0). Ganz besonders gut ist die Lage nun, wenn das fur jeden Punkt (x, y) mit
f(x, y) = 0 gilt, da wir dann diese Ableitung ja an jedem Punkt (x, y) berechnen konnen.
Wir hatten uns diesen Zusammenhang in Kapitel 4 am Beispiel der Kreisgleichung f(x, y) =
x2 + y2 = 1 klar gemacht. In den Anwendungen gibt es nun viele weitere Moglichkeiten,
wo einem implizite Funktionen begegnen konnen. Eine davon ist das oben beschrieben
Problem der komparativen Statik.
10.2 Funktionen einer Variablen
Sei f : D → R mit D ⊆ R+. Angenommen, wir wollen eine Funktion f maximieren, die
noch von einem Parameter a abhangt, also f(x, a). Hier ist also x die endogene Variable
und a ein exogener Parameter.
Beispiel 1: Sei also zum Beispiel f(x, y) = ln(x) − ax. Sucht man das Maximum dieser
Funktion, bildet man die erste Ableitung und erhalt die Bedingung erster Ordnung
1
x− a = 0.
Diese Gleichung kann man nun nach x∗(a) = 1/a losen. Ich werde im folgenden ubrigens
manchmal das a im Argument des x∗(a) weglassen und nur x∗ schreiben. Gemeint ist
dann immer, das x∗ weiterhin vom Parameter a abhangt.
Komparative Statik bedeutet nun: wir mochten wissen, wie sich x∗(a) andert, falls sich a
andert. Dabei interessiert man sich immer fur eine naherungsweise Betrachtung, d.h. man
interessiert sich fur die Ableitung
dx∗(a)
da= − 1
a2< 0.
Das bedeutet: wenn sich a erhoht, ist der “neue“ Maximumpunkt, also der nach “An-
derung des a niedriger als der beim “alten“ a, da die Ableitung ein negatives Vorzeichen
hat.
Die Botschaft dieses Kapitels ist nun folgende: wir konnen etwas uber das Vorzeichen
dieser Ableitung dx∗(a)/da sagen, auch wenn wir die Bedinung erster Ordnung nicht
93
explizit nach x∗(a) losen konnen. Man stelle bitte fest, dass das eigentlich genau dieselbe
Aussage wie oben ist: ich kann die Gleichung einer Hohenlinie f(x, y) = c zwar nicht
immer explizit auflosen, aber an dy/dx komme ich - falls fy(x, y) 6= 0 - immer dran.
Was man nun sehen muss, ist das Bedingung erster Ordnung sozusagen die Rolle der
Gleichung der Hohenlinie ubernimmt. Machen wir uns das am obigen Beispiel klar: Falls
x∗ maximiert, gilt
1
x∗− a = 0.
In der Tat stehen hier zwei Variablen x∗ und a auf derselben Seite einer Gleichung. Wenn
wir das auf der linken Seite g(x∗, a) nennen, steht also g(x∗, a) = 0. Also ist hier x∗ implizit
als Funktion von a definiert, also x∗ = x∗(a). Und warum ausgerechnet diese Gleichung?
Weil man wissen mochte, wie sich die Maximalstelle x∗(a) andert, falls sich a andert. Und
dazu muss man die Gleichung betrachten, die eine Maximalstelle letzten Endes bestimmt.
Und das ist die Bedingung erster Ordnung!
Man ware nun also in der Situation, in der man den impliziten Funktionensatz anwenden
konnte und die gewunschte Ableitung auch durch
dx∗(a)
da= −ga(x
∗(a), a)
gx(x∗(a), a)
bekommen konnte; naturlich nur falls der Nenner ungleich Null ist. Versuchen wir es: um
dx∗(a)/da mit der Formel
dx∗(a)
da= −ga(x
∗(a), a)
gx(x∗(a), a)
zu berechnen, mussen wir also die Bedingung erster Ordnung als Ausgangsgleichung her-
nehmen und die Ableitung dieser Bedingung nach a durch die Ableitung dieser Bedingung
nach x teilen. Die Ableitung dieser Bedingung erster Ordnung nach x ist aber die zweite
Ableitung von f nach x.
Also haben wir
dx∗(a)
da= − −1
− 1x∗(a)2
= −x∗2(a).
Im Nenner steht ein Ausdruck, der ungleich Null ist, also konnen wir weiterrechnen. Setzen
wir nun fur das x∗(a) den expliziten Ausdruck 1/a ein, erhalten wir wirklich
dx∗(a)
da= − 1
a2.
Wir konnen also hier zwei Prozeduren vertauschen: wenn man auflosen kann, lost man
eben zuerst auf und leitet dann ab. Man kann aber offensichtlich auch zuerst ableiten
94
und dann die Auflosung, also die Maximalstelle einsetzen. Das klappt, grob gesprochen,
deshalb, weil alle Funktion schon stetig sind und x∗(a) eben als eine eindeutige Funktion
von a definiert ist, namlich x∗(a) = 1/a.
Aber die richtige Power des Impliziten Funktionen Satzes im Zusammenhang mit der
komparativen Statik wird eben erst klar, wenn wir Gleichungen nicht explizit auflosen
konnen. Daher zum nachsten Beispiel.
Beispiel 2: Beim Beispiel von eben war das nicht besonders spannend, da man ja explizit
nach x∗(a) auflosen konnte. Das ist nicht mehr so, wenn
f(x) = h(x)− ax
mit h′ > 0, h′′ < 0.
Hier ist die Bedingung erster Ordnung
h′(x∗)− a = 0.
Das konnen wir nun nicht explizit nach x∗(a) auflosen. Wir konnen aber die linke Seite
als eine Funktion g(x, a) auffassen, dann steht da
g(x∗, a) = 0.
Und das sieht doch genauso aus wie eine Hohenlinie! Also konnen wir doch auch
dx∗(a)
da= −ga(x
∗(a), a)
gx(x∗(a), a)
bilden, falls gx(x∗(a), a) 6= 0.
Da g durch die Bedingung erster Ordnung gegeben ist, haben wir, da h′′ < 0,
dx∗(a)
da= − −1
h′′(x∗(a)).
Damit bekommen wir zwar keinen expliziten Ausdruck fur dx∗/da, wir konnen aber etwas
uber das Vorzeichen sagen: da h′′ < 0, folgt dass
dx∗(a)
da< 0.
Beispiel 3: Hier ein etwas komplizierteres Beispiel:
f(x) = ah(x)− k(x)
95
mit h′ > 0, h′′ < 0, k′ > 0, k′′ > 0, a > 0. Wir wollen wissen, wie sich die Maximalstelle
andert, falls sich a andert.
Die Bedingung erster Ordnung lautet:
f ′(x∗) = ah′(x∗)− k′(x∗) = 0.
Diese Bedingung liefert uns tatsachlich ein Maximum, denn
f ′′(x) = ah′′(x)− k′′(x) < 0.
Also: hier ist der Ausdruck
ah′(x∗)− k′(x∗) = 0.
sozusagen unsere Gleichung fur die Hohenlinie, sie bestimmt ja eben auch alle (x, a)−Kombinationen, so dass
ah′(x∗)− k′(x∗) = 0
gilt.
Nennen wir die linke Seite also wieder g(x, a). Dann ist, da ah′′(x∗)− k′′(x∗) 6= 0,
dx∗(a)
da= −ga(x
∗(a), a)
gx(x∗(a), a)= − h′(x∗)
ah′′(x∗)− k′′(x∗)
und mit unseren Annahmen an h und k folgt, dass das Vorzeichen dieser Ableitung positiv
ist.
Beispiel 4: Nun machen wir es noch etwas schwieriger:
Sei
f(x) = h(ax)− k(x)
mit h′ > 0, h′′ < 0, k′ > 0, k′′ > 0, x > 0. Die Frage sei wieder dieselbe wie oben.
Die Bedingung erster Ordnung ist nun, fur ein maximierendes x∗,
f ′(x) = h′(ax∗)a− k′(x∗) = 0
Nun erhalten wir
dx∗(a)
da= −h′′(ax∗)x∗a + h′(ax∗)
h′′(ax∗)a2 − k′′(x∗)
Das Vorzeichen dieser Ableitung ist nun leider ohne weitere Annahmen nicht weiter be-
stimmbar: im Nenner ist alles klar, dort ist das Vorzeichen kleiner Null. Aber im Zahler
steht etwas negatives, h′′(ax∗) plus etwas positivem, h′(ax∗). Also kann man hier nichts
genaues sagen und man musste weitere Annahmen insbesondere an die Funktion h treffen.
96
10.3 Mehrere Variablen
Nun kann man das noch komplizierter haben: in den Grundlagen der VWL haben Sie
schon einfache Makromodelle gesehen, z.B.
C(Y ) + I(i) + G = Y (10.1)
L(Y, i) = M (10.2)
Die erste Gleichung beschreibt den das Gleichgewicht auf dem Gutermarkt, die zweite
Gleichung beschreibt das Gleichgewicht auf dem Geldmarkt. Dabei ist C die Konsumfunk-
tion, G die Staatsausgaben, Y das Volkseinkommen, I die Investitionen, i der Zinssatz,
L die Geldnachfrage und M das reale Geldangebot. Es gelten die ublichen Annahmen an
den Verlauf dieser Funktion: 0 < C ′ < 1, LY > 0, Li < 0, I ′ < 0.
Diese beiden Gleichungen bestimmen die Gleichgewichtswerte von Y und i, die die beiden
Gleichungen erfullen, also sind hier Y und i endogen. Alle anderen Variablen, G und M ,
sind exogen.
Das kann man nun auch schreiben als
C(Y ) + I(i) + G− Y = 0 (10.3)
L(Y, i)−M = 0. (10.4)
Das sieht doch nun aus wie ein Gleichungssystem aus zwei impliziten Funktionen: die
Variablen sind Y, i, G und M . Nochmals: hier werden alle (Y, i)-Kombinationen bestimmt,
die fur Gleichgewicht auf den beiden Markten sorgen. Damit sind Y und i implizite
Funktionen von G und G. Oder nochmal anders ausgedruckt: man konnte jede dieser
Gleichungen als eine Hohenlinie auffassen: alle (Y, i, G, M)−Kombinationen, so dass z.B.
gilt L(Y, i)−M = 0.
Und die Frage ist nun wieder: wie andern sich gewisse Variablen, wenn sich andere andern?
Hier sind Y und i die endogenen Variablen, das sind die Variablen, die im Modell bestimmt
werden. Die anderen sind exogene Variablen. Die Annahme ist also wieder, dass man an
den exogenen Variablen drehen kann (immer nur an einer..) und dann mochte man wissen,
wie sich die endogenen Variablen andern. Also: die endogenen Variablen Y und i sind hier
implizit als Funktionen von G und M definiert.
97
Es zeigt sich nun, dass es auch fur mehrere Gleichungen impliziter Funktionen eine Vari-
ante des impliziten Funktionensatzes gibt. Was nacht man? Sie erinnern sich sicher: um
fur f(x, y) = c die Ableitung dy/dx zu bekommen, haben wir das Problem linearisiert:
wir haben
df = fx(x, y)dx + fy(x, y)dy
gebildet, festgestellt, dass ja entlang einer Hohenlinie df = 0 gilt und dann die Gleichung
nach dy/dx fur fy(x, y) 6= 0 gelost.
Denselben Trick wenden wir nun hier an. Wir linearisieren das System mittels des totalen
Differentials:
C ′(Y )dY + I ′(i)di + dG− dY = 0 (10.5)
LY (Y, i)dY + Li(Y, i)di− dM = 0. (10.6)
Angenommen, wir interessieren uns nur fur eine Anderung in G. Dann ware also dM = 0
und wir haben
C ′(Y )dY + I ′(i)di + dG− dY = 0 (10.7)
LY (Y, i)dY + Li(Y, i)di = 0 (10.8)
bzw.
(C ′(Y )− 1)dY + I ′(i)di + dG = 0 (10.9)
LY (Y, i)dY + Li(Y, i)di = 0. (10.10)
Offensichtlich beeinflusst also dG die erste Gleichung, also andern sich i und Y . Da die
aber auch in der zweiten Gleichung stecken, andert sich auch da was. Wir konnen das
Ergebnis noch etwas anders schreiben, namlich in Matrixschreibweise:
(C ′ − 1 I ′
LY Li
)(dY
di
)=
(−dG
0
)
Ich bezeichne die 2×2-Matrix auf der linken Seite mit A und nennen |A| die Determinante
von A. Es gilt
|A| = (C ′ − 1)Li − I ′Ly > 0,
98
insbesondere gilt also |A| 6= 0. Die zu A inverse Matrix bezeichnen wir mit A−1.
Wir wollen dieses System nun nach dY und di losen.
Eine Variante des impliziten Funktionensatzes sagt uns hier nun folgendes:
• y und i existieren in der Tat als eindeutige Funktionen von G (und auch von M),
falls |A| 6= 0.
• Die gewunschten Ableitungen bekommt man, indem man entweder
(dY
di
)= A−1
(−dG
0
)
berechnet oder indem man die Cramersche Regel anwendet.
Beachten Sie, dass die Bedingung |A| 6= 0 die Bedingung ist, die analog zu fy(x, y) 6= 0 im
letzten Abschnitt ist. Dies macht auch wirklich Sinn: letztlich geht es um die Auflosung
eines Gleichungssystems und das funktioniert genau dann wenn die Determinante der
jeweiligen Koeffizientenmatrix Null ist.
Wie lost man das nun auf? Da Matrizen invertieren immer etwas muhsam ist, wenden
wir die Cramersche Regel an. Mit ihr erhalten wir
dY =
∣∣∣∣∣−dG I ′
0 Li
∣∣∣∣∣∣∣∣∣∣
C ′ − 1 I ′
LY Li
∣∣∣∣∣
und damit
dY =−LidG
(C ′ − 1)Li − LY I ′.
Nun sind 0 < C ′ < 1, Li < 0, LY > 0, I ′ < 0. Damit erhalt man fur das Vorzeichen von
dY/dG (man teilt einfach auf beiden Seiten durch dG),
dY
dG=
+
(−)(−)− (+)(−)=> 0.
Ahnliche Berechnungen kann man fur di/dG, di/dM und dY/dM durchfuhren.
99
Noch etwas allgemeiner...
Allgemein sieht das so aus: angenommen, wir haben zwei endogene Variablen y1, y2 und
zwei exogene Variablen x1, x2. Sei y der Vektor (y1, y2), ebenso sei x = (x1, x2). Diese
Variablen definieren zwei implizite Gleichungen
F1(y1, y2; x1, x2) = 0
F2(y1, y2; x1, x2) = 0.
In kompakter Form schreiben wir dieses Gleichungssystem als
F (x, y) = 0.
Naturlich konnen wir so etwas auch fur p Gleichungen mit p exogenen und l exogenen
Variablen definieren.
Wir wollen also wissen ob es Funktionen g1 und g2 gibt mit y1 = g1(x1, x2) und y2 =
g2(x1, x2). Und wir sind an den partiellen Ableitungen
∂gi
∂xj
i = 1, 2; j = 1, 2
interessiert.
Wir definieren eine Matrix DyF (x, y) durch
DyF (x, y) =
∂F1
∂y1
∂F1
∂y2
∂F2
∂y1
∂F2
∂y2
und eine Matrix DxF (x, y) durch
DxF (x, y) =
∂F1
∂x1
∂F1
∂x2
∂F2
∂x1
∂F2
∂x2
.
Dann sagt uns die hier passende Variante des Impliziten Funktionen-Satzes:
Satz 10.1. Sei (x∗, y∗) ein Punkt mit F (x∗, y∗) = 0. Wenn
det DyF (x∗, y∗) 6= 0
100
so existieren in einer Umgebung um (x∗, y∗) Funktionen g1(x1, x1) und g2(x1, x2) fur alle
(x, y) in dieser Umgebung. Es gilt y1 = g1(x1, x2) und g2(x1, x2). Die Funktionen g1 und
g2 sind stetig und differenzierbar und wir erhalten die Ableitungen
∂gi
∂xj
i = 1, 2; j = 1, 2
entweder aus
∂g1
∂x1
∂g1
∂x2
∂g2
∂x1
∂g2
∂x2
= −(Dy(x, y))−1Dx(x, y).
oder durch die Cramersche Regel. Verwenden wir die Cramersche Regel, losen wir das
linearisierte Gleichungsystem
∂F1
∂x1
dx1 +∂F1
∂x2
dx2 +∂F1
∂y1
dy1 +∂F1
∂y2
dy2 = 0 (10.11)
∂F2
∂x1
dx1 +∂F2
∂x2
dx2 +∂F2
∂y1
dy1 +∂F2
∂y2
dy2 = 0
nach dyi/dxi fur i, j = 1, 2. Dabei setzen wir dxi = 0 fur die xi, die uns nicht interessieren.
Beachten Sie, dass die Formel
∂g1
∂x1
∂g1
∂x2
∂g2
∂x1
∂g2
∂x2
= −(Dy(x, y))−1Dx(x, y).
fur i = j = 1 (also eine endogene Variable y und eine exogene Variable x) der ersten
Formel
dy
dx= −fx(x, y)
fy(x, y)
entspricht: ich teile die erste partielle Ableitung der impliziten Funktion f nach der exo-
genenen Variable x durch die erste partielle Ableitung der impliziten Funktion f nach der
endogenen Variable y. Wenn wir nun mehrere endogene und exogene Variablen haben,
teilen sozusagen die Matrix der ersten partiellen Ableitungen der Funktionen Fi nach den
exogenen Variablen xi durch die Matrix der ersten partiellen Ableitungen der Funktionen
Fi nach den endogenen Variablen yj. Man erhalt dann hier eben keine einzelne Ableitung,
sondern wieder eine Matrix mit Ableitungen dgi/dxj.
101
Kapitel 11
Integration
11.1 Einfuhrung und Erinnerung
Wo kommt der Integralbegriff her? Die meisten von Ihnen werden beim Stichwort Integra-
tion an Flachenberechnung denken, also fangen wir auch damit an. Die Idee ist, die Flache
unter einer Funktion in gleichgroße Rechtecke zu teilen und dann den Flacheninhalt der
Summe dieser Rechtecke zu berechnen. Dann wahlt man immer kleinere Rechtecke und
hofft, dass man - unabhangig von der Art und Weise der Unterteilung - immer zum selben
Ergebnis kommt. Dieses Ergebnis nennt man dann das (bestimmte) Integral.
Sei [a, b] ein Intervall und f : [a, b] → R eine Funktion. Wir zerlegen nun das Intervall in N
gleiche Teilintervalle, jedes mit der Lange ∆ = (b− a)/N . Seien x0, ..., xN die Endpunkte
dieser Teilintervalle:
x0 = a, x1 = a + ∆, x2 = a + 2∆, ..., xN = a + N∆ = b.
Nun bilde man die Summe
f(x1)(x1 − x0) + f(x2)(x2 − x1) + · · ·+ f(xN)(xN − xN−1) =N∑
i=1
f(xi)∆.
Diese Summe nennt man eine Riemann-Summe. Die Idee ist nun, das Intervall [a, b] in
immer kleinere Teilintervalle zu unterteilen. Wir nennen
R(N) =N∑
i=1
f(xi)∆
eine Riemann-Folge und bilden also fur die Riemann-Folge lim∆→0. Falls fur ∆ → 0 diese
Folge, gegen eine Zahl konvergiert, nennen wir diese Zahl einen Grenzwert.
103
Definition 11.1. Wenn alle Riemann-Folgen unabhangig von der gewahlten Zerlegung
des Intervalls [a, b] gegen ein und denselben Grenzwert konvergieren, nennen wir die Funk-
tion f integrierbar und nennen den Grenzwert das (Riemann)-Integral von f ,
lim∆→0
N∑i=1
f(xi)∆ =
∫ b
a
f(x)dx.
Man nennte a und b die Integrationsgrenzen, x die Integrationsvariable und f(x) den
Integranden. Wir nennen ein Integral mit gegebenen Integrationsgrenzen auch bestimmtes
Integral.
Nun ist es sicher ziemlich lastig, ein Integral uber die Riemann-Summen auszurechnen und
aus der Schule kennen Sie sicherlich alle noch die Rechenregeln fur einfache Integrale. Man
bildet sozusagen die Aufleitung (manchmal liest man auch Anti-Ableitung) einer Funktion.
Man nennt diese Aufleitung auch eine Stammfunktion von f . Diese Stammfunktion sollte
man dann naturlich auch wieder ableiten, also differenzieren, konnen, um wieder f zu
erhalten.
Definition 11.2. Sei f : (a, b) → R eine Funktion. Eine differenzierbare
Funktion F : (a, b) → R mit F ′(x) = f(x) fur alle x ∈ (a, b) heißt Stammfunktion von f .
Wir werden eine Stammfunktion von f auch oft als das unbestimmte Integral∫
fdx
bezeichnen.
Es gilt dann der folgende
Satz 11.1. Sei f eine integrierbare Funktion mit Stammfunktion F . Dann gilt
∫ b
a
f(x)dx = F (x)|ba.
Hier ist
F (x)|ba = F (b)− F (a)
die Differenz der Funktionswerte von F .
Welche Funktionen kann man integrieren? Insbesondere stetige Funktionen, also die Funk-
tionen mit denen man in den okonomischen Anwendungen meistens arbeitet. Einige Re-
chenregeln wollen wir uns nun wieder in Erinnerung rufen.
104
1. Lineare Funktion cx haben die Ableitung c, also gilt∫ b
a
cdx = (b− a)c.
2. Die Ableitung von x3 ist 3x2, also ist∫ b
a
3x2dx = b3 − a3.
3. Die Ableitung von xn+1/(n + 1) ist xn, also ist∫ b
a
xndx =bn+1 − nn+1
n + 1.
4. Die Ableitung von ex ist ex, also hat man∫ b
a
exdx = eb − ea.
Und Sie erinnern sich sicher noch, dass wir bei einem unbestimmten Integral eben nur
eine der vielen moglichen Stammfunktion einer Funktion erhalten, also ist∫xdx =
1
2x2 + C,
wobei C eine Konstante ist. Bei einem bestimmten Integral haben wir eben die Integrati-
onsgrenzen, also a und b von oben, dabei.
Beispiele 11.1. Berechnen Sie die folgenden Stammfunktionen bzw. die bestimmten In-
tegrale (die Losungen stehen jeweils dabei).
1. ∫1
x3dx = − 1
2x2+ C
2. ∫ √xdx =
2
3x3/2 + C
3. ∫ (3
x− 8e−4x
)dx = 3 ln(|x|) + 2e−4x + C
4. ∫ √x2 + 1dx =
1
2x√
x2 + 1 +1
2ln(x +
√x2 + 1) + C
5.
−∫ 3 ln 3
0
(ex/3 − 3)dx = 9 ln 3− 6.
6.
−∫ 5
2
e2xdx =1
2e4(e6 − 1)
105
11.2 Partielle Integration
Manche Funktionen kann man nicht so einfach integrieren, weil man die Stammfunktion
nicht sofort sieht bzw. errat. Eine weitere wichtige Integrationsregel ist daher die partielle
Integration. Fur zwei stetige differenzierbare Funktionen f, g : [a, b] → R gilt∫ b
a
f(x)g′(x)dx = f(x)g(x)|ba −∫ b
a
f ′(x)g(x)dx.
Das folgt unmittelbar aus der Produktregel, die wir von den Ableitungen her kennen: es
gilt ja (ohne das Argument x),
(f · g)′ = f ′ · g + f · g′.
Integriert man auf beiden Seiten, hat man
f · g =
∫f ′ · g +
∫f · g′.
Also gilt nun∫
f(x)g′(x)dx = f(x)g(x)−∫
f ′(x)g(x)dx.
Oder eben fur ein bestimmtes Integral∫ b
a
f(x)g′(x)dx = f(x)g(x)|ba −∫ b
a
f ′(x)g(x)dx.
Die Schwierigkeit beim partiellen Ableiten besteht darin, dass man sich entscheiden muss,
wie man die Funktionen f und g wahlt: von der einen g, sollte man leicht eine Stamm-
funktion finden. Von der anderen, f , sollte man leicht die Ableitung bestimmen konnen.
Beispiele 11.2. Wir wollen∫
xexdx bestimmen. Da wir x gut ableiten konnen und von
ex problemlos eine Stammfunktion finden, setzen wir f(x) = x und g′(x) = ex, damit ist
g(x) = ex.
Also haben wir∫
exxdx = xex −∫
1 · exdx = xex − ex + C.
Indem wir dieses Resultat nach x ableiten und feststellen, dass xex herauskommt, haben
wir auch eine Probe gemacht.
Es scheint, dass die Wahl von g und f in diesem Beispiel etwas egal ist, da wir x und ex
beide jeweils recht einfach intergrieren bzw. ableiten konnen. Wenn wir allerdings g′(x) =
x setzen, ist die Stammfunktion dann schon eine quadratische Funktion. Uberzeugen Sie
sich bitte davon, dass das Problem dann eher komplizierter als das ursprungliche Problem
aussieht.
106
Beispiele 11.3. Wir wollen die Stammfunktion des Logarithmus berechnen, wir wollen
also∫ b
a
ln(x)dx
bilden.
Wir verwenden die partielle Integration und schreiben zunachst mal
∫ b
a
1 · ln(x)dx.
Nun konnen wir 1 gut integrieren und setzen daher g′(x) = 1 und f(x) = ln(x). Dann
haben wir mit obiger Formel
∫ b
a
ln(x)dx =
∫ b
a
1 · ln(x)dx (11.1)
= x ln(x)|ba −∫ b
a
x1
xdx
= (x ln(x)− x)|ba.
Also ist x ln(x)− x eine Stammfunktion von ln(x).
Uberzeugen Sie sich durch partielle Intergration, dass folgendes gilt:
1.∫
xe−xdx = −e−x(1 + x) + C.
2.∫
3xe4xdx = −e−x(−x2 − 2x− 3) + C.
11.3 Doppelintegrale
Genauso wie man eine Funktion von zwei Variablen f(x, y) nach beiden Variablen ableiten
kann, kann man uber beide Variablen intergrieren. Das braucht man, wenn zum Beispiel
das Volumen eines Korpers, z.B. einer Kugel, berechnet. Man benotigt Doppelintegrale
auch - und da werden Sie es wahrscheinlich sehen - in der Statistik und der Wahrschein-
lichkeitstheorie.
107
Die Idee ist eigentlich recht einfach. Betrachten wir folgendes Beispiel: durch die Funktion
f(x, y) = x2 + y2, 0 ≤ x ≤ 1 und 0 ≤ y ≤ 1 ist ein Korper festgelegt, dessen Volumen wir
nun suchen.
Was macht man? Nun man rechnet zuerst eine Querschnittsflache Q(y) aus: das ist die
Flache, die ich bekommen, wenn ich y konstant halte und nur das x laufen lasse. Ich bilde
also
Q(y) =
∫ 1
0
f(x, y)dx.
Man bekommt
Q(y) =
∫ 1
0
f(x, y)dx =
∫ 1
0
(x2 + y2)dx =
∣∣∣∣1
3x3 + y2x
∣∣∣∣1
0
=1
3+ y2.
Ich habe damit sozusagen den Flacheninhalt in einer Dimension berechnet. Nun muss
ich das aber eben fur alle y zwischen 0 und 1 machen, d.h. ich muss nun auch den
Effekt des y auf das Volumen berucksichtigen und Q(y) eben noch uber y integrieren. Das
Gesamtvolumen betragt daher
V =
∫ 1
0
Q(y)dy =
∫ 1
0
(1
3+ y2
)dy =
2
3.
Wie berechnet man also ein Doppelintegral? Wenn ich
∫ d
c
∫ b
a
f(x, y)dxdy
zu losen habe, betrachte ich die Variable des außeren Integrals, also hier y als eine Kon-
stante und bilde zunachst nur das innere Integral, also
∫ b
a
f(x, y)dx.
Da ich ja in die erhaltene Stammfunktion die Integrationsgrenzen einsetze, verschwindet
das x. Das y bleibt aber erhalten, da wir es als eine Konstante betrachten. Ich bekomme
also eine Funktion, die wir mal g = g(y) nennen. Und mit dieser bilde ich dann
∫ d
c
g(y)dy.
Naturlich kann man das auch anders herum berechnen: es gilt also
∫ d
c
∫ b
a
f(x, y)dxdy =
∫ b
a
∫ d
c
f(x, y)dydx.
108
Beispiele 11.4. Wir wollen
∫ 2
1
∫ 2
1
ex+ydxdy.
berechnen.
Berechnen wir also zunachst∫ 2
1
ex+ydx.
Wir bekommen als Ergebnis |ex+y|21 = e2+y − e1+y = ey(e2 − e). Nun kommt das außere
Integral, also
∫ 2
1
ey(e2 − e)dy = (e2 − e)
∫ 2
1
eydy.
Das ergibt
(e2 − e)
∫ 2
1
eydy = (e2 − e)(e2 − e) = e4 − 2e3 + e2.
Rechnen Sie doch einmal selbst nach, dass
∫ 3
1
∫ 4
1
(x− y + 2)dxdy = 15.
Das ist also das Volumen eines Korpers, der unten vom Rechteck 1 ≤ x ≤ 4, 1 ≤ y ≤ 3
und oben von der Ebene f(x, y) = x− y + 2 begrenzt wird.
109