Der Fachbereich Mathematik an der TU Darmstadt - Prof. Dr ...1 Dieses Skriptum stellt den Inhalt der Vorlesung in einer sehr knappen, sicher nicht buchreifen Form dar. Es soll nicht

Einfuhrung in die Numerische MathematikTeil I

WS 04/05 Revision 18.2.2005

Prof. Dr. P. Spellucci

12. September 2005

1

Dieses Skriptum stellt den Inhalt der Vorlesung in einer sehr knappen, sicher nichtbuchreifen Form dar. Es soll nicht das Studium der einschlagigen Lehrbucher er-setzen. Fur Hinweise auf Fehler, unklare Formulierungen, wunschenswerte Erganzun-gen etc. bin ich jederzeit dankbar. Man bedenke jedoch den Zeitrahmen der Ver-anstaltung, der lediglich 45 Einzelstunden umfasst, weshalb der eine oder anderePunkt wohl etwas zu kurz kommt oder auch einmal ganz wegfallen muss. Ab-schnitte, die im Kleindruck erscheinen, insbesondere eher technische Beweise,werden in der Vorlesung nicht vorgetragen. Sie sind aber fur einen interessiertenLeser zur Arbeitsvereinfachung hier aufgenommen worden. Diese Abschnitte sinddurch eine Sequenz aus << und >> eingeklammert, um die Orientierung zu er-leichtern. Das Gleiche gilt fur die mit ”ERG” gekennzeichneten Abschnitte. Vieleder in diesem Skript beschriebenen Verfahren konnen mit unserem interaktivenSystem NUMAWWW

http://numawww.mathematik.tu-darmstadt.de:8081

erprobt werden, ohne dabei selbst Programme erstellen zu mussen. Ebenso stehtden Studierenden auf dem CIP-Pool MATLAB in der Version R12.1 zur Verfugung,das viele dieser Verfahren als fest implementierte Funktionen zur Verfugung stellt.

Literatur, auf der das Skriptum basiert oder die es vertieft:

1. J. Stoer, R. Bulirsch: Einfuhrung in die Numerische Mathematik I,II Sprin-ger, Heidelberger Taschenbucher.auch erhaltlich in englischer Ubersetzung:Introduction to Numerical Analysis (als ein Band), Springer.

2. A. Quarteroni, R. Sacco, F. Saleri: Numerische Mathematik 1,2. SpringerLehrbuch.auch erhaltlich in englischer Ubersetzung:Quarteroni, Alfio; Sacco, Riccardo; Saleri, Fausto Numerical mathematics.New York, NY: Springer.

3. A. Bjoerck, G. Dahlquist: Numerische Methoden. Oldenbourg Verlag.auch erhaltlich in englischer UbersetzungNumerical methods (mit Koautor Andersson)

4. G. Schmeisser, H. Schirmeyer: Praktische Mathematik. Walter de Gruyter

5. Deuflhard, Peter; Hohmann, Andreas Numerische Mathematik I. Eine al-gorithmisch orientierte Einfuehrung. 2., ueberarb. Aufl. Walter de Gruyter1993auch erhaltlich in englischer Ubersetzung:Numerical analysis. A 1st course in scientific computation. Transl. from theGerman by F. A. Pontra and F. Schulz. De Gruyter 1995

2

Inhaltsverzeichnis

1 Interpolation und Approximation 5

1.1 Polynominterpolation . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Interpolation als Approximationsprozeß . . . . . . . . . . . . . . . 22

1.3 Hermite–Interpolation . . . . . . . . . . . . . . . . . . . . . . . . 26

1.4 Einige Anwendungen von Interpolationspolynomen . . . . . . . . 27

1.5 Interpolation durch stuckweise polynomiale Funktionen . . . . . . 34

1.6 Approximation in einer gewichteten L2–Norm(ERG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

1.7 (Stuckweise) polynomiale Interpolation in zwei Veranderlichen . . 61

1.8 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2 Numerische Quadratur 69

2.1 Numerische QuadraturGrundbegriffe und Grundtatsachen . . . . . . . . . . . . . . . . . 70

2.2 Elementare Interpolationsquadraturen . . . . . . . . . . . . . . . 80

2.3 Zusammengesetzte Newton–Cotes–Formeln . . . . . . . . . . . . . 84

2.4 Adaptive Quadratur und automatische Kontrolle des Quadratur-fehlers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

2.5 Gauß’sche Quadraturformeln . . . . . . . . . . . . . . . . . . . . . 93

2.6 Verfahren von Romberg . . . . . . . . . . . . . . . . . . . . . . . 99

2.7 Wiederholte Richardsonextrapolation . . . . . . . . . . . . . . . . 106

2.8 Numerische Berechnung uneigentlicher Integrale . . . . . . . . . . 107

2.9 Bereichsintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 110


3

4 INHALTSVERZEICHNIS

3 Direkte Methoden zur Losung linearer Gleichungssysteme 115

3.1 Gestaffelte GleichungssystemeDreiecksmatrizen und ihre Invertierung . . . . . . . . . . . . . . . 116

3.2 Das Gauß’sche Eliminationsverfahren . . . . . . . . . . . . . . . . 118

3.3 Matrizielle Beschreibung des Gauß–Algorithmus und LR–Theorem 123

3.4 Anwendung der Dreieckszerlegung.Dreieckszerlegung in Spezialfallen . . . . . . . . . . . . . . . . . . 133

3.5 Vektor– und Matrixnormen . . . . . . . . . . . . . . . . . . . . . 139

3.6 Sensitivitatsanalyse fur lineare Gleichungssysteme . . . . . . . . . 145

3.7 Lineare diskrete L2–Approximation(Gauß’sche Ausgleichsrechnung)Unitare Transformation einer n×n Matrix auf obere Dreiecksgestalt151


4 Losung nichtlinearer Gleichungssysteme 165

4.1 Einfuhrungsbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . 165

4.2 Das Newton–Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 168

4.3 Konvergenztheorie stationarer Einstellenverfahren . . . . . . . . . 176

4.4 Die Begriffe Konvergenzordnung undKonvergenzrate, ERG . . . . . . . . . . . . . . . . . . . . . . . . . 185

4.5 Quasi-Newton-Verfahren, ERG . . . . . . . . . . . . . . . . . . . 187

4.6 Einschachtelungsverfahren (n=1) ERG . . . . . . . . . . . . . . . 188


Kapitel 1

Interpolation und Approximation

In diesem Kapitel besprechen wir die einfachsten Methoden zur genaherten Dar-stellung von Funktionen in einer reellen Veranderlichen. Auf den Fall mehre-rer Veranderlicher gehen wir nur sehr kurz ein. Wir beschranken uns dabei aufAnsatzfunktionen, die sich zumindest stuckweise als Polynome darstellen lassen.Sinn dieser Methoden ist es, “komplizierte Funktionen”, deren exakte Berechnungmit endlich vielen arithmetischen Operationen unmoglich ist, oder Funktionen,die nur in Form von diskreten Werten (xi, yi), i = 0, . . . , n bekannt sind, durcheinfache leicht manipulierbare Funktionen auf vorgegebenen Teilen ihres Definiti-onsbereiches so anzunahern, daß die Abweichungen fur die Praxis tolerierbar sind.“Leicht manipulierbar” sind nun offensichtlich alle Funktionen, die sich stuckwei-se als Polynome darstellen lassen. Diese Naherungsmethoden werden uns dannspater zu Naherungsmethoden fur bestimmte Integrale und fur Ableitungswertefuhren.

1.1 Polynominterpolation

Aufgabenstellung:Gegeben seien n+ 1 “Stutzpunkte ” (xi, yi) ∈ R2, i = 0, . . . , n mit xi 6= xj furi 6= j.⊗ Gesucht pn ∈

∏n (=Menge aller Polynome vom Hochstgrad n) mit

pn(xi) = yi, i = 0, . . . , n.

Bemerkung 1.1.1. Wenn man pn darstellt in Form seiner Taylorentwicklungan der Stelle 0:

pn(x) =n∑j=0

cjxj

5

6 KAPITEL 1. INTERPOLATION UND APPROXIMATION

(was aber in der Praxis gar nicht sinnvoll ist), dann erhalt man das lineare Glei-chungssystem

1 x0 x20 . . . xn0

......

.... . .

...1 xn x2

n . . . xnn

c0

...cn

=

y0...yn

“Im Prinzip” konnte man dieses Gleichungssystem mit dem Gauß’schen Algo-rithmus losen. Wegen des damit verbundenen Rechenaufwandes, vor allem aberwegen der oft extrem großen Empfindlichkeit gegen unvermeidlich auftretendeRundungsfehler von Systemen mit solch einer Matrix ( einer sogenannten vander Monde–Matrix, ) ist dieser Losungsweg abzulehnen.

Man kann zeigen, daß fur beliebige paarweise verschiedene xj das Produkt ausbetragsmassig maximalem Element der Matrix und betragsmassig maximalen Ele-ment der inversen Matrix stets ≥ 2n−2/

√n/n2 ist. Wie wir in einem spateren

Kapitel sehen werden, bedeutet dies, daß die Losung des Gleichungssystems mitgerundetem Rechnen dann zwangslaufig schon bei kleinem n versagen wird. Wirbegnugen uns hier mit einem kleinen Beispiel:

Beispiel 1.1.1. Es sei n = 5 und c = (8, 1,−5, 3,−2, 1), xi ∈ {4, 4.2, 4.4, 4.6, 4.8, 5.0}.Wir berechnen die y−Werte ”exakt”, d.h. mit 16 stelliger Rechnung und losendann das obige lineare Gleichungssystem. Wir sollten nun c zuruckerhalten. Aberdas Ergebnis ist, erneut in 16 stelliger Rechnung und mit einem qualitativ hoch-wertigen Gleichungsloser, basierend auf dem Gauss’schen Algorithmus:

7.99999989064820

1.00000012251493

-5.00000005481280

3.00000001224096

-2.00000000136456

1.00000000006074

D.h. die Rundungsfehler in den y-Werten sind nun um den Faktor 109 verstarktworden In der Tat berechnet sich die sogenannte ”Konditionszahl” der Matrixhier zu 9.21× 109.

Wir geben vielmehr direkt eine Losung an, die man durch einen anderen Ansatzfur pn erhalt.

1.1. POLYNOMINTERPOLATION 7

Satz 1.1.1. Interpolationspolynom nach Lagrange: Die Interpolations-aufgabe ⊗ hat genau eine Losung. Diese kann dargestellt werden als

pn(x) =n∑i=0

yiLi(x)

mit

Li(x) =n∏

j=0j 6=i

x− xjxi − xj

Beweis: Offenbar gilt Li(xi) = 1, Li(xk) = 0 fur i 6= k. Also

pn(xk) =n∑i=0

yiδik = yk

Annahme: ∃p?n, p??n ∈ Πn mit ⊗ , p?n 6≡ p??n . Dann istpn := p?n − p??n 6≡ 0, ∈ Πn und pn(xj) = 0, j = 0, . . . , n.Da die xj paarweise verschieden sind, erhalt man einen Widerspruch, denn einPolynom vom Hochstgrad n hat hochstens n verschiedene Nullstellen oder ver-schwindet identisch. 2

Beispiel 1.1.2.

(xi, yi) = {(−1, 1), (0, 1), (1, 3)} n = 2 .

Die Losung nach Lagrange lautet dann explizit ausgeschrieben

1(x− 1)x

(−1− 1)(−1)+ 1

(x+ 1)(x− 1)

(0 + 1)(0− 1)+ 3

(x+ 1)x

(1− (−1))(1− 0).

Bemerkung 1.1.2. Dieser Satz besagt u.a., daß man ein Polynom gleichwertigdurch seine Taylorentwicklung in 0 oder einen Satz von n + 1 Funktionswertenreprasentieren kann, oder, anders ausgedruckt, daß die Interpolation von Werteneines Polynoms vom Hochstgrad n durch ein Polynom vom Hochstgrad n diesesPolynom exakt reproduziert.

Bemerkung 1.1.3. Die oben eingefuhrten Polynome Li(x) heißen die Lagran-geschen Grundpolynome. Es sind Polynome vom genauen Grad n, die eineBasis von Πn bilden. Eigentlich mußte man die Abhangigkeit der Li von n undvon {xi} kennzeichnen, doch verzichtet man aus Grunden der Ubersichtlichkeitnormalerweise darauf.

In der folgenden Abbildung ist n = 3 und {xi} = {1, 2, 3, 4}. Die durchgezogeneLinie zeigt L0 und die gepunktete L1.


-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

1 1.5 2 2.5 3 3.5 4x

Abb 1.1.1

Das Interpolationspolynom hat den Hochstgrad n, nicht den genauen Grad n.(Beispiel: y0 = y1 = . . . = yn = 1⇒ pn(x) ≡ 1)Aus der Existenz und Eindeutigkeit der Losung von ⊗ folgt die Regularitat deroben angegebenen van der Monde–Matrix (die man aber auch durch direkte Be-rechnung ihrer Determinante zeigen konnte ).

Die in Satz 1.1.1 angegebene Losung der Interpolationsaufgabe ist fur prakti-sche Zwecke noch nicht sonderlich gunstig. So andern sich z.B. alle Li, wennman eine einzige “Stutzstelle” xj nachtraglich hinzufugt. Wir wollen deshalb ei-ne andere Darstellung (des gleichen Polynoms pn) herleiten. Um im Folgendendie Abhangigkeit des Interpolationspolynoms vom gewahlten Interpolationsgradund von der Anzahl der “Stutzstellen” xj und “Stutzwerte” yj zu kennzeichnen,fuhren wir folgende Bezeichnung ein:

Definition 1.1.1. p ∈ Πk sei die eindeutige Losung der Aufgabe

p(xi) = yi i = j, j + 1, . . . , j + k

mit xi 6= xl fur i 6= lDann bezeichnen wir p mit

pj,k ( x ; (xi, yi))

wobei j untere Grenze fur ik Hochstgradx freie Variable(xi, yi) Stutzstellen und Stutzwerte fur i = j, . . . , j + k 2


Es bezeichnet also z.B. p1,3(0; (iπ/6, sin(iπ/6))) das Polynom vom Hochstgrad 3,das die Daten (π/6, sin(π/6)), . . . , (2π/3, sin(2π/3)) interpoliert, ausgewertet ander Stelle x = 0.

Der folgende Satz liefert einen Zusammenhang zwischen den Interpolationspolynomenpj,k , pj,k−1 , pj+1,k−1 auf der gleichen Stutzpunktgesamtheit:

x0 xj xj+1 xj+k−1 xj+k

pj,k(x; (xi, yi))︷︸︸︷︸︷︷︸pj,k−1(x; . . .)

︸︷︷︸pj+1,k−1(x; . . .)

Abbildung 1.1.2

Satz 1.1.2. Neville-Schema Es sei (xi, yi) gegeben mit m ≤ i ≤ n undxi 6= xj fur i 6= j.Dann gilt fur m ≤ j ≤ n und 1 ≤ k ≤ n−m

pj,0(x; (xi, yi)) ≡ yj

undpj,k(x; (xi, yi))︸︷︷︸

∈Πk

=

pj+1,k−1(x; (xi, yi))︸︷︷︸∈Πk−1

+ (x− xj+k)︸︷︷︸∈Π1

pj+1,k−1(x; (xi, yi))− pj,k−1(x; (xi, yi))

xj+k − xj︸︷︷︸∈Πk−1

Beweis: Induktiv bzgl. k. Die Induktionsverankerung fur k = 0 folgt aus derDefinition. Fur den Induktionsschritt von k − 1 nach k setzen wir die Wertex = xi, i = j, . . . , j+ k direkt in der Rekursionsformel ein und nutzen die Induk-tionsannahme aus. 2

Man kann die Rekursionsformel im Satz 1.1.2 auf zwei verschiedene Arten an-wenden: setzt man einen x–Wert zahlenmaßig ein, so hat man eine Rekursions-formel fur den Wert des Interpolationspolynoms p0,n (x ; (xi, yi)) an derStelle x . Das Polynom p0,n tritt dabei selbst nirgendwo explizit auf. In dieserForm heißt der Algorithmus Neville–Algorithmus.

pj,0 = yj , j = 0, . . . , n

und fur k = 1, . . . , n, j = 0, . . . , n− k

pj,k = pj+1,k−1 + (x− xj+k)pj+1,k−1 − pj,k−1

xj+k − xj


Beispiel 1.1.3. n = 2; {(xi, yi)} = {(0, 2), (1, 2), (2, 1)} x = 12

k = 0 k = 1 k = 2i xi yi0 0 2 2 + (1

2− 1)2−2

1−0= 2 2.5 + (1

2− 2)2.5−2

2−0= 2.125

1 1 2 1 + (12− 2)1−2

2−1= 2.5

2 2 1

2

Behandelt man x als formale Variable, so hat man eine Rekursionsformel fur diekoeffizientenmaßige Berechnung von p0,n (dies ist wegen des damit verbundenenAufwandes nur theoretisch interessant).

Offenbar geht nun p0,k aus p0,k−1 hervor durch Hinzunahme des Stutzpunktes(xk, yk) zur Interpolationsaufgabe und es gilt:

a) p0,k − p0,k−1 ∈ Πk

b) p0,k(xj; (xi, yi))− p0,k−1(xj; (xi, yi)) = 0 fur j = 0, . . . , k − 1

Nun ist ein Polynom vom Hochstgrad k durch die Angabe von k Nullstellen undseinem Hochstkoeffizienten eindeutig festgelegt.Also gilt notwendig mit den noch unbekannten Hochstkoeffizienten γ0,k von p0,k

p0,k(x; (xi, yi)) − p0,k−1(x ; (xi, yi)) = γ0,kΠk−1i=0 (x− xi)

Also ( durch Auflosung dieser Rekursion)

p0,n(x; (xi, yi)) =n∑i=0

γ0,i Πi−1j=0(x− xj)

Dies ist die Darstellung des Interpolationspolynoms nach Newton. Aus obi-ger Rekursionsformel fur pj,k liest man als Rekursionsformel fur den Hochstkoef-fizienten γj,k von pj,k ab:

Schema der dividierten Differenzen:

γj,k =γj+1,k−1 − γj,k−1

xj+k − xjj = 0, . . . , n− k, k = 1, . . . , n

mitγj,0 = yj j = 0, . . . , n

Definition 1.1.2. Sei pj,k definiert wie in Definition 1.1.1, und γj,k der Hochstko-effizient von pj,k. Dann nennt man γj,k die kte dividierte Differenz zu (xj, yj),. . . , (xj+k, yj+k).

Dafur gibt es eine Fulle verschiedener Schreibweisen in der Literatur:


[xj, . . . , xj+k][xj, . . . , xj+k; yj, . . . , yj+k][xj, . . . , xj+k; f ]f[xj ,...,xj+k] falls yj = f(xj)

Das Schema der dividierten Differenzen wird spaltenweise aufgebaut:

x0 γ0,0 = y0 γ0,1 · · · γ0,k · · · · · · γ0,n...

......

...xj γj,0 = yj · · · γj,k−1 γj,k...

... γj+1,k−1

xj+k γj+k,0 = yj+k...

... γn−1,1

xn γn,0 = yn

Mit den Koeffizienten γ0,j hat man das Interpolationspolynom nach New-ton

p0,n(x; (xi, yi)) = (((. . . (︸︷︷︸n−1

γ0,n·(x−xn−1)+γ0,n−1)(x−xn−2)+· · ·+γ0,1)(x−x0)+y0

Man kann dann fur beliebiges x den Wert von p0,n mit n Multiplikationen und2n + 1 Additionen berechnen. Der durch die obige Klammerung angedeuteteAlgorithmus heißt “verallgemeinertes Hornerschema”.

Beispiel 1.1.4. n = 4, x = 1

xi yi = γi,0 γi,1 γi,2 γi,3 γi,4

−2 −25 12 −218

2116− 9

16

0 −1 1.5 214

34

2 2 22.5 92

4 47 9

−1 2


i = 4 3 2 1 0

γ0,i − 916

2116

−218

12 −25

2716

−3 −458

1538

p = − 916

3 −458

518

−478

x− xi−1 −3 −1 1 3

}∗

}∗

}∗

}∗

.......................................................................................................................

.......................................................................................................................

.......................................................................................................................

.......................................................................................................................

............................................................................................................................................................................................................................................................................................................

2

Zwei unmittelbare Folgerungen aus der Eindeutigkeit der Losung der Interpolations-aufgabe sind

Satz 1.1.3. Permutationsinvarianz der dividierten Differenzen Ist(ji, . . . , ji+k) eine Permutation von (i, . . . , i+ k), dann gilt

f[xi,...,xi+k] = f[xji,...,xji+k

]

2

Man darf also die Stutzstellen beliebig anordnen, ohne am zugehorigen Interpola-tionspolynom etwas zu andern (obwohl einzelne Koeffizienten sich andern, nichtaber der hochste ).

Satz 1.1.4. Ist f ∈ Πk und k < n , dann f[x0,...,xn] = 0 2

Bemerkung 1.1.4. Die Umkehrung von Satz 1.1.4 ist naturlich falsch! Wenndie kte dividierte Differenz von (xi, f(xi)), . . . , (xi+m, f(xi+m)) identisch ver-schwindet, folgt letztlich, daß f auf der Stutzstellenmenge mit einem Polynomvom Grad < k ubereinstimmt!(Beispiel: f(x) = sin (π

2x)

mit xi = 4i+ 1 , i ∈ Z f[xi,xi+1] ≡ 0,aber f ist naturlich keine Konstante!)

Wir leiten jetzt das Restglied der Polynominterpolation her. Bisher waren dieWerte yj irgendwie gegebene Zahlen. Nun stellen wir uns auf den Standpunkt,daß yj = f(xj) mit einer hinreichend oft differenzierbaren Funktion f undfragen nach der Große der Differenz

f(x)− p0,n(x; (xi, yi)) fur x 6∈ {x0, . . . , xn}


Satz 1.1.5. Restglieddarstellung der Polynominterpolation Es sei f ∈Cn+1[a, b], xi ∈ [a, b] fur i = 0, . . . , n undxi 6= xj fur i 6= j , yj := f(xj), j = 0, . . . , n.Dann gilt fur x ∈ [a, b]

(1) f(x) − p0,n(x; (xi, yi)) = f[x0,...,xn,x]Πni=0(x− xi)

(2) f(x) − p0,n(x; (xi, yi)) = f (n+1)(ξ)(n+1)!

Πni=0(x− xi)

wobei min {x, x0, . . . , xn} ≤ ξ ≤ max {x, x0, . . . , xn} 2

Bemerkung 1.1.5. In Formel (1) tritt zunachst die formale Schwierigkeit auf,daß fur den Fall x ∈ {x0, . . . , xn} die dividierte Differenz f[x0,...,xn,x] nicht defi-niert ist. Man setzt fur x = xi, i ∈ {0, . . . , n}:

f[x0,x1,...,xn,x] := limε→0

f[x0,...,xi,...,xn,xi+ε]

Wegen Satz 1.1.3 ist

limε→0

f[x0,...,xi,...,xn,xi+ε] := limε→0

f[x0,...,xi−1,xi+1,...,xn,xi,xi+ε]

und wegen

limε→0

f(xi + ε)− f(xi)

ε= lim

ε→0f[xi,xi+ε] = f ′(xi)

ist dieser Ausdruck wohldefiniert.Beweis: Fur x ∈ {x0, . . . , xn} ist ersichtlich nichts zu zeigen. (0 = 0)Fur x 6∈ {x0, . . . , xn} ist (1) nichts anderes als eine Umformulierung des Inter-polationspolynoms nach Newton (setze xn+1 := x , yn+1 := f(x)).Beweis der Formel (2): Setze xn+1 := x , yn+1 := f(x) undd := f − p0,n+1

Es gilt d ∈ Cn+1 [a, b]d besitzt (mindestens) die n+ 2 verschiedenen Nullstellen x0, . . . , xn+1.Satz von Rolle ⇒d′ besitzt (mindestens) n+1 verschiedene Nullstellen im Intervall, das von {x0, . . . , xn+1}aufgespannt wird. Fortsetzung der Schlußweise⇒ d(n+1) besitzt (mindestens) eineNullstelle ξ in diesem Intervall.

0 = d(n+1)(ξ) = f (n+1)(ξ) − p(n+1)0,n+1(ξ; (xi, yi))

= f (n+1)(ξ) − (n+ 1)!γ0,n+1

⇒ γ0,n+1 = f[x0,...,xn+1] = f[x0,...,xn,x] =f (n+1)(ξ)

(n+ 1)!

mit einem unbekannten Wert ξ mit

min{x0, . . . , xn, x} ≤ ξ ≤ max{x0, . . . , xn, x}

2


Beispiel 1.1.5. f(x) = ex, [a, b] = [0, 1], n = 5

x0 = 0, x1 = 0.2, x2 = 0.4, x3 = 0.6, x4 = 0.8, x5 = 1

|f (6)(x)/6!| ≤ 2.72/720 = 3.78 · 10−3

und numerische Maximierung ergibt

x ∈ [0, 1]⇒∣∣∣ 5∏i=0

(x− xi)∣∣∣ ≤ 1.1 · 10−3

Die Fehlerschranke ist also 4.16 · 10−6 wahrend der tatsachliche maximale Fehler2.65 · 10−6 betragt.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−4

−3

−2

−1

0

1

2x 10−6 interpolation von exp mit grad 5

x

exp(

x)−p

(x)

Korollar 1.1.1. Zusammenhang zwischen dividierten Differenzen undTaylorkoeffizienten Unter den gleichen Voraussetzungen wie im Satz 1.1.5gilt mit0 ≤ i ≤ i+ k ≤ n

f[xi,...,xi+k] =f (k)(ξ)

k!mit min{xi, . . . , xi+k} ≤ ξ ≤ max{xi, . . . , xi+k}

2

Ein Schema dividierter Differenzen enthalt also in Spalte k Werte von f (k)

k!.

Die Zwischenstellen sind naturlich unbekannt, aber bei genugend feiner Tabel-lierung kann man aus den dividierten Differenzen doch zumindest die korrekteGroßenordnung der einzelnen Ableitungen ablesen. (vgl. Beispiel 1.1.8)


Da die Zwischenstelle ξ unbekannt ist, muß man sich in der Praxis mit einerAbschatzung des Interpolationsfehlers begnugen. Wenn der Interpolationsfeh-ler nur fur eine Stelle x abzuschatzen ist, braucht man lediglich | f (n+1)(ξ) | aufden in Frage kommenden (Teil–) intervall abzuschatzen. Ist etwa a = x0 <. . . < xn = b und will man eine Schranke fur den Interpolationsfehler bei

beliebigem x ∈ [a, b] angeben, muß man auch noch maxx∈[a,b]

|n∏i=0

(x − xi) |

berechnen bzw. abschatzen. Im zweiten Fall werden naturgemaß die Schrankengrober. In dem Faktor

f (n+1)(ξ)/(n+ 1)!

spiegelt die Regularitat der zugrundeliegenden Funktion wieder: Dazu gilt folgen-

de Aussage uber f (n)(x)n!

, x ∈ [a, b]:

Lemma 1.1.1. Sei f fur jedes x ∈ [a, b] in eine konvergente Potenzreihe ent-wickelbar und R sei der kleinste Abstand einer singularen Stelle von f (mit faufgefaßt als komplexe Funktion von z ∈ C) zu irgendeinem Punkt x von [a, b],dann gilt fur alle x ∈ [a, b] und alle n:∣∣∣f (n)(x)

n!

∣∣∣ ≤ ( 1R

+ εn

)nmit εn → 0 geeignet.

.

Beispiel 1.1.6.

f(x) = 1/(1 + 25x2) , R = 1/5

also

|f (n)(x)/n!| ≤ (5 + εn(x))n fur jedes x ∈ R

mit εn(x)→ 0 fur n→∞.

2

Die hoheren Ableitungen von f wachsen oft sehr stark an (d.h. R im Lemmaist klein). Man sollte deshalb in der Praxis n nie sehr groß wahlen, sonderneher stuckweise in kleinen Intervallen vorgehen. Wahlt man eine aquidistanteEinteilung der Stutzstellen xi = x0 + ih, dann kann man zeigen daß

maxx∈[x0,xn]

|f(x)− pn(x)| ≤ maxx∈[x0,xn]

|f (n+1)(x)|hn+1/4

gilt und auch

maxx∈[x0,xn]

|f (k)(x)− p(k)n (x)| = O(1)hn+1−k

wobei O(1) vom Maximum der Ableitungen f (n+1), . . . , f (n+1+k) abhangt. Nebender Funktionsapproximation kann man die Interpolationspolynome also auch zur


Approximation von Ableitungen benutzen, aber offenbar nur auf kleinen Inter-vallen. Die erste Abschatzung beweist man mit Hilfe der Substitution

x = x0 + th , 0 ≤ t ≤ n ,

und der Abschatzung von |∏n

i=0(t − i)| auf [0, n]. Dazu berucksichtigt man dieSymmetrie dieses Produktes bezuglich n/2 und kann deshalb o.B.d.A. t ∈ [j, j+1] betrachten mit j ≤ n/2. Nun maximiert man unabhangig |(t − j)(j + 1 −t)|, . . . , |t(2j + 1− t)| und den Rest des Produkts:

|n∏i=0

(t− i)| ≤ 14

94· · · (2j+1)2

4

n∏k=2j+2

|t− k|

≤ (2j+2)!22j+2

n∏k=2j+2

|j − k|

≤ (n+1)!22j+2

n∏k=2j+2

|j−k|k+1

≤ (n+1)!4

.

Die zweite Abschatzung ergibt sich mit der gleichen Technik unter Verwendungdes spater angegebenen Satzes 1.4.1 und seiner Verallgemeinerungen auf hohereAbleitungen.

<<

Beispiel 1.1.7. Konstruktion einer aquidistanten Tabelle von sinx mit x ∈ [0, π2 ].Forderung: Fehler ≤ 5 ∗ 10−9 bei kubischer Interpolation, dh.∀x ∈ [0 , π

2 ] | sinx − pi,3(x; (xj , sinxj)) | ≤ 5 ∗ 10−9

wobei i von x abhangt.Forderung an Schrittweite h : h = b · 10−l , b ∈ {1, 2, 5} , l ∈ N (damit einevernunftige Tabelle entsteht.)Bei aquidistanter Interpolation hat die Funktion

ω(x) :=i+3∏j=i

(x− xj)

folgendes Aussehen:


Abbildung 1.1.3

Es ist deshalb sinnvoll, die Wahl von xi (zu gegebenen x) so vorzunehmen, daßxi+1 ≤ x ≤ xi+2 (sonst wird ω(x) unnotig groß ). Um den Extremwert von ω einfachbestimmen zu konnen, drucken wir x und die xj in der neuen Variablen t aus durch

x := xi + th, xj := xi + (j − i)h

also

ω(xi + th) = th(th− h)(th− 2h)(th− 3h) = h4t(t− 1)(t− 2)(t− 3)

Uns interessiert der Extremalwert in 1 ≤ t ≤ 2. Er ergibt sich bei t = 1.5, d.h.xi+1 ≤ x ≤ xi+2 ⇒| ω(x) |≤ h4 · 1.52 · 0.52 = h4 9

16

Wegen | sin(4)(x) | ≤ 1 (∀x) und 4! = 24 ergibt sich als Bedingung fur h124 ·

916h4 ≤ 5 ∗ 10−9 , d.h. h ≤ 2.15 ∗ 10−2 also h = 2 ∗ 10−2

Damit die Konstruktion von i fur alle x ∈ [0, π2 ] gelingt, benotigt man als erste Stutz-stelle x−1 = −2 ∗ 10−2 und als letzte x80 = 1.60, die Tabelle erhalt also 82 Eintrage.Die Tabellengenauigkeit muß naturlich 8 Nachkommastellen betragen. (In der Nahe vonx = 0 wurde der Interpolationsfehler (bei exakten Werten sinxi) naturlich noch vielkleiner als 5 ∗ 10−9 wegen sin(4)(ξ) = sin ξ ≈ 0. Weil die Tabellenwerte aber gerundetsind, tritt aufgrund der Rundungsfehler auch bei 0 ein Gesamtfehler von ≈ 10−9 auf:dividierte Differenzen

-0.02 -0.01999867 .99993350 0 -0.166875000 0. .99993350 -0.01001250

0.02 0.01999867 .999533000.04 0.03998933

verallgemeinertes Hornerschema:

i = 3 i = 2 i = 1 i = 0-0.16687500 0. 0.99993350 -0.01999867

x=0.01 0 0.00166875 0.00001669 0.02999851-0.16687500 0.00166875 0.99995019 0.00999984

x− xi−1 -0.01 0.01 0.03

sin 0.01 = 0.00999984 2

Beispiel 1.1.8. Dividierte Differenzen von arctg auf [−1, 1].xi = −1 + i/20 i = 0, . . . 27:


xk = 0 k = 1 k = 2 k = 3 k = 4 k = 5 k = 6 k = 7-1.00 -.7854 .5127 .2624 .0815 -.0163 -.0436 -.0283 -1.5E-3-0.95 -.7598 .539 .2747 .0763 -.0272 -.0521 -.0291 1.7E-3-0.90 -.7328 .5664 .2864 .0728 -.0402 -.0609 -.0285 .0127-0.85 -.7045 .5951 .2973 .0648 -.0554 -.0694 -.024 .0196-0.80 -.6747 .6248 .3071 .0537 -.0727 -.0766 -.0171 .0334-0.75 -.6435 .6555 .3151 .0392 -.0919 -.0817 -5.4E-3 .0455-0.70 -.6107 .687 .321 .0208 -.1123 -.0834 .0105 .0586-0.65 -.5764 .7191 .3241 -1.7E-3 -.1332 -.0802 .031 .0681-0.60 -.5404 .7515 .3239 -.0283 -.1532 -.0709 .0549 .0737-0.55 -.5028 .7839 .3196 -.059 -.1709 -.0545 .0807 .0692-0.50 -.4636 .8159 .3108 -.0931 -.1846 -.0303 .1049 .0559-0.45 -.4229 .847 .2968 -.1301 -.1921 1.2E-3 .1244 .0305-0.40 -.3805 .8766 .2773 -.1685 -.1918 .0385 .1351 -4.3E-3-0.35 -.3367 .9044 .252 -.2068 -.1822 .0791 .1336 -.0452-0.30 -.2915 .9296 .221 -.2433 -.1624 .1192 .1178 -.0845-0.25 -.245 .9517 .1845 -.2758 -.1326 .1545 .0882 -.1172-0.20 -.1974 .9701 .1431 -.3023 -.094 .1809 .0472 -.1348-0.15 -.1489 .9844 .0978 -.3211 -.0488 .1951 0 -.1348-0.10 -.0997 .9942 .0496 -.3309 0 .1951 -.0472 -.1172-0.05 -.05 .9992 0 -.3309 .0488 .1809 -.0882 -.08460.00 0 .9992 -.0496 -.3211 .094 .1545 -.1178 -.04510.05 .05 .9942 -.0978 -.3023 .1326 .1192 -.1336 -4.3E-30.10 .0997 .9844 -.1431 -.2758 .1624 .0791 -.1351 .03050.15 .1489 .9701 -.1845 -.2433 .1822 .0385 -.1244 .05570.20 .1974 .9517 -.221 -.2068 .1918 1.2E-3 -.1049 .06960.25 .245 .9296 -.252 -.1685 .1921 -.0303 -.0806 .07320.30 .2915 .9044 -.2773 -.1301 .1846 -.0544 -.055 .0689

Fur f(x) = arctgx gilt:

| f (k)(x) | ≤ (k − 1)!1

(1 + x2)k/2(k ≥ 1)

mit “=” fur x = 0 und k ungerade, sodaß man erwarten kann daß in obiger Tabellein der k-ten Spalte etwa Werte bis zu 1/k auftreten k = 1, . . . , 7 und dies trifft auchzu. Man beachte aber die Verschiebung der Werte. Die korrekte Schatzung von f (k)(0)liegt entlang einer Schragzeile ! 2

>>

Die Daten yi fur eine Interpolationsaufgabe sind gewohnlich (leicht) verfalscht.(z.B. Rundungsfehler in einer gedruckten oder gespeicherten Tabelle !) Es ist des-halb wichtig, die Einflusse dieser Fehler auf den Wert des Interpolationspolynomszu kennen. Die Formel von Lagrange liefert sofort folgende Aussage:


Satz 1.1.6. Storeinfluss von Ordinatenfehlern Es sei yj = y?j + εj, j =0, . . . , n. Dann gilt

| p0,n(x; (xj, yj))− p0,n(x; (xj, y?j )) | ≤

n∑j=0

| εj || Lj(x) |

≤ maxj|εj|

n∑j=0

| Lj(x) |

mit

Lj(x) =n∏

i=0i6=j

x− xixj − xi

2

Der Fehlereinfluß der εj auf p0,n hangt offensichtlich auch stark von der gewahltenInterpolationsstelle x ab. Die folgende Skizze zeigt die Funktion

S(x) :=n∑j=0

| Lj(x) |

fur gleichabstandige Stutzstellen in [-1,1] fur verschiedene n–Werte:


SN =N∑i=0

|Li(x)|, Li(x) =N∏

j=0j 6=i

x− xjxi − xj

xi = −1 +2i

N

Abbildung 1.1.4

Man erkennt, daß in der Intervallmitten∑i=0

| Li(x) |≈ 1, wahrend an den Inter-

vallrandern eine bedeutende Fehlerverstarkung eintreten kann. Aufgrund dieserErgebnisse ist die folgende Faustregel plausibel: Bei gegebener Interpolationsstel-le x wahle man die Stutzstellennumerierung der benutzten Werte so, daß

< x2 < x0 < x < x1 < x3 <

(d.h. x liegt in der Mitte des Stutzstellenintervalls. Durch die angegebene Umnu-merierung gewinnt man zusatzlich noch eine Dampfung des Rundungsfehlerein-flusses in den dividierten Differenzen und in der Polynomauswertung.)

Bemerkung 1.1.6. Bei aquidistanten Stutzstellen xj = x0 + jh kann man dieBerechnung und Auswertung des Interpolationspolynoms noch vereinfachen. Mitden durch

∆i,0 := yi i = 0, . . . , n

∆i,k := ∆i+1,k−1 − ∆i,k−1

definierten Vorwartsdifferenzen ergibt sich nach Substitution x = x0 + th, also

t =x− x0

h

p0,n(x0 + th; (xi, yi)) =n∑j=0

∆0,j

(t

j

)Newton–Gregory–Formel

(Beweis als einfache Ubung). Es gibt noch viele andere Formen von Differenzenmit entsprechend umformulierten Interpolationspolynomen, uber die man sich inder Spezialliteratur informieren kann. 2

Bisher haben wir den Einfluß der Wahl der Stutzstellen auf den Interpolationsfeh-ler noch gar nicht diskutiert, sondern die {xi} als vorgegeben betrachtet. Wennman ein Interpolationspolynom als Approximation einer gegebenen Funktion faufstellen will, ist man in der Wahl der Stutzstellen frei. Eine Stutzstellenwahlgemaß der Skizze (siehe Abb. 1.1.5)

−1 − 56 1


Abbildung 1.1.5

ware sicher sehr unklug, weil dann maxx∈[−1,1]

| ω(x) |= 3.30935176, wahrend der

nachfolgende Satz sagt, daß bei n+ 1 Stutzstellen maxx∈[−1,1]

| ω(x) |= 2−n

(hier = 132

) erreichbar ist:

Satz 1.1.7. Bestapproximation der Null durch ein Polynom mitHochstkoeffizient 1, Tschebyscheffabszissen Sei n ∈ N beliebig und{xi}ni=0 bel. ∈ R. Dann gilt:

maxx∈[−1,1]

|n∏i=0

(x− xi) | ≥ 2−n

und

maxx∈[−1,1]

|n∏i=0

(x− x?i ) | = 2−n fur x?i = cos

(2i+ 1

n+ 1· π2

)i = 0, . . . , n

<<

Beweis: Die x?i sind die Nullstellen der Funktion

Tn+1(x) := cos((n + 1) arccos x)

auf [-1,1]. (“Tschebyscheffabszissen”) Wegen

cos((n + 1)φ) = cos(2φ + (n− 1)φ)= cos(2φ) cos((n− 1)φ)− sin(2φ) sin((n− 1)φ)= (2 cos2 φ− 1) cos((n− 1)φ)− 2 sinφ cos φ sin((n− 1)φ)= 2 cos φ(cos φ cos((n− 1)φ)− sinφ sin(n− 1)φ)− cos((n− 1)φ)

= 2 cos φ cos(nφ)− cos((n− 1)φ)

ist Tn+1 ein Polynom (n + 1)ten Grades in x = cos φ mit der Rekursionsformel

T0(x) ≡ 1, T1(x) ≡ x, Tn+1(x) = 2xTn(x)− Tn−1(x) n ≥ 1

Tn+1 hat den Hochstkoeffizienten 2n fur n ≥ 1. Also muß gelten:

n∏i=0

(x− x?i ) = 2−nTn+1(x) n ≥ 1

Also auch

|n∏i=0

(x− x?i )| ≤ 2−n mit “=” fur x ∈ {yk = coskπ

n + 1, k = 0, . . . , n + 1}


An der Extremalstelle yk = cos kπn+1 nimmt Tn+1(x) abwechselnd die Werte ±1 an. Wir

nehmen nun an , es gebe ein Polynom pn+1 vom genauen Grad n + 1 mit Hochstkoef-fizienten 1, mit

maxx∈[−1,1]

| pn+1(x) | < 2−n

Damitpn+1(y0) < 2−n = 2−nTn+1(y0)

pn+1(y1) > −2−n = 2−nTn+1(y1)...

pn+1(yn+1)<

>2−nTn+1(yn+1)

{n geraden ungerade

Nach dem Zwischenwertsatz hat dn+1 := pn+1 − 2−nTn+1 in ]yi+1, yi[ ,

i = 0, . . . , n mindestens eine Nullstelle, also mindestens n + 1 verschiedene Nullstellen.Aber dn+1 ∈ Πn. (Widerspruch!)

>>

2

Daß man als Interpolationsstellen stets die Tschebyscheffabszissen (nach even-tueller Transformation auf ein anderes Intervall [a, b] ) wahlen sollte, wenn mandas Interpolationspolynom als Approximationsfunktion auf ganz [a, b] benutzenwill (naturlich nicht bei einer Tabellenkonstruktion ) belegen die Resultate desfolgenden Abschnitts.

1.2 Interpolation als Approximationsprozeß

Daß es uberhaupt sinnvoll ist, eine beliebige stetige Funktion durch Polynomeapproximieren zu wollen, belegt der Approximationssatz von Weierstrass. Diefolgenden Ausfuhrungen zeigen aber, daß es normalerweise nicht sinnvoll seinwird, bei der Interpolation einen hohen Grad zu wahlen. Eine Ausnahme bil-det die Interpolation an den Tschebyscheffabszissen, die aber nur anwendbar ist,wenn die man die Funktion fur beliebiges Argument zur Verfugung hat.

<<

Satz 1.2.1. Approximationssatz von Weierstrass: Fur jedes f ∈ C[a, b] gibt es eineFolge von Polynomen {pn}n∈N mit pn ∈ Πn und

maxx∈[a,b]

| pn(x)− f(x) | −→n→∞

0 ⊗

Beweis siehe z.B. Werner & Schaback, Praktische Mathematik II, 2. Aufl. Springer1979 2

1.2. INTERPOLATION ALS APPROXIMATIONSPROZESS 23

Auf dem Intervall [0,1] gilt z.B. ⊗, wenn man setzt

pn(x) =n∑i=0

f(i

n)(

n

i

)xi(1− x)n−i (Bernstein–Polynome )

(dies ist kein Interpolationspolynom fur f .) Diese Polynome sind aber fur die Praxiswertlos, weil fur f ∈ C2[0, 1] gilt

pn(x)− f(x) =x(1− x)

2nf ′′(x) +

1n

εn(x), εn −→n→∞

0 (∀x)

d.h. der Approximationsfehler geht viel zu langsam gegen Null (wie 1n). Man kann sich

fragen, wie gut man uberhaupt eine gegebene stetige Funktion durch pn ∈ Πn (beifestem n) approximieren kann. Dazu betrachtet man

En(f) = infpn∈Πn

maxx∈[a,b]

| f(x)− pn(x) |

(Man kann zeigen daß man hier “min” statt “inf” schreiben darf)

In dieser Schreibweise besagt Satz 1.2.1, daß En(f)→ 0 fur n→∞. Wir interessierenuns fur genauere Abschatzungen hierzu:

Satz 1.2.2. Satz von Jackson Falls f ∈ Ck[a, b] und maxx∈[a,b]

| f (k)(x) |≤ Mk k

fest,dann gilt fur n ≥ k ≥ 1

En(f) ≤ Mk

(π

2

)k 1(n + 1)n . . . . . . (n + 2− k)

(b− a

2

)k=: C(n, k)/nk

(Beweis in Lehrbuchern der Approximationstheorie ). Es ist C(n, k) = O(1) furn→∞. 2

Ob eine Funktion sich “gut” zur Approximation durch Polynome eignet, hangt alsoentscheidend vom Wachstum der hoheren Ableitungen und von der Breite des Inter-valls ab ! Uber einen Weg zur Konstruktion eines Polynoms pn, das f bis auf einenFehler En(f) annahert, ist in diesen Satzen nichts gesagt. Eine solche Konstruktionist naherungsweise moglich, aber recht aufwendig und es fragt sich deshalb, ob manals pn in ⊗ eine Folge von Interpolationspolynomen wahlen kann. Eine solche Folge istwegen der Eindeutigkeit der Losung der Interpolationsaufgabe eindeutig gegeben durcheine Folge von Stutzstellensatzen :

⊗

n = 0 x(0)0

n = 1 x(1)0 x

(1)1

n = 2 x(2)0 x

(2)1 x

(2)2

n = 3 x(3)0 x

(3)1 x

(3)2 x

(3)3

x(j)i ∈ [a, b]

x(i)0 < x

(i)1 < x

(i)2 < · · · < x

(i)i

Es gilt aber :


Satz 1.2.3. Zu jeder Folge von Stutzstellensatzen {(x(n)0 , . . . , x

(n)n )}n∈N

∃f ∈ C[a, b] :maxx∈[a,b]

| f(x)− p0,n(x; (x(n)i , f(x(n)

i ))) | 6−→n→∞

0

( Beweis: z.B. bei Natanson “konstruktive Funktionentheorie ”, Satz von Faber.)2

Man kann also die Konstruktion der Interpolationspolynome in keiner Weise fest vor-geben, wenn man Konvergenz der Polynomfolge fur jedes stetige f erreichen will. Beispeziellen Konstruktionen, z.B. den aquidistanten

x(n)i = a + i

b− a

n, i = 0, . . . , n

ist die Situation sogar noch schlimmer. Hier gilt die Konvergenz nicht einmal mehrpunktweise (fur ein festes, aber beliebiges x ∈ [a, b]), wenn man Funktionen wie z.B.

f(x) =1

(1 + 25x2)auf [-1,1], betrachtet. (vgl. Abb. 1.2.1) (Beispiel von Runge)

Wenn man die Voraussetzung an die Funktion f aber ein wenig verscharft, dann ergibtsich ein gunstiges Bild, wenn man als Stutzstellen die Tschebyscheff–Abszissen wahlt.(vgl. Satz 1.1.7)

Satz 1.2.4. Es sei f ∈ C1[a, b] und fur die erste Ableitung gelte noch

∀x, y ∈ [a, b] : | f ′(x)− f ′(y) |≤ C1 | x− y |α

mit einer geeigneten Konstanten C1 und 0 < α ≤ 1.Dann gilt fur die Stutzstellenwahl

x?(n)i :=

b− a

2cos(

2i + 1n + 1

π

2

)+

a + b

2i = 0, . . . , n

die Abschatzung

maxx∈[a,b]

| f(x)− p0,n(x; (x?(n)i , f(x?(n)

i ))) | ≤

4 En(f) fur n ≤ 205 En(f) fur n ≤ 100

( 2π lnn + C

n ) En(f) fur n bel.

mit einer geeigneten Konstanten C. Satz von Powell, Comp. J. 9,(1967) 2

1.2. INTERPOLATION ALS APPROXIMATIONSPROZESS 25

........................................................................................................... ........ ........ ........ ........ ........ ........ ........ ........

. . . . . .

f(x) = 11+25x2 p0,10(x; (cos

(2i+111 ·

π2

), fi))

p0,10(x; (−1 + i5 , fi))

Abbildung 1.2.1

Fur alle praktischen Zwecke bringt also die Interpolation an den Tschebys-cheffabszissen nahezu das bestmogliche Resultat.

>>

Bemerkung 1.2.1. In der Praxis wird man den Interpolationsgrad kaum uber 5wahlen, sondern eher auf eine Einteilung des Approximationsintervalls in Teilin-tervalle ausweichen, wenn die Genauigkeit nicht ausreicht.


1.3 Hermite–Interpolation

Bisher haben wir die Interpolationsaufgabe nur fur vorgegebene Stutzwerte yj be-trachtet. In vielen Anwendungsfallen treten noch zusatzliche Forderungen an dieAbleitungen des Interpolationspolynoms an bestimmten Stellen auf. Wir begnugenuns hier mit der speziellen Aufgabe der Vorgabe von Funktions- und Ableitungs-werten an allen Stutzstellen:Hermite–Interpolation:

Gegeben: xj, y(0)j , y

(1)j , j = 0, . . . , n, xi 6= xj fur i 6= j

Gesucht: p2n+1 ∈∏

2n+1 : p(k)2n+1(xj) = y

(k)j , k = 0, 1, j = 0, . . . , n. ⊗

Diese Aufgabe ist offensichtlich ein Grenzfall einer gewohnlichen Polynominter-polation (“konfluenter Fall”)Gegeben: xj, yj = f(xj), j = 0, . . . , 2n+ 1, f ∈ C1, x2k := xk,x2k+1 = xk + εk, k = 0, . . . , nGesucht: p2n+1 ∈

∏2n+1 mit p2n+1(xj) = yj , j = 0, . . . , 2n+ 1 und εk → 0.

Aus dieser Beobachtung folgt unmittelbar:

Satz 1.3.1. Die Aufgabe ⊗ ist eindeutig losbar. Die Losung laßt sich darstellenin der Form

p2n+1(x) =2n+1∑k=0

f[x0,...,xk]

k−1∏i=0

(x− xi) (=: p2n+1(x; (xi, y(0)i , y

(1)i ))

wo die γi,j und xi definiert werden wie folgt:x2i+1 = x2i := xi i = 0, . . . , n

γ2i+1,0 := γ2i,0 := y(0)i i = 0, . . . , n

γ2i,1 := y(1)i , i = 0, . . . , n, γ2i+1,1 := (y

(0)i+1−y

(0)i )/(xi+1−xi), i = 0, . . . , n−1

γi,k := (γi+1,k−1 − γi,k−1)/(xi+k − xi) k = 2, . . . , 2n+ 1,i = 0, . . . , 2n+ 1− kFalls f ∈ C2n+2(I) dann gilt fur x ∈ I und xi ∈ I (∀i)

f(x)− p2n+1(x) =f (2n+2)(ξ)

(2n+ 2)!

n∏i=0

(x− xi)2

2

Beispiel 1.3.1. Die Daten seien n = 2 und

xi -1 0 1yi 2 1 -1y′i -2 0 -1

Dann ergibt sich als Schema der dividierten Differenzen

1.4. EINIGE ANWENDUNGEN VON INTERPOLATIONSPOLYNOMEN 27

-1 2 -2 1 0 -3/4 3/2-1 2 -1 1 -3/2 9/40 1 0 -2 30 1 -2 11 -1 -11 -1

Hier sind die Ausgangsdaten in Fettdruck hervorgehoben. Der Rest des Schemaswird genau wie bei der gewohnlichen Interpolation aufgefullt. Das gesuchte Poly-nom ist dann

p(x) = 2− 2(x+ 1) + (x+ 1)2 − 0.75(x+ 1)2x2 + 1.5(x+ 1)2x2(x− 1)

2

<<

Bemerkung 1.3.1. Mittels der Hermite–Interpolation kann man einen auf ganz C[a, b]konvergenten Interpolationsprozeß definieren. Mit

x?(n)i := cos(

2i + 1n + 1

· π2)b− a

2+

b + a

2, i = 0, . . . , n

gilt ( Fejer )maxx∈[a,b] | f(x)− p2n+1(x; (x(n)

i , f(x(n)i ), 0)) |→ 0 fur n→∞ und jedes f ∈ C[a, b]

(die Werte der Ableitung an den Stutzstellen werden also zu null festgelegt!) 2

>>

1.4 Einige Anwendungen von Interpolationspo-

lynomen

Neben ihrer Verwendung zu Approximationszwecken treten Interpolationspoly-nome auch bei der genaherten Berechnung von Integralen (man integriert einInterpolationspolynom und nimmt das Resultat als Integralnaherung fur die in-terpolierte Funktion) und Ableitungswerten auf. Mit dem ersten Fragenkom-plex werden wir uns ausfuhrlich im nachsten Kapitel beschaftigen. Eine weite-re schone Anwendung ist die sogenannte ”inverse” Interpolation, bei der maneine Umkehrfunktion approximieren will. Ist f : [a, b] → [c, d] bijektiv und{xi}ni=0 ⊂ [a, b] mit xi 6= xj fur i 6= j, dann stellt (yi, xi) einen Satz vonStutzpunkten fur f−1 auf [c, d] dar, d.h.

p0,n(y; (yi, xi)) ≈ f−1(y) , (yi = f(xi))


Satz 1.1.5 ist entsprechend anwendbar. Inverse Interpolation wird gerne zur Null-stellenbestimmung verwendet, indem man in pi,n(y; (yj, xj)) y null setzt undxi+n+1 = pi,n(0; (yj, xj)) wahlt. (n fest, i = 0, 1, 2, . . .) Bei der Berechnung die-ses Interpolationspolynoms muß man im Schema der dividierten Differenzen nurdie Rolle von x und y vertauschen.

Beispiel 1.4.1. f(x) := 1x− lnx ist in x > 0 eindeutig umkehrbar. Es soll

der Wert von f−1(1.05) ermittelt werden. (Dies ist die Losung x von 1x− lnx =

1.05. Wir approximieren f−1(1.05) durch den Wert eines Interpolationspolynoms

zweiten Grades:

i xi yi0 1.0 1.01 1.1 0.81378072 1.2 0.6510118

Dividierte Differenzen:

i yi f−1(yi) = xi0 1.0 1.0 −0.5370013 0.22168861 0.8137807 1.1 −0.61436802 0.6510118 1.2

p2(1.05) = (0.2216886∗ (1.05−0.8137807)−0.5370013)(1.05−1)+1 = 0.9757683

zum Vergleich: f−1(1.05) = 0.9754617 2

In vielen Anwendungen ist man gezwungen, den Wert der Ableitung einer Funk-tion numerisch zu berechnen, z.B. weil die formale Differentiation unmoglich oderzu kompliziert ist. Wir notieren dazu

Satz 1.4.1. Es sei f ∈ Cn+2[a, b] und xi ∈ [a, b], i = 0, . . . , n mit xi 6= xjfur i 6= j.Dann gilt:

f ′(x)− p′0,n(x; (xi, f(xi))) =f (n+1)(ξx)

(n+ 1)!(n∏i=0

(x−xi))′+f (n+2)(ξx)

(n+ 2)!(n∏i=0

(x−xi))

insbesondere also

f ′(xj)− p′0,n(xj; (xi, f(xi))) =f (n+1)(ξj)

(n+ 1)!(n∏

i=0i6=j

(xj − xi))

2

Beweisskizze: Man beweist zunachst (unter Ausnutzung der Vertauschbarkeitder Argumente in f[x0,...,xn+1] und des Hauptsatzes der Differential- und Integral-rechnung) durch Induktion uber n die Darstellung


f[x0,...,xn+1] =

∫ 1

0

∫ t1

0

. . .

∫ tn

0

f (n+1)(x0 + t1(x1 − x0) + t2(x2 − x1) + · · ·

· · ·+ tn+1(xn+1 − xn))dtn+1 . . . dt1

setzt dies mit xn+1 := x in die Formel (1) von Satz 1.1.5 ein, differenziert, ver-tauscht Differentiation / Integrationsreihenfolge und wendet den Mittelwertsatzder Integralrechnung an. (Ubg.)

So ist z.B. der symmetrische Differenzenquotient

f(x+ h)− f(x− h)2h

der Wert der Ableitung der Parabel durch (x−h, f(x−h)), (x, f(x)), (x+h, f(x+h)) an der Stelle x und entsprechend der Differenzenquotient zweiter Ordnung

f(x+ h)− 2f(x) + f(x− h)h2

die zweite Ableitung des gleichen Polynoms. Wahlt man als Auswertungsstellenicht die Intervallmitte, erhalt man andere Formeln, so z.B.

−3f(x) + 4f(x+ h)− f(x+ 2h)

2h= f ′(x) +O(h2)

als Ableitung der interpolierenden Parabel zu (x, f(x)), (x + h, f(x + h), (x +2h, f(x+ 2h)) an der Stelle x. Fur die vierte Ableitung erhalt man analog

f(x− 2h)− 4f(x− h) + 6f(x)− 4f(x+ h) + f(x+ 2h)

h4= f (4)(x) +O(h2)

fur 6-mal stetig differenzierbares f .

<<

Im folgenden diskutieren wir den Rundungsfehlereinfluss bei diesem numerischen Dif-ferenzieren, der besonders sorgfaltig beachtet werden muss. Die Anwendung dieser For-meln beim praktischen (gerundeten) Rechnen ist namlich nicht unproblematisch. Wirmussen davon ausgehen, daß die Auswertung von f zumindest mit Rundungsfehlern(wenn nicht sogar mit grosseren Approximationsfehlern) behaftet ist und die Formelselbst erfordert naturlich auch noch gerundetes Rechnen. Es zeigt sich, daß man hierkeineswegs h beliebig klein wahlen kann. Vielmehr gibt es eine optimale Schrittweite beideren Unterschreitung der Gesamtfehler wieder zunimmt. Dazu zunachst ein Beispiel:

Beispiel 1.4.2. f(x) = ex, f ′(x) ≈ f(x+h)−f(x)h = f[x,x+h].

x = 2.22, f ′(x) = 9.207330866, Rechengenauigkeit 13 Dezimalstellen, d.h. ε = 5 ·10−13.


1 2 3 4 5 6 7 8 9 10 11 12 13 14•

6

?

-

− lg(|f[x,x+h] − e2.22|)

− lg h.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

Abbildung 1.4.1: Ordinate entspricht der Anzahl der korrekten Dezimalstellen;Abszisse: negative Zehnerpotenz der Schrittweite h.

h f[x,x+h] h f[x,x+h] h f[x,x+h]

10−1 9.683 10−6 9.207336 10−11 9.310−2 9.253 10−7 9.207340 10−12 10.010−3 9.2119 10−8 9.20740 10−13 010−4 9.20779 10−9 9.208 10−14 010−5 9.207377 10−10 9.21

f[x,x+h] := gl(gl(exp?(gl(x + h))− exp?(x))/h), exp? :Maschinen–Approximation fur exp. und gl(.#.) (gerundete) Maschinenarithmetik

Man erkennt, daß der Fehler zunachst bis etwa h =√

ε linear fallt, um danach ge-nauso schnell wieder anzuwachsen. (ε beschreibt die Genauigkeit der Rechnung, diesogenannte ”Maschinengenauigkeit”.) 2

Dies ist naturlich ein reiner Rundungsfehlereffekt, denn bei exakter Rechnung gilt

f ′(x) = limh→0

f[x,x+h] .

Eine Rundungsfehleranalyse macht dies sofort klar. Wir benutzen die folgenden An-nahmen und Beziehungen:

(a) f ∈ C2([x0 − h0, x0 + h0]), 0 < h ≤ h0.

⇒ f(x0 + h)− f(x0)h

= f[x0,x0+h] = f ′(x0) +h

2f ′′(ξh)︸︷︷︸∼f ′′(x0)

ξh ∈ [x0, x0 + h] ,

d.h. daß der Diskretisierungsfehler h2f ′′(ξh) linear mit h gegen null geht.


(b) Gegeben ist eine Maschinenapproximation f fur f mit

∀x ∈ [x0 − h0, x0 + h0] : |δ(x)| ≤ d mit δ(x) := f(rd(x))− f(x)

rd(x) := gerundeter x-Wert.

(c) x0, h ∈M := exakt darstellbare Zahl, gl(x]y) = (1 + εx,y,])x]yfur ] ∈ {+,−, ∗, /} |εx,y,]| ≤ ε

Dann gilt mit der ublichen Modellvorstellung fur gerundetes Rechnen (g`(.)), namlich

g`(x#y) = (x#y)(1 + η) mit |η| ≤ ε

f[x0,x0+h] = gl(gl(f(x0 + h)− f(x0))/h)

= (1 + ε1)(1 + ε2)︸︷︷︸=:(1+E)

f(x0 + h)− f(x0) + δ(x0 + h)− δ(x0)h

= (1 + E)(f ′(x0) +h

2f ′′(ξh)) + (1 + E)

δ(x0 + h)− δ(x0)h

d.h. mit |E| ≤ ε(2 + ε)

|f[x0,x0+h] − f ′(x0)| ≤ ε(2 + ε)|f ′(x0)| (kleiner relativer Fehler, konstant)

+(1 + ε)2h

2max

x∈[x0,x0+h]|f ′′(x)|︸︷︷︸

∼|f ′′(x0)|

(geht linear mit h gegen 0)

+(1 + ε)22d

h(unbeschrankt fur h→ 0, aber: d klein!)

Die rechte Seite dieser Ungleichung hat die Gestalt von Abbildung 1.4.2, und das obendurchgerechnete Beispiel zeigt (mit d ≈ ε|f(x0)|), daß das Resultat dieser Abschatzungdurchaus realistisch ist. Genau die gleichen Probleme treten auf, wenn man bei ei-nem Interpolationspolynom oder einem interpolierenden Spline (s.h.) die Stutzstellen-abstande gegen null gehen lassen will.

Dennoch gelingt es, Ableitungen numerisch (fast) auf Maschinengenauigkeit durch nu-merisches Differenzieren zu bestimmen, wenn man sich einer Technik bedient, die einenSpezialfall der Richardsonextrapolation (s.h. Kapitel 2) darstellt. Dazu dient die Tay-lorentwicklung furf ∈ C2m+3[x0 − h0, x0 + h0] und ϑ+, ϑ− ∈ (0, 1)


0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

6

?

-

y = dh + c · h + e

h|

hopt

........................................................................................................................................................................................................................................................................................................................................................................................................................

...........................................................................................................................

.......................................................................................................................

......................................................................................................................

....................................................................................................................

...........................................................................

Abbildung 1.4.2

f(x0 + h) =2m+2∑k=0

f (k)(x0)k!

hk +h2m+3

(2m + 3)!f (2m+3)(x0 + ϑ+h) (1.1)

f(x0 − h) =2m+2∑k=0

f (k)(x0)k!

(−h)k − h2m+3

(2m + 3)!f (2m+3)(x0 + ϑ−h) . (1.2)

Dies ergibt mit ϑ ∈ (0, 1)

f[x0−h,x0+h] =f(x0 + h)− f(x0 − h)

2h︸︷︷︸“symmetrischer Differenzenquotient′′

= f ′(x0) +m∑k=1

f (2k+1)(x0)(2k + 1)!

h2k +h2m+2

(2m + 3)!f (2m+3)(x0 + ϑh) .

Der symmetrische Differenzenquotient kann gemass dieser Formel als ein Polynom inh2 interpretiert werden bis auf einen Fehler, der aus dem Taylorrestglied stammt. DasAbsolutglied dieses Polynoms ist der gesuchte Ableitungswert. Die Werte dieses ”Poly-noms” konnen fur beliebiges h > 0 berechnet werden. Und weil die Polynominterpola-tion ein gegebenes Polynom (bei gleichem Grad) exakt reproduziert, ist es naheliegend,

p0,m(0; (h2i , f[x0−hi,x0+hi]))

als Approximation fur f ′(x0) zu nehmen mit einem Fehler von O(h2m+20 ). Der Fehler

kann also schon mit “großen” h - Werten (z.B. h = 0.1) fur maßvoll großes m (z.B.m = 4, d.h. 10 Funktionsauswertungen) sehr klein gemacht werden. Fehler in den be-rechneten Funktionswerten von der Große δ wirken sich in der angenaherten Ableitungwie δ/h aus, und fur h ∼ 0.1 ist dies noch tolerierbar. Man hat dann in Maschinen-arithmetik


gl(p0,m(0; (h2i ,

f(x0 + hi)− f(x0 − hi)2hi

)))︸︷︷︸numerisch berechneter Ableitungswert

=

= f ′(x0) + c1εf′(x0) + c2h

2m+20 f (2m+3)(x0 + ϑh) + c3

δ

hm,

wobei c1, c2, c3 kleine Konstanten sind und

hm < · · · < h0

angenommen ist. δ ist eine Schranke fur |f(rd(x))− f(x)|.

Beispiel 1.4.3. Berechnung von f ′(x0) fur f(x) =√

x, x0 = 1100 , h0 = 1

100 , hi+1 =hi2

.

i k = 0 k = 1 k = 2 k = 3 k = 40 7.071067811 5.17638091 4.54481862 5.0401717 4.99476863 5.02476533 5.00983301 4.99972012 5.00005022 4.999657914 5.00244559 4.99998312 5.00000066 4.99999987 5.000001215 5.00061063 4.99999898 5.00000003 5.00000002 5.00000002

Das Schema zeigt die Werte pi−k,k(0; (h2j , f[x0−hj ,x0+hj ])) gespeichert in einer unteren

Dreiecksmatrix auf den Positionen (i, k). Trotz der Nahe der Singularitat 0 der Ablei-tungen von f zeigt sich die hervorragende Wirkung der Methode. 2

Auch fur hohere Ableitungen kann man entsprechende Naherungsformeln finden, z.B.“symmetrischer Differenzenquotient 2. Ordnung′′︷︸︸︷

f(x0 + h)− 2f(x0) + f(x0 − h)h2

=

= f ′′(x0) + 2m−1∑k=1

f (2k+2)(x0)(2k + 2)!

h2k + 2h2m

(2m + 2)!f (2m+2)(x0 + ϑh)

ϑ ∈ (0, 1) , also

f ′′(x0) = p0,m−1(0; (h2j , 2f[x0−hj ,x0,x0+hj ])) + O(h2m) (1.3)

Wegen des Nenners h2 sind Rundungsfehlereinfluße hier noch kritischer. Mit großenSchrittweiten und Ausnutzung von (1.3) kommt man wieder zum Ziel:

Beispiel 1.4.4. Berechnung von J ′′0 (0.7) mit J0 := 1π

∫ π0 cos(x sinϑ)dϑ aus einer 4-

stelligen Tabelle von J0: h0 = 0.4, h1 = 0.3, h2 = 0.2.

x 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1J0(x) 0.9776 0.9604 0.9385 0.9120 0.8812 0.8463 0.8075 0.7652 0.7196

h2j 2f[x0−hj ,x0,x0+hj ]

0.16 −0.40750.09 −0.4089 −0.41070.04 −0.4100 −0.4109 −0.4110

wahrer Wert: J ′′0 (0.7) = −0.4112. 2

>>


1.5 Interpolation durch stuckweise polynomiale

Funktionen

Aus den Resultaten in Abschnitt 1.2 folgt, daß es zu Approximationszweckennicht sinnvoll ist, den Interpolationsgrad stark zu vergroßern, um den Appro-ximationsfehler klein zu machen, wenn die zu approximierende Funktion selbstnur geringe Regularitatseigenschaften besitzt. Stattdessen gehen wir hier so vor,daß bei festgehaltenem Interpolationsgrad eine Einteilung des Ausgangsintervallsin kleine Teilintervalle betrachtet wird. Die einfachste, auf dem Ausgangsinter-vall noch stetige stuckweise polynomiale Approximationsfunktion ist dann derinterpolierende Streckenzug: (Abb. 1.5.1)

Abbildung 1.5.1

Aufgabenstellung:Gegeben xi, yi = f(xi) i = 0, . . . , n+ 1 , a =: x0 < · · · < xn+1 := bGesucht: s ∈ C[a, b] : s|[xi,xi+1] ∈ Π1 fur i = 0, . . . , n unds(xi) = yi, i = 0, . . . , n+ 1

Diese Aufgabe kann man durch Angabe geeigneter Basisfunktionen im Raum

S1(Z) := {s ∈ C[a, b] : s|[xi,xi+1] ∈ Π1 fur i = 0, . . . , n}

unmittelbar losen: Mit

ϕi(x) :=

x− xi−1

xi − xi−1

fur x ∈ [xi−1, xi]

xi+1 − xxi+1 − xi

fur x ∈ [xi, xi+1]

0 sonst

“Dachfunktionen”

1.5. INTERPOLATION DURCH STUCKWEISE POLYNOMIALE FUNKTIONEN35

wird

s(x) =n+1∑i=0

yiϕi(x)

Zur Definition von ϕ0 und ϕn+1 benotigt man noch Hilfspunkte x−1 und xn+2,die man beliebig < a bzw. > b wahlen kann. Besonders einfach werden alleAussagen, wenn man die Einteilung Z aquidistant wahlt. Dann kann man mit

ϕ(x) =

0 x < −1

x+ 1 −1 ≤ x ≤ 01− x 0 < x ≤ 1

0 1 < x-2 -1 0 1 2

-........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........................................................................................................................ ........ ........ ........ ........ ........ ........ ..... x

ϕ

schreiben

s(x) =n+1∑i=0

yiϕ(x− xih

)

Es gelten die folgenden Konvergenzaussagen:

Satz 1.5.1. Konvergenzsatz fur stetige stuckweise lineare Interpola-tion Es seia = x0 < · · · < xn+1 = b , xi = a + ih mit h = (b − a)/(n + 1) undf ∈ C2[a, b].Dann gilt mit M2 := max

x∈[a,b]| f ′′(x) |

(1) maxx∈[a,b]

| f(x)− s(x) |≤ h2

8M2

(2) maxx∈[a,b]

| f ′(x)− s′(x) |≤ h

2M2

(Dabei sei definiert:s′(x0) = lim

ε↘0s′(x0 + ε) , s′(xn+1) = lim

ε↗0s′(xn+1 + ε) ,

s′(xi) := limε↘0

(s′(xi − ε) + s′(xi + ε))/2 .) 2

<<

Beweis:

s|[xi,xi+1] ∈ Π1 und s(xj) = f(xj), j = i, i + 1 Satz 1.1.5 ⇒

s(x)− f(x) =f ′′(ξx)

2(x− xi)(x− xi+1) fur x ∈ [xi, xi+1]

mit ξx ∈ [xi, xi+1]. Wegen

| x− xi || x− xi+1 |≤h2

4fur x ∈ [xi, xi+1] folgt (1).


In [xi, xi+1] gilt

s(x) = f(xi) + (x− xi)f(xi+1)− f(xi)

h

d.h.

s′(x) =f(xi+1)− f(xi)

h=∫ 1

0f ′(xi + th)dt

Mit x = xi + uh, 0 < u < 1 und f ′(x) =∫ 10 f ′(xi + uh)dt

folgt weiter fur x ∈ ]xi, xi+1[

s′(x)− f ′(x) =∫ 1

0(f ′(xi + th)− f ′(xi + uh))dt

=∫ 1

0

∫ 1

0f ′′(xi + uh + ξ(t− u)h)(t− u)dξ dt h

| s′(x)− f ′(x) |≤ M2h

∫ 1

0

∫ 1

0|t− u|dξdt

= M2h

∫ 1

0| t− u | dt

= M2h(∫ u

0(u− t)dt +

∫ 1

u(t− u)dt

= M2h

(− (u−t)2

2

∣∣∣∣u0

+ (t−u)22

∣∣∣∣1u

)= M2h

(u2

2 + (1−u)22

)= M2h(1

2 − u + u2)≤ M2h

12

Aus der Definition von s′(x) fur x ∈ {x0, . . . , xn+1} folgt damit die Behauptung.

>>

Fur viele Anwendungen ist es wunschenswert, eine “ hinreichend glatte ” Ap-proximationfunktion zu besitzen. Wenn man zumindest in den inneren Punktender Zerlegung Z nicht nur die Funktions - sondern auch die Ableitungswerte derApproximationsfunktion vorschreibt, erhalt man automatisch eine C1–Funktion.Wie der interpolierende Streckenzug aus der linearen Interpolation so entstehtdiese Approximation aus der kubischen Hermite–Interpolation. Wir beschrankenuns auf den Fall einer aquidistanten Zerlegung von [a, b] und definieren:

Abbildung 1.5.2


ψ(x) =

(1− 2x)(1 + x)2 −1 ≤ x ≤ 0(1 + 2x)(1− x)2 0 ≤ x ≤ 1

0 sonstϕ(x) =

x(1 + x)2 −1 ≤ x ≤ 0x(1− x)2 0 ≤ x ≤ 1

0 sonst

ψ und ϕ sind stetig differenzierbare Funktionen, die stuckweise Polynome drit-ten Grades sind. Es sind offensichtlich

ψ(−1) = ψ(1) = 0 , ψ′(−1) = ψ′(0) = ψ′(1) = 0 , ψ(0) = 1

ϕ(−1) = ϕ(1) = ϕ(0) = 0 , ϕ′(−1) = ϕ′(1) = 0 , ϕ′(0) = 1

so daß fur

Z := {a = x0 < x1 = x0 + h < · · · < xn+1 = b , xi = a+ ih, h =b− an+ 1

}

undy

(0)i := f(xi), y

(1)i := f ′(xi) i = 0, . . . , n+ 1

gilts(k)(xi) = y

(k)i , k = 0, 1, i = 0, . . . , n+ 1

wo

s(x) :=n+1∑i=0

{y

(0)i ψ(

x− xih

) + h · y(1)i · ϕ(

x− xih

)

}⊗

Offensichtlich gilt:

s ∈ C1(R) und s|[xi,xi+1] ∈ Π3, i = 0, . . . , n. (s 6∈ C2[a, b] im allg.)

Analog zur Vorgehensweise in Satz 1.5.1 kann man auch fur diese stuckweisekubische Hermite–Interpolation Konvergenzsatze beweisen. Wir begnugen unsmit

Satz 1.5.2. Konvergenzsatz fur die stuckweise kubische Hermi-teinterpolation Fur die durch ⊗ definierte stuckweise kubische Hermite–Interpolation gilt beif ∈ C4[a, b]

maxx∈[a,b]

|f(x)− s(x)| ≤ h4

384M4 mit M4 := max

x∈[a,b]|f (4)(x)|

2

Beweis: Anwendung von Satz 1.3.1 mit n = 1 ergibt fur x ∈ [xi, xi+1],i = 0, . . . , n

|f(x)− s(x)| = |f(4)(ξx)

4!((x− xi)(x− xi+1))

2| ≤ M4

24· h

4

16


Ein fur die Praxis schwerwiegender Nachteil dieser letzten Art von Approximationbesteht darin, daß man die Ableitungswerte der zu approximierenden Funktionf an allen Gitterpunkten xi kennen muß.(Man konnte naturlich in der Formel ⊗ die Werte y

(1)i ersetzen durch Approxi-

mationswerte mit einem Fehler der Großenordnung h3, also z.B.

y(1)i ≈ p′i−1,3(xi; (xj, y

(0)j )) 1 ≤ i ≤ n− 1 y

(1)0 ≈ p′0,3(x0; (xj, y

(0)j ))

y(1)n ≈ p′n−2,3(xn; (xj, y

(0)j )), y

(1)n+1 ≈ p′n−2,3(xn+1; (xj, y

(0)j ))

was aber naturlich die Anwendung der Formel sehr erschwert.) Ein Vorteil ist dierein lokale Konstruktion: jedes Stuck hangt nur von der Information bei xi undxi+1 ab.

Wir werden jetzt eine weitere Approximation mit stuckweise kubischen Polyno-men kennenlernen, bei der man im wesentlichen die gleichen Approximationsei-genschaften hat wie bei der stuckweisen kubischen Hermite–Interpolierenden, beider man aber keine Ableitungswerte kennen muß und die sogar zweimal stetigdifferenzierbar ist:

Definition 1.5.1. Es sei Zn : a = x0 < x1 < · · · < xn+1 = beine (nicht notwendig aquidistante ) Zerlegung von [a, b].s : [a, b]→ R heißt kubischer Spline zur Zerlegung Zn,falls gilt

(1) s|[xk,xk+1] ∈ Π3 k = 0, . . . , n

(2) s ∈ C2[a, b]Den Vektorraum aller dieser Splines bezeichnen wir mit S3(Zn).s heißt kubischer interpolierender Spline zu (xi, yi), i = 0, . . . , n+ 1,falls zusatzlich gilt:

(3) s(xi) = yi, i = 0, . . . , n+ 1 2

Wir diskutieren nun die Konstruktion eines solchen Splines. Nach Forderung (1)konnte man also fur s ∈ S3(Zn) schreiben:

sk(x)def= s|[xk,xk+1](x) = αk + βk(x− xk) + γk(x− xk)2 + δk(x− xk)3

und s ist durch 4(n + 1) Parameter (αk, βk, γk, δk) k = 0, . . . , n eindeutig be-stimmt. Durch die Forderung der zweimaligen stetigen Differenzierbarkeit hatman 3n lineare Gleichungen zwischen den Koeffizienten, namlich Gleichheit vonFunktionswert, erster und zweiter Ableitung von sk(x) und sk+1(x) an den Stellenxk+1 : k = 0, . . . , n − 1, den sogenannten inneren Knoten. Durch die Interpola-tionsbedingungen ergeben sich die n+ 2 Bedingungen αk = yk, k = 0, . . . , nund


βnhn+1+γnh2n+1+δnh

3n+1 = yn+1−yn wo hi := xi−xi−1, i = 1, . . . , n+1. Es blei-

ben also 2 (lineare) Bedingungen fur die Konstruktion von s frei und wir werdenim Folgenden zeigen, daß bei geeigneter Wahl dieser beiden Zusatzbedingungen sexistiert, eindeutig bestimmt ist und sogar eine gewisse Optimalitatseigenschaftbesitzt.

<<

Einen Hinweis auf die sinnvolle Wahl dieser Zusatzbedingungen liefert

Satz 1.5.3. Es sei f ∈ C2[a, b]1 und s ∈ S3(Zn). Dann gilt

⊗∫ b

a(f ′′(x)− s′′(x))2dx =∫ b

a(f ′′(x))2dx− 2

((f ′(x)− s′(x))s′′(x)

∣∣∣ba−n+1∑i=1

(f(x)− s(x))s′′′(x)∣∣∣xi−0

xi−1+0

)−

−∫ b

a(s′′(x))2dx

Beweis:∫ b

a(f ′′(x)− s′′(x))2dx =∫ b

a(f ′′(x))2dx− 2

∫ b

as′′(x)(f ′′(x)− s′′(x))dx−

∫ b

a(s′′(x))2dx

Partielle Integration auf [xi−1, xi] liefert fur das mittlere Integral∫ xi

xi−1

(f ′′(x)− s′′(x))s′′(x)dx =

= (f ′(x)− s′(x))s′′(x)∣∣∣xi−0

xi−1+0−∫ xi

xi−1

(f ′(x)− s′(x))s′′′(x)dx =

= (f ′(x)− s′(x))s′′(x)∣∣∣xi−0

xi−1+0− (f(x)− s(x))s′′′(x)

∣∣∣xi−0

xi−1+0+∫ xi

xi−1

(f(x)− s(x))s(4)(x)dx

Weil s(4)(x) ≡ 0 auf ]xi−1, xi[ und (f ′ − s′)s′′ ∈ C0[a, b] liefert die Summation uberi = 1, . . . , n + 1 die Behauptung. 2

Bevor wir nun die Zusatzbedingung angeben, wollen wir die anschauliche Bedeutungvon

∫ ba (f ′′(x))2dx erlautern. Die Krummung einer in Parameterform (x, f(x)) gegebe-

nen Kurve an der Stelle x berechnet sich zu

K(x) = f ′′(x)/√

1 + (f ′(x))23

Ist |f ′(x)| � 1, dannK(x) ≈ f ′′(x)

In diesem Falle stellt also (∫ ba (f ′′(x))2dx)1/2 eine gute Naherung fur die “Gesamt-

krummung” der Kurve auf [a, b] dar. In den Anwendungen ist man vielfach an Ap-proximationsfunktionen interessiert, die moglichst wenig “wellig” verlaufen, bei denen

1Voraussetzung kann abgeschwacht werden


also die Gesamtkrummung moglichst klein ist. Wenn nun der mittlere Term in derrechten Seite von ⊗ verschwindet, dann gilt ersichtlich (linke Seite ist≥ 0):∫ b

a(s′′(x))2dx ≤

∫ b

a(f ′′(x))2dx

und da f in die ganze Konstruktion nur uber die Werte yi = f(xi) und eventuelldie Zusatzbedingung eingeht, gilt dies fur jedes solche f . Offenbar verschwindet dermittlere Term fur ein interpolierendes s ∈ S3(Zn) zu (xi, yi = f(xi)) genau dann, wenn

(f ′(x)− s′(x))s′′(x)∣∣∣∣ba

= 0

>>

Als solche Bedingungen ergeben sich also alternativ

I. s′′(a) = 0, s′′(b) = 0 “naturlicher interpolierender kubischer Spline” 2

II. s′(a) = f ′(a), s′(b) = f ′(b) “hermitischer interpolierender kubischerSpline”

III. s′(a) = s′(b), s′′(a) = s′′(b) mit der Zusatzvoraussetzungf ′(a) = f ′(b), “periodischer interpolierender kubischer Spline”(Diese Konstruktion ist nur sinnvoll, wenn auch f(a) = f(b). Dann istwegen der Interpolationsforderung auch s(a) = s(b), d.h. s wird eineperiodische Funktion mit Periode b− a )

Satz 1.5.4. Eindeutigkeitssatz der Splineinterpolation Ein interpolie-render kubischer Spline ist durch eine der drei Zusatzforderungen I, II, IIIeindeutig bestimmt.

2

Beweis: Ann. ∃s1, s2 ∈ S3(Zn) mit s1(xi) = s2(xi) = yi, i = 0, . . . , n undeiner der Bedingungen I, II, III . Dann folgt nach obiger Uberlegung in dem manf := s1, s := s2 und f := s2, s := s1 setzt∫ b

a

(s′′1(x)− s′′2(x))2dx =

∫ b

a

(s′′1(x))2dx−

∫ b

a

(s′′2(x))2dx

=

∫ b

a

(s′′2(x))2dx−

∫ b

a

(s′′1(x))2dx

wobei die zweite Gleichung sich aus der Vertauschbarkeit der Rollen von s1 unds2 ergibt.

Also

∫ b

a

(s′′1(x)− s′′2(x))2dx = 0


und wegen s1, s2 ∈ C2[a, b] s′′1(x) ≡ s′′2(x) ∀x ∈ [a, b]und daher mit geeigneten Konstanten α, β

s1(x) = s2(x) + αx+ β

Wegen s1(a) = s2(a) = y0 und s1(b) = s2(b) = yn+1, folgt α = β = 0also s1 ≡ s2

Die Existenz eines solchen Spline werden wir nun konstruktiv zeigen. Dazu be-achten wir, daß s′′ nach Definition eine stuckweise lineare, stetige Funktion (alsoein Streckenzug) ist. Mit den noch unbekannten Werten Mi, den sogenannten‘Momenten‘ (bei der elastischen Linie sind das die Biegemomente)

Mi := s′′(xi), i = 0, . . . , n+ 1

si(x)def= s|[xi,xi+1](x)

kann man also schreiben

s′′i (x)def= s′′|[xi,xi+1](x) =

(xi+1 − x)Mi + (x− xi)Mi+1

xi+1 − xii = 0, . . . , n

Zweimalige Integration liefert mit den noch zu bestimmenden Integrationskon-stanten ci, di

si(x) =(xi+1 − x)3Mi + (x− xi)3Mi+1

6(xi+1 − xi)+ ci(x− xi) + di i = 0, . . . , n

(Im zweiten Integrationsschritt wurde die willkurlich wahlbare Konstante zudi − cixi gewahlt, was rechnerische Vorteile hat.) s ist also durch die Koeffizi-enten

c0, . . . , cn, d0, . . . , dn, M0, . . . ,Mn+1

bestimmt. Aufgrund der Interpolationsbedingungen und der Stetigkeit von s auf[a, b] ergeben sich die Bedingungen

si(xi) = yi, si(xi+1) = yi+1 i = 0, . . . , n

Setzt man hi+1 := xi+1 − xi und M?i := Mi/6, dann wird dies zu

di = yi − h2i+1M

?i , ci =

yi+1 − yihi+1

− hi+1(M?i+1 −M?

i ) i = 0, . . . , n

und es verbleibt die Bestimmung der M?i . Noch nicht benutzt wurde die Stetigkeit

von s′ und die beiden Zusatzbedingungen. Die Stetigkeit von s′ bedingt

s′i(xi+1) = s′i+1(xi+1) i = 0, . . . , n− 1


d.h.1

2hi+1Mi+1 + ci = −1

2hi+2Mi+1 + ci+1 i = 0, . . . , n− 1 .

Dies und die Anwendung der Zusatzbedingungen fuhrt fur jeden Splinetyp auf eineindeutig losbares lineares Gleichungssystem fur die Momente, das im Folgendenhergeleitet wird.

<<

Nach Einsetzen der obigen Darstellung von ci ergibt sich12(hi+1 + hi+2)Mi+1 =

yi+2 − yi+1

hi+2− hi+2

6(Mi+2 −Mi+1)−

yi+1 − yihi+1

+hi+1

6(Mi+1 −Mi)

⇔hi+1

6Mi +

13(hi+1 + hi+2)Mi+1 +

hi+2

6Mi+2 =

=yi+2 − yi+1

hi+2− yi+1 − yi

hi+1; i = 0, . . . , n− 1

Hinzu kommen die Randbedingungen:

Bei Fall I: naturlicher Spline:

s′′0 (x0)︸︷︷︸a

= 0 = M0; s′′n (xn+1)︸︷︷︸b

= 0 = Mn+1

Bei Fall II: hermitischer-Spline:

s′0 (x0)︸︷︷︸a

= f ′ (x0)︸︷︷︸a

⇔ −12h1M0 + c0 = f ′(x0)

⇔ 13h1M0 +

16h1M1 =

y1 − y0

h1− f ′ (x0)︸︷︷︸

a

s′n

b︷︸︸︷(xn+1) = f ′(b)⇔ 1

2hn+1Mn+1 + cn = f ′(xn+1)

⇔ 16hn+1Mn +

13hn+1Mn+1 = f ′(xn+1)−

yn+1 − ynhn+1

Bei Fall III: periodischer Spline:

M0 = Mn+1 (⇔ s′′(a) = s′′(b))

und

13(h1 + hn+1)Mn+1 +

16h1M1 +

16hn+1Mn =

y1 − y0

h1− yn+1 − yn

hn+1

( ⇔ s′(a) = s′(b))

Im Fall I hat man nur noch M1, . . . ,Mn zu bestimmen.Im Fall II erhalt man ein lineares Gleichungssystem fur M0, . . . ,Mn+1


Im Fall III erhalt man ein lineares Gleichungssystem fur M1, . . . ,Mn+1 und M0 liegtschon fest.Mit der Setzung

M?i := Mi/6

erhalt das Gleichungssystem folgende Gestalt:

A ·M = B

Im Fall I (naturlicher Spline)

A =

2(h1 + h2) h2 0 · · · · · · · · · 0

h2. . . . . . · · ·

...

0. . . . . . . . . · · ·

...... · · · hl−1 2(hl−1 + hl) hl · · · 0...

. . . . . . . . ....

.... . . . . . hn

0 · · · · · · · · · 0 hn 2(hn + hn+1)

M =

M?1

M?2

...

...

...

...M?n

B =

y2 − y1

h2− y1 − y0

h1...............

yn+1 − ynhn+1

− yn − yn−1

hn

M?

0 = M?n+1 = 0

Im Fall II

A =

2h1 h1 0 · · · · · · · · · 0

h1 2(h1 + h2) h2 0 · · · · · ·...

0 h2 2(h2 + h3) h3...

.... . . . . . . . .

......

. . . . . . hn...

... hn 2(hn + hn+1) hn+1

0 · · · · · · · · · 0 hn+1 2hn+1


M =

M?0

M?1

...

...

...

...M?n+1

B =

y1 − y0

h1− f ′(x0)

y2 − y1

h2− y1 − y0

h1.........

yn+1 − ynhn+1

− yn − yn−1

hn

f ′(xn+1)−yn+1 − yn

hn+1

Im Fall III

A =

2(h1 + h2) h2 0 · · · · · · · · · h1

h2. . . . . . 0

0. . . . . . . . .

...... · · · hl 2(hl + hl+1) hl+1 · · ·

......

. . . . . . . . ....

.... . . . . . hn+1

h1 0 · · · · · · · · · hn+1 2(h1 + hn+1)

M =

M?1

M?2

...

...

...

...M?n+1

B =

y2 − y1

h2− y1 − y0

h1............

yn+1 − ynhn+1

− yn − yn−1

hny1 − y0

h1− yn+1 − yn

hn+1

M?

0 = M?n+1

>>

Die Koeffizientenmatrix ist in allen drei Fallen symmetrisch mit nichtnegativenElementen. Fur jede Zeile ist das Diagonalelement grosser als die Summe aller


Ausserdiagonalelemente. Eine solche Matrix nennt man strikt diagonaldominant:

|ai,i| >n∑

j=1,j 6=i

|ai,j|∀ i .

Wir beweisen

Satz 1.5.5. Invertierbarkeit strikt diagonaldominanter Matrizen Jedestrikt diagonaldominante Matrix ist invertierbar. 2

Beweis: Wir nehmen an, die Behauptung sei falsch. Dann gibt es ein x∗ 6= 0 mitAx∗ = 0. Dieses x hat eine betragsmaximale Komponenten x∗i0 . Wir betrachtennun die Zeile i0 von Ax∗:

0 = |n∑j=1

ai0,jx∗j |

= |x∗i0 ||ai0,i0 +n∑

j=1,j 6=i0

ai0,jx∗j/x

∗i0|

≥ |x∗i0 |(|ai0,i0| −n∑

j=1,j 6=i0

|ai0,j|)

> 0 .

Dies ist ein Widerspruch, die Annahme also falsch und der Satz bewiesen.Wir haben somit

Satz 1.5.6. Existenzsatz der kubischen Splineinterpolation Zu beliebi-gen a = x0 < x1 < · · · < xn+1 = b und yi, i = 0, . . . , n+ 1 existiert genau eininterpolierender kubischer Spline, der eine der Bedingungen I, II, III erfullt.

2

Beispiel 1.5.1. Gesucht ist der naturliche kubische interpolierende Spline zu denDaten

xi -3 -1 0 1 3yi 5 3 7 9 23

Fur den naturlichen Spline gilt: M∗0 = M∗

4 = 0.Mit h1 = h4 = 2 und h2 = h3 = 1 erhalten wir folgendes lineare Gleichungssy-stem:


Ax = b mit

A =

2 (2 + 1) 1 01 2 (1 + 1) 10 1 2 (1 + 2)

=

6 1 01 4 10 1 6

,

x =

M∗1

M∗2

M∗3

, b =

7−31− 3−5

29−71− 7−3

123−9

2− 9−7

1

=

5−2

5

Als Losung erhalt man:M∗

1 = 1, M∗2 = −1, M∗

3 = 1.

2. Koeffizienten der Splinefunktionen:

d0 = 5− 4 · 0 = 5, c0 = 3−52− 2 · (1− 0) = −3,

d1 = 3− 1 · 1 = 2, c1 = 7−31− 1 · (−1− 1) = 6,

d2 = 7− 1 · (−1) = 8, c2 = 9−71− 1 · (1 + 1) = 0,

d3 = 9− 4 · 1 = 5, c3 = 23−92− 2 · (0− 1) = 9

3. Bestimmung der Splinefunktionen: Mit den berechneten Werten ergibt sich:

s0(x) = 12[(−1− x)3 · 0 + (x+ 3)3 · 1]− 3(x+ 3) + 5

s1(x) = (0− x)3 · 1 + (x+ 1)3 · (−1) + 6(x+ 1) + 2s2(x) = (1− x)3 · (−1) + (x− 0)3 · 1 + 0 · (x− 0) + 8s3(x) = 1

2[(3− x)3 · 1 + (x− 1)3 · 0] + 9(x− 1) + 5

Fur den Spline gilt also:

s(x) =

12(x+ 3)3 − 3(x+ 3) + 5, −3 ≤ x ≤ −1−x3 − (x+ 1)3 + 6(x+ 1) + 2, −1 < x ≤ 0−(1− x)3 + x3 + 8, 0 < x ≤ 112(3− x)3 + 9(x− 1) + 5, 1 < x ≤ 3

Die folgende Abbildung vergleicht die Polynominterpolation mit der Interpolationdurch einen naturlichen kubischen Spline fur 19 aquidistante Datenpunkte in [0, 1]mit den Ordinatenwerten

y = −(0, 0.35, 0.8, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0.8, 0.3, 0, 0)


0 0.2 0.4 0.6 0.8 1

−1

−0.5

0

0.5

1

1.5Laengsschnitt des Schiffes

kubischer SplinePolynom p18

Wahrend der Spline die Daten im gesamten Bereich sehr gut approximiert, zeigtdas interpolierende Polynom grosse Ausschlage an den Intervallenden und dieseLosung ware hier ganz unbrauchbar.

In den bisher besprochenen Darstellungen von s werden 4(n + 1) bzw. 3n + 4Koeffizienten benotigt, wahrend doch ein beliebiges s ∈ S3(Zn) nur n + 4 freieKoeffizienten besitzt. (n+2 Interpolations- und 2 zusatzliche Randbedingungen).Es ist daher naheliegend, nach einer geeigneten Basisdarstellung in S3(Zn) zusuchen, so daß man tatsachlich zur Beschreibung von s nur n + 4 Koeffizien-ten benotigt. In den Anwendungen ist man insbesondere an Basisdarstellungeninteressiert, bei denen die Basisfunktionen einen moglichst kleinen kompaktenTrager besitzen. Beim interpolierenden Streckenzug und bei der stuckweisen ku-bischen Hermite–Interpolierenden haben wir solche Basisfunktionen bereits ken-nengelernt. Im aquidistanten Fall

xi = a+ ih, i = 0, . . . , n+ 1, h =b− an+ 1

pruft man leicht nach, daß die durch

ϕ(x) :=

16(x3 + 6x2 + 12x+ 8) −2 ≤ x ≤ −1

16(−3x3 − 6x2 + 4) −1 ≤ x ≤ 0

16(3x3 − 6x2 + 4) 0 ≤ x ≤ 1

16(−x3 + 6x2 − 12x+ 8) 1 ≤ x ≤ 2

0 sonst


definierte Funktion ϕ folgende Eigenschaften hat(1) ϕ ∈ C2(R)(2) ϕ|[i,i+1] ∈ Π3 ∀i ∈ Zϕ bzw. allgemeiner ϕ(x−xi

h) wird als B–Spline bezeichnet (Basis–Spline). Die fol-

gende Grafik zeigt drei solcher Basisfunktionen.

Satz 1.5.7. {ϕ(x−xi

h) : i = −1, . . . , n + 2 mit xi = a + ih} bildet eine Basis

von S3(Zn) mit Zn : xi = a+ ihBeweis: Ubung 2

Im nicht aquidistanten Fall kann man solch einen Basisspline konstruieren mitHilfe der Funktion

g(x, t) = ((x− t)+)3 def=

{(x− t)3 falls x ≥ t0 sonst

Dazu bildet man die vierte dividierte Differenz bezuglich der x-Variablen furdie Werte g(xj, t) : j = i, . . . , i + 4, wobei man t wie einen freien Parameterbehandelt:

hi(t) = g[xi,...,xi+4](., t)

Das Resultat ist eine kubische Splinefunktion mit dem kompakten Trager [xi, xi+4]und einem ahnlichen Verlauf wie obiges ϕ (Ubg.).


Bemerkung 1.5.1. Man beachte, daß bei der Einfuhrung dieser Basis das Git-ter der xi formal um je drei Hilfspunkte x−3, x−2, x−1 und xn+2, xn+3, xn+4 er-weitert wurde. Außerhalb von [x−3, xn+4] verschwindet jede Linearkombinationn+2∑i=−1

αiϕ(x− xih

) identisch. 2

Man hatte also s auch direkt uber die Basisdarstellung konstruieren konnen.Wenn es jedoch nur um die Konstruktion eines einzelnen Splines geht, ist dieserWeg aufwendiger, denn die Koeffizienten des Splines in dieser Basisdarstellungmusste man selbst aus einem tridiagonalen Gleichungssystem bestimmen. Wegender Uberlappung der Trager der einzelnen B-Splines treten hier die Funktions-werte nicht als Koeffizienten auf.

Eine wichtige Anwendung von periodischen Splines besteht in der Konstruktiongeschlossener differenzierbarer Kurven durch vorgegebene Punkte (xi, yi),i = 0, . . . , n. Man legt eine Reihenfolge dieser Punkte auf einem Streckenzug fest,setzt xn+1 := x0, yn+1 := y0, bestimmt die Bogenlange auf dem Streckenzug:

t0 := 0, ti := ti−1 +√

(xi − xi−1)2 + (yi − yi−1)2, i = 1, . . . , n+ 1

und legt dann periodische kubische Splines s1 durch (ti, xi) und s2 durch(ti, yi), i = 0, . . . , n+ 1. Die Kurve ist dann in Parameterform (s1(t), s2(t)),0 ≤ t ≤ tn+1 dargestellt. Durch Veranderung der willkurlichen Parameterfestle-gung ti kann man das Aussehen der Kurve beeinflussen. Das folgende Bild zeigtdas Resultat einer solchen Konstruktion.

-3

-2

-1

0

1

2

3

4

-1.5 -1 -0.5 0 0.5 1 1.5 2

closed curve through discrete points

"curvepoints" using 2:3"curvedata" using 2:3

Zum Abschluß dieses Abschnitts wollen wir einen Satz uber die Approximati-onsgute der hermitischen kubischen Splines kennenlernen:


Satz 1.5.8. Konvergenzsatz fur den kubischen hermitischen C2-SplineEs sei f ∈ C4[a, b], xi = a+ ih, i = 0, . . . , n+ 1 undh = (b− a)/(n+ 1).s ∈ S3(Zn) sei der hermitische kubische interpolierende Spline zu (xi, f(xi)),i = 0, . . . , n+ 1Dann gilt fur j = 0, 1, 2, 3

maxx∈[a,b]

|s(j) − f (j)(x)| ≤ 2h4−jC4 mit C4 := maxx∈[a,b]

|f (4)(x)|

Dabei sei

s′′′(x0) := limε↘0

s′′′(x0 + ε), s′′′(xn+1) := limε↘0

s′′′(xn+1 − ε)

und fur i := 1, . . . , n

s′′′(xi) := limε↘0

(s′′′(xi + ε) + s′′′(xi − ε))/2

2

<<

Beweis: Sei u := (M?0 , . . . ,M?

n+1)T und v := 1

6(f ′′(x0), . . . , f ′′(xn+1))T .Wir beweisen zunachst

maxi|ui − vi| ≤

18h2C4

Das Gleichungssystem fur die Bestimmung der M?i lautet in diesem Fall (nach Division

durch h und Division der Zeile 2 bis n durch 2)

Au = d

mit

A =

2 1 012 2 1

2. . . . . . . . .

. . . . . . . . .. . . . . . . . .

12 2 1

20 1 2

d =

f[x0,x0,x1]

f[x0,x1,x2].........

f[xn−1,xn,xn+1]

f[xn,xn+1,xn+1]

Nun ist mit den abkurzenden Bezeichnungen f

(j)i := f (j)(xi)

16(2f ′′0 + f ′′1 ) = 1

2f ′′0 + 16f ′′′0 h + 1

12f (4)(ξ0)h2

f[x0,x0,x1] =f1 − f0 − hf ′0

h2= 1

2f ′′0 + 16f ′′′0 h + 1

24f (4)(ξ0)h2

16(f ′′n + 2f ′′n+1) = 1

2f ′′n+1 − 16f ′′′n+1h + 1

12f (4)(ξn+1)h2


f[xn,xn+1,xn+1] =hf ′n+1 − (fn+1 − fn)

h2= 1

2f ′′n+1 − 16f ′′′n+1h + 1

24f (4)(ξn+1)h2

f[xi−1,xi,xi+1] =fi+1 − 2fi + fi−1

2h2

= 12f ′′i + 1

24h2f (4)(ξi)16(1

2f ′′i−1 + 2f ′′i + 12f ′′i+1) = 1

2f ′′i + 124h2f (4)(ξi) + 1

24h2f (4)(ξ?i )

so daßmaxi|(Au)i − (Av)i| = max

i|(A(u− v))i| ≤ 1

8h2C4

Somit kennen wir fur den Vektor d := A(u−v) eine komponentenweise obere Schranke.Sei w := u − v und i so bestimmt, daß |wi| = max

j|wj |. Wir betrachten nun die i–te

Komponente von d = A w. Es ergibt sich

(A w)i = 2wi + 12wi−1 + 1

2wi+1, falls i ∈ {1, . . . , n}

d.h.|(A w)i| ≥ 2|wi| − 1

2 |wi−1| − 12 |wi+1| ≥ |wi|

nach Definition von i und eine anologe Rechnung fur i = 0 und i = n + 1. Damit istdie Zwischenbehauptung bewiesen.

|Mi − f ′′i | ≤ 34h2C4 .

Als nachstes zeigen wir die Behauptung fur j = 3 und beschranken uns zunachst aufx ∈]xi, xi+1[. Durch Grenzwertbildung folgt dann die Behauptung fur alle x ∈ [a, b] wiein Satz 1.5.1. Wir setzen nun

l(x) :=n+1∑i=0

f ′′(xi)ϕ(x− xi

h

)mit ϕ(x) =

x + 1 −1 ≤ x ≤ 01− x 0 ≤ x ≤ 10 sonst

Nach Satz 1.5.1 gilt

|f ′′′(x)− l′(x)| ≤ h

2C4

Ferner gilt

l′(x) =f ′′(xi+1)− f ′′(xi)

hfur x ∈]xi, xi+1[

und

s′′′(x) =Mi+1 −Mi

hfur x ∈]xi, xi+1[

und daher

|f ′′′(x)− s′′′(x)| ≤ |f ′′′(x)− l′(x)|+ 1h

(|Mi+1 − f ′′i+1|+ |Mi − f ′′i |

)≤ 1

2hC4 + 34hC4 + 3

4hC4 = 2hC4


fur x ∈]xi, xi+1[, i = 0, . . . , n und nach der oben beschriebenen Grenzwertbildung auf[a, b].Sei x ∈ [a, b] bel. Dann ∃xj(x) mit

|xj(x)− x| ≤ h

2und xj(x) = a + jh

Aberf ′′(x)− s′′(x) = f ′′(xj(x))− s′′(xj(x)) +

∫ x

xj(x)(f ′′′(t)− s′′′(t))dt

und daher

∀x ∈ [a, b] |f ′′(x)− s′′(x)| ≤ 34C4h

2 +h

22hC4 < 2h2C4

Wegen s(xi) = f(xi), i = 0, . . . , n + 1 gilt

∀i ∈ {0, . . . , n} ∃ξi ∈]xi, xi+1[ mit f ′(ξi) = s′(ξi)

Also fur x ∈ [xi, xi+1] und i ∈ {0, . . . , n}

|f ′(x)− s′(x)| =∣∣∣f ′(ξi)− s′(ξi) +

∫ x

ξi

(f ′′(t)− s′′(t))dt∣∣∣ ≤ 2h3C4

Schließlich

|f(x)− s(x)| =∣∣∣f(xi)− s(xi) +

∫ x

xi

(f ′(t)− s′(t))dt∣∣∣ ≤ 2h4C4

>>

Bemerkung 1.5.2. Wenn in der Praxis f ′(a) und f ′(b) unbekannt sind, kannman ebensogut die Approximationswerte p′0,3(a; (xj, yj)) und p′n−2,3(b; (xj, yj)) be-nutzen, was naturlich n ≥ 2, also mindestens 4 Stutzstellen, voraussetzt. In Satz1.5.7 tritt dann an der Stelle von 2 die Konstante 6 in der Abschatzung auf.

Bemerkung 1.5.3. Falls f ′′(a) = 0 und f ′′(b) = 0 , dann gilt die gleiche Aussagewie in Satz 1.5.7 auch fur den naturlichen Spline. Sonst gilt fur den naturlichenSpline eine analoge Aussage (mit großeren Konstanten statt 2) nur auf jedemabgeschlossenen Intervall [c, d] ⊂]a, b[. Man kann sogar beweisen, daß jeder derSplines I, II, III fur jede stetige Funktion f gegen f konvergiert, wenn max |xi+1−xi| → 0 und max |xi+1 − xi|/min |xi+1 − xi| beschrankt bleibt. (nichtaquidistanteZerlegungen sind zugelassen)

Bemerkung 1.5.4. Falls die Spline-Approximation immer noch zu wellig ist,kann man zum Tension-Spline ubergehen, der gewissermaßen einen gewichte-tes Mittel zwischen der stuckweise linear Interpolierenden und dem gewohnlichenSpline darstellt. Die Ansatzgleichung lautet hier mit

si(x)def= s|[xi,xi+1](x)


s′′i (x)− σ2si(x) = (Mi − σ2yi)(xi+1 − x)xi+1 − xi

+ (Mi+1 − σ2yi+1)(x− xi)

(xi+1 − xi), (1.4)

Je großer die Zugspannung (d.h. σ2), um so mehr wird die Approximation vonder Gestalt her stuckweise linear. Mit den Bedingungen

si(xi) = yi , si(xi+1) = yi+1

hat man dann eine sogenannte Zweipunktrandwertaufgabe zu losen, um die Dar-stellung von si zu erhalten. si erhalt die Form

si(x) = αi sinh(σ(x− xi)) + βi sinh(σ(x− xi+1))−1

σ2li(x)

wobei αi und βi durch die Interpolationsforderung bestimmt sind und li die rechteSeite von (1.4) bezeichnet. Aus der Stetigkeitsforderung fur s′, d.h. s′i(xi+1) =s′i+1(xi+1), i = 0, . . . , n−1 erhalt man wieder ein tridiagonales Gleichungssystemfur die Mi und kann damit den Spline zu Ende konstruieren, indem man nochdie Randbedingungen bei x = a und x = b einarbeitet.

Wenn die Daten yi durch Fehler verfalscht sind, ist es meist sinnvoller, einensogenannten Ausgleichsspline zu verwenden. Dabei wird

n+1∑i=0

(yi − s(xi))2 + p

∫ b

a

(s′′(x))2x.

fur geeignet gewahltes p > 0 durch die Wahl der Splinekoeffizienten minimiert.2


-0.2

0

0.2

0.4

0.6

0.8

1

1.2

-1 -0.5 0 0.5 1

f,s

x

smooth-spline, n= 50 for 1/(1+25x**2) with relerr= 0.100

estim. variance= 0.4195E-02

1.6 Approximation in einer gewichteten L2–Norm

(ERG)

Wir haben bereits fruher bemerkt, daß die Berechnung des Polynoms bester Anna-herung an eine Funktion f im Sinne der Maximumnorm, also des Polynoms p?n mitmaxx∈[a,b]

|f(x) − p?n(x)| = minp∈Πn

maxx∈[a,b]

|f(x) − p(x)|, zwar moglich, aber recht aufwendig

ist. Verwendet man jedoch Normen, die durch ein Skalarprodukt erklart sind, wird dieLosung dieser Aufgabe wesentlich vereinfacht.

Definition 1.6.1. Ein Vektorraum H uber R heißt euklidisch (oder unitar) falls eineAbbildung (., .) : H×H→ R existert (Skalarprodukt) mit folgenden Eigenschaften:

(f, h ∈ H, λ, µ ∈ R)

0 6= f ⇒ (f, f) > 0

(f, g) = (g, f)

(f, λg + µh) = λ(f, g) + µ(f, h)

Durch||f || := (f, f)

12

1.6. APPROXIMATION IN EINER GEWICHTETEN L2–NORM (ERG) 55

wird in einem euklidischen Raum eine Norm eingefuhrt. Ist f ∈ .H und P ein Teilraumvon H, so kann man die folgende Aufgabenstellung betrachten:Gesucht

p? ∈ P : ||f − p?|| = minp∈P||f − p|| ⊗

Mit der Losung dieser Aufgabe werden wir uns im folgenden beschaftigen.

Beispiel 1.6.1.

a) H = Rn, P = {α

1...1

: α ∈ R}

(x, y) := xT y, ||x|| =( n∑i=1

ξ2i

) 12

f =

η1...

ηn

Also Aufgabe: Gesucht α ∈ R :

( n∑i=1

(α− ηi)2) 1

2 = minα

.

Eindeutige Losung:

α =1n

n∑i=1

ηi (Mittelwert)

b)H = Rm, P = {Ax : x ∈ Rn}

wobei A ∈ Rm×n fest.m ≥ n, Rang(A) = n, f = b ∈ Rm (x, y) := xT yAufgabe: Gesucht x? ∈ Rn : ||Ax? − b||2 = min

xmit der Losung

x? = (ATA)−1AT bc) H = C2π = {f : stetig und 2π periodisch}

(f, g) =1π

∫ 2π

0f(t)g(t)dt

P ={a0

2+

n∑j=1

(aj cos jx + bj sin jx) : ai, bi ∈ R}

f ∈ H bel. Losung der Approximationsaufgabe : Fourierkoeffizienten

aj =1π

∫ 2π

0f(t) cos jt dt 0 ≤ j ≤ n

bj =1π

∫ 2π

0f(t) sin jt dt 1 ≤ j ≤ n

2


Wir zeigen nun

Satz 1.6.1. Sei H ein euklidischer Vektorraum uber R mit Skalarprodukt (f, g).

v1, ..., vn ∈ H seien linear unabhangig. P ={ n∑i=1

αivi : αi ∈ R}.

Dann gilt : Zu jedem f ∈ H existert genau eine Losung p? der Approximationsaufgabe⊗Es gilt

∀p ∈ P : (f − p?, p) = 0

Die Losung p? =n∑i=1

α?i vi kann berechnet werden mittels der

Normalgleichungen

⊗⊗ Aa? = b, a? =

α?1...

α?n

A = ((vi, vj))1≤i,j≤n b =

(v1, f)...

(vn, f)

2

Beweis: Wir beweisen zunachst die Regularitat der in ⊗⊗ eingefuhrten sogenanntenGram’schen Matrix A.Ann. ∃a ∈ Rn Aa = 0, a 6= 0⇒

n∑j=1

αj(vi, vj) = 0 = (vi,n∑j=1

αjvj) i = 1, ..., n

⇒n∑i=1

αi(vi,n∑j=1

αjvj) = 0 = (n∑i=1

αivi,n∑j=1

αjvj) = ||n∑j=1

αjvj ||2 ⇒

0 =n∑j=1

αjvj ⇒n∑j=1

|αj | = 0

da v1, ..., vn nach Vor. linear unabhangig. (Widerspruch!)Somit A regular und a? durch ⊗⊗ wohldefiniert. Sei

p? :=n∑i=1

α?i vi


Dann gilt fur i = 1, ..., n

(f − p?, vi) = (f, vi)− (p?, vi)

= (f, vi)− (vi,n∑j=1

α?jvj)

= (f, vi)−n∑j=1

α?j (vi, vj) = 0

Da p ∈ P⇒ p =n∑k=1

βkvk folgt (p, f − p?) =n∑k=1

βk(vk, f − p?) = 0

Sei p ∈ P bel. Dann

||p− f ||2 = (p− f, p− f) = (p− p? + p? − f, p− p? + p? − f)= (p− p?, p− p?) + 2(p− p?, p? − f) + (p? − f, p? − f)= ||p− p?||2 + ||p? − f ||2 + 2(p, p?︸︷︷︸

0

−f)− 2(p?, p?︸︷︷︸0

−f)

= ||p− p?||2 + ||p? − f ||2 > ||p? − f ||2 falls p 6= p?

Die uns im folgenden interessierenden Raume und Skalarprodukte sind

L2,w([a, b]) ={f : [a, b]→ R

∫ b

aw(t)f2(t) dt <∞

}mit

(f, g) =∫ b

aw(t)f(t)g(t) dt

Dabei sei w : [a, b]→ R+ gegeben mit w ∈ C(]a, b[),w(x) > 0 x ∈]a, b[, ∃

∫ ba w(x) dx3

Die Funktion w heißt Gewichts– oder Belegungsfunktion auf [a, b]. Ferner interessierenwir uns fur P = Πn. Das in Satz 1.6.1 eingefuhrte Gleichungssystem ist dann im Prinzipleicht aufstellbar und losbar:(positiv definite symmetrische Koeffizientenmatrix!)

∫ b

aw(t)titj dt

0 ≤ i, j ≤ n

α?0

...α?n

=

∫ b

aw(t)f(t)ti dt

0 ≤ i ≤ n

Es zeigt sich aber, daß dieses Gleichungssystem oft außerordentlich empfindlich gegenRundungsfehlereinflusse ist. Ein Maß dafur ist die sogenannte Konditionszahl der Ma-trix, in diesem Fall ist das der Quotient aus grossstem und kleinstem Eigenwert. (InKapitel 3 werden wir diese Grosse allgemeiner definieren).

3Die Voraussetzungen an w konnen weiter abgeschwacht werden. Wir wollen hier nur denFall integrierbarer Randsingularitaten zulassen.


Beispiel 1.6.2. [a, b] = [0, 1], w(x) ≡ 1

An =

∫ 1

0ti+j dt

0 ≤ i, j ≤ n

=

1 1

2 · · · 1n+1

......

......

1n+1 · · · · · · 1

2n+1

← “Hilbertmatrix”

n 0 1 2 3cond||.||2(An) 1 3.9101 1.4103 4.6104

n 4 5 6cond||.||2(An) 1.5106 5.1107 1.7109

2

Deshalb ist dieser einfache Zugang abzulehnen. Besonders einfach und unproblematischwird die Losung des Gleichungssystems, wenn (v1, ..., vn) ein Orthogonalsystem bzgl.des vorgegebenen Skalarprodukts sind, denn dann wird

α?i = (f, vi)/(vi, vi) i = 1, ..., n

Wir wollen uns jetzt mit der Konstruktion eines solchen Orthogonalsystems in Πn zumvorgegebenen Skalarprodukt beschaftigen. Wir gelangen damit zu den sogenanntenOrthogonalpolynomen Im Prinzip konnte ein solches Orthogonalsystem mit demGram-Schmitt Orthogonalisierungsverfahren berechnet werden. Dies ware aber ausserstunzweckmassig. Eine geschicktere Methode werden wir im Folgenden kennenlernen.Tatsachlich erweist sich jedoch die genaue praktische Berechnung solcher Polynomebei hoherem Grad als ein diffiziles Kapitel, uber das man sich in der Spezialliteraturinformieren sollte. Wir betrachten hier sogleich einen noch allgemeineren Fall, namlichein Skalarprodukt ∫

Jw(t)f(t)g(t)dt

wo J ein endliches oder unendliches Intervall und w eine nichtnegative Funktion mithochstens abzahlbar vielen Nullstellen ist, fur die die Integrale∫

Jw(t)tkdt

fur alle k = 0, 1, . . . endlich sind. w darf am Rand von J auch integrierbare Singula-ritaten besitzen.


Satz 1.6.2. Dreitermrekursion fur Orthogonalpolynome Sei fur j ∈ N0

Πj = {p : p(x) = xj + g(x), g ∈ Πj−1}

Es gibt eindeutig bestimmte Polynome pj ∈ Πj , j ∈ N0 mit

(pi, pk) = 0 i 6= k, (pi, pi) > 0 i, k ∈ N0,

wo(f, g) :=

∫J

w(t)f(t)g(t)dt

Diese Polynome genugen der Rekursionsformel

p−1(x) ≡ 0 (Hilfsgroße)

p0(x) ≡ 1

⊗ pi+1(x) = (x− δi+1)pi(x)− γ2i+1pi−1(x) fur i ≥ 0

mitδi+1 := (xpi, pi)/(pi, pi) i ≥ 0

γ2i+1 :=

{0 fur i = 0(pi, pi)/(pi−1, pi−1) fur i ≥ 1

2

Beweis: p0(x) ≡ 1 folgt aus der Definition von Π0. Wir beweisen die Aussage in-duktiv. Sei pj ∈ Πj fur j ≤ i bereits konstruiert. Wir haben dann zu zeigen, daßpi+1 ∈ Πi+1 eindeutig bestimmt ist mit

(pi+1, pj) = 0 fur j ≤ i und ⊗

Man kann jedenfalls schreiben

pi+1(x) = xpi(x)−i∑

j=0

cjpj(x)

wobei die cj durch Koeffizientenvergleich eindeutig bestimmt sind.Aus (pj , pk) = 0 fur j 6= k und j, k ≤ i folgt

(pi+1, pj) = (xpi, pj)− cj(pj , pj) j ≤ i

Also (pi+1, pj) = 0 fur j ≤ i genau dann, wenn

0 = (xpi, pi)− ci(pi, pi), d.h. ci = (xpi, pi)/(pi, pi) = δi+1

und(xpj , pi) = cj(pj , pj) fur j ≤ i− 1

Nach Induktionsvoraussetzung gilt aber

pj(x) = (x− δj)pj−1(x)− γ2j pj−2(x) j ≤ i


und daherxpj−1(x) = pj(x) + δjpj−1(x) + γ2

j pj−2(x) j ≤ i

d.h.

cj−1(pj−1, pj−1) = (xpj−1, pi) = (pi, pj) + δj(pi, pj−1︸︷︷︸0

) + γ2j (pi, pj−2︸︷︷︸

0

) j ≤ i

also

cj−1 ={

(pi, pi)/(pi−1, pi−1) falls j = i0 falls j < i

={

γ2i+1

0

Da pi+1 6≡ 0 ist naturlich (pi+1, pi+1) > 0

Satz 1.6.3. Nullstellensatz fur Orthogonalpolynome Sei pn ∈ Πn das nte

Orthogonalpolynom bzgl. des Skalarprodukts∫J

w(t)f(t)g(t)dt, n ∈ N0. Dann gilt:

(i) Alle Nullstellen von pn liegen im Inneren von J und sind einfach.(ii) Sind t1 < t2 < · · · < tn bel. dann ist die Matrix

G :=

p0(t1) · · · p0(tn)...

...pn−1(t1) · · · pn−1(tn)

regular.

2

Beweis: (i)Sei N die Menge der Nullstellen von pn in ]a, b[, die ungerade Vielfachheit haben,N={ξ1, ..., ξk}(Zu zeigen ist: |N | = n). Sei

q(x) =k∏i=1

(x− ξi)

Dann gilt : q(x)pn(x) ist ohne Vorzeichenwechsel in ]a, b[, also∫J

w(t)q(t)pn(t)dt 6= 0

aber wegen q ∈ Πn−1 falls |N | < n∫J

w(t)q(t)pn(t)dt = 0 nach Satz 1.6.2 .

(ii) Ann.: ∃a 6= 0 mit aTG = 0 (d.h. G singular.) Dann hat

n∑i=1

αipi−1(t) ∈ Πn−1 6≡ 0

n verschiedene Nullstellen. (Widerspruch!)

1.7. (STUCKWEISE) POLYNOMIALE INTERPOLATION IN ZWEI VERANDERLICHEN61

Bemerkung 1.6.1. Die nach Satz 1.6.1 gebildeten optimalen Approximationen mitP = Πn konvergieren im Sinne der durch das Skalarprodukt definierten Norm gegenf fur n → ∞. Ist also {p0, p1, ......} das System der Orthogonalpolynome bzgl. desvorgegebenen Skalarprodukts, dann gilt

limn→∞

∫J

w(t)(f(t)−

n∑i=0

α?i pi(t))2

dt = 0

wo

α?i :=∫J

w(t)f(t)pi(t)dt

/∫J

w(t)p2i (t)dt

Falls J = [a, b] kompakt ist, f ∈ C1[a, b] und w(t) ≥ w0 > 0, dann sogar

maxt∈[a,b]

|f(t)−n∑i=0

α?i pi(t)| → 0 mit n→∞.

Beweis dieser Aussage in Werner & Schaback: Praktische Mathematik II 2

Beispiel orthogonaler Polynome

[−1, 1]; w(x) ≡ 1; Legendre–Polynome

P0(x) = 1, P1(x) = x, Pn+1(x) =2n + 1n + 1

xPn(x)− n

n + 1Pn−1(x)

[−1, 1]; w(x) =1√

1− x2; Tschebyscheff–Polynome erster Art

T0(x) = 1, T1(x) = x, Tn+1 = 2xTn(x)− Tn−1(x)

[−1, 1]; w(x) =√

1− x2; Tschebyscheff–Polynome zweiter Art

U0(x) = 1, U1(x) = 2x, Un+1(x) = 2xUn(x)− Un−1(x).

1.7 (Stuckweise) polynomiale Interpolation in

zwei Veranderlichen

Bei zwei freien Veranderlichen x und y betrachten wir einen Bereich G ⊂ R2

und eine Funktion f : G→ R.

Unser Ziel ist es, f durch ein Polynom in zwei Veranderlichen zu approximieren .

Wir betrachten hier zwei Falle:

1. Sei G = [x0, xn]× [y0, ym] ein achsenparalleles Rechteck. Weiterhin sei eineaquidistante Zerlegung vorgegeben, d.h. xj = x0 + j · hx fur j = 0, . . . , nund yj = y0 + j · hy fur j = 0, . . . ,m. Auf dem Gitter der (xi, yj) seien dieFunktionswerte fi,j = f(xi, yj) bekannt.


Als Interpolationspolynom ergibt sich unmittelbar mit Hilfe der Lagrange-Polynome:

Pn,m(x, y) :=n∑i=0

m∑j=0

fi,j · Li,n(x) · Lj,m(y)︸︷︷︸Lagrange−Polynome

.

Fur diese Interpolation kann man eine zum eindimensionalen Fall analogeFehlerabschatzung beweisen (Ubg.):

Satz 1.7.1. Fehlerabschatzung Tensorprodukt-PolynominterpolationSei f ∈ Cn+m+2(G) und (x, y) ∈ G. Dann gilt

f(x, y)− Pn,m(x, y) = 1(n+1)!

( ∂∂x

)n+1f(ξ, y)n∏j=0

(x− xj)

+ 1(m+1)!

( ∂∂y

)m+1f(x, η)m∏j=0

(y − yj)

− 1(m+1)!(n+1)!

( ∂∂x

)n+1)( ∂∂y

)m+1f(ξ, η)n∏j=0

(x− xj)m∏j=0

(y − yj)

Außer fur n,m ≤ 2 ist dieses Vorgehen ungebrauchlich, die entstehendenFunktionen sind sehr ”wellig”.

Fur n = m = 1 ist dies der bilineare Ansatz f00 · x−x1

x0−x1· y−y1y0−y1 + · · · + f11 ·

x−x0

x1−x0· y−y0y1−y0 = · · · = a+ bx+ cy + dxy.

Will man auf einem grosseren Gebiet arbeiten, wo ein solch niedriger Gradkeine ausreichende Genauigkeit liefert, dann kann man dieses Gebiet in klei-nere Rechtecke zerlegen und wieder stuckweise interpolieren. Die so erzeugteInterpolierende ist dann automatisch stetig, aber nicht stetig differenzier-bar. (Die Tatsache, dass man achsenparallele Rechtecke vorliegen hat, isthierfur wesentlich (warum?)).

2. Sei nun G polygonal berandet. Wir definieren

Definition 1.7.1. Eine Menge {Ti, i = 0, . . . , N} wobei Ti ein abgeschlossenesDreieck im R2 ist, heißt zulassige Triangulierung von G, wenn gilt:

(a) G =⋃Ni=0 Ti.

(b) Ti ∩ Tj =

∅Pij (gemeinsamer Eckpunkt von Ti und Tj)Kij (gemeinsame vollstandige Seite von Ti und Tj)

Zur Illustration seien folgende Beispiele angegeben:


G : ..................................................................................................................

..................................

..................................

..................................

...............................................

............................

............................

............................

.............................................................................................................................................................................................................................................................................................................

...................................................................................................................................................

.....................................................................................................................................................................................................................

zulassig

G : ..................................................................................................................

..................................

..................................

..................................

...............................................

............................

............................

............................

...........................................................................................................................

...................................................................................................................................................

.............................................................................................................................

1 2

unzulassig,weil 1 und 2 keine voll-standige gemeinsame Seitehaben.

Die Menge der Ecken der Dreiecke der Triangulierung sei nun mit {P0, . . . , Ps}bezeichnet. Sie heisst die ”Knotenmenge” der Triangulierung. Wir wollennun auf jedem Dreieck f durch eine affinlineare Funktion approximieren,im Ganzen aber eine stetige Approximation verhalten. Man uberlegt sichleicht, daß dies auf einer unzulassigen Triangulierung nicht moglich ist. DieInterpolierende wollen wir wieder in einer Basisdarstellung darstellen, wieim eindimensionalen Fall.

Definition 1.7.2. Die Basisfunktion der stetigen stuckweise linearen In-terpolation zum Knoten Pj der Triangulierung ist definiert durch

(a) ϕj(x, y) = aij + bijx+ cijy, falls (x, y) ∈ Ti(b) ϕj ∈ C(G)

(c) ϕj(Pj) = 1 und ϕj(Pl) = 0 fur l 6= j

Wir erhalten die stuckweise lineare Interpolierende zu den Daten (Pj, f(Pj))dann in der Form

s∑j=0

f(Pj)ϕj(x, y) .

Beispiel 1.7.1. Wir suchen die Basisfunktion zum Knoten 5 der unten darge-stellten Triangulierung.

2 6

5

321

4

0 1 2

0

1


Die gesuchte Basisfunktion muß in den Knoten 1,2,3,4,6 verschwinden und imKnoten 5 den Wert 1 annehmen. Daraus ergeben sich mit dem linearen Ansatz

ϕ(x) = a+ bx+ cy

folgende Bestimmungsgleichungen

• Dreieck 124 :

ϕ(P1) = a+ b · 0 + c · 0 = 0ϕ(P2) = a+ b · 1 + c · 0 = 0ϕ(P4) = a+ b · 0 + c · 1 = 0

⇒ a = b = c = 0

• Dreieck 235 :


⇒ a = b = 0, c = 1

• Dreieck 245 :


⇒ a = −1, b = c = 1

• Dreieck 456 :


⇒ b = 1, a = c = 0

Die Basisfunktion lautet demnach

ϕ5(x) =

0 in Dreieck 124y in Dreieck 235

x+ y − 1 in Dreieck 245x in Dreieck 456

Satz 1.7.2. Existenz und Eindeutigkeit der stetigen stuckweise li-nearen 2D Interpolation Es sei G ein polygonal berandeter Bereich und{T0, . . . , TN} eine zulassige Triangulierung. Dann gibt es eine eindeutig be-stimmte, stetige, auf jedem Ti affin-lineare Funktion l mit l(Pi) = fi. Hierbeisind fi vorgegebene Werte und {P0, . . . , Ps} die Knotenmenge.Diese besitzt die Darstellung

l(x, y) =s∑i=0

fi · ϕi(x, y) .

ϕi(x, y) ist hier die Basisfunktion zum Knoten Pi.


Die Stetigkeit folgt aus der Konstruktion. Die folgende Abbildung zeigt eine solcheKonstruktion

Satz 1.7.3. Approximationsgute der stetigen stuckweise linearen 2D-Interpolation Sei f ∈ C2(G) und {T0, . . . , Tn} eine zulassige Triangulierungvon G.h sei die Lange der langsten Dreiecksseite und ϕ der kleinste Dreieckswinkel.Dann gilt fur die oben konstruierte Funktion l die Aussage

max(x,y)∈G

|f(x, y)− l(x, y)| ≤ c · h2

und

supi

(sup

(x,y)∈T 0i

{∣∣∣ ∂∂xf(x, y)− ∂

∂xl(x, y)

∣∣∣, ∣∣∣ ∂∂yf(x, y)− ∂

∂yl(x, y)

∣∣∣}) ≤ ch

sinϕ.

Hierbei ist T 0i das Innere von Ti. Und es gilt c = 8M2 mit

M2 = max(x,y)∈G

{∣∣∣ ∂2

∂2xf(x, y)

∣∣∣, ∣∣∣ ∂2

∂x∂yf(x, y)

∣∣∣, ∣∣∣ ∂2

∂2yf(x, y)

∣∣∣,}2

Man muß die Bedingung maxi

{ langste Seite Ti

kurzeste Seite Ti

}≤ const fur h → 0 erfullen,

um ϕ → 0 zu verhindern. Dann kann man also aus der stetigen, stuckweise


linearen Approximation, die ja auf den Knotenverbindungen nicht differenzierbarist, dennoch brauchbare Approximationen an den Gradienten von f erhalten.

Bemerkung 1.7.1. Analog kann man fur vollstandigen Grad 2 vorgehen. Manfuhrt außer den Ecken der Dreiecke noch die Seitenmitten als Interpolationspunk-te ein.

..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................× × ×

×

×

×

a+ bx+ cy + dx2 + exy + fy2

Auch diese Interpolationsaufgabe ist eindeutig losbar.

Fur Ansatze hoheren Grades benutzt man die Form:

n∑i=0

i∑j=0

aijxi−jyj

Diese Interpolierenden sind uber die Dreiecksseiten hinweg stetig, aber nicht dif-ferenzierbar. Um differenzierbare Interpolanten zu erhalten, muss man ahnlichvorgehen wie bei den Splines im eindimensionalen Fall.

Splinefunktionen lassen sich leicht auf Rechtecksgittern oder kubischen Gitternberechnen. Auf Dreiecksnetzen wird die Berechnung glatter Interpolierenden we-sentlich komplizierter, ist aber auch moglich.

In zwei Veranderlichen und mit dem Ziel, eine C1-Funktion auf einer zulassigenTriangulierung zu erhalten, stellt man fest, daß 21 Freiheitsgrade pro Dreiecknotwendig sind. Diese reprasentieren die Daten f, fx, fy, fxx, fxy, fyy an dendrei Ecken eines Dreiecks und die 3 Normalableitungen an den Seitenmitten.

Der Ansatz hierzu ist von der Form

5∑i=0

i∑j=0

aijxjyi−j .

Es gibt aber einfachere Ansatze fur reduzierte Glattheitsanforderungen. Siehedazu die Spezialliteratur.

1.8 Zusammenfassung

Die Aufgabe der Interpolation von n+1 Datenpunkten mit paarweise verschiede-nen Abszissen ist stets eindeutig losbar. Deshalb kann man ein Polynom wahlwei-se durch seine Koeffizientendarstellung in einer geeigneten (und frei wahlbaren)

1.8. ZUSAMMENFASSUNG 67

Basis des Πn oder durch n + 1 seiner Wertepaare darstellen. Fur theoretischeZwecke ist die Darstellung von Lagrange die zweckmassigste. An ihr erkennt manu.a. unmittelbar, daß das Polynom linear von den Ordinatenwerten yi, aber nicht-linear von den Abszissen xi abhangt. Fur rechnerische Zwecke ist die Darstellungnach Newton die zweckmassigste und auch die effizienteste. Wird nur ein einzigerWert des Interpolationspolynoms gesucht, so ist der Nevillealgorithmus gunstig,der diesen Wert direkt rekursiv berechnet ohne das Polynom selbst aufzustellen.

Interpolationspolynome von kleinem oder massvollem Grad (evtl. ≤ 10) liefernsehr gute Annaherungen auf kleinen Intervallen und konnen zur Funktionsappro-ximation, zur numerischen Differentiation und Quadratur und auch zur Nullstel-lenbestimmung benutzt werden. Es ist in der Regel jedoch nicht zweckmassig undoft sogar unsinnig, durch die Erhohung des Grades eine Genauigkeitssteigerungerzwingen zu wollen. Oft ist dieser Prozess sogar divergent.

Will man ein Interpolationspolynom als Approximation einer Funktion auf einemgrosseren Intervall benutzen, so sollte man auf jeden Fall die transformiertenTschebyscheffabszissen benutzen.

Den Interpolationsvorgang kann man leicht ausdehnen auf den Fall, daß auchzusatzlich Ableitungswerte vorgeschrieben werden, dabei durfen aber keine ”Lucken”in den Ordnungen der Ableitungen auftreten. (Hermite-Interpolation und Verall-gemeinerungen).

Auf grossen Intervallen ist in der Regel eine Splineapproximation angebracht,bei der stuckweise polynomiale Funktionen so zusammengesetzt werden, daß ei-ne mehrmals differenzierbare Funktion entsteht. Der klassische kubische Splineist zweimal stetig differenzierbar. Erst durch Vorgabe zweier zusatzlicher Bedin-gungen wird seine Konstruktion eindeutig. Wahlt man dazu Randvorgaben inForm des naturlichen, des hermitischen oder des periodischen Splines, so erhaltman sogar eine im Sinne der Minimierung des Quadratintegrals der zweiten Ablei-tung optimale Konstruktion. Der kubische Spline liefert eine Approximationsgutevierter Ordnung im maximalen Abszissenabstand h und sogar simultan eine umje eine h−Potenz niedrigere Approximation an die erste, zweite und dritte Ab-leitung (letztere durch eine Treppenfunktion). Auch dieser Spline hangt linearvon den Ordinatenwerten, aber nichtlinear von den Abszissen ab. Im Unterschiedzur Polynominterpolation die z.B. lokal (in einer Tabelle) durchfuhrbar ist, ist dieSplinekonstruktion ein globaler Prozess, man muss eine gekoppeltes System linea-rer Gleichungen losen, um die Konstruktion durchzufuhren. Die Methoden dereindimensionalen Interpolation lassen sich auf das Mehrdimensionale nur dannunmittelbar ubertragen, wenn der Bereich ein Rechteck (oder Quader) ist. Danngenugen namlich sogenannte Tensorproduktansatze, bei denen die Basis aus denProdukten der Basiselemente der eindimensionalen Interpolation in den verschie-denen unabhangigen Variablen entstehen. Sonst muss man zu anderen Formender Interpolation ubergehen. In der Praxis bewahrt ist die Interpolation auf sim-


plizialen Netzen (im Zweidimensionalen also Dreiecksnetze)

Weiterfuhrende Literatur:

1. Ahlberg, J.H.; Nilson, E.N.; Walsh, J.L.: The Theory of Splines and theirApplications. Acad. Press. 1967

2. de Boor, C.: A Practical Guide to Splines. Springer 1978. Reprinted bySIAM.

3. Philipps, G.M.: Interpolation and Approximation by Polynomials. Springer(CMS Books in Mathematics) 2000.

Kapitel 2

Numerische Quadratur

In diesem Kapitel besprechen wir Methoden zur genaherten Berechnung von

Werten bestimmter (Riemannscher) Integrale

∫ b

a

f(t)dt. Eine spezielle Verfah-

rensklasse lasst auch die direkte Behandlung unendlicher Intervalle zu. EinfacheLosungsansatze fur diese Aufgaben bestehen darin, zunachst eine polynomialeoder stuckweise polynomiale Approximationsfunktion fur f zu bestimmen unddann das Integral des Polynoms bzw. des Splines exakt auszuwerten. Uber dieseeinfachen Ansatze hinaus werden wir hier erheblich effizientere Methoden kennen-lernen und auch auf die Moglichkeit der Fehlererfassung eingehen. Der zentraleGesichtspunkt bei allen diesen Verfahren ist der Wunsch, Formeln zu entwickeln,die einerseits fur jede Riemannintegrierbare Funktion bei entsprechendem Auf-wand ein Resultat liefern, dessen Genauigkeit nach Belieben gesteigert werdenkann, andererseits bei ”gutartigen” Integranden hohe Genauigkeit mit nur sehrwenigen Funktionsauswertungen garantieren. Daruberhinaus ist man auch an ei-ner automatisierten Genauigkeitskontrolle interessiert. Welche dramatische Un-terschiede im Aufwand hier auftreten konnen, soll folgendes einfache Beispielbelegen.

Beispiel 2.0.1. Zu berechnen sei∫ 2

1

1xdx = ln 2 .

Wir benutzen die Approximation des Integrals durch eine Riemannsumme, wobeiwir den Funktionswert jeweils am linken Intervallende benutzen:∫ 2

1

1xdx =

n−1∑i=0

11+ih

+Rn mit h = 1n.

Aus der Taylorreihe fur ln(1 + x) erhalt man mit dem Leibnizkriterium die obereSchranke und mit einer Abschatzung durch eine geometrische Reihe die untere

69

70 KAPITEL 2. NUMERISCHE QUADRATUR

Schranke in

x2

2(1− x

3) ≤ x− ln(1 + x) ≤ x2

2fur x ∈ [0, 1] .

Dies ergibt wegen

−Rn =n−1∑i=0

{h

1+ih−∫ 1+(i+1)h

1+ih

1xdx}

=n−1∑i=0

{h

1+ih− (ln(1 + (i+ 1)h)− ln(1 + ih))

}=

n−1∑i=0

{h

1+ih− ln(1+(i+1)h

1+ih)}

=n−1∑i=0

{xi − ln(1 + xi)

}mit xi = h

1+ih

wegen h/2 ≤ xi ≤ h und nh = 1 die Abschatzung

h8(1− h

3) ≤ |Rn| ≤ h

2.

Man sieht, daß der Fehler also nur wie 1/n gegen null geht und um einen Feh-ler kleinergleich 10−6 zu garantieren, benotigt man 500000 Funktionswerte. Wirwerden spater eine Formel erhalten (Gaußformel), die bereits mit 6 Funktions-auswertungen eine Genauigkeit von 9 · 10−8 garantiert.

2.1 Numerische Quadratur

Grundbegriffe und Grundtatsachen

Als Integralnaherungen betrachten wir Formeln des Typs

N∑k=0

w(N)k f(t

(N)k ) ≈

∫ b

a

f(t)dt. (2.1)

Dabei geht man davon aus, daß die w(N)k und t

(N)k unabhangig vom speziellen

Integranden f vorgegeben sind.

Definition 2.1.1. Jede Formel des Typs (2.1) heißt Quadraturformel.

w(N)k , k = 0, . . . , N heißen die Gewichte und t

(N)k die Knoten der Formel.

Eine Folge solcher Formeln (aquivalent definiert durch die Knoten– und die

Numerische Quadratur 71

Gewichtsmatrix

t(0)0 w

(0)0

t(1)0 t

(1)1 w

(1)0 w

(1)1

t(2)0 t

(2)1 t

(2)2 w

(2)0 w

(2)1 w

(2)2

. . . . . . . . . . . . . . . . . . )

definiert ein Quadraturverfahren.Sei w(N) := (w

(N)0 , . . . , w

(N)N ), t(N) := (t

(N)0 , . . . , t

(N)N ).

Die Große

RN+1(f ;w(N), t(N)) :=

∫ b

a

f(t)dt−N∑k=0

w(N)k f(t

(N)k )

bezeichnen wir als Quadraturfehler. Ein Quadraturverfahren heißt kon-vergent auf C[a,b], falls

∀f ∈ C[a, b] : limN→∞

RN+1(f ;w(N), t(N)) = 0 .

2

Beispiel 2.1.1. Spezielle RiemannsummeDie Riemannsumme zur Zerlegung

ZN : a < a+b− aN + 1

< . . . < b

N∑k=0

w(N)k f(t

(N)k ) =

N∑k=0

f(t(N)k )(x

(N)k+1 − x

(N)k ) mit x

(N)k = a+ k

b− aN + 1

und t(N)k = (x

(N)k + x

(N)k+1)/2 .

definiert konvergentes Quadraturverfahren auf C[a, b] (die sogenannte zusam-mengesetzte Rechteckregel).


Abbildung 2.1.1: w(N)i =

b− a

N + 1, t

(N)i = a + (2i + 1)

b− a

2N + 2, i = 0, . . . , N .

2

In der Praxis ist man naturlich in erster Linie an Quadraturverfahren interessiert,die einerseits auf C[a, b] konvergent sind, andererseits bei guten Regularitatsei-genschaften des Integranden hohe Genauigkeit mit wenigen Funktionsauswertun-gen (d.h. N klein) liefern. Daneben spielen auch Gesichtspunkte wie einfacheAnwendbarkeit (z.B. aquidistante Knotenverteilung) und einfache automatischeKontrolle des Quadraturfehlers eine Rolle. Es zeigt sich, daß man fur hinreichendglatte Funktionen ganz ausserordentlich effiziente Verfahren zur Quadratur ent-wickeln kann. Das Mass fur ”Glattheit” ist hierbei

En(f)def= min { max{|f(x)− pn(x)| : x ∈ [a, b]} : pn ∈ πn}

Schranken fur En(f) beschreibt der Satz von Jackson. Einen ersten Hinweis aufdie Konstruktion brauchbarer Quadraturformeln liefert

Satz 2.1.1. universelle Fehlerschranke fur Quadraturformeln Sei dieQuadraturformel exakt fur alle Polynome vom Grad kleinergleich m, d.h.RN+1(p;w

(N), t(N)) = 0 ∀p ∈ Πm und es gelte t(N)k ∈ [a, b] (∀k).

Dann gilt fur f ∈ C[a, b]

|RN+1(f ;w(N), t(N))| ≤ (b− a+N∑j=0

|w(N)j |)Em(f) .

Beweis: Fur p ∈ Πm gilt

|RN+1(f ;w(N), t(N))| = |RN+1(f ;w(N), t(N))−RN+1(p;w(N), t(N))︸︷︷︸

=0

|

= |RN+1(f − p;w(N), t(N))|

= |∫ b

a

(f − p)(t)dt−N∑k=0

w(N)k (f − p)(t(N)

k )|

≤ ((b− a) +N∑k=0

|w(N)k |) max

t∈[a,b]|(f − p)(t)| .

Fur p? ∈ Πm geeignet wird aber Em(f) = maxt∈[a,b]

|(f − p?)(t)|. 2

Wegen

Em(f) ≤ Ck(b− am

)k fur f ∈ Ck[a, b]

liefert dieser Satz eine erste qualitative Charakterisierung fur die Qualitat vonQuadraturverfahren: gute Resultate sind zu erwarten auf kleinen Intervallen und


bei hinreichend oft differenzierbaren Funktionen, wenn die Quadraturformel Po-lynome (moglichst) hohen Grades exakt integriert. Man beachte, daß es hier keinefeste Relation zwischen der Knotenanzahl N + 1 und dem sogenannten Exakt-heitsgrad m gibt. Eine Riemannsumme wie im einleitenden Beispiel hat m = 0bei beliebig grossem N , und spater werden wir sehen, daß stets gilt

m ≤ 2N + 1 .

Als Konsequenz fur die Konvergenzaussage von Quadraturverfahren ergibt sichunmittelbar

Satz 2.1.2. Gilt fur ein Quadraturverfahren

a) supN∈N

N∑k=0

|w(N)k | <∞

b) ∀m ∈ N ∃N(m) ∈ N : RN+1(p;w(N), t(N)) = 0 ∀p ∈ Πm, N ≥ N(m)

dann ist ein Quadraturverfahren auf C[a,b] konvergent.

Beweis: Satz 1.2.1 und Satz 2.1.1 2

Wesentlich scharfer ist die Aussage des folgenden Satzes, dessen Beweis tieferlie-gende Hilfsmittel aus der Funktionalanalysis erfordert:

Satz 2.1.3. hinreichende und notwendige Charakterisierung konver-genter Quadraturverfahren Ein Quadraturverfahren ist konvergent aufC[a,b]genau dann, wenn

a) supn∈N

N∑k=0

|w(N)k | <∞ und

b) RN+1(p;w(N), t(N)) −→

N→∞0 fur p ∈

⋃m

Πm.

Beweis: siehe bei Werner & Schaback, Praktische Mathematik 2. 2

Die offensichtlich wesentliche BedingungN∑k=0

|w(N)k | < ∞ ist jedenfalls erfullt,

wenn

w(N)k ≥ 0 (∀k,N) und

N∑k=0

w(N)k = b− a,

(d.h. die Konstante wird exakt integriert). An der Konstruktionsskizze 2.1.2 ma-che man sich klar, daß man ohne Kenntnis der Regularitatseigenschaften des


Integranden bei gegebenem festen N niemals zu einer brauchbaren Aussage uberdie Große des Quadraturfehlers gelangen kann. Es wird darin eine Funktionf ? ∈ C[a, b] konstruiert, fur die der Quadraturfehler bis auf ein beliebig klei-nes ε > 0 seinen uberhaupt großtmoglichen Wert

(b− a+N∑k=0

|w(N)k |) max

t∈[a,b]|f ?(t)|

annimmt.

=a t(N)0

(w(N)0 >0)

t(N)1

(w(N)1 <0)

t(N)2

(w(N)2 =0)

t(N)N

(w(N)N >0)

2δ 2δ 2δf∗(t) δ = 4ε

N+1

-

-1

0

16

t

................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

............................................................................................................. ........ ........ ........ ........ ........ ..................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

...............................................................................

∫≥ 1− ε

∑= −

∑|w(N)

k |

Abbildung 2.1.2

Solch große Quadraturfehler treten in der Praxis tatsachlich auf, wenn man ver-sucht, hochoszillatorische Integranden, z.B. f(x) cos(m(g(x))) mit g monoton undm� 1, mit Standardmethoden zu integrieren. (Zu letzterem Zweck gibt es spe-zielle Verfahren, u.a. die Filon-Quadratur, siehe Spezialliteratur)

Statt der Fehlerabschatzung von Satz 2.1.1 ist man haufig an genauen Darstel-lungen des Quadraturfehlers interessiert. In vielen Formelsammlungen wird dieserQuadraturfehler von Quadraturformeln immer nur unter der Annahme beliebigerDifferenzierbarkeit des Integranden angegeben. Diese Annahme ist keineswegsnotwendig. In der folgenden allgemeinen Formel genugt die Annahme der ein-maligen stetigen Differenzierbarkeit. Dann ergibt sich unter der Annahme, daßdie Konstante exakt integriert wird, bereits eine Schranke O(b − a)2 fur denQuadraturfehler. (Man beachte, daß das Integral uber eine beschrankte Grosseautomatisch O(b−a) ist.) Grob gesagt verliert man gegenuber der optimalen Feh-leraussage s Potenzen in der Ordnung von b−a, wenn die Funktion s Ordnungenweniger differenzierbar ist als zur Gewinnung der optimalen Ordnung erforderlichware. Wesentlich an der Aussage des folgenden Satzes ist, daß Differentiations-ordnung und Knotenzahl entkoppelt sind! Aus dieser Darstellung lasst sich auchablesen, welche Bedingungen eine Quadraturformel erfullen muss, um Polynomedes Grades n exakt zu integrieren. Dazu setze man dort k = n+ 1.


Satz 2.1.4. allgemeine Fehlerdarstellung einer Quadraturformel Seik ∈ N und f ∈ Ck[a, b].

Ferner gelte a ≤ t(N)0 < t

(N)1 < · · · < t

(N)N ≤ b.

Dann gilt:

RN+1(f ;w(N), t(N)) = (−1)k∫ b

a

Kk(x;w(N), t(N))f (k)(x) dx

+(b− a−N∑j=0

w(N)j )f(b)

− (−1)kk−2∑j=0

(−1)jK(j)k (b;w(N), t(N))f (k−1−j)(b)

mit

Kk(x;w(N), t(N)) :=

(x− a)k

k!−

N∑i=0

w(N)i

((x− t(N)i )+)k−1

(k − 1)!1

und

y+ =

{y falls y ≥ 00 sonst.

2

<<

Beweis: Die Funktion Kk ist eine Splinefunktion auf dem Gitter

a := t(N)−1 ≤ t

(N)0 < · · · < t

(N)N ≤ t

(N)N+1 := b .

Sei zunachst k ≥ 2. Es ist Kk ∈ Ck−2[a, b] und

K(k)k (x;w(N), t(N)) ≡ 1 und K

(k−1)k (x) = x− a−

i−1∑j=0

w(N)j

fur x ∈]t(N)i−1 , t

(N)i [, i = 0, . . . , N + 1. Durch k–malige partielle Integration wird nun∫

K(k)k (x;w(N), t(N))f(x) dx umgeformt: Zur Vereinfachung der Schreibweise lassen

wir uberall den oberen Index (N) weg. Es wird

∫ ti

ti−1

K(k)k (x;w, t)︸︷︷︸

≡1

f(x) dx =k∑j=1

(−1)j−1K(k−j)k (x;w, t)f (j−1)(x)

∣∣∣∣ti−0

ti−1+0

+(−1)k∫ ti

ti−1

Kk(x;w, t)f (k)(x) dx .


Summation uber i liefert im Falle k ≥ 2

∫ b

af(x) dx︸︷︷︸I

=N+1∑i=0

k∑j=1

(−1)j−1K(k−j)k (x;w, t)f (j−1)(x)

∣∣∣∣ti−0

ti−1+0

+(−1)k∫ b

aKk(x;w, t)f (k)(x) dx

=k∑j=2

(−1)j−1K(k−j)k (x;w, t)f (j−1)(x)

∣∣∣∣ba

+N+1∑i=0

(x− a)f(x)∣∣∣∣titi−1

−i−1∑j=0

wjf(x)∣∣∣∣titi−1

+(−1)k

∫ b

aKk(x;w, t)f (k)(x) dx .

Nun gilt im Falle k ≥ 2 K(m)k (a;w, t) = 0 fur m ≤ k − 2. Ferner gilt

N+1∑i=0

i−1∑j=0

wj︸︷︷︸=:Ai

(f(ti)− f(ti−1)) =N+1∑i=0

Aif(ti)−N+1∑i=0

Ai−1f(ti−1)

−N+1∑i=0

(Ai −Ai−1︸︷︷︸=:wi−1

)f(ti−1)

= (N∑j=0

wj)f(b)−N∑j=0

wjf(tj),

wobei die Setzung w−1 := 0 mitverwendet wurde. Dies liefert

∫ b

af(x) dx = −(−1)k

k∑j=2

(−1)k−jK(k−j)k (b;w, t)f (j−1)(b)

+

((b− a)−

N∑i=0

wj

)f(b)

+N∑j=0

wjf(tj) + (−1)k∫ b

aKk(x;w, t)f (k)(x) dx


Im Falle k = 1 rechnet man direkt

N+1∑i=0

∫ ti

ti−1

K1(x;w, t)f ′(x) dx =

=N+1∑i=0

K1(x;w, t)f(x)∣∣∣∣titi−1

−N+1∑i=0

∫ ti

ti−1

K ′1(x;w, t)︸︷︷︸

=1

f(x) dx

=N+1∑i=0

((x− a)−i−1∑j=0

wj)f(x)∣∣∣∣titi−1

−∫ b

af(t) dt

= (b− a−N∑j=0

wj)f(b) +N∑j=0

wjf(tj)−∫ b

af(x) dx

>>

Beispiel 2.1.2. Die Anwendung des obigen Satzes auf die Simpsonformel∫ b

a

f(t)dt ≈ b−a6

(f(a) + 4f((a+ b)/2) + f(b))

ergibt fur eine zweimal stetig differenzierbare Funktion, d.h. k = 2 und N = 2

R3(f, w(N), t(N)) =

∫ b

a

K2(. . .)f′′(t)dt

Im Falle a = −1, b = 1 errechnet man

K2(t, w(2), t(2)) =

(t+1)2

2falls t < −1

(t+1)2

2− 1

3(t+ 1) falls − 1 ≤ t < 0

(t+1)2

2− 1

3(t+ 1)− 4

3t falls 0 ≤ t < 1

(t+1)2

2− 1

3(t+ 1)− 4

3t− 1

3(t− 1) sonst

Da K2 die Nullstellen −1, −13, 1

3, 1 besitzt und somit zwei Vorzeichenwechsel in

[−1, 1], kann man den Mittelwertsatz der Integralrechnung nicht anwenden. Manmuss auf Teilintervallen arbeiten und erhalt als Fehler

−0.024691358...f ′′(η1) + 0.0493827..f ′′(η2)− 0.024691358..f ′′(η3)

mit η1 ∈ [−1, 1/3], η2 ∈ [−1/3, 1/3], η3 ∈ [1/3, 1]. Fur ein allgemeines Intervallerhalt man die entsprechende Aussage mit einem zusatzlichen Faktor ((b−a)/2)3.

Offenbar sind nun solche Quadraturformeln besonders interessant, die fur Poly-nome von moglichst hohem Grad exakt sind. Wir definieren


Definition 2.1.2. Die Quadraturformel

QN+1(f ;w(N), t(N)) :=N∑j=0

w(N)j f(t

(N)j )

heißt von der Ordnung mindestens k, falls RN+1(p;w(N), t(N)) = 0 ∀p ∈

Πk−1 und genau k, falls ∃p? ∈ Πk mit RN+1(p?;w(N), t(N)) 6= 0. QN+1 heißt

interpolatorisch, wenn die Quadraturgewichte die Integrale der zugehorigen La-grangepolynome sind, d.h.

w(N)j =

∫ b

a

N∏i=0i6=j

(t− t(N)i )

(t(N)j − t(N)

i )dt, j = 0, . . . , N

2

Der Exaktheitsgrad ist also Ordnung -1 !

Satz 2.1.5. Ordnungsaussage fur Quadraturformeln QN+1 ist genaudann von der Ordnung mindestens k, wenn

K(j)k (b;w(N), t(N)) = 0 fur j = 0, . . . , k− 2 und

N∑j=0

w(N)j = b− a . (2.2)

2

<<

Beweis: “⇐” folgt unmittelbar aus Satz 2.1.4. Sei eine der Bedingungen (2.2) nichterfullt. Definiere p? ∈ Πk−1 durch

p?(b) = sign (b− a−N∑j=0

w(N)j )

(p?)(k−1−j)(b) = (−1)k+j+1sign (K(j)k (b;w(N), t(N))), j = 0, . . . , k − 2 .

Dann wird RN+1(p?;w(N), t(N)) 6= 0>>

Um die Ordnung mindestens eins zu erreichen (d.h. wenigstens die konstantenFunktionen werden exakt integriert), benotigt man also die Forderung ”Summeder Integrationsgewichte gleich Intervalllange”.

Satz 2.1.6. Charakterisierung der Quadraturgewichte QN+1 ist inter-polatorisch genau dann, wenn ihre Mindestordnung ≥ N + 1 ist, d.h. die Qua-draturgewichte sind die exakten Integrale der zugehorigen Lagrangepolynome.

2


<<

Beweis: “⇒”: trivial aufgrund der Eindeutigkeit der Polynominterpolation.“⇐”: Es muß (2.2) gelten fur k = N + 1, d.h.

N∑i=0

w(N)i

(b− t(N)i )N−j

(N − j)!=

(b− a)N−j+1

(N + 1− j)!

=1

(N − j)!(b− a)N−j+1

(N + 1− j)j = 0, . . . , N

Dieses Gleichungssystem ist eindeutig losbar (van der Monde–Matrix!). Nun ist aber

∫ b

a(b− t)k dt =

(b− a)k+1

k + 1fur k ≥ 0

und

(b− t)k =N∑j=0

(b− t(N)j )k

N∏i=0i6=j

t− t(N)i

t(N)j − t

(N)i

d.h.N∑j=0

(b− t(N)j )k

∫ b

a

N∏i=0i6=j

t− t(N)i

t(N)j − t

(N)i

dt =(b− a)k+1

k + 1k = 0, . . . , N

also

w(N)j =

∫ b

a

N∏i=0i6=j

t− t(N)i

t(N)j − t

(N)i

dt .

2

>>

Bemerkung 2.1.1. Ist k die genaue Ordnung der Quadraturformel, so bezeich-net man Kk(x;w

(N), t(N)) als ihren Peano–Kern. Eine Funktion von der FormKk heißt Monospline vom Grad k. k ist dann zugleich die Ordnung der Ablei-tung von f , die in der Restglieddarstellung auftritt, wenn man f als beliebig oftdifferenzierbar annimmt.

Bemerkung 2.1.2. Ist f ∈ Ck[a, b] und hat die Quadraturformel die Ord-nung mindestens k, dann folgt mit Satz 2.1.4, daß der Quadraturfehler danndie Grossenordnung O((b− a)k+1) hat. 2


2.2 Elementare Interpolationsquadraturen

Um zu einfachen und auch im Falle nur tabellarisch gegebener Funktionen an-wendbaren Quadraturformeln zu gelangen, ist die feste Vorgabe aquidistanterKnotenverteilungen und zugehoriger interpolatorischer Quadraturformeln nahe-liegend. Folgende Konstruktionen sind gebrauchlich:

a) “Abgeschlossene” Newton–Cotes–Formeln:(Intervallenden sind Knoten)

t(N)j = a+ j

b− aN

j = 0, . . . , Nz.B. N = 2 • • •

a b

t(2)0 t

(2)2t

(2)1

h︷︸︸︷ h︷︸︸︷

b) “Offene” Newton–Cotes–Formeln:(kein Intervallende ist Knoten)

t(N)j = a+ (j + 1)

b− aN + 2

j = 0, . . . , Nz.B. N = 2 • • • • •

a b

t(2)0 t

(2)2t

(2)1

h︷︸︸︷ h︷︸︸︷h︷︸︸︷ h︷︸︸︷

c) Mac–Laurin–Formeln

t(N)j = a+ (j +

1

2)b− aN + 1

j = 0, . . . , Nz.B. N = 2. • • • • •

a b

t(2)0 t

(2)2t

(2)1

h/2︷︸︸︷ h︷︸︸︷ h︷︸︸︷ h/2︷︸︸︷

In jedem Fall berechnen sich die Gewichte als Integrale der zugehorigen Lagran-gepolynome. Damit ist automatisch garantiert, daß die Ordnung der Formeln

2.2. ELEMENTARE INTERPOLATIONSQUADRATUREN 81

mindestens N + 1 ist:

w(N)j =

∫ b

a

N∏i=0i6=j

t− t(N)i

t(N)j − t(N)

i

dt =b− a

2

∫ 1

−1

N∏i=0i6=j

s− s(N)i

s(N)j − s(N)

i

ds (2.3)

mit

s(N)i =

−1 +

2i

Nabgeschlossene Newton–Cotes–Formel

−1 +2(i+ 1)

N + 2offene Newton–Cotes–Formel

−1 +2i+ 1

N + 1Mac–Laurin–Formel

Die Integrale rechts in (2.3) sind rationale Zahlen Zj,N/DN . Fur einige Formelnsind die Werte Zj,N und DN hier tabelliert. Es gilt immer Zj,N = ZN−j,N . Wegender Symmetrie der Knoten und Gewichte zur Intervallmitte gilt

Satz 2.2.1. Die Mindest–Ordnung der Newton–Cotes und Mac–Laurin–Formeln ist N + 1 fur N ungerade und N + 2 fur N gerade 2

Bew.: Fur gerades N ist die nachsthohere Ordnung N + 1 ungerade. Entwickeltman nun ein beliebiges Polynom vom Grad N + 1 bezuglich der Intervallmitte(a+b)/2 , so ist der einzige Term der Ordnung N+1 von der Form c(x− a+b

2)N+1

und dessen Integral uber [a, b] ist null. Ebenso gilt

N∑i=0

w(N)i c(t

(N)i − a+b

2)N+1 = 0

2

Man kann zeigen, daß die in Satz 2.2.1 ermittelte Mindestordnung auch die ge-naue Ordnung der Formeln ist und daß der Quadraturfehler folgende Gestalt hat.(Details siehe z.B. bei Schmeisser & Schirmeier: Praktische Mathematik)

RN+1(f ;w(N), t(N)) =

(b− a

2

)k+1

CNf(k)(ξ) mit k =

{N + 1, N = 2M + 1N + 2, N = 2M

Die Konstanten CN sind ebenfalls in der untenstehenden Tabelle aufgefuhrt.

Bemerkung 2.2.1. Den nachstehenden Tabellen kann man entnehmen, daß dieKonstante CN bei den offenen Formeln stets positiv, bei den abgeschlossenenNewton–Cotes–Formeln dagegen stets negativ ist. Wenn also bekannt ist, daßeine der geraden Ableitungen von f ihr Vorzeichen im Integrationsintervall nichtwechselt, dann kann man durch Kombination zweier entsprechender Formeln einestrenge Einschließung des wahren Integralwertes erreichen, ohne eine Restglie-dabschatzung vornehmen zu mussen, was naturlich ein großer Vorteil ist. 2


Es ist stets Zj,N = ZN−j,N , w(N)j = b−a

2

Zj,N

DN, t

(N)j gemaß a), b) oder c) gewahlt.

Abgeschlossene Newton–Cotes–Formeln:

← Zj,N →

N DN j = 0 1 2 3 4 CN Abl.

1 1 1 1 −23

f ′′

2 3 1 4 1 − 190

f IV

3 4 1 3 3 1 − 2405

f IV

4 45 7 32 12 32 7 − 115120

fV I

5 144 19 75 50 50 75 − 22590625

fV I

6 420 41 216 27 272 27 − 13061800

fV III

7 8640 751 3577 1323 2989 2989 − 3341667674575

fV III

8 14175 989 5888 −928 10496 −4540 − 3730656102400

fX

9 44800 2857 15741 1080 19344 5778 − 88576114697772870895

fX

Spezielle Formelnamen:

N=1 TrapezregelN=2 SimpsonregelN=3 3

8-Regel

Offene Newton–Cotes–Formeln:

← Zj,N →N DN j = 0 1 2 3 CN Abl.

0 1 2 13

f ′′

1 1 1 1 29

f ′′

2 3 4 −2 4 7720

f IV

3 12 11 1 1 11 385625

f IV

4 10 11 −14 26 −14 41306180

fV I

5 720 611 −453 562 562 150215882615

fV I

6 945 920 −1908 4392 −4918 989928972800

fV III

Spezielle Formelnamen: N=0 Rechteckregel

2.2. ELEMENTARE INTERPOLATIONSQUADRATUREN 83

Mac–Laurin–Formeln:

← Zj,N →N DN j = 0 1 2 3 CN Abl.

0 1 2 13

f ′′

1 1 1 1 112

f ′′

2 4 3 2 3 71620

f IV

3 24 13 11 11 13 10346080

f IV

4 576 275 100 402 100 2234725000

fV I

5 640 247 139 254 254 111139191040

fV I

6 69120 24745 882 56007 −25028 35069106731172800

fV III

Man liest etwa aus diesen Tabellen folgende bekannten Formeln ab:Trapezregel ∫ b

a

f(t)dt = b−a2

(f(a) + f(b))− 23

(b−a2

)3

f (2)(ξ)

Simpsonregel∫ b

a

f(t)dt = b−a6

(f(a) + 4f((a+ b)/2) + f(b))− 190

(b−a2

)5

f (4)(ξ)

Man bemerkt, daß bei allen diesen Formeln fur grosseres N negative Gewichteauftreten, was ein erster Hinweis auf die etwas fragwurdige Brauchbarkeit (furgroßes N) ist. Tatsachlich gilt fur alle diese Formeln

N∑k=0

|w(N)k | −→

N→∞∞.

Dies bedeutet wegen Satz 2.1.3, daß diese Konstruktionen nicht zu konvergentenQuadraturverfahren fuhren. Dennoch kann man mit maßvoll kleinem N (etwaN ≤ 8) die Formeln mit gutem Erfolg einsetzen, insbesondere im Zusammenhangmit den zusammengesetzten Formeln und der adaptiven Quadratur. (vgl. dieAbschnitte 2.3, 2.6)

Beispiel 2.2.1. Es soll das Integral∫ 2

0

2

x2 + 4dx.

berechnet werden, und zwar mit Trapezregel und mit der Simponregel. Trapezregel:

T =2− 0

2

(24

+2

8

)=

3

4= 0, 75


Simpsonregel:

S =2− 0

6

(24

+ 42

5+

2

8

)=

47

60≈ 0, 783.

Der exakte Wert ist∫ 2

0

2

x2 + 4dx =

[arctan

x

2

]20

=π

4≈ 0, 7854 . . . ,

so dass die Simpsonregel hier genauer ist.

2.3 Zusammengesetzte Newton–Cotes–Formeln

Eine beliebige Steigerung der Ordnung N bei den Newton–Cotes–Formeln istoffenbar nicht der richtige Weg zur Genauigkeitssteigerung. So bietet sich dieUnterteilung des Integrationsintervalls in kleine Teilintervalle und die Verwen-dung einer der obigen Formeln fur jedes Teilintervall an. Wir beschranken unshier auf die Schilderung des einfachsten Vorgehens, namlich die Verwendung eineraquidistanten Einteilung und der gleichen Formel auf jedem Teilintervall, vgl. je-doch 2.6 (vgl. Abb. 2.3.1)Praktisch gebrauchlich sind die zusammengesetzte Rechteckregel (Bsp.2.1.1), diezusammengesetze Trapezregel und die zusammengesetzte Simpsonregel.H = Breite des Teilintervalls, M = Anzahl der Teilintervalle,

h = KnotenabstandZusammengesetzte Rechteckregel:

h = H =b− aN + 1

; t(N)k := a+

2k + 1

2· b− aN + 1

= a+ (k +1

2)h,

w(N)k = h, k = 0, . . . , N, M = N + 1

∫ b

a

f(t) dt = h

N∑k=0

f(a+ (k +1

2)h) +

1

24(b− a)h2f ′′(ξ); h =

b− aN + 1

Zusammengesetzte Trapezregel:

h = H =b− aN

; t(N)k := a+ kh (∀k) ; w

(N)k = h, k = 1, ..., N − 1;

w(N)0 = w

(N)N =

h

2, M = N

2.3. ZUSAMMENGESETZTE NEWTON–COTES–FORMELN 85

∫ b

a

f(t) dt =h

2(f(a) + 2

N−1∑k=1

f(a+ kh) + f(b))− 1

12(b− a)h2f ′′(ξ);

h = b−aN

Zusammengesetzte Simpsonregel:

1 4 1 1 4 1a b

h

︸︷︷︸H

1 4 1

Gewichte der Simpsonformelauf den Teilintervallen

. . . . . . . . . . . . . . . .

. . . . . . . . . . . .

Abbildung 2.3.1

H =b− aN

; h =H

2=b− a2N

; t(2N)i = a+ ih; i = 0, ..., 2N

w(2N)0 = w

(2N)2N = h

3; w

(2N)2j = 2

3h, j = 1, ..., N,

w(2N)2j+1 = 4

3h, j = 0, ..., N − 1, M = N

∫ b

a

f(t) dt =h

3(f(a) + 4

N−1∑j=0

f(a+ (2j + 1)h)

+2N−2∑j=0

f(a+ (2j + 2)h) + f(b))− 1

180h4(b− a)f (4)(ξ); h =

b− a2N

Der Beweis der Restglieddarstellung sei hier fur die Simpsonformel vor-

gefuhrt. (In den anderen Fallen geht man vollig analog vor.)Nach der Formel aus 4.2, 1. Tabelle, N = 2, ist∫ t

(N)i+2

t(N)i

f(t)dt =h

3(f(t

(N)i ) + 4f(t

(N)i+1) + f(t

(N)i+2))−

1

90h5f (4)(ξi)

Summation uber j mit j = 0, ..., N − 1 und i = 2j liefert fur den ersten Termgerade die obige Summenformel. Summation des Restgliedes ergibt mit dem Zwi-schenwertsatz und N = (b− a)/(2h) :

− 1

90h5

N−1∑j=0

f (4)(ξ2j) = − 1

90h5Nf (4)(ξ) = − 1

180h4(b− a)f (4)(ξ)


2

Aus der Darstellung des Quadraturfehlers in Satz 2.1.4 bzw. 2.1.1 kann man furdiese Formeln auch Restgliedabschatzungen bei niedrigerer Differenzierbarkeits-ordnung herleiten. Bei der zusammengesetzten Simpsonregel geht zum Beispielder Quadraturfehler wie hk gegen null mit k = min{m, 4} fur f ∈ Cm[a, b].

Bemerkung 2.3.1. Man kann die hier aufgefuhrten Formeln alle auch als Rie-mannsummen interpretieren, indem man die Zerlegung des Intervalls durch dieTeilpunkte durch die Teilsummen der Gewichte festlegt. Man stellt dann fest, daßjeweils ein Quadraturknoten in einem so definierten Teilintervall liegt. Bei derzusammengesetzten Simpsonformel sind die Teilpunkte also

a, a+ h/3, a+ 5h/3, a+ 2h, a+ 11h/3, . . .

und die Knoten

a, a+ h, a+ 2h, a+ 3h, . . .

Dies bedeutet Konvergenz gegen das wahre Integral fur jede RiemannintegrierbareFunktion mit h → 0.

Bemerkung 2.3.2. Man darf sich durch die Angabe der Ordnung der einzel-nen Quadraturverfahren nicht tauschen lassen. Ob bei gegebenem festen h > 0die zusammengesetzte Trapezregel oder die zusammengesetzte Simpsonregel (beiVerwendung der gleichen Knotenzahl) das bessere Ergebnis liefert, hangt auchentscheidend vom Verhalten der zweiten bzw. vierten Ableitung von f ab. 2

Beispiel 2.3.1. Das folgende Diagramm zeigt die Genauigkeit von zusammenge-setzter Trapezregel und zusammengesetzter Simpsonregel fur das Integral∫ 1

−1

1

10−2 + x2dx.

Die Ableitungen berechnen sich zu

f ′(x) =−2x

(10−2 + x2)2, f ′′(x) = −2 · 10−2−3x2

(10−2+x2)3,

f (3)(x) = 24x · 10−2 − x2

(10−2 + x2)4, f (4)(x) = 24 · 10−4−10−3x2+5x4

(10−2+x2)5,

so dass sich die folgenden Maximalwerte ergeben:

max{|f ′′(x)|} = f ′′(0) = 2 · 104, max{|f 4(x)|} = f 4(0) = 24 · 106.

2.4. ADAPTIVE QUADRATUR UND AUTOMATISCHE KONTROLLE DES QUADRATURFEHLERS87

10−3 10−2 10−1 10010−12

10−10

10−8

10−6

10−4

10−2

100

102

104Vergleich von Trapez− und Simpson−Regel (Nadel)

Schrittweite h

abso

lute

r Feh

ler

Trapez Simpson

h2

h4

Man erkennt, daß erst fur kleines h die Methode 4. Ordnung tatsachlich derMethode 2. Ordnung uberlegen ist.

2.4 Adaptive Quadratur und automatische Kon-

trolle des Quadraturfehlers

Wenn ein Integral uber ein relativ großes Intervall [a, b] numerisch berechnet wer-den soll, so ist es nicht sinnvoll, eines der bisher besprochenen Verfahren direkt auf[a, b] anzuwenden. Der Quadraturfehler hangt ja vom Verhalten einer der hoherenAbleitungen von f ab, und dies kann lokal sehr unterschiedlich sein. So variiert die

n–te Ableitung vonx

x2 − 1auf [1.001, 10] zwischen 1

2(−1)nn!(103n+3+2.001−3n−3)

bei x = 1.001 und 12(−1)nn!(11−n−1 + 9−n−1) bei x = 10. Entsprechend groß

bzw. klein wurden in kleinen Teilintervallen die Quadraturfehler. Es ist daherwunschenswert, eine Methode zu besitzen, um eine geeignete Unterteilung desIntervalls zu konstruieren und gleichzeitig den Quadraturfehler zu kontrollieren.Bei genugender Differenzierbarkeit des Integranden gilt fur alle bisher und nochim Folgenden besprochenen Quadraturverfahren eine Darstellung des Quadratur-fehlers der Form

RN+1(f ;w(N), t(N)) = c ·Hm+1 +O(Hm+2),

c = Konstante, H = Intervallbreite, m = Ordnung. Z.B. kann man fur dasRestglied der Simpsonformel

− 190

( (b−a)2

)5f (4)(ξ)


mit H = b− a auch schreiben

− 12880

H5f (4)((a+ b)/2)− 12880

H5f (5)(ξ)(ξ − (a+ b)/2)

und der zweite Term ist hierbei O(H6). Wir betrachten nun die Anwendung einersolchen Formel auf einer mehrfachen Unterteilung des gleichen Grundintervallsder Lange H

| | | | |x x+H

4 x+H2

x+3H4

x+H

-�I0

-�I11

-�I12

-�I21

-�I22

-�I23

-�I24

I − I0 = cHm+1 +O(Hm+2)

I =

∫ b

a

f(t)dt

Abbildung 4.6.1

Wir stellen uns vor, die Intervallbreite H sei “klein”. Wir wenden die gleiche For-

mel nun weiterhin einmal auf dem Teilintervall [x, x+H2] und auf dem Teilintervall

[x+ H2, x+H] an. Addition beider Werte liefert eine Naherung I1 = I11 + I12 fur

I mit

I − I1 = 2c(H

2)m+1 +O(Hm+2) .

Daher wirdI1 − I0 = cHm+1(1− 2−m) +O(Hm+2)

oder

cHm+1 =I1 − I01− 2−m

+O(Hm+2) = I − I0 +O(Hm+2) .

Wenn der O–Term vernachlassigbar ist (d.h. H “genugend” klein), dann gilt also

I − I0 ≈I1 − I01− 2−m

. (2.4)

Bemerkung 2.4.1. Um zu kontrollieren, ob H tatsachlich schon “genugend”

klein ist, konnte man I2 :=4∑j=1

I2j bilden, wo I2j sich aus der Anwendung der

gleichen Formel auf[x+ (j − 1)H

4, x+ jH

4] ergibt. Dann folgt

I − I2 = 4c(H

4)m+1 +O(Hm+2)

d.h.I2 − I1 = cHm+12−m(1− 2−m) +O(Hm+2) ,

Adaptive Quadratur 89

und Vernachlassigbarkeit des O–Terms ist gleichbedeutend mit

I2 − I1I1 − I0

≈ 2−m : Testgroße

fur c 6= 0. Im Allgemeinen wird

I2 − I1I1 − I0

≤ 2−m

(Bei der Anwendung dieser Testgrosse ist zu bedenken, dass bei hoher Genauigkeitin der Quadratur hier die Rundungsfehler schon dominieren konnen!).

Man kann das Ergebnis (2.4) nun leicht zur Konstruktion einer geeigneten Inter-vallunterteilung benutzen. Vorgegeben sei eine Genauigkeitsforderung

|I −N∑j=0

I(j)0 | ≤ δ ,

wobei I(j)0 die Integralnaherung auf dem Teilintervall [xj, xj +Hj] bedeute. Diese

Forderung wird sicher erfullt, wenn

|∫ xj+Hj

xj

f(t) dt− I(j)0 | ≤

δHj

b− a,

oder, wegen (2.4) approximativ erfullt, wenn

|I(j)1 − I

(j)0 | ≤

(1− 2−m)δHj

b− a. (2.5)

Sei xj schon konstruiert und Hj eine Vorschlagsschrittweite fur Hj (aus dem

davorliegenden Schritt, Hj ≤ b − xj). Dann berechnet man I(j)0 , I

(j)1 wie oben

beschrieben.

Es ist alsoI

(j)1 − I

(j)0 ≈ cHm+1

j (1− 2−m).

Die mit (2.5) maximal vertragliche Schrittweite Hj habe die Form

Hj = κHj.

Es soll dann also gelten,c(κHj)

m ≈ δ/(b− a)

d.h.

κm ≈

∣∣∣∣∣ δ

(b− a)cHmj

∣∣∣∣∣ ≈ δ(1− 2−m)Hj

(b− a)|I(j)1 − I

(j)0 |


oder

κ =

(δ(1− 2−m)Hj

(b− a)|I(j)1 − I

(j)0 |

)1/m

.

Der Faktor κ ist somit berechenbar. Falls κ ≥ 1 wird der Schritt akzeptiert, d.h.I

(j)1 als Wert des Teilintegrals auf [xj, xj + Hj] akzeptiert und

xj+1 = xj + Hj

Hj+1 = max{1,min{0.9κ, 2}}Hj

gesetzt. 2 als maximaler Vergroßerungsfaktor stellt dabei eine Sicherheitsschrankedar. Ist dagegen κ < 1, wird der laufende Schritt verworfen,

Hj := 0.9κHj

gesetzt und die Berechnung von I(j)1 , I

(j)0 wiederholt. (0.9 stellt dabei einen pra-

xistypischen “Sicherheitsfaktor” dar.) Gleichzeitig beachtet man, daß Hj niemalseine (sinnvoll gewahlte) obere Schranke uberschreitet, (z.B. min{0.1, b−a

10}). Die

Schrittweitenreduktion muß man naturlich abbrechen, wenn Hj ≈ ε|xj|, ε =Rechengenauigkeit. In diesem Fall kann man davon ausgehen, daß bei xj ei-ne Singularitat des Integranden vorliegt. Die systematische Anwendung dieserUberlegungen fuhrt uns auf folgenden Algorithmus:

Adaptive QuadraturDaten: a, b, δ, Hmin, Hmax. Integrand: f . Erzeugte Intervalleinteilung: {xk}.Integralnaherung: I, Quadraturformel: int(f, a, b).

k = 0;

x0 = a;

I = 0;

H = (b− a)/10; Versuchsschrittweite

fin = false;

While not fin

I0 = int(f, xk, xk + H);

I1 = int(f, xk, xk + H/2) + int(f, xk + H/2, xk + H);

If I0 6= I1

κ =( (1− 2−m)δH

(b− a)|I0 − I1|

)1/m

;

Adaptive Quadratur 91

else κ = 2.endifIf κ ≥ 1

I = I + I1;

xk+1 = xk + H;

If xk+1 ≥ b

fin = true;

end if.

H = min{max {1, min{0.9κ, 2}}H, Hmax}

If xk+1 + H > b

H = b− xk+1;

end if .

k = k + 1;

elseif H ≤ Hmin

stop: Genauigkeit nicht erreichbarend if

H = 0.9κH;

endifend whileDie folgende Abbildung zeigt ein typisches Resultat dieser Vorgehensweise. Bei0.3 liegt ein sehr steiler “Peak” von f vor. Jede weitere Ableitung von f wachstGroßenordnungsmaßig um den Faktor 104. Solange man auf den Peak zu inte-griert, wird die Vorschlagsschrittweite standig reduziert (viele verworfene Schrit-te). Dahinter wird die Schrittweite allmahlich wieder vergroßert, die Steuerungverhalt sich “ruhig”. Hier wird mit der Simpsonformel als Grundformel und einerGenauigkeitsforderung von δ = 10−4 gearbeitet. Die maximale Schrittweite ist0.1. Der Integrand ist

f(x) = 1/((x− 0.3)2 + 0.001) + 1/((x− 0.9)2 + 0.04)− 6 auf [0, 1]


-200

0

200

400

600

800

1000

0 0.2 0.4 0.6 0.8 1

FunktionsauswertungenSchrittweiten

Beispiel 2.4.1. Fur die Funktion f(x) = 11+225x4 soll mittels adaptiver Quadra-

tur und unter Verwendung der Simpsonformel das Integral in den Grenzen von0 bis 1 bestimmt werden. Als Vorschlagsschrittweite fur den ersten Schritt seiH0 = 1

4gegeben. Wir untersuchen, ob diese Schrittweite akzeptabel ist, wenn eine

Fehlertoleranz von δ = 10−4 gefordert wird. Zunachst mussen im Interval [0, 14]

mit der Simpsonregel und der summierten Simpsonregel mit zwei Teilintervallenzwei Integralnaherungen bestimmt werden. Die benotigten Funktionswerte sind

x 0 116

18

316

14

f(x) 1 0.996578 0.947928 0.782416 0.532225

Die Integralnaherungen sind

• einfache Simpsonregel:

F1 =1

24

(f(0) + 4f(

1

8) + f(

1

4)

)= 0.2218308

• summierte Simpsonregel:

F2 =1

48

(f(0) + 4f(

1

16) + 2f(

1

8) + 4f(

3

16) + f(

1

4)

)= 0.2196680

Mit diesen Werten laßt sich nun κ berechnen, wobei wir beachten, daß die Simp-sonformel die Ordnung m = 4 besitzt: Der Test auf die Akzeptanz der SchrittweiteH0 = 0.25 ergibt

κ =

∣∣∣∣ 10−4 1516

14

1(0.2218308− 0.2196680)

∣∣∣∣1/4 = 0.3226 .

Die Schrittweite ist also nicht akzeptabel. Wir wurden einen neuen Versuch star-ten etwa mit der Intervallbreite 0.075.

2.5. GAUSS’SCHE QUADRATURFORMELN 93

2.5 Gauß’sche Quadraturformeln

Bisher haben wir die Knoten t(N)i der Quadraturformeln unter Zweckmaßigkeits-

gesichtspunkten fest vorgegeben und dann die Gewichte durch Integration derLagrangeschen Polynome zu diesen Knoten bestimmt. Es ist naturlich eine na-heliegende Idee, auch die Knoten frei variieren zu lassen, um damit die Ordnungzu maximieren. Da man bei N + 1 Knoten N + 1 freie Bedingungen gewinnt, istdie Vermutung naheliegend, daß man dann die Ordnung 2N + 2 erzielen kann.Dies ist tatsachlich der Fall. Wir betrachten hier sogleich den allgemeinen Falleines Integrals mit Belegungsfunktion

I =

∫Jω(x)f(x)dx

wobei ω : J → R+, (uneigentlich) Riemannintegrierbar sein und hochstensabzahlbar viele Nullstellen auf J haben soll. J ist dabei ein endliches oder un-endliches Intervall. Ferner muß ω die Bedingung∫

Jω(x)xkdx ist endlich fur jedes ganze k ≥ 0

erfullen. Bei dieser Quadratur treten als Quadraturknoten die Nullstellen dersogenannten Orthogonalpolynome zur Gewichts- (oder ”Belegungs”)funktion ωauf. Diese pj sind Polynome vom genauen Grad j mit∫

Jω(x)pi(x)pj(x)dx = 0 fur i 6= j .

Bis auf Normierung sind diese Polynome eindeutig bestimmt. (Nur) fur theoreti-sche Zwecke kann man sie sich aus dem Gram-Schmidt Orthogonalisierungsver-fahren mit dem Skalarprodukt

(f, g)def=

∫Jω(x)f(x)g(x)dx

angewendet auf die Standardbasis {xk : k = 0, 1, . . .} hervorgegangen denken.Also

p0 ≡ 1

pi = xi −i−1∑j=0

(pj, xi)

(pj, pj)pj , i = 1, 2, . . .

(Fur die praktische numerische Berechnung dieser Polynome sollte man dieseVorgehensweise nicht wahlen. Sie ist numerisch instabil. Es gibt andere Berech-nungsmethoden, die wesentlich gunstiger sind.) Man kann zeigen, daß diese Po-lynome nur einfache reelle Nullstellen haben, die alle im Intervall J liegen. Die


zu konstruierenden Quadraturformeln hangen damit naturlich auch noch von derBelegungsfunktion ω ab, vergl. nachfolgende Notation.

Satz 2.5.1. Es existiert genau eine Quadraturformel

QN+1(f ;w(N), t(N);ω) :=N∑j=0

w(N)j f(t

(N)j )

fur

∫Jω(x)f(x) dx von der Ordnung 2N+2. Ihre Knoten t

(N)i sind die Nullstel-

len des Orthogonalpolynoms zur Belegungsfunktion ω auf J vom Grad N + 1.Fur die Gewichte w

(N)j gilt

w(N)j =

∫Jω(x)

N∏i=0i6=j

(x− t(N)

i

t(N)j − t(N)

i

)dx j = 0, . . . , N

und zugleich auch

w(N)j =

∫Jω(x)

N∏i=0i6=j

(x− t(N)

i

t(N)j − t(N)

i

)2

dx > 0 j = 0, . . . , N

Ist f ∈ C2N+2(J ), dann

RN+1(f ;w(N), t(N);ω) =f (2N+2)(ξ)

(2N + 2)!

∫Jω(x)

N∏i=0

(x− t(N)i )2 dx

mit ξ ∈ J .

Beweis: Sei p ∈ Π2N+1 bel. Zu zeigen ist RN+1(p;w(N), t(N);ω) = 0. Sei

pN+1(x) :=N∏i=0

(x− t(N)i )

das (N + 1)-te Orthogonalpolynom zu ω. Mit eindeutig bestimmten Polynomenϕ, ψ ∈ ΠN wird

p = ϕ · pN+1 + ψ

Wahlt man zu t(N)i die Gewichte w

(N)i so, daß die Quadraturformel interpolato-

risch wird, d.h.

w(N)i =

∫Jω(x)

N∏k=0k 6=i

x− t(N)k

t(N)i − t(N)

k

dx


dann ist wegen der Orthogonalitat von ϕ und pN+1∫Jω(x)p(x)dx =

∫Jω(x)ϕ(x)pN+1(x)dx︸︷︷︸

=0

+∫J ω(x)ψ(x)dx

=N∑i=0

w(N)i ψ(t

(N)i )

=N∑i=0

w(N)i p(t

(N)i )

Weil nach dem Vorstehenden das Quadrat des Lagrangebasispolynoms (das den

Grad 2N hat) exakt integriert wird durch diese Formel, gilt fur die Gewichte w(N)i

auch

0 <

∫Jω(x)

N∏k=0k 6=i

(x− t(N)

k

t(N)i − t(N)

k

)2

︸︷︷︸∈Π2N

dx =N∑j=0

w(N)j

N∏k=0k 6=i

(t(N)j − t(N)

k

t(N)i − t(N)

k

)2

︸︷︷︸δij

= w(N)i .

Zum Beweis der Restgliedformel betrachten wir die Hermite–Interpolationsaufgabe:Bestimme q ∈ Π2N+1 mit

q(t(N)i ) = f(t

(N)i ) q′(t

(N)i ) = f ′(t

(N)i ) i = 0, ..., N .

Nach 1.3 ist diese Aufgabe eindeutig losbar und fur die Restglieddarstellung gilt

f(x)− q(x) =f (2N+2)(ξx)

(2N + 2)!

N∏k=0

(x− t(N)k )2 = r(x)

Somit wird unter Ausnutzung des Mittelwertsatzes der Integralrechnung

RN+1(f ;w(N), t(N);ω) = RN+1(q + r;w(N), t(N);ω) = RN+1(r;w(N), t(N);ω)

=

∫Jω(x)

f (2N+2)(ξx)

(2N + 2)!︸︷︷︸stetig

N∏k=0

(x− t(N)k )2dx−

N∑k=0

w(N)k r(t

(N)k )︸︷︷︸

=0

=f (2N+2)(ξ)

(2N + 2)!

∫Jω(x)

N∏k=0

(x− t(N)k )2dx

Zum Beweis der Eindeutigkeit nehmen wir an, es gabe eine zweite Formel mit

den gleichen Eigenschaften

∫Jω(x)p(x)dx =

N∑k=0

w?(N)k f(t

?(N)k )


∀p ∈ Π2N+1. Wie eben folgt w?(N)k > 0. Sei

qk(x) :=1

w?(N)k

N∏j=0j 6=k

x− t?(N)j

t?(N)k − t?(N)

j

pN+1(x) ∈ Π2N+1 .

Dann wird fur k ∈ {0, ..., N}

0 =

∫Jω(x)qk(x)dx =

N∑i=0

w?(N)i qk(t

?(N)i ) = pN+1(t

?(N)k ),

d.h. {t?(N)j } = {t(N)

j }. Durch die Knoten sind die Gewichte eindeutig bestimmt.2

Die hier eingefuhrten Verfahren sind also konvergente Quadraturverfahren. (vergl.Satz 2.1.1 und nachfolgende Bemerkung.) Bezuglich der Ordnung sind diese For-meln optimal wegen

Satz 2.5.2. Es gibt keine Quadraturformel mit N + 1 Knoten mit einer Ord-nung großer als 2N + 2.

Bew.: Sei

f(x) =N∏i=0

(x− t(N)i )2.

Dann ist die Integralnaherung null, das Integral selbst aber > 0. 2

Beispiele fur Orthogonalpolynome:

Beispiel 2.5.1. [a, b] = [−1, 1]a) ω(x) ≡ 1 Orthogonalpolynome: Legendre–Polynome, Rekursionsformelsiehe unter Abschnitt 1.6.

P0(x) ≡ 1, P1(x) ≡ x, Pn+1(x) =2n+ 1

n+ 1xPn(x)−

n

n+ 1Pn−1(x)

w(N)i =

2

(N + 1)p′N+1(t(N)i )pN(t

(N)i )

i = 0, ..., N

RN+1(f ;w(N), t(N);ω) =22N+3((N + 1)!)4

(2N + 3)((2N + 2)!)3f (2N+2)(ξ)

b) ω(x) = 1√1−x2 . Orthogonalpolynome: Tschebyscheff–Polynome mit der Re-

kursionsformel

T0(x) = 1 , T1(x) = x ,

Ti+1(x) = 2xTi(x)− Ti−1(x) , i = 1, 2, . . .


1, x, 2x2 − 1, 4x3 − 3x, 8x4 − 8x2 + 1, . . .

w(N)i =

π

N + 1i = 0, . . . , N t

(N)i = cos

(2i+ 1

N + 1· π2

)i = 0, . . . , N

RN+1(f ;w(N), t(N);ω) =2π

22N+2(2n+ 2)!f (2N+2)(ξ)

2

Beispiel 2.5.2. Wir berechnen naherungsweise das Integral mit einer Dreipunkt-formel (also Ordnung 6) ∫ 3

2

et

tdt

und schatzen den Quadraturfehler ab. Die Gauß-Quadraturformel lautet in derallgemeinen Form∫ b

a

f(t)dt ≈ b− a2

n∑k=0

β(n)k f(x

(n)k ) mit x

(n)k =

b− a2

x(n)k +

b+ a

2.

In folgender Tabelle sind die Nullstellen des Legendre-Polynoms zweiter Ordnungx

(2)k , die transformierten Stutzstellen x

(2)k , die Gewichte β

(2)k , die Punktauswer-

tungen von f und die Produkte β(2)k f(x

(2)k ) angegeben.

k x(2)k x

(2)k β

(2)k f(x

(2)k ) β

(2)k f(x

(2)k )

0 −√

35

2.112702 0.5555556 3.914682 2.174823

1 0 2.5 0.8888889 4.872998 4.331553

2√

35

2.887298 0.5555556 6.215071 3.45281712Σ = 4.979597

Die exakte Darstellung des Integral ist∫ 3

2

et

tdt =

1

2

2∑k=0

β(n)k f(x

(n)k ) +

(d6

dt6et

t

)t=ξ

(3!)4

7(6!)3.

Weil ∣∣∣∣ d6

dt6et

t

∣∣∣∣ ≤ 190 fur t ∈ [2, 3]

ergibt sich dann eine Fehlerabschatzung von∣∣∣∣∫ 3

2

et

tdt− 4.979597

∣∣∣∣ ≤ 190(3!)4

7(6!)3= 9.42 · 10−5.

<<


Bemerkung 2.5.1. In der Praxis kann man naturlich das Quadraturrestglied in derRegel nicht mit analytischen Methoden abschatzen. Man verwendet dann gerne ein Paarvon Formeln, namlich eine Gauss-Formel und eine weitere, die die gleichen Knoten undnoch einige weitere benutzt, und eine hohere Ordnung hat. Haufig verwendet werden dieGauß-Kronrod-Formeln. Dies sind Paare von Quadraturformeln der Ordnung 2n und3n + 2 bzw. 3n + 3. Die erste ist eine ”normale” Gaußformel mit n Knoten, die zweiteentsteht, indem man zu diesen n Knoten n + 1 weitere hinzufugt und verlangt, daß dieentstehende Formel die Ordnung 3n+2 hat. Dadurch ergeben sich die Zusatzknoten ein-deutig. Die Differenz der beiden Naherungswerte ist dann zugleich eine Schatzung desQuadraturfehlers der ungenaueren Formel. Alle diese Knoten sind innere Knoten unddie entstehenden Formeln liefern konvergente Verfahren fur jede RiemannintegrierbareFunktion.

Beispiel 2.5.3. [a, b] = [0, 1], n = 1, also die Rechteckregel, erganzt um 2 Knotenergibt eine Gauss-Kronrod-Formel der Ordnung 6:

Knoten Gauss-Gewicht Kronrod-Gewicht0.112701665379258 0 5/180.5 1 4/90.8872983346207418 0 5/18

Tabelle von Gauß–Legendre–Formeln:∫ 1

−1f(x)dx ≈

N∑i=0

w(N)i f(t(N)

i )

Knotenanzahl n := N + 1

Es gilt:

t(N)i = −t

(N)N−i und w

(N)i = w

(N)N−i i = 0, ..., N

Tabelliert sindt(N)i , i = N,N − 1, ..., [N/2] + 1 w

(N)i , i = N,N − 1, ..., [N/2] + 1

n = 20.577350269189626 1.000000000000000

n = 30.774596669241483 0.5555555555555560.000000000000000 0.888888888888889

n = 40.861136311594053 0.3478548451374540.339981043584856 0.652145154862546

n = 50.906179845938664 0.2369268850561890.538469310105683 0.4786286704993660.000000000000000 0.568888888888889

2.6. VERFAHREN VON ROMBERG 99

n = 60.932469514203152 0.1713244923791700.661209386466265 0.3607615730481390.238619186083197 0.467913934572691

n = 70.949107912342759 0.1294849661688700.741531185599394 0.2797053914892770.405845151377397 0.3818300505051190.000000000000000 0.417959183673469

n = 80.960289856497536 0.1012285362903760.796666477413627 0.2223810344533740.525532409916329 0.3137066458778870.183434642495650 0.362683783378362

n = 90.968160239507626 0.0812743883615740.836031107326636 0.1806481606948570.613371432700590 0.2606106964029350.324253423403809 0.3123470770400030.000000000000000 0.330239355001260

n = 100.973906528517172 0.0666713443086880.865063366688985 0.1494513491505810.679409568299024 0.2190863625159820.433395394129247 0.2692667193099960.148874338981631 0.295524224714753

>>

2.6 Verfahren von Romberg

Sei

T (h) =h

2(f(a) + 2

N−1∑i=1

f(a+ ih) + f(b)) mit h =b− aN

(zusammengesetzte Trapezregel; aquidistante Knoten).

I =

∫ b

a

f(t)dt


Nach Abschnitt 2.3. gilt fur f ∈ C2[a, b]

T (h) = I +1

12h2(b− a)f ′′(ξh) mit ξh ∈ [a, b] (2.6)

Setzen wir aber N = 2M, M ∈ N, dann errechnen wir

1

3(4T (h)− T (2h)) =

1

3(h(2f(a) + 4

2M−1∑i=1

f(a+ ih) + 2f(b))

−h(f(a) + 2M−1∑i=1

f(a+ 2ih) + f(b)))

=h

3(f(a) + 4

M−1∑i=0

f(a+ (2i+ 1)h) +

4M−2∑i=0

f(a+ (2i+ 2)h)− 2M−2∑i=0

f(a+ (2i+ 2)h) + f(b))

also gerade die Simpson–Formel fur h = (b− a)/(2M).Also wieder nach 2.3.

1

3(4T (h)− T (2h)) = I +

1

180h4(b− a)f (4)(ξh) fur f ∈ C4[a, b] (2.7)

Ware in (2.6) f ′′(ξh) nur schwach von h abhangig, namlich wie

f ′′(ξh) = c2 + h2c4(h) c2 unabh. von h

dann konnte man rechnen

1

3(4T (h)− T (2h)) =

1

3(4I − I)︸︷︷︸

I

+1

36(4h2(b− a)c2 − (2h)2(b− a)c2)︸︷︷︸

0

)

+1

36(4h4(b− a)c4(h)− (2h)4(b− a)c4(2h))

und dies wurde das Auftreten von h4 in (2.7) sofort erklaren. Man fragt sich sofort,ob man durch eine ahnliche Linearkombination bei der Simpsonregel einen Qua-draturfehler der Großenordnung h6 erzielen kann usf. Dies funktioniert tatsachlichaufgrund des folgenden Satzes, der mittels der Euler’schen Summenformel bewie-sen wird.(Vgl. z.B. Stoer& Bulirsch: Einfuhrung in die Num. Math.)


Satz 2.6.1. Es sei f ∈ C2m[a, b], h = b−aN,

Tf (h) = T (h) = h2(f(a) + 2

N−1∑i=1

f(a+ ih) + f(b))

Dann gilt die asymptotische Entwicklung

T (h) =

∫ b

a

f(t)dt︸︷︷︸=:α0

+m−1∑i=1

B2i

(2i)!(f (2i−1)(b)− f (2i−1)(a))︸︷︷︸

=:αi

h2i

+b− a(2m)!

B2mh2mf (2m)(ξh) ,

wobei ξh ∈ [a, b]. Die B2i sind die Bernoulli–Zahlen (vgl. Bem. 2.6.1). 2

<<

Bemerkung 2.6.1. Die Bernoulli–Zahlen sind die Entwicklungskoeffizienten der Po-tenzreihenentwicklung

f(t) =∞∑k=0

Bk

k!tk |t| < 2π fur f(t) =

{1 , t = 0

t

et − 1, t 6= 0 .

AlsoBk = f (k)(0) .

Es ist

B0 = 1, B2 =16, B4 = − 1

30, B6 =

142

, B8 = − 130

, B10 =566

.

Die Bk wachsen mit k sehr schnell an, allgemein gilt

2(2k)!(2π)2k

< (−1)k−1B2k <2(2k)!(2π)2k

11− 21−2k

≤ 4(2k)!(2π)2k

,

d.h. das Restglied der asymptotischen Entwicklung von T (h) hat die Form

(b− a)(−1)m−1(h

2π)2mf (2m)(ξh)cm(h) mit 2 ≤ cm(h) ≤ 4 ∀m, h.

Hinreichend dafur, daß dieses Restglied fur m→∞ gegen null geht, ist

∃δ > 0 : ∀m ∈ N,∀x ∈ [a, b] |f (2m)(x)| ≤ δ2m undhδ

2π< 1 .

Nach Boas gilt:Falls J Intervall, ∀t ∈ J : ∀n |f (n)(t)| < Cn fur ein C > 0, dann ist f Restriktioneiner ganzen Funktion von C auf J . Die Umkehrung gilt jedoch nicht. Im allgemeinenist der Grenzubergang m→∞ bei festem h in der Entwicklung von T (h) nicht erlaubt,auch wenn f ∈ C∞([a, b]). Daher die Bezeichnung “asymptotische Entwicklung”. 2


>>

Die Darstellung von T (h) in Abhangigkeit von h darf man nicht als gewohnlicheReihenentwicklung interpretieren. Man erkennt die Problematik, wenn man z.B.f als unendlich oft differenzierbare periodische Funktion mit der Periode b − awahlt, etwa f(x) = sin(100πx)2 auf [0, 1]. Konnte man hier einfach m =∞ setzen

wurde dies bedeuten, daß fur jedes h = (b − a)/n gilt T (h) =∫ baf(x)dx, was

offensichtlich nicht stimmt.

Das Resultat von Satz 2.6.1 kann man nun in folgender Weise ausnutzen: Falls fgenugend oft differenzierbar ist, ist T (h) offenbar ”im wesentlichen” ein Polynom

in h2 mit unbekanntem Absolutglied α0 =∫ baf(t) dt:

T (h) ≈ α0 + α1h2 + α2h

4 + . . .+ αmh2m.

Die Werte T (h), also die “Polynomwerte” sind leicht berechenbar furh = (b− a)/n, n ∈ N bel. Gesucht ist der “Polynomwert” fur h = 0.

Vorgehensweise:

1. Wahle N0 < N1 < . . . < Nm ∈ N und setze hi =b− aNi

, i = 0, . . . ,m.

2. Berechne yi := T (hi), xi := h2i , i = 0, . . . ,m (Def. von T (h) siehe (2.4))

3. Bestimme das Interpolationspolynom zu (xi, yi) i = 0, ...,m

4. Der Wert dieses Interpolationspolynoms bei 0 diene als Integralnaherung,d.h.

I ≈ p0,m(0; (h2j , T (hj))) (Vor.: f ∈ C2m+2[a, b]).

Die Auswertung von p0,m an der Stelle 0 findet ausserhalb des Schrittweiten-intervalls [h2

m, h20] statt, man spricht deshalb auch von ”Extrapolation auf die

Schrittweite 0”. Die Aufgabenstellung – gesucht ist der Wert eines Interpolati-onspoynoms an einer Stelle – paßt genau auf das in 1.1.2. entwickelte Neville-schema. Da nicht von vorneherein klar ist, wie man m wahlen muß, um einegewunschte Genauigkeit zu erreichen, ist es zweckmaßig, das Nevilleschema zei-lenweise aufzubauen: Ein neues Element der 1. Spalte, also eine neuere (feinere)Trapezsumme,wird dann nur bei Bedarf berechnet und dann das Schema entspre-chend erganzt. Setzen wir

Ti,k := pi−k,k(0; (h2j , T (hj))),

dann erhalten wir aus dem Nevilleschema folgende Formel:


(Romberg–Verfahren)

T0,0 := T (h0)i = 1, . . . ,m :

Ti,0 := T (hi) (neue Trapezsumme berechnen)k = 1, . . . , i

Ti,k = Ti,k−1 + 1

(hi−k

hi)2−1

(Ti,k−1 − Ti−1,k−1)

(2.8)

Das Nevilleschema wird hier zeilenweise als untere Dreiecksmatrix gespeichert.Speziell fur den Fall hi+1 = hi/2 wird

Ti,k = Ti,k−1 +1

22k − 1(Ti,k−1 − Ti−1,k−1) k = 1, . . . , i,

d.h. der Aufbau des Nevilleschemas wird dann also außerst einfach. Ferner kannman in diesem Fall auch die Ti,0 rekursiv berechnen. (alle “alten” Teilpunkte sindauch “neue” Teilpunkte):

Ti,0 =1

2Ti−1,0 + hi

2i−1∑k=1

f(a+ (2k − 1)hi) i = 1, 2, . . . .

<<

Bezuglich Konvergenz– und Fehlerbetrachtung gelten die folgenden Aussagen, fur de-ren Beweis auf die Orginalliteratur verwiesen sei:(Bauer, Stiefel & Rutishauser: New aspects on numerical quadrature, Proc. Symp. Ap-pl. Math. AMS 15, 199-218(1963),Bulirsch: Bemerkungen zur Romberg–Integration, Num. Math. 6,6-16, (1964))

Satz 2.6.2. Es sei f ∈ C2m+2[a, b]. Ti,k mit 0 ≤ i ≤ m, 0 ≤ k ≤ i sei definiertdurch (2.8). Ferner sei hi+1 = chi mit 0 < c < 1.Dann gilt

Ti,k =∫ b

af(t)dt + (b− a)h2k+2

i−k ck(k+1)|B2k+2|f (2k+2)(ξi,k)

(2k + 2)!.

Falls nur gilt hi+1 ≤ chi mit 0 < c ≤ 1− 12π = 0.8408 . . ., dann gilt

|Ti,k −∫ b

af(t)dt| ≤ 2(b− a)h2k+2

i−k maxx∈[a,b]

|f (2k+2)(x)|.

2


Satz 2.6.3. Es sei f eine beschrankte, auf [a, b] Riemann-integrierbare Funktion.

I :=∫ b

af(t)dt. Falls hi+1 = 1

2hi, dann gilt fur die Großen Ti,k des Rombergschemas

mit i ∈ N ∪ {0}, 0 ≤ k ≤ i:

a) Alle Ti,k sind spezielle Riemannsummen fur f , d.h. Ti,k kann ebenfalls in derForm (2.1) geschrieben werden mit w

(N)k ≥ 0 ∀k.

b) limj→∞

Tj,k = I: Konvergenz der Spalten.

c) limj→∞

Ti+j,k+j = I: Konvergenz der Diagonalen.

d) Falls f in einem das Intervall [a, b] enthaltenen Gebiet der komplexen Ebene ineine Potenzreihe entwickelbar ist, dann gilt zusatzlich

limj→∞

|Ti+j+1,j+k+1 − I

Ti+j,j+k − I| = 0,

d.h. fur j “groß ”

Ti+j,k+j − I ≈ − 1

(hi−jhi+k

)2−1(Ti+j,k+j − Ti+j−1,k+j)

= Ti+j,k+j − Ti+j,k+j+1

(2.9)

d.h. der Fehler in jedem Element des Schemas auf einer genugend hohen Spal-tennummer ist ungefahr so groß wie die Differenz zum rechts daneben stehen-den Element.

2

Bemerkung 2.6.2. In der Praxis verwendet man anstelle der Polynominterpolation imRombergverfahren gerne eine Interpolation mit rationalen Funktionen mit Zahlergrad< Nennergrad, weil diese sich besser zur Extrapolation (Auswertung bei 0, außerhalbdes Interpolationsintervalls) eignen, vgl. bei Stoer & Bulirsch.

Beispiel 2.6.1. Mit dem Rombergverfahren und den Schrittweiten hi = 2−i wurdendie Integrale

(a)∫ 1

0

4√

t dt,

(b)∫ 1

0

1(t− 1.1)(t + 0.1)

dt = −3.99649212 = − 10.6

ln 11 und

(c)∫ 1

0e−πx cos πx dx =

12π

(1 + e−π) = 0.1660326514

berechnet. Man erkennt an den untenstehenden Resultaten die Ubereinstimmung vontheoretisch vorhergesagten und praktisch beobachteten Konvergenzverhalten. 4

√t ist nur


stetig,aber nicht stetig differenzierbar. Daher Konvergenz, aber Extrapolation unwirk-sam.Im zweiten Fall liegt eine C∞ - Funktion vor, die Ableitungen wachsen aber schnell an(etwa wie k!10k), daher ist die Extrapolation wirksam, die Konvergenz aber dennochlangsam. Im dritten Fall ist der Integrand eine ganze Funktion, die Ableitungen wach-sen hochstens wie (

√2π)k, daher Extrapolation sehr wirksam und schnelle Konvergenz.

F = SQRT (SQRT (X)), (0, 1).5

.670448208 .727264277

.744652014 .769386616 .772194772

.776507728 .787126299 .788308945 .788564725

.790067272 .79458712 .795084508 .795192056

.795809934 .797724155 .79793329 .797978509

.798234827 .799043125 .799131056 .799150068

.799256969 .799597684 .799634654 .799642648

.799687378 .799830847 .799846391 .799849752

.799868504 .79992888 .799935415 .799936828.7999447 .799970098 .799972846 .79997344

F = 1/((X − 1.1) ∗ (X + 0.1)), (0, 1)−9.0909091−5.93434344 −4.88215488−4.64784399 −4.21901084 −4.17480124−4.18947595 −4.0366866 −4.02453165 −4.02214642−4.04847085 −4.00146915 −3.99912132 −3.99871799−4.00981657 −3.99693181 −3.99662932 −3.99658976−3.99984676 −3.99652349 −3.99649627 −3.99649415−3.99733231 −3.99649416 −3.99649221 −3.99649215−3.99670227 −3.99649225 −3.99649212 ∗ − 3.99649212−3.99654466 −3.99649213 ∗ − 3.99649212 ∗ − 3.99649212−3.99650526 −3.99649212 ∗ − 3.99649212 ∗ − 3.99649212

F = cos(π ∗ x) ∗ exp(−π ∗ x), (0, 1)0.4783930410.23919652 0.1594643470.183442561 0.164857908 0.1652174780.170321813 0.16594823 0.166020918 0.1660336710.167100867 0.166027219 0.166032484 0.1660326680.166299449 0.16603231 0.166032649 0.1660326520.166099335 0.166032630 0.166032652 ∗0.1660326520.166049322 0.166032651 ∗0.166032652 ∗0.1660326520.166036819 0.166032652 ∗0.166032652 ∗0.1660326520.166033694 0.166032652 ∗0.166032652 ∗0.1660326520.166032912 0.166032652 ∗0.166032652 ∗0.166032653

>>


2.7 Wiederholte Richardsonextrapolation

Allgemeiner Fall

Das Romberg–Verfahren und das in Abschnitt 1.4 besprochene Verfahren zurnumerischen Differentiation sind spezielle Falle der Anwendung der folgendenTechnik (wiederholte Richardsonextrapolation auf die “Schrittweite” h = 0):Gesucht ist eine Große I = F (0):Berechenbar sind die Werte F (h) fur geeignete Werte von h > 0. F (0) ist nichtdirekt berechenbar.Bekannt ist der Zusammenhang

F (h) = I + a1hb1 + a2h

b2 + . . .+ amhbm + r(h)hbm+1︸︷︷︸

“Restglied′′

mit r(h) beschrankt fur h→ 0. Dabei ist

b1 < b2 < . . . < bm < bm+1

und bi sind bekannte, ai unbekannte Konstanten. (In den obigen Beispielen warstets bi = 2i.)Methode: Berechne F (hi) fur h0 > h1 > . . . > hm > 0. Lose das lineare Glei-chungssystem 1 hb10 . . . hbm0

......

...1 hb1m . . . hbmm

a0

...am

=

F (h0)...

F (hm)

.

Dann ist

a0 = I + cm · r(h0)hbm+1

0

mit r(h) beschrankt fur h→ 0 falls hi+1 ≤ βhi mit 0 < β < 1, cm eine geeigneteKonstante. Fur den Spezialfall bi = 2i bzw. bi = i erledigt sich die Bestimmungvon a0 (Absolutglied des Interpolationspolynoms) durch die Auswertung des Ne-ville - Schemas an der Stelle h = 0 fur Polynome in h2 bzw. in h.

Man erkennt, daß diese Methode mit umso geringerem Aufwand zu hoher Endge-nauigkeit fuhrt, je schneller die Exponenten bi anwachsen. Bei den Spezialfallenin 1.4 und 2.5 war ein schnelles Wachsen der bi gegeben (bi = 2i). Man hatte z.B.auch in 1.4 zum numerischen Differenzieren f ′(x0) = p0,m(0; (hj, f[x0,x0+hj ])) +O(hm+1

0 ) ausnutzen konnen, aber dies ware wegen bi = i viel ineffizienter.

2.8. NUMERISCHE BERECHNUNG UNEIGENTLICHER INTEGRALE 107

2.8 Numerische Berechnung uneigentlicher In-

tegrale

Um sicherzustellen, daß der Einsatz der bisher besprochenen Quadraturformelnpraktisch sinnvoll ist, muß vorausgesetzt werden, daß der Integrand hinreichendoft stetig differenzierbar auf [a, b] ist. Das Romberg–Verfahren und die GaußschenQuadraturformeln liefern zwar fur jeden stetigen (sogar fur jeden Riemanninte-grierbaren) Integranden konvergente Integralnaherungen, wenn die Anzahl derQuadraturknoten gegen unendlich geht, aber die Konvergenz ist u.U. sehr lang-sam. In den Anwendungen treten jedoch auch haufig Integrale mit singularenIntegranden oder Integrale uber unbeschrankte Intervalle auf. Mit der numeri-schen Berechnung solcher Integrale wollen wir uns nun kurz befassen.

Der einfachste hier zu behandelnde Fall ist der, daß der Integrand oder eineseiner niederen Ableitungen in [a, b] bekannte Sprungstellen xi besitzt, aber aufjedem abgeschlossenen Intervall [xi, xi+1], i = 1, . . . , n , hinreichend oft stetigdifferenzierbar ist d.h. es existiert limh→0 f

(k)(xi + h) und limh→0 f(k)(xi+1 − h)

fur k = 0, 1, . . . ,m, wobei m hinreichend groß ist. In diesem Fall zerlegt man [a, b]entsprechend und behandelt jedes Teilintegral gesondert:∫ b

a

f(x)dx =

∫ x1

a

f(x)dx+n∑i=1

∫ xi+1

xi

f(x)dx+

∫ b

xn+1

f(x)dx. (2.10)

Ein Beispiel hierfur ist die Quadratur einer kubischen Splinefunktion.

Benutzt man dazu etwa die Simpsonformel, so wird das Resultat exakt, sobaldman die Knoten der Splinedarstellung als xi in (2.10) benutzt und jedes Teilin-tegral gesondert mit der (einfachen) Simpsonformel berechnet.

Besitzt der Integrand oder eine seiner Ableitungen Singularitaten eines bekann-ten Typs, dann kann man durch eine Variablentransformation die Singularitatbeheben.

Ein Beispiel dazu sind die Integrale der Form

I =

∫ 1

0

xp/qf(x)dx, f ∈ C∞[0, 1],

mit q ≥ 2, q ∈ N, p ∈ Z, p > −q.

Durch die Substitution

x = tq

erhalt man

I = q

∫ 1

0

tp+q−1f(tq) dt.


Hier ist der Integrand

g(t) = tp+q−1f(tq)

nun selbst unendlich oft stetig differenzierbar auf [0, 1], das Integral kann mitdem Romberg–Verfahren effizient ausgewertet werden.

Ein anderes Beispiel ist

I =

∫ a

0

lnxf(x) dx,

das durch die Substitution

x = et

in

I =

∫ ln a

−∞tetf(et) dt = −

∫ ∞

− ln a

te−tf(e−t) dt

ubergeht. Integrale uber halbunendliche Intervalle uberfuhrt man zweckmaßig insolche uber R: ∫ ∞

a

f(x)dx =

∫ ∞

−∞f(a+ et)etdt,

x = a+ et.

Integrale uber R lassen sich oft sehr gut mit der Trapezregel approximieren. Theo-retische Grundlage dafur ist die Poissonsche Summenformel.

Satz 2.8.1. Es existiere∫∞−∞ |f(x)| dx und

∫∞−∞ |f

′(x)| dx. Es seien λ, µ ∈ Rmit λµ = 1 und t ∈ [0, 1[. Dann gilt

√µ

∞∑k=−∞

exp(2πikt)g(kµ) =√λ

∞∑k=−∞

f(tλ+ kλ)

mit

g(y) = g(2πy) =

∫ ∞

−∞exp(−2πiyx)f(x)dx .

Sei

I =

∫ ∞

−∞f(x) dx (2.11)

zu berechnen und die Voraussetzungen des Satzes erfullt. Nach Voraussetzungexistiert die Fouriertransformierte von f

g(t) =

∫ ∞

−∞exp(−i x t)f(x) dx

2.8. NUMERISCHE BERECHNUNG UNEIGENTLICHER INTEGRALE 109

und es ist

f(x) = 12π

∫ ∞

−∞exp(ipx)g(p)dp

Als Integralnaherung definieren wir zu gegebenem s ∈ R

T (h; s) = h limk→∞

k∑j=−k

f(jh+ s). (2.12)

und es wird nach der Poissonschen Summenformel wegen I = g(0) mit den Set-zungen t = 0, λ = h, µ = 1/h

T (h; s)− I = limk→∞

{ k∑j=−kj 6=0

g(j 2πh

) exp(i s j 2πh

)}.

Fur das Fehlerverhalten von T (h; s) − I fur h → 0 ist also das Abklingen derFouriertransformierten g von f maßgeblich, die hier nur an den Stellen ±j2π/h,fur kleines h also fur betragsmassig sehr grosse Argumente, auftritt.

Ist f als Funktion des komplexen Argumentes z analytisch im Streifen |=z| < ωmit ω > 0, dann kann man zeigen, daß

|T (h; s)− I| = O(exp(−ω2π/h))

gilt, d.h. der Fehler wird fur h → 0 exponentiell klein. Bei der Berechnung von(2.12) muß man in der Praxis die Grenzwertbildung naturlich bei einem (nicht zugroßen) Wert k = k0 abbrechen, die Vorgehensweise macht also nur Sinn, wenn fschnell abklingt mit |x| → ∞. Beispiele, bei denen dieses Verfahren hervorragendeResultate liefert, sind Integrale der Form

∫∞−∞ e

−x2g(x)dx mit beschranktem |g|.

Hier wahlt man s = 0 in (2.12)!

Da fur die gute Auswertbarkeit der Integrale (2.11) das Abklingen von f fur|x| → ∞ maßgeblich ist, kann man versuchen, durch weitere Variablentransfor-mationen dieses Abklingverhalten zu verbessern. Sehr bewahrt hat sich hier diesinh–Transformation

x = sinh t

mit ∫∞−∞ f(x)dx =

∫∞−∞ F (t)dt,

F (t) = f(sinh(t)) cosh(t).(2.13)

Fur f(x) = 1/(1 + x2) mit einem recht schlechten Abklingverhalten fur |x| → ∞ergibt sich so F (t) = 1/ cosh(t), was schon sehr viel gunstiger ist. Man kann dieseSubstitution bei Bedarf auch wiederholen und erhalt so fast immer exponentiellesAbfallen des Integranden, vgl. Szekeres, J. Math. Austral. Soc. 2, (1961).


Man braucht die Variablensubstitution keineswegs formelmaßig auszufuhren, umdie Methode anzuwenden. Will man etwa in (2.13) die Trapezsumme T (h; s) aufdas rechte Integral anwenden, so kann man sie ebensogut auf das linke Integralanwenden und cosh(s + jh) als Gewichte (anstelle von 1) und sinh(s + jh) alsArgumente von f (anstelle von s+ jh) wahlen.

2.9 Bereichsintegrale

In der Praxis stellt sich haufig die Aufgabe, Integrale uber hoherdimensionaleBereiche zu approximieren. In zwei oder drei Dimensionen sind Adaptationen oderVerallgemeinerungen der Methoden fur eine Veranderliche sinnvoll einsetzbar. Istz.B. B ein Normalbereich im R2 und

∫Bf(x, y) d(x, y) gesucht, dann bietet sich

sofort die Darstellung durch ein iteriertes Integral an. O.B.d.A. sei

B = {(x, y) : a ≤ x ≤ b, ψ1(x) ≤ y ≤ ψ2(x)}

dann wird ∫B

f(x, y) d(x, y) =

∫ b

a

F (x)dx.

mit

F (x) =

∫ ψ2(x)

ψ1(x)

f(x, y) dy

Bei festem x benutzt man nun eine gewohnliche Quadratur bzgl. y auf [ψ1(x), ψ2(x)]unter der bereits bekannten Transformation fur Knoten und Gewichte und gelangtso zum Wert fur F (x). Das Integral uber F wird dann wieder standardmassig be-

handelt. Sind etwa w(m)i , t

(m)i Gewichte und Knoten der Formel fur das Intervall

[-1,1], dann ergibt Intervalltransformation die Formel

w(m)i (x) = ψ2(x)−ψ1(x)

2w

(m)i

y(m)i (x) = ψ2(x)−ψ1(x)

2t(m)i + ψ1(x)+ψ2(x)

2

i = 0, . . . ,m.

Fur das verbleibende Integral wird nun wieder eine Quadraturformel (eventuelleine andere) verwendet und man gelangt schließlich zu einer Formel des Typs

n∑k=0

w(n)k

m∑i=0

w(m)i (x

(n)k )f(x

(n)k , y

(m)i (x

(n)k )).

Sei z.B. a = 0, b = 1, ψ1(x) = 0, ψ2(x) = 1 + 4x2, und die zugrunde liegendeFormel in beiden Fallen die Simpsonformel, d.h. n = m = 2

t(2)0 = −1, t

(2)1 = 0, t

(2)2 = 1,

w(2)0 = 1

3, w

(2)1 = 4

3, w

(2)2 = 1

3,

2.9. BEREICHSINTEGRALE 111

dann wird∫B

f(x, y) d(x, y) ≈ 16

(16(f(0, 0) + 4f(0, 1

2) + f(0, 1)) +

43(f(1

2, 0) + 4f(1

2, 1) + f(1

2, 2)) +

56(f(1, 0) + 4f(1, 5

2) + f(1, 5))

).

Als weiteres Besipiel betrachten wir eine Anwendung der Gauss-Quadratur.

Beispiel 2.9.1. Es sei das Gebiet

B = {(x, y) : −1 ≤ x ≤ 1 , 0 ≤ y ≤ 1− x2}

Wir fragen nach der Anzahl und der Plazierung der Quadraturknoten, wenn maneine beliebige affin lineare Funktion auf B exakt integrieren will. Die Umschrei-bung in ein Doppelintegral ergibt∫

B

f(x, y) d(x, y) =

∫ 1

−1

∫ 1−x2

0

f(x, y) dydx.

Das innere Integral ist ein Integral uber eine lineare Funktion in y. Damit ist iny-Richtung ein Knoten in der Intervallmitte b+a

2= 1−x2

2notig um das Integral

exakt zu bestimmen. Das zugehorige Gewicht lautet b− a = 1− x2.

Durch diese exakte Integration ist das außere Integral∫ 1

−1

(1− x2

)· f(x,

1− x2

2

)︸︷︷︸

F (x)

dx .

Der Integrand F (x) ist ein Polynom 4. Grades in x und wird folglich durch 3 Kno-

ten in x-Richtung bei −√

35, 0,√

35

exakt integriert. Die Gewichte lauten 59, 8

9, 5

9.

Durch Anwendung der Gauß-Quadratur auf F ergibt sich nach Einsetzen von fdie Quadraturformel:∫ 1

−1

F (x)dx =5

9F

(−√

3

5

)+

8

9F (0) +

5

9F

(√3

5

)=

=5

9

1−

(−√

3

5

)2 f

−√3

5,1−

(−√

35

)2

2

+8

9f

(0,

1

2

)+

+5

9

1−

(√3

5

)2 f

√3

5,1−

(√35

)2

2

=

=2

9f

(−√

3

5,1

5

)+

8

9f

(0,

1

2

)+

2

9f

(√3

5,1

5

)


2

Ein Nachteil dieser Vorgehensweise besteht darin, daß die dabei benotigte Anzahlan Funktionsauswertungen sehr schnell sehr groß wird. Es gibt auch spezielle, andie Geometrie angepaßte Formeln. Z.B. ist fur das Standarddreieck

T0 = {(x, y) : 0 ≤ x ≤ 1, 0 ≤ y ≤ 1− x}

die Schwerpunktregel ∫T0

f(x, y) d(x, y) ≈ 12f(1

3, 1

3)

exakt fur affin lineares f und die Formel von Collatz und Albrecht∫T0

f(x, y) dx dy ≈ B(f(r, r) + f(r, s) + f(s, r)) + C(f(u, u) + f(u, v) + f(v, u))

mitr = 1

2, s = 0, , u = 1

6, v = 4

6, , B = 1

60, C = 9

60,

ist fur Polynome vom Gesamtgrad ≤ 3 exakt. Mit nur sieben Funktionsauswer-tungen kann man mit der Formel von Radon∫

T0

f(x, y) dx dy ≈ Af(t, t) +B(f(r, r) + f(r, s) + f(s, r)) +

C(f(u, u) + f(u, v) + f(v, u))

mitA = 9

80, B = (155−

√15)/2400, C = (155 +

√15)/2400,

t = 13, u = (6 +

√15)/21, v = (9− 2

√15)/21,

r = (6−√

15)/21, s = (9 + 2√

15)/21,

Polynome in x und y vom Gesamtgrad ≤ 5 exakt integrieren. Mit iterierterGaußquadratur benotigt man dazu bereits 12 Funktionswerte.

Durch Triangulierung von B und Anwendung der Transformationsregel kann mandann beliebige Bereichsintegrale in R2 annahern: Man summiert die Teilintegraleuber die einzelnen Dreiecke auf. Fur ein beliebiges Dreieck der Triangulierungbenutzt man zur Auswertung die Transformation auf das Standarddreieck∫

T

f(x, y) dx dy =

∫T0

f(x(ξ, η), y(ξ, η))|det (AT )| dξ dη,

wobei (x, y) mit (ξ, η) durch die lineare Abbildung(x(ξ, η)y(ξ, η)

)=

(xiyi

)+ AT

(ξη

)


mit der festen, nur von der Geometrie abhangigen Matrix

AT =

((xj − xi) (xk − xi)(yj − yi) (yk − yi)

)verknupft ist. Dabei sind (xi, yi), (xj, yj), (xk, yk) die drei Ecken von T , die (in die-ser Reihenfolge) auf (0,0), (1,0), (0,1) abgebildet werden. (Krummlinig berandeteBereiche werden dabei zunachst durch polygonal berandete approximiert.)

Diese Methoden funktionieren auch noch im R3 gut (s. z.B. S. Stroud: Appro-ximate calculation of multiple integrals), aber in hoheren Dimensionen wird derAufwand untragbar. Hier hilft nur noch die sogenannte Monte-Carlo-Quadratur:

Sind xi identisch und unabhangig verteilt mit Dichte g(x) auf B, dann gilt furalle ε > 0

P(∣∣∣∫B

f(x) dx− |B| 1n

n∑i=1

f(xi)

g(xi)

∣∣∣ > ε)−→n→∞ 0.

P( Aussage ) bedeutet hier ”Wahrscheinlichkeit der Gultigkeit von Aussage”.Dabei ist |B| das Volumen von B. Der Erwartungswert des Fehlers in der Monte-Carlo-Approximation ist dabei O( 1√

n), unabhangig von der Dimension von B.

2.10 Zusammenfassung

Bei der numerischen Quadratur hat man als zentrale Forderungen die beliebiggenaue Approximation des Integrals zumindest fur jede stetige Funktion undgleichzeitig die Forderung einer moglichst kleinen Anzahl von Funktionsauswer-tungen bei gegebener Genauigkeit zumindest fur gutartige Funktionen (derenhohere Ableitungen alle existieren und nicht zu schnell anwachsen). Die Formelnbzw. Verfahren mussen dabei vom Integranden unabhangig sein.

Brauchbare Verfahren in diesem Sinne sind die zusammengesetzten abgeschlos-senen Newton-Cotes Formeln bis zur Ordnung 8, die Gauss-Quadratur und dieRombergquadratur (mit Schrittweitenhalbierung).

Zentraler Begriff in der Quadratur ist der der ”Ordnung”. Als Merkregel kannman benutzen ”die Ordnung einer Quadraturformel ist gleich der Ordnung derAbleitung des Integranden im Quadraturfehler” wenn man beliebig hohe Diffe-renzierbarkeit unterstellt.

Die Gaussformeln liefern die grosstmogliche Ordnung bei gegebener Knotenzahl,die Ordnung ist das doppelte der Knotenzahl. (Als Knoten bezeichnet man dieAbszissen, an denen der Integrand ausgewertet werden muss.) Der Nachteil derGauss-Formeln besteht darin, daß ihre Anwendung die Auswertbarkeit des Inte-granden an beliebigen Stellen erfordert.


Auch die Newton-Cotes Formeln ungerader Knotenzahl haben eine Ordnungs-erhohung (um eins).

Die Newton-Cotes Formeln erlauben auch die Quadratur von nur tabellarischgegebenen Funktionen.

Das Rombergverfahren beruht auf einer speziellen Eigenschaft der zusammenge-setzten aquidistanten Trapezregel und erlaubt eine beliebige Steigerung der Ord-nung unter Weiterverwendung der bereits berechneten Funktionswerte. Bei glei-cher Ordnung benotigt es jedoch mehr Funktionswerte als die Gauss-Quadratur.

Singulare Integrale fuhrt man durch Substitution in nichtsingulare uber oder be-nutzt nach Standardtransformation auf ein festes Intervall Gauss-Quadratur sehrhoher Ordnung. Dabei darf eine Singularitat nur an den Intervallenden auftreten.

Mehrdimensionale Integrale behandelt man nach Zerlegung in Normalbereicheals iterierte Integrale mit iterierter Quadratur oder wendet Spezialformeln an,die von der Form des Grundbereichs abhangen. Letzteres ist praktikabel z. B. beisimplizialen Zerlegungen des Bereichs.


1. Davis, Ph. J.; Rabinowitz, Ph.: Methods of Numerical Integration. Acad.Press. 1975.

2. Krommer, A.R.; Uberhuber, Chr. W.: Computational Integration. SIAM1998.

3. Stroud, A.H.: Approximate Calculation of Multiple Integrals. Prentice Hall1971

Kapitel 3

Direkte Methoden zur Losunglinearer Gleichungssysteme

Bem.: In diesem und im folgenden Kapitel versuchen wir, fur alle Grossen eineNotation anzuwenden, aus der man den Typ der Grosse sofort erkennt: Skalarewerden durch kleine griechische Buchstaben, Vektoren durch kleine lateinischeund Matrizen durch grosse lateinische oder griechische Buchstaben bezeichnet.Vektoren identifizieren wir mit einspaltigen Matrizen. Ist A eine Matrix, so sindai ihre Spalten und αi,j ihre Elemente, ein Vektor b hat die Elemente βi usw.Eine Ausnahme ist L, deren Elemente wir mit ì,j bezeichnen, da λ stets einenEigenwert einer Matrix bezeichnen soll. 2

In diesem Kapitel besprechen wir Methoden zur Losung von linearen Gleichungs-systemen

Ax = b, A ∈ Kn×n, b ∈ Kn (K ∈ {R,C}) (3.1)

wobei wir stetsdet(A) 6= 0

voraussetzen. Theoretisch wird diese Aufgabe durch die Formel

ξi = det(a1, . . . , ai−1, b, ai+1, . . . , an)/det(A) i = 1, . . . , n

(mit x = (ξ1, . . . , ξn)T , A = (a1, . . . , an))

gelost (dies ist die Cramer’sche Regel). Praktisch ist diese Formel aber (außerfur n = 2 oder spezielle Matrix A) sowohl aus Grunden der hohen Rundungsfeh-lerempfindlichkeit als auch des Rechenaufwandes unbrauchbar, so daß wir nochgeeignete Methoden zur Berechnung von x suchen mussen. Die Berechnung einereinzigen Determinante nach dem Entwicklungssatz erfordert bereits (n− 1)(n!),also asymptotisch (n/e)n Multiplikationen, wahrend die komplette Aufgabe imungunstigsten Fall jedenfalls mit n3/3 +O(n2) Multiplikationen und Additionenzu erledigen ist.

115

116 Direkte Methoden

Der Fall einer singularen Koeffizientenmatrix A ist naturlich auch von (theore-tischem) Interesse. Beim Auftreten von Rundungsfehlern in der Rechnung kannjedoch die Singularitat bzw. Nichtsingularitat einer Matrix nicht mehr in allenFallen erkannt werden. Dies hangt ab von der Relation zwischen der Rechen-genauigkeit und der spater in diesem Kapitel definierten ”Konditionszahl” derMatrix. Deshalb lassen wir diesen Fall beiseite. In den Fall (3.1) kann naturlichauch die allgemeine Aufgabe mit mehreren rechten Seiten

AX = B, A ∈ Kn×n, X ∈ Kn×p, B ∈ Kn×p,

insbesondere die Aufgabe der Matrixinversion

AX = I

eingeordnet werden. Setze dazu X = (x1, . . . , xp), B = (b1, . . . , bp):

AX = B ⇔ Axi = bi i = 1, ..., p

bzw.AX = I ⇔ Axi = ei i = 1, ..., n

mit ei = (0, ..., 1︸︷︷︸i

, 0, ..., 0)T und X = (x1, ..., xn)

Unser Ziel wird es sein, die Aufgabe auf zwei Teilaufgaben mit sogenannten Drei-ecksmatrizen zuruckzufuhren durch eine Faktorisierung

PA = LR

mit einer Permutationsmatrix P , einer unteren Dreiecksmatrix L und einer oberenDreiecksmatrix R. Dann wird

A−1 = R−1L−1P

undAx = b ⇔ Lz = Pb , Rx = z .

Wir beschaftigen uns daher zunachst mit der entsprechenden Aufgabe im Fallevon Dreiecksmatrizen.

3.1 Gestaffelte Gleichungssysteme

Dreiecksmatrizen und ihre Invertierung

Definition 3.1.1. SeiA = (αij) ∈ Kn×n

Gestaffelte Gleichungssysteme 117

Falls αij = 0 fur j < i, dann heißt A (rechte) obere Dreiecksmatrix,falls αij = 0 fur i < j, dann heißt A (linke) untere Dreiecksmatrix.Symbolisch :

A =

............................................................................................................................................................................................................................................

......................

......................

......................

......................

......................

...................

bzw. A =

........

........

........

........

........

........

........

........

........

........

........

........

........

.....................................................................................................................................................................................................................................................................

Ein Gleichungssystem mit einer Dreiecksmatrix heißt gestaffelt. 2

Gestaffelte Gleichungssysteme spielen eine Sonderrolle, weil sich ihre Losungdurch sukzessive Auflosung der Gleichungen nach jeweils einer weiteren Unbe-kannten unmittelbar angeben laßt: (beachte: fur eine Dreiecksmatrix gilt det(A) =n∏i=1

αii 6= 0⇔ αii 6= 0 ∀i)

A =

............................................................................................................................................................................................................................................

......................

......................

......................

......................

......................

...................

bzw. A =

........

........

........

........

........

........

........

........

........

........

........

........

........

.....................................................................................................................................................................................................................................................................

Die Losung des Gleichungssystems errechnet sich dann offensichtlich zu

ξi = (βi −i−1∑k=1

αikξk)/αii, i = 1, . . . , n

bzw.

ξi = (βi −n∑

j=i+1

αijξj)/αii, i = n, n− 1, . . . , 1.

Die Inversion einer Dreiecksmatrix ist leicht zu leisten, indem man die n Glei-chungssysteme mit den n Einheitsspalten lost. Da die Inverse wieder eine Drei-ecksmatrix und vom gleichen Typ ist, ergeben sich erhebliche Rechenvereinfa-chungen. Betrachtet man das System

......................................................................................................................................................................

......................

......................

......................

.............

........

........

........

........

........

........

........

........

........

=........................................................................

Rx = ei =

0...010...0


so erkennt man, daß x gar nicht von den Spalten i + 1, ..., n von R abhangt.Partitioniert man die Matrix R nach

R =

R11 r

O %

} n− 1

} 1

so druckt sich diese Tatsache aus in der Formel fur die Inverse

R−1 =

R−111 −R−1

11 r%−1

O %−1

Die ersten i Spalten der Inversen von R hangen also nur von den ersten i Spal-ten von R ab. Es ist deshalb bei der Berechnung der Inversion einer oberenDreiecksmatrix moglich, die Spalten n, n− 1, ..., 1 von R sukzessive mit den ent-sprechenden Spalten der Inversen zu uberschreiben, indem man nacheinander dielinearen Systeme

Rixi = ei , i = n, n− 1, . . . , 1

lost, wo Ri aus den ersten i Zeilen und Spalten von R besteht.

3.2 Das Gauß’sche Eliminationsverfahren

Die Idee des Gauß’schen Eliminationsverfahrens besteht darin, ein beliebigesGleichungssystem mit regularer n × n–Koeffizientenmatrix in (hochstens) n − 1Aquivalenz–Transformationsschritten in ein System mit oberer Dreiecksmatrixzu uberfuhren.Symbolisch

. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .

= ⇐⇒

∗0····0

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

.........................................................................................................................................................................................................................

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

.......

=

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

.......

⇐⇒

∗0····0

∗∗0···0

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

.......................................................................................................................................................................................................................................................... ..........

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

=

... ... ⇐⇒

............................................................................................................................................................................................................................................................................................

....................

....................

....................

....................

....................

....................

....................

....................

....... . . ..

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

.......

=

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

.......

Als Aquivalenztransformationen dienen im iten Schritt, i = 1, ..., n− 1:

3.2. DAS GAUSS’SCHE ELIMINATIONSVERFAHREN 119

a) Falls notig,Vertauschung der Zeile i mit einer der Zeilen i + 1, ..., n desSystems

b) (Falls erwunscht, Vertauschung der Spalte i mit einer der Spalten i+1, ..., ndes Systems. Dies dient der weiteren Dampfung der Rundungsfehlerein-flusse. Dies wird aber nur in seltenen Fallen benutzt)

c) Subtraktion von geeigneten Vielfachen der iten Zeile von den Zeilen i +1, ..., n.

Streng formal musste man diese Systeme also bezeichen als

A(i)x(i) = b(i) , i = 1, . . . , n

mitA(1) = A , b(1) = b Ausgangsdaten

und x(i) als permutiertem x−Vektor. Wir verzichten hier darauf und schreibendas System, wie in der Praxis ublich, in ein Schema, das um die Zeilen- und Spal-tennummern erweitert wird. Auf die Positionen der erzeugten Nullen schreibenwir die Vielfachen, die zu ihrer Erzeugung notwendig waren. Bei einer Vertau-schung werden dann vollstandige Zeilen bzw. Spalten vertauscht. Man kann dannan den Vektoren der vertauschten Zeilen- und Spaltennummern die Originalpo-sition und die angewendete Vertauschungsmatrix ablesen. Das Ausgangsschemahat also jetzt die Form

α(1)ij := αij i, j = 1, ..., n β

(1)i := βi i = 1, ..., n

1 · · · · · · n

1 α(1)11 · · · · · · α

(1)1n β

(1)1

......

......

......

......

...

n α(1)n1 · · · · · · α

(1)nn β

(1)n

Im i−ten Schritt wollen wir Nullen auf den Positionen (i+1, i), . . . , (n, i) erzeugen,wahrend die Elemente (i, i), . . . , (i, n) zu einer Zeile der Matrix R werden. Dazumuss also das Element auf der Position (i, i) ungleich null sein. Man bezeichnetes als ”Pivot”-Element (Pivot=Flugelmann, in der Technik: Drehzapfen). For-mal genugt hier die Forderung 6= 0, aber um den Rundungsfehlereinfluss kleinzu halten, muss man hier sehr sorgfaltig vorgehen. Dies ist der Punkt, wo dieVertauschungen der Zeilen und Spalten zum Tragen kommen. Wir haben bis-her stillschweigend angenommen, daß bei nichtsingularer Koeffizientenmatrix A


die Auswahl von Zeilenvertauschungen (und Spaltenvertauschungen) es stets er-laubt, ein Pivotelement ungleich null zu finden. Im nachsten Abschnitt werdenwir zeigen, daß dies tatsachlich der Fall ist.

Bemerkung 3.2.1. Die Auswahlregel fur die Vertauschungen heißt Pi-votstrategie. Folgende Pivotstrategien sind ublich (αi,j bezeichnet die Elementeder i−ten Matrix nach den Vertauschungen):

a) “Spaltenpivotwahl” : |α(k)k,k|

!= max

i≥k|α(k)i,k |

(Zeilenvertauschung; keine Spaltenvertauschungen)Pivot = ein betragsgrosstes Element der Restspalte

b) “Restmatrix–Pivotwahl”: |α(k)k,k|

!= max

i,j≥k|α(k)i,j |

(Zeilen– und Spaltenvertauschungen)Pivot = ein betragsgrosstes Element der Restmatrix .

Man beachte, daß in den Fallen a) und b) die Multiplikatoren α(i)j,i/α

(i)i,i betragsmaßig

≤ 1 sind. Dies bewirkt ein gunstiges Rundungsverhalten. Den volligen Verzichtauf Vertauschungen bezeichnet man als “naturliche” Pivotwahl. Dies ist nur beispeziellen Matrizen A durchfuhrbar und gefahrlos. (bzgl. des Rundungsfehlerver-haltens) 2

Hat man den Pivot auf der Position (j, k) gewahlt (wie bereits gesagt benutztman meist nur Zeilentausch, dann ist k = i) mit j ≥ i und k ≥ i , dann vertauschtman Zeile i mit Zeile j und Spalte i mit Spalte k. Es ist wichtig, die Vertauschungnur in dieser Form, also als ”Parchentausch” vorzunehmen. Nun ist man in derPosition, die gewunschten Nullen zu erzeugen. Die dazu notwendigen Multipli-katoren entstehen aus den Quotienten der Koeffizienten auf den Positionen (j, i)und (i, i). Die Umrechnung auf das nachste Teilsystem betrifft dann nur die so-genannte ”Restmatrix” (das sind die Elemente mit Index ≥ i + 1). Man merktsich diese Umrechnung leicht als sogenannte ”Rechteckregel”

(j, k)neu = (j, k)alt −(j, i)alt(i, i)alt

(i, k)alti+ 1 ≤ j ≤ ni+ 1 ≤ k ≤ n

(j, k)neu = neues Element(j, k)alt =altes Element im RestsystemQuotient =Multiplikator =zugeh. Element Pivotspalte / Pivot(i, k)alt = zugeh. Element Pivotzeile

3.2. DAS GAUSS’SCHE ELIMINATIONSVERFAHREN 121

��

��

��

��

i,i

j,i j,k

i,k

6 6

�

�

Nach n − 1 Schritten hat man dann die Dreiecksform erreicht, die gemass demvorangegangenen Abschnitt behandelt wird. Man muss dann noch bedenken, daßbei angewendetem Spaltentausch der Losungsvektor x(n) = y auch vertauscht ist.Die ”richtige” Position der Losungskomponente liest man aus den vertauschtenSpaltennummern ab. Sind diese σi, i = 1, . . . , n dann gilt

ξσi= ηi

wo ξj die Komponenten von x und ηj die von y sind.

BeispieleMit Spaltenpivotsuche :

1 2 3 |1 3 4 5 | 262 −3 5 1 | 103 6 5 18 | 70

Zeilentausch 3 gegen 1:

1 2 3 |3 6 5 18 | 702 −3 5 1 | 101 3 4 5 | 26

Elimination:

1 2 3 |3 6 5 18 | 702 −1

25− (−3) · 5/6 = 15

21− (−3) · 18/6 = 10 | 10− (−3) · 70/6 = 45

1 12

4− 3 · 5/6 = 32

5− 3 · 18/6 = −4 | 26− 3 · 70/6 = −9

Zweiter Schritt (keine Vertauschung notwendig)

1 2 3 |3 6 5 18 | 702 −1

2152

10 | 451 1

215−4− 10 · 3

2/15

2= −6 | −9− 45 · 3

2/15

2= −18


Und daher

ξ3 = 3

ξ2 = (45− 10 · 3)/152

= 2

ξ1 = (70− 5 · 2− 18 · 3)/6 = 1 .

Mit Restmatrixpivotsuche 1 2 3 |

1 0 1 −3 | 32 1 1 3 | −43 1 −1 3 | 5

Als Pivotposition wahlen wir (2,3). Das vertauschte System ist

3 2 1 |2 3 1 1 | −41 −3 1 0 | 33 3 −1 1 | 5

Nach dem ersten Eliminationsschritt haben wir

3 2 1 |2 3 1 1 | −41 −1 2 1 | −13 1 −2 0 | 9

Nur zur Illustration vertauschen wir noch Zeile 2 und 3:

3 2 1 |2 3 1 1 | −43 1 −2 0 | 91 −1 2 1 | −1

und der zweite Eliminationsschritt ergibt

3 2 1 |2 3 1 1 | −43 1 −2 0 | 91 −1 −1 1 | 8

und unter Benutzung der vertauschten Spaltennummern ergibt sich

ξ1 = η3 = 8

ξ2 = η2 = −9/2

ξ3 = η1 = (−4 + 9/2− 8)/3 = −5/2

3.3. MATRIZIELLE BESCHREIBUNG DES GAUSS–ALGORITHMUS UND LR–THEOREM123

3.3 Matrizielle Beschreibung des Gauß–Algorithmus

und LR–Theorem

Die in 3.2. beschriebene Transformation des Gleichungssystems:

A x = b ⇐⇒ R y = c

................................................................................................................................................................................................................................................................................................ ........

........

........

........

........

........

........

........

........

=........................................................................ ...........................................................................................................................................................

......................

......................

......................

......................

..

........

........

........

........

........

........

........

........

........

=........................................................................

mit ηi = ξσi, wo x =

ξ1...ξn

, y =

η1...ηn

soll nun als Matrizenoperation beschrieben werden. Folgende Operationen tretenauf:

ZeilenvertauschungLinearkombinationenvon Zeilen

Zeilenoperation ⇔ Matrix–Operation von“links”

Spaltenvertauschung : Spaltenoperation ⇔ Matrix–Operation von“rechts”

Die Vertauschung der Zeile i mit einer Zeile k > i wird geleistet durch Multipli-kationen von links mit der Permutationsmatrix P , die entsteht aus der Vertau-schung der Zeilen k und i in der Einheitsmatrix. Ebenso wird die Vertauschungder Spalten i und j realisiert durch Multiplikation der Matrix von rechts mit derPermutationsmatrix, die entsteht, wenn man in der Einheitsmatrix die Spalten iund j vertauscht. (Beachte: fur diesen speziellen Fall ist P = P T , Q = QT undP 2 = Q2 = I)Schließlich uberzeugt man sich leicht, daß die Erzeugung der Nullen unterhalbdes Matrixelementes (i, i) im Schritt i geleistet wird durch Multiplikation vonlinks mit einer unteren Dreiecksmatrix mit Diagonale (1, . . . , 1), die entsteht,wenn man in die Einheitsmatrix in Spalte i in den Positionen i + 1, . . . , n dienegativ genommenen Multiplikatoren eintragt:Beispiel

1 0 0 00 1 0 00 −1

21 0

0 12

0 1

1 −1 0 10 4 3 10 2 1 −10 −2 1 1

=

1 −1 0 10 4 3 10 0 −1

2−3

2

0 0 52

32

.


Bezeichnen wir die auftretenden Transformationsmatrizen mit Ti, Pi, Qi dannwird also in obiger Notation

A(i+1) = TiPiA(i)Qi , i = 1, . . . , n− 1 .

<<

IstA(i) = PiA

(i)Qi

dann wird

Ti =

1. . .

1−α(i)

i+1,i

α(i)i,i

... 1

.... . .

−α(i)n,i

α(i)i,i

1

= I − qie

Ti , qi =

0...0

α(i)i+1/α

(i)i,i

...

...α

(i)n,i/α

(i)i,i

Dabei ist qi= Vektor aus i Nullelementen und den Multiplikatoren des iten SchrittesIst namlich g irgendein Vektor der Form g = (γ1, ..., γl, 0, ..., 0)T mit l < i (dies ent-spricht einer der Spalten 1 bis i− 1 der transformierten Matrix im iten Schritt) dann

Tig = (I − qieTi )g = g − qi(eTi g︸︷︷︸

=0

) = g

d.h. die ersten i − 1 Spalten im transformierten System bleiben unverandert. Die jte

Spalte hat nach i− 1 Schritten die Form (j ≥ i)

a(i)j = (α(i)

1,j , α(i)2,j , ..., α

(i)i−1,j , α

(i)i,j , ..., α

(i)n,j)

T

= (α(i)1,j , ..., α

(i)i−1,j , 0, ..., 0︸︷︷︸

=:g(i)j

)T + (0, ..., 0, α(i)i,j , ..., α

(i)n,j︸︷︷︸

=:h(i)j

)T

SomitTia

(i)j = Ti(g

(i)j + h

(i)j ) = Tig

(i)j + Tih

(i)j = g

(i)j + h

(i)j − qi e

Ti h

(i)j︸︷︷︸

α(i)i,j

=

α(i)1,j...

α(i)i−1,j

0......0

+

0...0

α(i)i,j

α(i)i+1,j...

α(i)n,j

−

0...00

α(i)i+1,i/α

(i)i,i

...α

(i)n,i/α

(i)i,i

α

(i)i,j =

α(i)1,j......

α(i)i,j

α(i+1)i+1,j...

α(i+1)n,j

j = i, ..., nmitα

(i+1)k,i = 0

k ≥ i + 1

Matrizielle Beschreibung des Gauß–Algorithmus 125

Matriziell geschrieben lautet also die durch den Gauß’schen Algorithmus beschriebeneAquivalenztransformation des Gleichungssystems

Ax = b⇔ T1P1AQ1Q1x = T1P1b⇔ T2P2T1P1AQ1Q2Q2Q1x = T2P2T1P1b⇔ Tn−1Pn−1Tn−2Pn−2 · · ·T1P1AQ1Q2 · · ·Qn−1︸︷︷︸

R

Qn−1 · · ·Q1x︸︷︷︸y

= Tn−1 · · ·P1b︸︷︷︸c

Setze Q := Q1...Qn−1.Q beschreibt die Gesamtwirkung aller durchgefuhrten Spaltenpermutationen. (Mit derendgultigen Spaltenuberschrift

σ(1)1 , ..., σ(n)

n

im Rechenschema aus 3.2. ist also

Q = (eσ

(1)1

, ..., eσ

(n)n

) ).

Dann wirdQTx = y , d.h. ξ

σ(i)i

= ηi i = 1, ..., n

wie oben bereits benutzt. Man kann nun weiter schreiben

R = Tn−1Pn−1Tn−2Pn−2 · · ·T1P1AQ= Tn−1︸︷︷︸

Tn−1

(Pn−1Tn−2Pn−1︸︷︷︸Tn−2

)(Pn−1Pn−2Tn−3Pn−2Pn−1︸︷︷︸Tn−3

)(Pn−1Pn−2 · · ·

· · ·Pn−1)(Pn−1 · · ·P2T1P2 · · ·Pn−1︸︷︷︸T1

)(Pn−1 · · ·P1︸︷︷︸P

AQ)

d.h. mitP := Pn−1 · · ·P1 ; Tn−1 := Tn−1 ;

Ti := Pn−1 · · ·Pi+1TiPi+1 · · ·Pn−1 i = 1, ..., n− 2

wirdR = Tn−1Tn−2 · · · T1P A Q

Nun ist (unter Ausnutzung von P 2j = I)

Ti = Pn−1 · · ·Pi+1(I − qieTi )Pi+1 · · ·Pn−1

= I − Pn−1 · · ·Pi+1qi︸︷︷︸=qi

eTi = I − qieTi

weil Pi+1, · · · , Pn Vertauschungen der Elemente mit Index ≥ i + 1 beschreiben, alsoeTi nicht verandern. qi ist nach Konstruktion der Vektor der “Multiplikatoren” des iten

Eliminationsschrittes, die den gleichen (Zeilen–) Vertauschungen unterworfen wordensind wie das Restsystem in den Eliminationsschritten i + 1, ..., n− 1.Somit ist Ti eine untere Dreiecksmatrix mit Diagonale (1, ..., 1), also auch T−1

i und dasProdukt

T−11 · ... · T−1

n−1


Somit

P A Q = T−11 · · · T−1

n︸︷︷︸=:L

R = L ·R

wobei R eine obere Dreiecksmatrix und L eine untere Dreiecksmatrix mit Diagonale1, ..., 1 ist. Ferner gilt

T−1i = I + qie

Ti

d.h.

L = (I + q1eT1 ) · · · (I + qn−2e

Tn−2)(I + qn−1e

Tn−1)

Weil aber

eTj qk = 0 fur j ≤ k

folgt

L = I +n−1∑k=1

qkeTk ,

d.h. die Elemente von L unterhalb der Diagonale sind die mitvertauschten Multipli-katoren. Wir zeigen nun noch, daß fur regulare Matrix A der Gauß’sche Algorithmusnicht abbrechen kann, d.h. bei geeigneter Wahl der Vertauschungen ist stets α

(i)i,i 6= 0,

i = 1, ..., n erreichbar. Dies gilt sogar bei Verzicht auf Spaltenvertauschungen. Waredies namlich nicht der Fall, dann ware fur ein k mit 1 ≤ k ≤ n

α(k)i,k = 0 i = k, ..., n

d.h.

Tk−1Pk−1Tk−2 · · ·T1P1︸︷︷︸det(...) 6=0

A

︸︷︷︸det(...)=det(A)det(Tk−1...P1)

=

%11 · · · %1,k−1 ∗ · · · · · · · · ·0 %22 · · · ∗

...%k−1,k−1 ∗

k → 0 0...

...0 · · · 0 0

⇒ det (A) = 0

Somit gelangen wir zu

>>


Satz 3.3.1. Gauss-Algorithmus und Dreieckszerlegung : Es sei A ∈Kn×n invertierbar. Dann existiert eine Permutationsmatrix P , eine untereDreiecksmatrix L mit Diagonale (1, ..., 1) und eine obere invertierbare Drei-ecksmatrix R, alle aus Kn×n, so daß

P A = L ·R

Wird der Gauß’sche Algorithmus auf das Gleichungssystem Ax = b ange-wandt, bezeichnet P die Permutationsmatrix, die die Wirkung aller Zeilen-vertauschungen beschreibt, Q die Permutationsmatrix, die die Wirkung allerSpaltenpermutationen beschreibt, R die resultierende obere Dreiecksmatrix undL die untere Dreiecksmatrix aus einer Diagonalen (1, ..., 1) und den im Laufeder Rechnung mitvertauschten Multiplikatoren, dann gilt

P A Q = L R

2

Beispiel 3.3.1. In zweiten Beispiel in Abschnitt 3.2 wird somit

P =

0 1 00 0 11 0 0

Q =

0 0 10 1 01 0 0

L =

1 0 01 1 0−1 −1 1

R =

3 1 10 −2 00 0 1

2

Die Bedeutung der Pivotelemente wird aus folgendem Satz klar, den wir fur ei-ne Dreieckszerlegung ohne Vertauschungen formulieren. Im allgemeinen Fall hatman einfach PAQ an die Stelle von A zu setzen.


Satz 3.3.2. Zusammenhang zwischen den Pivotelementen und denHauptabschnittunterdeterminanten : Wird der Gauß’sche Algorithmusohne Zeilen– und Spaltenvertauschungen bis zur Stufe k, 1 ≤ k ≤ n − 1durchgefuhrt, dann gilt

k∏j=1

α(j)jj = det

α11 · · · α1k...

...αk1 · · · αkk

=kte Hauptabschnitts-

unterdeterminantevon A

Sind also alle Hauptabschnittsunterdeterminanten von A von null verschieden,dann ist der Gauß’sche Algorithmus ohne Zeilen– und Spaltenvertauschungendurchfuhrbar. In diesem Fall ist also schließlich

det (A) =n∏j=1

α(j)jj

2

<<

Beweis: Es ist α11 · · · α1k...

...αk1 · · · αkk

= (e1, ..., ek)T A (e1, ..., ek)

Nach Konstruktion ist

Tk...T1A =

α(1)11 · · · · · · · · · · · · · · ·

0. . .

......

...... α

(k)k,k

...... 0

......

......

0 · · · 0 · · · · · · · · ·

=

Rk Ak

O

d.h. wegen

T−11 ...T−1

k =

1

`21. . .

.... . . 1

... `k+1,k 1

...... 0

. . .

`n1 · · · `n,k... 0 1

`ji“Multiplikatoren”


α11 · · · α1,k...

...αk1 · · · αkk

=

eT1...

eTk

T−11 ...T−1

k

Rk

...

· · ·... Ak

0...

(e1, ..., ek)

=

eT1...

eTk

T−11 ...T−1

k

Rk

0

=

1 0 · · · 0

`21. . .

......

.... . .

......

`k1 · · · · · · 1 0 · · · 0

Rk

0

= Lk Rk

und wegen det (Lk) = 1

det

α11 · · · α1k...

...αk1 · · · αkk

= det (Lk Rk) = det (Rk) =k∏j=1

α(j)jj

Fur k = n− 1 wird

Tn−1...T1A = R,⇒ det (Tn−1)︸︷︷︸=1

...det (T1)︸︷︷︸=1

det (A) = det (R) =n∏j=1

α(j)jj

2

>>

Die Voraussetzungen von Teil 2 von Satz 3.3.2 sind erfullt bei strikt diagonaldo-minanten Matrizen und bei positiv definiten Matrizen:

Definition 3.3.1. A ∈ Kn×n heißt strikt diagonaldominant, falls

|αii| >n∑

j=1j 6=i

|αij| i = 1, ..., n.

2

Definition 3.3.2. A ∈ Kn×n mit A = AH heißt positiv definit, falls

xHAx > 0 ∀x ∈ Kn mit x 6= 0

2


Es gilt namlich

Satz 3.3.3. Jede strikt diagonaldominante Matrix ist invertierbar. Wird derGauss’sche Algorithmus auf eine strikt diagonaldominante Matrix mit dernaturlichen Pivotisierung angewendet, dann ist jede Restmatrix wieder striktdiagonaldominant.

Beweis: Ubung 2

Satz 3.3.4. Alle Hauptuntermatrizen einer positiv definiten hermitischen Ma-trix sind positiv definit und besitzen eine positive Determinante. Alle Eigen-werte einer positiv definiten Matrix sind positiv.

Beweis: A hermitisch ⇒ ∃U unitar (d.h. UUH = UHU = I) mit

UHAU = diag (λ1, ..., λn) λi : Eigenwerte von A

Sei U = (y1, ..., yn). Setze x := yi. Dann x 6= 0 und

xHAx = yHi (y1, ..., yn)diag (λ1, ..., λn)

yH1...yHn

yi =

(0, ..., 1︸︷︷︸i

, 0, ..., 0)diag (λ1, ..., λn)

0...010...0

= λi > 0 (nach Vor.)

und wegen det (A) =n∏i=1

λi folgt det (A) > 0. Sei

Ak =

αi1i1 · · ·αi1ik...

αiki1 · · ·αikik

xk =

ξi1...ξik

6= 0

eine Hauptuntermatrix von A. Setze ξi = 0 falls i ∈ {1, ..., n} \ {i1, ..., ik} undx = (ξ1, ..., ξn)

T Dann wird

xHAx = xHk Akxk > 0

Ferner ist Ak hermitisch, so daß auf Ak nun die gleiche Schlußweise angewandtwerden kann wie oben auf A. 2


Im Fall einer positiv definiten hermitischen Matrix A kann man beim Gauß’–Algorithmus (bzw. bei der Dreieckszerlegung) also auf Vertauschungen ganz ver-zichten. Ferner wird wegen

det

α11 · · · α1k...

...αk1 · · · αk,k

> 0 k = 1, ..., n

und

α(i)ii = det

α11 · · · α1i...

...αi1 · · · αi,i

/ det

α11 · · · α1i−1...

...αi−1,1 · · · αi−1,i−1

α

(i)ii > 0 i = 1, ..., n. Schließlich ergibt sich, daß auch alle “Restmatrizen”

(α(k+1)ij ) k + 1 ≤ i, j ≤ n, k = 1, ..., n− 1

hermitisch sind, d.h. es wird

A = LR

mit

R =

α

(1)11 · · · . . . α

(1)1n

α(2)22

.... . .

...

α(n)nn

, α(i)ii > 0,

L =

1

α(1)12 /α

(1)11

...

α(1)1n /α

(1)11 · · · α

(n−1)n−1,n/α

(n−1)n−1,n−1 1

Setzen wir also

D := diag (1√α

(1)11

, ...,1√α

(n)nn

)

dann wird

A = LR = LD−1DR = LLH mit L := LD−1.

Diese symmetrische Form der Dreieckszerlegung wird als Cholesky–Zerlegungbezeichnet. Sie existiert nur bei hermitischen, positiv definiten Matrizen.Die Elemente ˜ij der unteren Dreiecksmatrix L kann man sukzessive spaltenweiseberechnen:


........

........

........

........

........

........

........

........

........

........

........

........

........

....................................................................................................................................................................................................................................................................................................................................

=

........

........

........

........

........

........

........

........

........

........

........

........

........

.....................................................................................................................................................................................................................................................................

.

............................................................................................................................................................................................................................................

......................

......................

......................

......................

......................

...................

A = L . LH

Die Berechnung wird eindeutigwenn man verlangt, daß alle˜ii > 0

........................................................................................

........ ........ ........ ........ ........ ........ ........ ........ .... .......................................................................................................................................................................................

......................

.................................

. . . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .

..

..

..

..

..

..

.

• j →˜jk

↑i

¯ik

Berechnung der Cholesky-Zerlegung:

i = 1, . . . , n :

αii =i∑

k=1

˜ik

¯ik ⇒ |˜ii|2 = αii −

i−1∑k=1

|˜ik|2 > 0.

˜ii :=

√√√√αii −i−1∑k=1

|˜ik|2

j = i+ 1, . . . , n :

αji =i∑

k=1

˜jk

¯ik ⇒ ˜

ji = (αji −i−1∑k=1

˜jk

¯ik)/˜ii

(3.2)

Aus der Gleichung (3.2) folgt, daß

|˜jk| ≤√αjj fur k = 1, ..., j und j = 1, ...n

d.h. kein Element des Cholesky–Faktors L wird “groß” im Vergleich zu den Ele-menten der Ausgangsmatrix. Dies bedingt eine außerordentliche Unempfindlich-keit dieses Algorithmus bezuglich Rundungsfehlern.

Beispiel 3.3.2.

A =

60 30 2030 20 1520 15 12

⇒˜11 =

√60 = 2

√15

˜21 = 30/

√60 =

√15

˜31 = 20/

√60 = 2

√5/3

˜22 =

√20−

√15

2=√

5˜32 = (15−

√15 · 2

√5/3)/

√5 =√

5

˜33 =

√12− (2

√5/3)2 − (

√5)2) = 1/

√3

2

Eine unmittelbare Folgerung von Definition 3.3.2 und Satz 3.3.4 ist

Satz 3.3.5. A ist genau dann hermitisch und positiv definit, wenn A eineZerlegung A = LLH besitzt mit L als invertierbarer unterer Dreiecksmatrix.Diese Zerlegung ist eindeutig, wenn man die Diagonalelemente von L positivreell wahlt .

3.4. ANWENDUNG DER DREIECKSZERLEGUNG.DREIECKSZERLEGUNG IN SPEZIALFALLEN133

Bemerkung 3.3.1. Statt der Cholesky–Zerlegung kann man auch die sogenannteLDLT–Zerlegung benutzen, worin

A = LR

die gewohnliche LR–Zerlegung (L mit Diagonale (1, . . . , 1) ) ist und

R = DLT

D = (α(1)11 , . . . , α

(n)nn ).

2

3.4 Anwendung der Dreieckszerlegung.

Dreieckszerlegung in Spezialfallen

Ist eine Dreieckszerlegung

PAQ = LR P,Q Permutationsmatrizen

einer Matrix A bekannt, so kann die Auflosung eines Gleichungssystems

Ax = b

mit beliebiger rechter Seite b muhelos bewerkstelligt werden: Wegen

A = P TLRQT

wird

Ax = b⇔ P TLRQTx = b⇔ LRQTx = Pb

Mit der Bezeichnung

d := Pb, y := QTx, z := Ry

hat man also vorzugehen wie folgt: P sei gegeben durch den Vektor der vertausch-ten Zeilennummern mit den Komponenten πi und Q durch den Vektor mit denvertauschten Spaltennummern σi. Die Matrizen P und Q werden in der Rechnungnie explizit benotigt.


Losung eines linearen Gleichungssystems bei gegebener Dreieckszer-legung:

1. δi = βπii = 1, ..., n mit d = (δ1, ..., δn)

T ,

b = (β1, ..., βn)T , P =

eTπ1...eTπn

2. Lose Lz = d

zur Bestimmung von z (vgl. 3.1)

3. Lose Ry = zzur Bestimmung von y (vgl. 3.1)

4. ξσi= ηi i = 1, ..., n

mit y = (η1, ..., ηn)T , x = (ξ1, ..., ξn)

T , Q = (eσ1 , ..., eσn).

Es ist also moglich, beim Gauß’–Algorithmus zuerst allein die Matrix A zu behan-deln (Dreieckszerlegung) und dann die eigentliche Losung des Gleichungssystemsin den Schritten 1. bis 4. zu leisten. Dies bedeutet gegenuber der Originalversiondes Algorithmus weder eine Steigerung des Rechenaufwandes noch des Speicher-bedarfs. Dies ist wichtig fur die Praxis, wo man die zu benutzenden rechten Seitenb oft nicht im voraus kennt.

Die Dreieckszerlegung kann man auch vorteilhaft zur Matrixinversion benutzen.(Diese Aufgabe tritt allerdings in der Praxis selten auf. Zur Losung eines linearenGleichungssystems ist es jedenfalls nicht sinnvoll, erst die Inverse zu berechnenund dann mit der rechten Seite zu multiplizieren, weder unter dem Gesichtspunktdes Rechenaufwandes noch dem der Rechengenauigkeit). Sei also

PAQ = LR =

......................................................................................................................................................................

......................

......................

......................

.............

·...........................................................................................................................................................

......................

......................

......................

......................

..

P,Q Permutationsmatrizen

Dann wird

A = P TLRQT

A−1 = QR−1L−1P (3.3)

Die Inversion der Dreiecksmatrizen R,L kann (ohne zusatzlichen Speicherauf-wand) geleistet werden, indem man nacheinander die Spaltenn, n − 1, ..., 1 von R−1 und 1, 2, ..., n − 1 von L−1 (unter Ausnutzung der 1-Diagonale bei L) nach 3.1. bildet. Bei der Produktbildung R−1L−1 nutzt man

Anwendung der Dreieckszerlegung 135

die spezielle Struktur der Matrix aus:

`′ij, %′ik, α

′ij : Elemente von L−1, R−1, A−1

............................................................................................................................................................................................................................................

......................

......................

......................

......................

......................

................... .................................................................................................................................................................................................................................

......................

......................

......................

......................

......................

......................

........

α′ij =n∑

k=max {i,k}

%′ik`′kj i, j = 1, . . . , n

.................................................................................................................................................................

........

........

........

........

........

........

......

........

........

........

........

........

...

. . . . . . . . . . .. . . . . . . . . . .. . . . . . . . . . . .

..

..

..

.

..

..

..

..

..

..

i→j↓

(Beachte: `′jj = 1)

Schließlich muß man noch die Vertauschungen P,Q anwenden. Wegen

P = Pn−1 · · ·P1 Q = Q1 · · ·Qn−1

folgt aus (3.3), daß man die bei der Dreieckszerlegung angewandten Zeilenver-tauschungen in umgekehrter Reihenfolge auf die Spalten des Produkts und ent-sprechend die Spaltenvertauschungen auf die Zeilen anzuwenden hat:

A−1 = Q1 · · ·Qn−1A′Pn−1 · · ·P1 .

Man kann zeigen, daß der Gesamtrechenaufwand dann n3 + O(n2) Operationender Form α := β + γ × δ bzw. α := β + γ/δ betragt.

Bei einigen, in den Anwendungen haufig auftretenden Matrizen besitzt auch dieDreieckszerlegung spezielle Strukturen, die man zur Verringerung des Rechen–und Speicheraufwandes sinnvoll einsetzen kann.

Definition 3.4.1. A ∈ Kn×n heißt (obere)Fast–Dreiecksmatrix (Hessenberg–Matrix) falls αij = 0 fur j < i− 1

2

Hessenbergmatrizen treten u.a. bei der numerischen Losung des Matrizeneigen-wertproblems auf. Sehr viel haufiger hat man es mit folgenden Matrizentypen zutun:

Definition 3.4.2. Sei A = AT (reell). Ferner gelte

αi,j = 0 fur 1 <= j < k(i)− 1, i = 1, . . . , n

mit k(i) = 1 falls αi,1 6= 0. Dann heisst (k(i), i) die Einhullende von A. 2


Definition 3.4.3. A ∈ Kn×n heißt (p, q)–Bandmatrix falls

αij = 0 fur j < i− p und j > i+ q

A =

...................................................................................................................................................................................................................................

........

........

........

........

........

........

......

.................................................................................................................................................................

...........................................................................................................

......................

......................

......................

......................

......................

......................

...................

..

..

..

..

..

..

..

..

.

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

{p

q︷︸︸︷

2

In der Praxis treten z.B. haufig Dreibandmatrizen auf (p = q = 1 in Def. 3.4.2)Verzichtet man bei einer oberen Hessenbergmatrix auf Spaltentausch, dann hatman pro Eliminationsschritt nicht eine ganze Restmatrix, sondern nur eine Zei-le zu transformieren (so tritt z.B. die Unbekannte ξ1 nur in der ersten und derzweiten Gleichung auf!). Die Matrix L besitzt dann unterhalb der Diagonalennur (hochstens) ein von Null verschiedenes Element. Kann man ganz auf Vertau-schungen verzichten, dann wird L eine Bidiagonalmatrix (p = 1, q = 0 in Def.3.4.2.)Kann man bei einer Bandmatrix ganz auf Vertauschungen verzichten, dann erhaltL die Bandbreite p + 1 und R die Bandbreite q + 1, d.h. die Information uberdie Dreieckszerlegung belegt (wegen der nicht zu speichernden Diagonalen vonL) nur einen Speicherbereich von n × (p + q + 1). Man speichert dann auch dieAusgangsmatrix selbst in einem solchen Rechteckfeld

A⇔ A =

0 · · · 0 α11 · · · · · · α1,q+1... α21 α22 α2,q+2

0...

...αp+1,1 αp+1,p+1 αp+1,q+p+1

......

......

... αn−q,n...

... 0...

......

αn,n−p · · · · · · αn,n 0 · · · 0

αi,j−i+p+1 := αi,j

Anwendung der Dreieckszerlegung 137

Beispiel 3.4.1. Dreieckszerlegung einer Dreibandmatrix mit naturlicher Pivot-wahl

A =

1 −1−1 2 −1

−1 2 −1−1 2 −1

−1 2

→

1 −1−1 1 −1

−1 1 −1−1 1 −1

−1 1

Dreieckszerlegungohne Vertauschungen

2

Satz 3.4.1. Strukturerhaltung bei LR-Zerlegung

1. Wird der Gauss’sche Algorithmus auf eine (p, q)−Bandmatrix mitnaturlicher Pivotwahl angewendet, dann ist L eine (p, 0) und R eine(0, q) Bandmatrix.

2. Wendet man in diesem Fall Spaltenpivotwahl an, dann besitzt L in jederSpalte hochstens p Nichtnullelemente unterhalb der Diagonalen und Rist eine (0, p+ q) Bandmatrix.

3. Bei naturlicher Pivotwahl erhalt der Gauss-Algorithmus die Einhullendeeiner symmetrischen Matrix.

2

Man beachte, daß die Inverse einer Bandmatrix normalerweise eine vollbesetzteMatrix ist. So hat z.B. die Matrix aus Beispiel 3.4.1 die Inverse

A−1 =

5 4 3 2 14 4 3 2 13 3 3 2 12 2 2 2 11 1 1 1 1

Es ware also ein großer Kunstfehler, die Auflosung eines Gleichungssystems miteiner Bandmatrix auf dem Umweg uber die Berechnung der Inversen leisten zuwollen. In den Anwendungen treten haufig noch allgemeinere sogenannte ”dunnbesetzte” (sparse) Matrizen auf, z.B. Matrizen wie die folgende (nur die Elementeungleich null sind hier als Muster eingetragen)


0 10 20 30 40 50 60 70 80 90 100

0

10

20

30

40

50

60

70

80

90

100

nz = 460

Solche Matrizen kann man auf verschiedene Weise abspeichern. Haufig wird einSystem aus drei Vektoren (Zeilenindex, Spaltenindex, Wert) benutzt, z.B.

i 1 1 2 3 3 4 4 4j 1 4 2 3 4 1 2 4αi,j 2 1 4 1 2 3 1 1

fur die Matrix 2 0 0 10 4 0 00 0 1 23 1 0 1

.

Es gibt spezielle Techniken, um bei der Durchfuhrung des Gauss-Algorithmusdas sogenannte ”fill in”, d.h. das Auftreten von Koeffizienten ungleich null aufPositionen in den A(i), die in A null waren, klein zu halten. Dazu sei auf dieSpezialliteratur verwiesen, z.B. Duff, I.S.; Erisman, A.M.; Reid, J.K.: ”Directmethods for sparse matrices”. Oxford: Clarendon Press (ISBN 0-19-853421-3)

Zum Abschluß geben wir eine tabellarische Zusammenstellung des Rechenauf-wandes, gemessen in Operationen der Form d := a + b × c, d := a + b/c fur diebisher besprochenen Algorithmen:

3.5. VEKTOR– UND MATRIXNORMEN 139

Gestaffeltes Gleichungssystem n(n+ 1)/2Gestaffeltes Gleichungssystem mitDiagonale (1,...,1) n(n− 1)/2Dreieckszerlegung,allgemeiner Fall n3/3− n/3Cholesky-Zerlegung n3/6 + n2/2− 2n/3

n QuadratwurzelnGleichungssystem mit Dreieckszerlegung n3/3− n/3 + n2

Matrixinversion n3

Multiplikation Matrix Vektor n2

Dreieckszerlegung Hessenberg-Matrix n(n+ 1)/2− 1Dreieckszerlegung Bandmatrix Breite2m+1 ohne Zeilentausch nm(m+ 1)Dreieckszerlegung Bandmatrix Breite2m+1 mit Zeilentausch nm(2m+ 1)

3.5 Vektor– und Matrixnormen

Im Folgenden sollen Fehlerfragen bei linearen Systemen diskutiert werden. Diesgeschieht zweckmaßig durch Normabschatzungen. Normen erlauben es, die “Große”der Differenz zwischen Vektoren bzw. zwischen Matrizen durch eine einzige nicht-negative reelle Zahl auszudrucken. Dies erhoht naturlich die Ubersichtlichkeit allerAussagen.

Definition 3.5.1. Eine Abb.: ‖ · ‖ : Kn → R+ (K ∈ {C,R}) heißt Vektor-norm auf Kn, falls sie folgenden Gesetzen genugt:

(V1) ∀x ∈ Kn : ||x|| ≥ 0 ||x|| = 0⇔ x = 0. Definitheit

(V2) ∀α ∈ K,∀x ∈ Kn : ||αx|| = |α| ||x|| Homogenitat

(V3) ∀x, y ∈ Kn : ||x+ y|| ≤ ||x||+ ||y|| Dreiecksungleichung2

.............................................................................................................................................................................................................................................................................

..................................

..................................

..................................

..................................

..................................

..................................

..................................................

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................

x

y

x+ y

........................................................................................................................................................................................................................................................

..................................

..................................

..................................

..................................

..................................

..................................

.......

.................................................................................................................................................................................................................................................................................................................................................................................................................................

‖x‖

‖y‖

‖x+ y‖


Abbildung 3.5.1

Beispiel 3.5.1.

‖x‖p := (n∑i=1

|ξi|p)1/p 1 ≤ p <∞, p = 2 euklidische Norm

‖x‖∞ := maxi=1,...,n

|ξi| Maximumnorm

(Beweis der Normeigenschaften elementare Ubungsaufgabe) 2

Aus (V3) leitet man (wie bei der Betragsfunktion) her

zweite Dreiecksungleichung(V4) ||x+ y|| ≥ | ||y|| − ||x|| | (∀x, y ∈ Kn)

Wichtige Eigenschaften der Normen sind:

Satz 3.5.1. Jede Norm: ‖ · ‖ : Kn → R+ ist eine stetige Funktion in derdurch die Maximumsnorm induzierten Topologie. 2

Beweis:

| ||x|| − ||y|| | = | ||x|| − || − y|| | ≤ ||x− y||

≤n∑i=1

|ξi − ηi| ‖ei‖

≤ nmaxi‖ei‖max

i|ξi − ηi|.

Anwendung der Definition. 2

Satz 3.5.2. Sind ‖ · ‖ und ‖ · ‖∗ zwei Normen auf Kn, dann existieren Kon-stanten m und M mit m > 0 und

∀x ∈ Kn : m||x|| ≤ ||x||∗ ≤M ||x|| (3.4)

2

Beweis: Sei ‖ · ‖ := ‖ · ‖∞ und ‖ · ‖∗ beliebig (der allgemeine Fall folgt durchTransitivitat). Sei

S := {x ∈ Kn : x = (ξ1, ..., ξn)T mit max

i|ξi| = 1}

S ist der Rand der Einheitskugel der Maximumnorm. S ist kompakt in der Topo-logie, die durch diese Norm induziert ist. Da ‖·‖∗ stetig ist, existieren xm, xM ∈ Smit

||xm||∗ = min{ ||x||∗ : x ∈ S} =: m, ||xM ||∗ = max{ ||x||∗ : x ∈ S} =: M


Somit∀x ∈ Kn, x 6= 0 m ≤ || x

||x||∞||∗ ≤M

d.h. unter Ausnutzung der Homogenitat (3.4). ((3.4) trivial fur x = 0) 2

Wegen (3.4) sagt man, auf Kn seien alle Normen topologisch gleichwertig (aquiva-lent). In unendlich–dimensionalen Raumen gilt diese Relation in der Regel nicht.(Durch die Definition

dist(x, y) := ||x− y|| (3.5)

bei bel. ‖·‖ kann man in Kn eine Metrik einfuhren. Jedoch kann nicht jede Metrikdurch eine Norm gemaß (3.5) erklart werden.

(Beispiel dist(x, y) :=n∑i=1

√|ξi − ηi|))

Da die Menge aller n ×m–Matrizen uber K einen linearen Vektorraum der Di-mension nm bildet, kann man auch hierfur Normen einfuhren, die den Gesetzen(V1)–(V3) aus Def. 3.5.1 genugen. Fur das praktische Arbeiten sind diese Eigen-schaften jedoch noch nicht ausreichend, weil man ja auch Normen von Matrizen-produkten durch Normen der Faktoren ausdrucken konnen will. Dies fuhrt zu

Definition 3.5.2. Eine Abb. ‖·‖ Kn×n → R+ heißt Matrixnorm auf Kn×n,falls gilt: ∀ A,B ∈ Kn×n, ∀ α ∈ K:

(M1) ||A|| ≥ 0, A = 0⇔ ||A|| = 0

(M2) ||αA|| = |α| ||A||

(M3) ||A+B|| ≤ ||A||+ ||B||

(M4) ||AB|| ≤ ||A|| ||B|| (Submultiplikativitat)2

Bemerkung 3.5.1. Die Einschrankung auf n×n–Matrizen in Def. 3.5.2. ist da-durch bedingt, daß man Normen dimensionsabhangig definieren kann. (vgl. Bsp)Bei vielen praktisch wichtigen Normen bleiben jedoch (M1)–(M4) gultig,wenn fur A und B beliebige verknupfbare Rechteckmatrizen stehen.

2

Beispiel 3.5.2. A = (αij) ∈ Kn×n

||A|| := n max{|αij| : 1 ≤ i, j ≤ n}Nachweise von (M1)–(M4) elementar 2

Ist A eine n × n Matrix und x ∈ Kn d.h. Ax ∈ Kn, dann konnen wir folgendeNormen betrachten:

||Ax||, ||A||, ||x||

‖ · ‖ Norm auf Kn ‖ · ‖ Matrixnorm auf Kn×n


Ein fur die Praxis sinnvoller Zusammenhang (interpretiere x als n × 1 Matrix)ist offensichtlich

||Ax|| ≤ ||A|| ||x||

Diese Uberlegung fuhrt zu

Definition 3.5.3. Die Matrixnorm ‖ · ‖ auf Kn×n heißt vertraglich mit derVektornorm ‖ · ‖ auf Kn , falls(M5) ||Ax|| ≤ ||A|| ||x|| ∀x ∈ Kn 2

Wir definieren nun die kleinstmogliche Matrixnorm, die mit einer gegebenen Vek-tornorm vertraglich ist:

Satz 3.5.3. Ist ‖ · ‖ eine Vektornorm auf Kn, dann wird durch die Definition

||A|| = max||x||=1

||Ax|| = maxx 6= 0

||Ax||||x||

eine Matrixnorm eingefuhrt, die (M1)–(M5) erfullt. Man bezeichnet sie als dieder Vektornorm zugeordnete Matrixnorm.

Beweis: elementare Ubungsaufgabe. 2

Ist A eine invertierbare Matrix, so kann man ||A−1|| mittels ||Ax|| bestimmen aus

||A−1|| = maxx 6= 0

||A−1x||||x|| =

1

minx 6= 0{ ||Ax||||x|| }.

Die Definition der zugeordneten Matrixnorm ist auch sinnvoll fur A ∈ Km×n mitm 6= n!

Es gibt Matrixnormen, die mit einer Vektornorm vertraglich sind, ohne ihr zuge-ordnet zu sein, z.B. die Kombination

||x|| = max{|ξi|} und ||A|| = nmax{|αi,j|}

und

||x|| = (n∑i=1

|ξi|2)1/2 und ||A|| = (n∑

i,j=1

|αi,j|2)1/2 Frobeniusnorm

Manchmal schreibt man fur die zugeordnete Norm auch deutlicher

lub‖·‖(A)

Falls die Bedeutung der Norm ‖ · ‖ aus dem Zusammenhang klar ist, schreibtman auch einfach nur lub(A). Wir werden jedoch hier diese Schreibweise nicht


verwenden und stattdessen immer die einer Vektornorm zugeordnete Matrixnormbetrachten mit dem gleichen Symbol ||.||. Ausnahmefalle werden ausdrucklichvermerkt. Die den wichtigsten Vektornormen zugeordneten Matrixnormen kannman leicht formelmaßig angeben:

Satz 3.5.4. Es bezeichne ‖ · ‖∞ die Maximumnorm auf Kn bzw. Km und

||A||∞ = max||x||∞=1

||Ax||∞ fur A ∈ Km×n

Dann gilt

||A||∞ = maxi=1,...,m

n∑j=1

|αij|

||A||∞ erfullt (M1) − (M3) aus Def 3.5.2., (M5) aus Def 3.5.3. und furB ∈ Kn×p auch (M4)

||AB||∞ ≤ ||A||∞||B||∞Beweis: Wir beweisen zunachst, daß die angegebene Grosse fur das Maximumeine obere Schranke ist und konstruieren dann ein x, fur das diese Schrankeangenommen wird. Diese Vorgehensweise ist notwendig, da die zu maximierendeFunktion nicht differenzierbar ist. Der Fall A = 0 (Nullmatrix) ist trivial. SeiA 6= 0. Es ist

||Ax||∞ = maxi=1,...,m

|n∑j=1

αijξj| ≤ maxi=1,...,m

n∑j=1

|αij|

fur |ξj| ≤ 1 und maxj |ξj| = 1, also auf dem Rand der Einheitskugel der Maxi-mumnorm. Werde das zweite Maximum angenommen fur i = i0.Setze dann

ξj = sign(αi0,j), j = 1, ..., n

Dann ist naturlich ||x||∞ = 1 und

||Ax||∞ =n∑j=1

|αi0,j| = |n∑j=1

αi0,jξj|

die Schranke wird also angenommen. (M1) − (M3) sind offensichtlich, ebenso(M5). Zum Nachweis der Submultiplikativitat beachte (fur A B 6= 0)

||AB||∞ = max||x||∞=1

||ABx||∞ = maxx 6=0

||ABx||∞||x||∞

= maxx 6=0

||Ay︷︸︸︷Bx ||∞||Bx||∞|| Bx︸︷︷︸

y

||∞||x||∞

(da dieses Maximum sicher nicht fur Bx = 0 angenommen wird)

≤ maxy 6=0

||Ay||∞||y||∞

maxx 6=0

||Bx||∞||x||∞

= ||A||∞||B||∞


Fur A B = 0 ist nichts zu zeigen! 2

Ebenso elementar beweist man die Formeln

||A||1 = maxj=1,...n

m∑i=1

|αi,j| mit ||A||1 = max||x||1=1

||Ax||1,

||A||2 =√%(AHA) mit ||A||2 = max

||x||2=1||Ax||2.

Dabei bezeichnet %(B) den Betrag des betragsgroßten Eigenwertes von B, densogenannten Spektralradius .

Aus den einfachen Normen kann man leicht weitere konstruieren auf Grund fol-gendes Satzes

Satz 3.5.5. Sei ‖.‖ eine Vektornorm und T eine feste invertierbare Matrix.Dann ist auch die durch

‖x‖T = ‖Tx‖

definierte Funktion eine Vektornorm. Die zugeordnete Matrixnorm berechnetsich zu

‖A‖T = ‖TAT−1‖

Beweis: Ubungaufgabe. 2

Der folgende Satz liefert eine untere Schranke fur jede einer Vektornorm zuge-ordnete Matrixnorm:

Satz 3.5.6. Sei ‖.‖ irgendeine Vektornorm auf Cn und die Matrixnorm ‖.‖sei der Vektornorm zugeordnet. Dann gilt

%(B) ≤ ‖B‖

Beweis: Sei λ ein Eigenwert von B mit |λ| = %(B) und x 6= 0 ein zugehorigerEigenvektor. Dann

‖λx‖ = |λ| ‖x‖ = %(B)‖x‖ = ‖Bx‖ ≤ ‖B‖ ‖x‖

2

Matrixnormen treten vielfach in Fehlerabschatzungen auf, weshalb man an Nor-men mit moglichst kleinen Werten interessiert ist. Der vorstehende Satz zeigt,daß man den Spektralradius niemals mit einer Matrixnorm unterbieten kann.

Ist A symmetrisch und positiv definit, dann ist ‖A‖2 = %(A) (Beweis als ele-mentare Ubungsaufgabe). Dies und ‖U‖2 = 1 fur jedes unitare U erklart dieBeliebtheit von ‖.‖2 bei theoretischen Untersuchungen. Andererseits kann manzu jeder festen gegebenen Matrix B und zu jedem ε > 0 eine Vektornorm ‖.‖Bkonstruieren, so daß in der zugeordneten Matrixnorm gilt

‖B‖B ≤ %(B) + ε.

3.6. SENSITIVITATSANALYSE FUR LINEARE GLEICHUNGSSYSTEME145

Die Konstruktion dieser Norm hangt allerdings von B selbst ab:

Satz 3.5.7. Sei B ∈ Cn×n bel. und ε > 0 bel. Dann existiert eine Vektornorm‖.‖B mit

‖B‖B ≤ %(B) + ε.

Beweis: Bekanntlich existiert zu jedem B ∈ Cn×n eine invertierbare Matrix Tmit

T−1BT = J = Λ +H

wobei Λ die Matrix aus den n Eigenwerten von B ist und H eine Matrix, diehochstens in der ersten Superdiagonalen Elemente 6= 0 hat, die man ublicherweisezu 1 normiert:

hlk =

{0 k 6= l + 1

∈ {0, 1} k = l + 1

(die Jordannormalform der Matrix). Wir setzen nun

D = diag (1, ε, ε2, . . . , εn−1).

Dann wirdD−1T−1BTD = D−1JD = Λ +D−1HD

und D−1HD hat die gleiche Struktur wie H, nur daß aus 1 nun ε geworden ist.Also ist

‖D−1T−1BTD‖∞ ≤ %(B) + ε.

Aber ‖D−1T−1BTD‖∞ ist die Matrixnorm von B, die der Vektornorm

‖x‖Bdef= ‖D−1T−1x‖∞ zugeordnet ist. 2

3.6 Sensitivitatsanalyse fur lineare Gleichungs-

systeme

In diesem Abschnitt beschaftigen wir uns vornehmlich mit folgender Fragestel-lung: Gegeben sei das eindeutig losbare lineare Gleichungssystem

Ax = b

Welcher Zusammenhang besteht dann zwischen x und der Losung x des Glei-chungssystems

Ax = b

wenn ‖A−A‖ und ‖b−b‖ “hinreichend klein” sind? Hier ordnet sich naturlich auchdie Fragestellung nach der Differenz A−1−A−1 ein. Diese Frage tritt z.B. auf, wennMatrixkoeffizienten nur mit einer gewissen Unsicherheit bekannt sind, z.B. selbstdas Resultat von Messungen oder von vorausgegangenen Berechnungen sind und


bei der Untersuchung des Rundungsfehlereinflusses bei der Durchfuhrung unsererAlgorithmen mit gerundeter Rechnung, z.B. auf einem Computer.

Wir beginnen mit einem einfachen Spezialfall, der Storung der Einheitsmatrix.

Satz 3.6.1. Banach perturbation Lemma Es sei ‖·‖ eine Vektornorm aufCn. Als Matrixnorm auf Cn×n werde die zugeordnete Norm verwendet. FallsH ∈ Cn×n und

‖H‖ < 1

dann ist I +H regular und es gilt

(i) ‖(I +H)−1‖ ≤ 1/(1− ‖H‖)

(ii) ‖(I +H)−1 − I‖ ≤ ‖H‖/(1− ‖H‖)2

Beweis: Sei x 6= 0 bel. Zu zeigen ist zunachst (I +H)x 6= 0. Dies ist aquivalentmit ‖(I +H)x‖ 6= 0. Aber

‖(I +H)x‖ = ‖x+Hx‖≥ ‖x‖ − ‖Hx‖≥ ‖x‖ − ‖H‖ ‖x‖= (1− ‖H‖)‖x‖ > 0

Ferner

1 = ‖I‖ = ‖(I +H)(I +H)−1‖= ‖(I +H)−1 +H(I +H)−1‖≥ ‖(I +H)−1‖ − ‖H(I +H)−1‖≥ ‖(I +H)−1‖ − ‖H‖ ‖(I +H)−1‖= (1− ‖H‖)‖(I +H)−1‖ ⇒ (i)

‖(I +H)−1 − I‖ = ‖(I +H)−1 − (I +H)−1(I +H)‖= ‖ − (I +H)−1H‖≤ ‖H‖ ‖(I +H)−1‖ ⇒ (ii)

2

Zusatz 1 zu Satz 3.6.1:Ist %(H) < 1, dann ist I + H regular und in einer geeigneten Norm gelten dieAussagen von 3.6.1.Beweis: Benutze Satz 3.5.7. 2

Zusatz 2 zu Satz 3.6.1:Ist %(H) < 1, dann ist I +H regular und

(iii) (I +H)−1 =∞∑k=0

(−1)kHk (Neumann’sche Reihe)

Sensitivitatsanalyse 147

Beweis: Benutze Zusatz 1. Definiere

Sn =n∑k=0

(−1)kHk

Dann gilt fur m > n (unter mehrfacher Anwendung von (M3) und (M4))

‖Sn − Sm‖ ≤m∑

k=n+1

‖H‖k ≤ ‖H‖n+1 1

1− ‖H‖< ε

fur n > N(ε), d.h. ∃ limn→∞

Sn = S

Sn(I +H) = Sn + SnH

=n∑k=0

(−1)kHk −n∑k=0

(−1)k+1Hk+1

= I − (−1)n+1Hn+1

d.h.

‖S(I +H)− I‖ = ‖Sn(I +H)− I + (S − Sn)(I +H)‖

≤ ‖H‖n+1 + ‖S − Sn‖1

1− ‖H‖< ε fur n > N(ε)

wahrend die linke Seite unabhangig von n ist, d.h. (iii) 2

Beispiel 3.6.1.

A =

1.0 0.3 0.3 0.4−0.2 1.0 0.0 0.2

0.2 −0.6 1.0 0.10.4 0.0 0.6 1.0

Hier ist offenbar ||.||∞ ungeeignet, wahrend ||.||1 den Wert ||H||1 = 0.9 ergibt,die Matrix ist also invertierbar, ihre Inverse hat eine 1-Norm ≤ 10.

A =

(3 900

0.004 4

)Hier bringen wir A durch Multiplikation mit einer Diagonalmatrix aus den rezi-proken Diagonalelementen auf die gewunschte Gestalt:

diag(13, 1

4)A =

(1 300

0.001 1

)A ist offenbar genau dann invertierbar, wenn der zweite Faktor dies ist. Nunkonnen wir keine der ”Standardnormen” benutzen. Wahlen wir aber

||x|| def= max{|ξ1|, 600|ξ2|} = ||diag(1, 600)x||∞ ,


dann wird die zugeordnete Matrixnorm zu

||diag(1, 600)(.)(diag(1, 600))−1||∞und die so transformierte Matrix (

1 0.50.6 1

)erlaubt nun die Anwendung des Satzes.

Zusatz 3 zu Satz 3.6.1:Sei A ∈ Cn×n regular und A ∈ Cn×n gegeben mit

‖A−1‖ ‖A− A‖ < 1

(‖ · ‖ sei irgendeine einer Vektornorm zugeordnete Matrixnorm.)Dann ist A regular und

‖A−1 − A−1‖‖A−1‖

≤ ‖A−1‖‖A− A‖ 1

1− ‖A−1‖ ‖A− A‖

Beweisidee: Schreibe A = A+ A−A = A(I +A−1(A−A)) und verwende denProduktsatz fur Determinanten und Inverse. 2

Wir gelangen nun zum allgemeinen Storungssatz fur lineare Gleichungssysteme:

Satz 3.6.2. Storungssatz fur lineare Gleichungssyteme Sei A ∈ Kn×n

regular, b 6= 0, b ∈ Kn, A ∈ Kn×n, b ∈ Kn. Es gelte in der der Vektornorm ‖ · ‖zugeordneten Matrixnorm

‖A−1‖ ‖A− A‖ < 1

Ferner sei x := A−1b. Dann ist A invertierbar und fur die eindeutig bestimmteLosung x von Ax = b gilt

‖x− x‖‖x‖

≤ cond ‖·‖(A)

(‖b− b‖‖b‖

+‖A− A‖‖A‖

)1

1− cond ‖·‖(A)‖A−A‖‖A‖

(3.6)

mit cond ‖·‖(A) := ‖A‖ ‖A−1‖.2

Beweis: Die Existenz von A−1 folgt aus Zusatz 3 zu Satz 3.6.1. (unter Ausnut-zung von Satz 3.6.1 (ii) und ‖H‖ ≤ ‖A−1‖‖A− A‖ < 1). Wir benutzen nun

Ax = b ⇔Ax+ (A− A)x = Ax+ b− b ⇔

A(x− x) + (A− A)(x− x) = b− b− (A− A)x ⇔(I + A−1(A− A))(x− x) = A−1(b− b− (A− A)x)

Sensitivitatsanalyse 149

Wir wenden nun unsere Normsgesetze an und erhalten

(1− γ)‖|x− x|| ≤ ||A−1||(||b− b||+ ||A− A||||x||) .

mitγ = ||A−1||||A− A|| .

Wir dividieren durch ||x|| und benutzen auf der rechten Seite die Ungleichung

1

||x||≤ ||A||||b||

wegen Ax = b ⇒ ||A||||x|| ≥ ||b||. Divison durch 1 − γ und Erweiterung von||A− A|| zu (||A− A||/||A||)||A|| liefert die Behauptung. 2

Definition 3.6.1. Die Große cond ‖·‖(A) := ‖A‖ ‖A−1‖ heißt die Konditi-onszahl der Matrix bezuglich der Gleichungslosung in der Norm ‖ · ‖. 2

Bemerkung 3.6.1. Es gilt stets cond ‖·‖(A) ≥ %(A)%(A−1) ≥ 1.(vgl. Satz 3.5.4). Falls cond ‖·‖(A) � 1, dann besagt dies, daß schon geringeFehlereinflusse (in der Matrix A oder z.B. Rundungsfehlereinflusse bei der Glei-chungsauflosung, die man so deuten kann, als ware die Ausgangsmatrix A ab-geandert worden bei anschließender exakter Rechnung) eine starke Veranderungder Losung des Gleichungssystems hervorrufen konnen. Man sagt dann, das Glei-chungssystem sei “schlecht konditioniert”. 2

Beispiel 3.6.2.

A =

(12

13

13

14

)b =

(−1

6

−16

)x =

(1−2

)A =

(.5 .337

.337 .246

)b =

(−.165−.165

)x =

(1.5920898−2.8517654

)‖A− A‖∞‖A‖∞

=.0076

.83= .0092,

‖b− b‖∞‖b‖∞

= 0.01, cond ‖·‖(A) = 50

‖x− x‖∞‖x‖∞

= 0.42588 ≤ 16

9= 1.7 (Abschatzung ziemlich realistisch!) 2

Man konnte meinen, daß aufgrund der in Satz 3.6.2 benutzten Abschatzungs-technik die Aussage 3.6 viel zu grob ausfallt. Dies ist nicht der Fall. Man kannvielmehr zeigen, daß es stets Storungen δA und δb gibt, sodaß mit A = A + δAund b = b + δb in dieser Abschatzung die Gleichheit gilt bis auf einen Termzweiter Ordnung in den Storungen. Man kann also u.a. niemals aus der Kleinheitdes ”Residuums” einer berechneten Losung

rε := b− Axε (“Einsetzprobe”)

auf die Kleinheit von‖x− xε‖/‖x‖ schliessen, denn

x− xε = A−1rε


Beispiel 3.6.3.

A0 =

(1.2969 0.86480.2161 0.1441

)b0 =

(0.86420.1440

)x0 =

(2−2

)Es ist A0x0 = b0. Mit

x =

(0.9911−0.4870

)ergibt sich das Residuum (

−10−8

10−8

)2

Bemerkung 3.6.2. Die Uberlegungen dieses Abschnitts sind von besonderem In-teresse im Zusammenhang mit der Analyse des Einflusses von Rundungsfehlernbei der Losung linearer Gleichungssysteme. Bei den heute verfugbaren programm-gesteuerten Digitalrechnern (aber auch bei allen elektronischen Taschenrechnern)wird stets mit reellen Zahlen mit einer festen Anzahl von Ziffern der Form

ξ = ±βkt∑i=1

ζiβ−i “Gleitpunktzahl mit t wesentlichen Ziffern”

β = “Basis” (gewohnlich β ∈ {2, 10, 16})

gerechnet, wobei k ganzzahlig (in einem festen Bereich),ζi ∈ {0, ..., β − 1}, ζ1 6= 0 fur ξ 6= 0.Die exakte arithmetische Verknupfung solcher Zahlen fuhrt nicht notwendig indiesen Zahlenbereich. Die notwendige Ruckabbildung (“Rundung”) fuhrt dazu,daß die arithmetischen Verknupfungen nicht exakt ausgefuhrt werden konnen,sondern nur “naherungsweise exakt” als sogenannte “Maschinenarithmetik” (oder“Pseudoarithmetik”).Wenn gl(α]β) mit ] ∈ {+,−, ∗, /} diese Maschinenarithmetik bezeichnet, dannkann man zeigen, daß von praktisch unbedeutenden Ausnahmen abgesehen, gilt

gl(α]β) = (α]β)(1 + η) (3.7)

mit |η| ≤ ε := β−t+1 “Maschinengenauigkeit”Wird nun der gesamte Gauß’sche Algorithmus mit dieser Maschinenarithmetikdurchgefuhrt und bezeichnet xε das berechnete Resultat, dann kann man untersystematischer Ausnutzung der Beziehung (3.7) zeigen, daß

(A+ E)xε = b,

wobei A, b die tatsachlich benutzten Eingabe–Koeffizienten sind und E folgendeAbschatzung besitzt: (ausfuhrliche Herleitung z.B. bei Menniken und Wagenfuhreroder Stoer und Bulirsch)

‖E‖∞ ≤ 1.2(n3 + n2)εγ falls nε ≤ 0.09 (3.8)

3.7. LINEARE DISKRETE L2–APPROXIMATION(GAUSS’SCHE AUSGLEICHSRECHNUNG)UNITARE TRANSFORMATION EINERN×N MATRIX AUF OBERE DREIECKSGESTALT151

mit γ = max{|α(k)ij | : k ≤ i, j ≤ n, 1 ≤ k ≤ n}

Die Große γ hangt entscheidend von der gewahlten Pivotstrategie abund diese Strategie hat neben der Aufgabe, den Algorithmus uberhaupt durchfuhr-bar zu machen, vor allem das Ziel, dafur zu sorgen, daß γ nicht zu groß wird.Man kann beweisen, daß gilt

γ ≤ 2n−1 maxi,j|αi,j| bei Spaltenpivotwahl

γ ≤√n√

2 · 31/2 · n1/(n−1) maxi,j|αi,j|

≤ 1.8n0.25n lnn maxi,j|αi,j| bei Restmatrixpivotwahl

Fur die Restmatrixpivotwahl ergibt sich so mit n = 1000 eine Schranke

γ ≤ 273000 maxi,j|αi,j| .

Es gibt eine von Wilkinson konstruierte Matrix, fur die das Pivotwachstum beiSpaltenpivotwahl tatsachlich 2n−1 betragt. Die in der Praxis beobachteten Wertevon γ/max

i,j|αij| liegen gewohnlich in der Großenordnung zwischen 1 und 10. Dies

bedeutet, daß xε exakte Losung eines Gleichungssystems mit geringfugig geander-ten Eingangsdaten ist. Man nennt deshalb den Gauß’schen Algorithmus mit Pi-votwahl “gutartig” oder stabil. Berechnet man nun die Dreieckszerlegung einersingularen Matrix mit Pivotwahl in Maschinenarithmetik, so tritt statt einer Spal-te mit |α(i)

ki | = 0 fur k ≥ i eine Spalte mit |α(i)ki | ≤ cε auf, wobei c eine Konstante

ahnlich zu der in (3.8) ist. Dies bedeutet, daß man unter Rundungsfehlereinflußdie Singularitat einer Matrix nicht sicher erkennen kann. Man wird jedoch dieRechnung abbrechen, wenn dies eintritt mit c = nmax |αij|. 2

3.7 Lineare diskrete L2–Approximation

(Gauß’sche Ausgleichsrechnung)

Unitare Transformation einer n × n Matrix

auf obere Dreiecksgestalt

In vielen Anwendungen tritt folgende Aufgabenstellung auf:

Gegeben sind A ∈ Rm×n mit m ≥ n (gewohnlich m� n ) und b ∈ Rm.

Gesucht ist x∗ ∈ Rn so daß

‖Ax∗ − b‖22 ≤ ‖Ax− b‖22 ∀x ∈ Rn (3.9)


Beispiel 3.7.1. Gegeben: (ti, yi) i = 1, ...,m m� 3 (Meßpunkte).

Gesucht: α∗0, α∗1, α

∗2:

m∑i=1

(yi − (α∗0 + α∗1ti + α∗2t2i ))

2 != min

α0,α1,α2

Abbildung 3.7.1

Setzt man b := (y1, ..., yn)T x∗ := (α∗0, α

∗1, α

∗2)T ,

A =

1 t1 t21...

......

1 tm t2m

so gelangt man zur Aufgabenstellung (3.9) 2

Bemerkung 3.7.1. Die Aufgabenstellung (3.9) bedeutet, daß man unter allenLinear–Kombinationen der Spalten von A diejenige sucht, die den geringsten(euklidischen) Abstand vom fest vorgegebenen Vektor b hat. b kann man als“Funktion” auf {1, ...,m} deuten. Dies erklart die Bezeichnung lineare diskreteL2–Approximation. ( ‖ · ‖2 = euklidische Norm). Diese Art der Approximationwurde zuerst von Gauß (“Methode der kleinsten Quadrate”) benutzt. Diese Me-thode hat auch einen statistischen Hintergrund: Stellt man sich vor, die yi seienbis auf gewisse unbekannte “zufallige” Fehler εi (die gewissen zusatzlichen Bedin-gungen genugen) gleich α0 + α1ti+ α2t

2i , dann ergibt sich, daß die α∗0, α

∗1, α

∗2 in ge-

wissem Sinne die bestmoglichen Annaherungen an die “wahren Werte” α0, α1, α2

sind, so daß durch die Forderung (3.9) der Einfluß der unbekannten Fehler εi aufdie Bestimmung der α’s minimiert wird (“Ausgleichung” des Fehlereinflusses,daher der Name Ausgleichsrechnung) 2

Die Aufgabe (3.9) laßt sich ohne Differentialrechnung elementar losen. Zunachstgilt mit

Q ∈ Rm×m orthonormal: ‖Q(Ax− b)‖22 = ‖Ax− b‖22

Lineare diskrete L2–Approximation 153

Wir nehmen nun an, es sei ein orthonormales Q bekannt mit

QR-Zerlegung:

QA =

R· · ·0

R ∈ Rn×n

Sei ferner gesetzt Qb =: c =

c1· · ·c2

c1 ∈ Rn, c2 ∈ Rm−n

Dann

‖Q(Ax− b)‖22 = ‖

R· · ·0

x−

c1· · ·c2

‖22 = ‖Rx− c1‖22 + ‖c2‖22

Wir nehmen nun an, daß A den Rang n hat. D.h. Ax = 0⇔ x = 0Dann wird also R regular und fur alle x ∈ Rn

‖Rx− c1‖22 + ‖c2‖22 ≥ ‖c2‖22 + ‖Rx∗ − c1︸︷︷︸0

‖22

mit x∗ = R−1c1.

Wenn man also die Transformationsmatrix Q gefunden hat, hat man lediglichnoch Q auf b anzuwenden und dann das gestaffelte Gleichungssystem Rx∗ = c1zu losen. Die Bestimmung vonQ (und damitR) vollzieht sich in n (bzw. fur n = min n−1) Schritten. In jedem Schritt i wird die Matrix mit einer speziellen unitarenMatrix multipliziert, die die Aufgabe hat, Nullen in Spalte i in den Positioneni+1, . . . , n zu erzeugen. (Die beim Gauss’schen Algorithmus benutzten Matrizenkonnen uns hier nicht dienen, denn sie sind nicht unitar). Die Zeilen und Spalten1, . . . , i − 1 der Matrix bleiben dabei unberuhrt, d.h. die Dreiecksstruktur wirdalso wie beim Gauss’schen Algorithmus spaltenweise aufgebaut.

Seiena

(1)1 , ..., a

(1)n die Spalten von A, b(1) := b, a

(1)j = (α

(1)ij )ni=1

Im ersten Schritt konstruieren wir eine unitare Matrix U1, so daß U1A(1) als erste

Spalte ein Vielfaches der ersten Einheitsspalte hat.

U1A(1) =

∗0...0

....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

Im zweiten Schritt wird nun die Restmatrix aus Spalten 2, . . . , n und Zeilen2, . . . , n genauso behandelt. Als Transformation der Gesamtmatrix hat man dann


die Multiplikation mit

U2 =

(1 0

0 U2

)zu nehmen usw. Q ist das Produkt aller dieser U ’s. Damit ist die Aufgabe aufdie der unitaren Transformation eines einzelnen Vektors x auf ein Vielfaches desersten Koordinateneinheitsvektors zuruckgefuhrt. Eine mogliche Losung dieserAufgabe besteht in der Anwendung einer geeigneten Spiegelung an einer Hyper-ebene mit Normale w:Householdermatrix:

U = I − 2

wHwwwH

(benannt nach A.S. Householder, der sie zuerst in diesem Zusammenhang be-nutzte.) (Offensichtlich ist U unitar und Uv = v falls v⊥w, d.h. vHw = 0,und Uw = −w.) Ist x gegeben, so kann man ein solches w sofort angeben:x = (ξ1, . . . , ξn)

T

w =

(|ξ1|+ ‖x‖2)σ

ξ2...ξn

Dabei ist σ das verallgemeinerte Vorzeichen von ξ1:

σ = sign 0(ξ1)def=

{1 ξ1 = 0

ξ1/|ξ1| sonst.

U multipliziert man mit einem beliebigen Vektor z unter Ausnutzung der spezi-ellen Matrixstruktur als

Uz = z − 2

wHw(wHz)w ,

man hat also nur das Skalarprodukt von z mit w zu berechnen und eine Operation”Vektor+Vektor*Skalar” auszufuhren.

Beispiel 3.7.2. Offensichtlich genugt es, die Konstruktion fur eine Spalte zukennen. Wir nehmen

x = (−8, 3, 1, 5,−1)T .

Dann leistet offenbar

w = (−18, 3, 1, 5,−1)T

das Gewunschte, denn

wTw = 360, wTx = 180, also x− 2

wTw(wTx)w = (10, 0, 0, 0, 0)T .


Diese Konstruktion wird nun systematisch auf A angewandt.

Wir bilden

U1 = I − 2

wT1 w1

, w1wT1

w1 =

sign0(α

(1)11 ) (|α(1)

11 |+ ‖a(1)1 ‖2)

α(1)21...

α(1)m1

Dann gilt

U1a(1)1 = −sign0(α

(1)11 )‖a1‖e1

Wir setzen β1 = 2/wT1 w1,

a(2)i := U1a

(1)i = a

(1)i − β1(w

T1 a

(1)i )w1 i = 2, ..., n

b(2) := U1b(1) = b(1) − β1(w

T1 b

(1))w1

Nun soll die gleiche Technik wie bei a(1)1 auf die letzten m− 1 Komponenten von

a(2)2 angewendet werden, wahrend die neue Transformation Zeile 1 und Spalte

1 der transformierten Matrix unverandert lassen soll. Dies erreicht man, indemman setzt

U2 =

1 0 · · · · · · 00... I − β2w2w

T2

0

mit β2 =2

wT1 w2

wT2 = (sign0(α(2)22 )(|α(2)

22 |+ ‖a(2)2 ‖2),

α(2)32 , ..., α

(2)m2)

a(2)2 = (α

(2)22 , ..., α

(2)m2)

T

Entsprechend wird die Rechnung fortgesetzt.Im nachstehenden Algorithmus bedeutet a

(i)j die j−te Spalte von Ai, ã

(i)j den-

jenigen Teil dieser Spalte, der sich nicht mehr andert, also die Komponenten1, . . . , i−1, und a

(i)j den Teil, der noch transformiert werden muss, also die Kom-

ponenten i, . . . ,m. Dabei sind nur die Spalten j = i, . . . , n zu berucksichtigen.


<<

Allgemein lautet der Algorithmus:QR-Zerlegung :

i = 1, ..., n′; n′ :={

n− 1 falls m = nn sonst

j = i, ..., n

a(i)i =

ã(i)i

· · ·a

(i)i

a(i)i ∈ Rm−i+1

b(i) =

˜b(i)

· · ·b(i)

βi :=

2wTi wi

wTi := (sign0(α

(i)ii )(|α(i)

ii |+ ‖a(i)i ‖2), α

(i)i+1,i, ..., α

(i)m,i)

falls a(i)i 6= 0. Sonst setze βi = 0, wi = 0, d.h. Ui = I

ã(i+1)j := ã(i)

j

a(i+1)j := a

(i)j − βi(wT

i a(i)j )wi

˜b(i+1) := ˜

b(i)

b(i+1) := b(i) − βi(wTi b(i))wi

Dann erhalt man

Un′ · · ·U1︸︷︷︸:=Q

A = (a(2)1 , ..., a(n′+1)

n )

(a(2)1 , ..., a(n′+1)

n ) =

α(2)11 α

(3)21 · · · · · ·

0 α(3)22

... 0. . .

... α(n′+1)nn

0 0 · · · 0...

......

0 0 · · · 0

=

R· · ·0

Un′ ...U1b = b(n′+1) =

c1

· · ·c2


und somit die Losung der oben formulierten Aufgabe.

>>

Als “Abfallprodukt” dieses Algorithmus’ notieren wir

Satz 3.7.1. QR Zerlegung und Anwendung Es sei A ∈ Rm×n mitm ≥ n. Dann existiert eine orthonormale Matrix Q ∈ Rm×m mit QA = R· · ·0

, R n × n obere Dreiecksmatrix. Ist A vom Rang n, dann ist R

invertierbar und die Aufgabe:Bestimme x∗ :

‖Ax∗ − b‖22 ≤ ‖Ax− b‖22 fur alle x ∈ Rn

besutzt eine eindeutig bestimmte Losung x∗, die sich aus

Rx∗ = c1

errechnet, wo Qb =

c1· · ·c2

mit c1 ∈ Rn.

(R ist in diesem Falle regular) 2

Bemerkung 3.7.2. Das hier beschriebene Verfahren ist unter dem Namen House-holder–Transformation, QR-Zerlegung oder Householder–Orthogonalisierungbekannt. Die dritte Bezeichnung erklart sich folgendermaßen.

QA =

R· · ·0

⇒ A = QT︸︷︷︸orthonormal

R· · ·0

= m

QT1 QT

2

R

O

= QT1R

Die n Spalten von QT1 (erste n Zeilen von Q) bilden also eine orthonormierte Ba-

sis des von den Spalten von A aufgespannten Unterraumes des Rm und die letztenm−n Zeilen von Q eine orthonormale Basis des orthogonalen Komplements, desNullraums von AT . Man beachte jedoch, daß beim obigen Algorithmus Q nur infaktorisierter Form auftritt. Zur Berechnung von

A = UR, UTU = I, U ∈ Rm×n (U=QT1 )


konnte man auch das E. Schmidt’sche Orthogonalisierungsverfahren, bei dem Rspaltenweise berechnet wird, (vgl. Lehrbucher der linearen Algebra) benutzen wol-len. Dies erweist sich jedoch als numerisch instabil, so daß der Weg uber dieHouseholder-Transformation vorzuziehen ist. (Es gibt allerdings auch eine nu-merisch stabile Modifikation des Schmidt’schen Orthogonalisierungsverfahrens,bei dem R auch zeilenweise entsteht. Man erhalt dabei eine Orthogonalbasis desBildraums von A, nicht jedoch deren orthogonales Komplement.) Will man Qexplizit bestimmen, dann wendet man die Householdermatrizen nacheinander aufdie Einheitsmatrix an, wobei man wieder die spezielle Struktur der Ui berucksich-tigt. 2

Bemerkung 3.7.3. Man kann naturlich das beschriebene Verfahren auch im Fal-le m = n anwenden, also zur Gleichungslosung. Der Aufwand ist dann doppelt sogroß wie beim Gauß’schen Algorithmus, so daß man letzteren vorzieht, zumal diein der Praxis beobachteten Stabilitatseigenschaften beider Verfahren gleichwertigsind. 2

Die Aufgabe ‖Ax − b‖22!= min

xlaßt sich auch mit Hilfe der Differentialrechnung

mehrerer Veranderlicher unmittelbar losen:

‖Ax− b‖22 = (Ax− b)T (Ax− b) = xTATAx− 2xTAT b+ bT b =: Φ(x)

Notwendige Bedingung fur eine Minimalstelle ist

∂

∂ξiΦ(x)|x=x∗ = 0 i = 1, ..., n

Dies liefert das Gleichungssystem

ATAx∗ = AT b (“Normalgleichungen”)

mit der im Falle Rang(A) = n eindeutigen Losung x∗ = (ATA)−1AT b. Daß x∗

wirklich Minimalstelle ist, erkennt man daran, daß die hinreichende Zusatzbedin-gung

“(∂2

∂ξi∂ξjΦ(x)|x=x∗)i,j positiv definit” hier erfullt ist. Die Normalgleichungen konn-

te man mit Hilfe der Cholesky–Zerlegung losen. Dieser Weg ist jedoch nicht zuempfehlen, es sei denn, die Spalten von A sind paarweise “fast orthogonal”. Die-ser Losungsweg ist namlich erheblich anfalliger fur Rundungsfehlereinflusse alsdie Householder–Transformation. (vgl. Ubung)

Beispiel 3.7.3. Berechnung der QR-Zerlegung

A =

4 3−4 −1

4 3−4 −1

a(1)1 =

4−4

4−4

w1 =

12−4

4−4

β1 =1

96


a(2)1 = a

(1)1 − 1

96· (48 + 16 + 16 + 16)w1 =

−8

000

a

(2)2 = a

(1)2 − 1

96· (12 ∗ 3 + 4 ∗ 1 + 4 ∗ 3 + 4 ∗ 1)w1 =

−4

432343

‖a(2)

2 ‖2 = 13(16 + 16 + 4)1/2 = 2

β2 = 12( 4

3+2)

= 320

w2 = 13

1024

wT2 a

(2)2 = 1

9(10 ∗ 4 + 2 ∗ 2 + 4 ∗ 4) = 20

3

a(3)2 =

−4

43−10

323−2

343−4

3

=

−4−2

00

, d.h. U2U1︸︷︷︸Q

A =

−8 −4

0 −20 00 0

2

<<

Ausgleichsaufgaben sind oft außerordentlich schlecht konditioniert, vor allem, wenn dieAnsatzfunktionen nicht geschickt gewahlt sind (Bei Polynomansatzen transformiereman z.B. stets die unabhangige Variable auf [−1, 1] und verwende die Tschebyscheffpo-lynome als Basis!). Die Singularwertzerlegung ist dann die ultima ratio bei der Losungdes Problems. Diese Zerlegung existiert fur jede (auch nichtquadratische) Matrix undist im Folgenden beschrieben.

Satz 3.7.2. Singularwertzerlegung Es sei A ∈ Cm×n mit m ≥ n bel. Dannexistieren unitare Matrizen U ∈ Cm×m und V ∈ Cn×n sowie eine Diagonalmatrix Σmit nichtnegativen Diagonalelementen σi, i = 1, ..., n, so daß

A = U Σ· · ·0

V H

2

Beweis: Die Matrizen AAH und AHA sind beide hermitisch und positiv semidefinit(denn xHAHAx = ‖Ax‖22 ≥ 0). Somit mit geeignetem unitarem V

V HAHAV = diag(σ21, ..., σ

2n), σ2

i = Eigenwert von AHA (≥ 0) (3.10)

Ist nun

AAHy = λy, y 6= 0, dann λ = 0 oder AHy 6= 0


Sei AHy 6= 0, dann AHA AHy = λAHy, d.h. AHy ist Eigenvektor von AHA und λzugehoriger Eigenwert, d.h. λ ∈ {σ2

1, ..., σ2n}. Somit besitzt AAH den (m − n)-fachen

Eigenwert 0 (AHy = 0 hat mindestens m − n linear unabhangige Losungen) und dieEigenwerte σ2

i zu Eigenwerten. (Es konnen naturlich auch Werte σi = 0 vorkommen!)Somit mit geeignetem unitaren U ∈ Cm×m

UHA AHU =

Σ2

... 0

· · ·... · · ·

0... 0

Setzt man B := AHU , dann

BHB =bH1...

bHm

b1 · · · bm =

σ21 0

. . .σ2n

0 0

d.h. B = (b1, ..., bn, 0, ..., 0︸︷︷︸

m−n

)

mit bHi bj = σ2i δij , 1 ≤ i, j ≤ n, d.h. B = (V Σ, 0) = V (Σ, 0) mit unitarem V . Wegen

BBH = AHA = V Σ2V H kann man V aus (3.10) annehmen. Schließlich wird

A = UBH = U

Σ· · ·0

V H

2

Die Singularwertzerlegung dient u.a. zur Berechnung der Moore–Penrose–Pseudoinverseneiner allgemeinen m× n Matrix.

Definition 3.7.1. Sei A ∈ Cm×n. Dann heißt A+ mit den Eigenschaften

A+A = (A+A)H

AA+ = (AA+)H

A+AA+ = A+

AA+A = A

Moore–Penrose–Pseudoinverse von A. (Man kann zeigen, daß A+ stets exi-stiert und eindeutig bestimmt ist). 2

Ist A ∈ Cm×n mit m ≥ n und

A = U

(Σ0

)V H ,


dann ist

A+ = V (Σ+, 0)UH mit

Σ+ = diag(σ+i ) σ+

i ={

1/σi fur σi > 00 sonst.

(Beweis als einfache Ubung).Bemerkung 3.7.4. Sei A ∈ Cn×n und A = UΣV H eine Singularwert - Zerlegung.Dann folgt:A regular ⇔ Σ regular, ‖A‖2 = max

iσi, ‖A−1‖2 = max

iσ−1i

und cond ‖·‖(A) = σ1/σn falls σ1 ≥ · · · ≥ σn > 0 2

Aus der Darstellung in Bemerkung 3.6.3 geht hervor, daß man bei gerundetem Rechnenden Rang einer Matrix unter Umstanden nicht entscheiden kann. Die Singularwert-zerlegung (Satz 3.7.2) stellt das beste Hilfsmittel zur Definition eines ‘numerischenRanges’ einer Matrix A dar. In diese Definition geht naturlich die Unsicherheit in denElementen von A bzw. die Rechengenauigkeit der Arithmetik ein. Sei etwa A eineNaherung fur A (z.B. A = A gerundet) und

||A− A|| ≤ α

wobei α bekannt ist. Ferner sei

A = U

(Σ0

)V H

mit den Singularwerten σ1 ≥ · · · ≥ σn ≥ 0 und U, V unitar. Dann wird man nur solcheSingularwerte σi als ‘eigentlich6= 0’ akzeptieren, fur die σi > α gilt.Ist dann

σ1 ≥ ... ≥ σr > α ≥ σr+1 ≥ ... ≥ σn,

dann wird man r als ‘Pseudorang’ oder ‘numerischen Rang’ von A bezeichnen.Beispiel 3.7.4. Die Matrix

A =

1.1997 1.0000 0.90041.1997 −1.0000 0.90041.2003 1.0000 0.89961.2003 −1.0000 0.8996

hat die Singularwertzerlegung A = UΣV T mit

U = 12

1 1 −1 11 −1 −1 −11 1 1 −11 −1 1 1

Σ =

3 0 00 2 00 0 0.0010 0 0

V =

0.8 0 0.60 1 0

0.6 0 −0.8

Eine Storung von der euklidischen Norm 0.001, namlich

A− 0.001u3vT3

wo u3 und v3 jeweils die dritten Spalten von U bzw. V sind, fuhrt auf eine Matrix vomRang 2.


Ist nun

A = U

(Σ0

)V H

und Σ invertierbar, so lautet die Losung von

||Ax− b||2 = minx

: x∗ = V (Σ−1, 0)UHb.

Ist Σ nicht invertierbar, dann ist die Losung der Ausgleichsaufgabe nicht eindeutig.Durch

x∗ = A+b = V (Σ+, 0)UHb

wird dann (die eindeutig bestimmte) optimale Losung mit der kleinsten euklidischenLange ausgewahlt. In der Praxis wird man naturlich Σ+ ersetzen durch Σ+(α) =diag(σ+

i (α)), mit

σ+i (α) =

{1/σi falls σi ≥ α0 sonst

wobei α > 0 ein (vernunftig gewahlter) Schwellenwert fur die Ungenauigkeit in A bzw.in der Arithmetik ist. Numerisch wird die Singularwertzerlegung nicht nach dem obigenBeweis gebildet. Es gibt dazu einen speziellen, sehr effizienten und numerisch stabilenAlgorithmus, den wir im Kapitel uber die numerische Losung des Eigenwertproblemsbesprechen werden.

>>

3.8 Zusammenfassung

Das Standardverfahren zur Losung linearer Gleichunggsysteme ist der Gauss’scheAlgorithmus. Um den Einfluss von Rundungsfehlern auf die berechnete Losungunter Kontrolle zu halten, ist die Anwendung von Pivotisierungsregeln unerlasslich,mit Ausnahme spezieller Matrizen, insbesondere der hermitisch positiv definiten.Dieser Algorithmus erzeugt eine Faktorisierung

PA = LR

bzw.PAQ = LR

mit Permutationsmatrizen P und Q (die durch Permutationsvektoren reprasen-tiert werden) und einer unteren Dreiecksmatrix L mit Diagonale (1, . . . , 1), engl”unit lower triangular”, und einer oberen Dreiecksmatrix R. Auf der Diagonalenvon R stehen dann die Pivotelemente. Es ist daher

det(A) = ±detR = ±n∏i=1

ρi,i


Diese Zerlegung ersetzt die Information uber A gleichwertig und erlaubt z.B.die spatere Losung von Gleichungssystemen mit A bei beliebiger rechter Seite b.Ist A hermitisch und positiv definit, dann kann man zweckmassig die Cholesky-Zerlegung

A = LLH

mit einer unteren Dreiecksmatrix L mit positiven reellen Diagonalelementen ver-wenden. Der Gauss’sche Algorithmus erlaubt die Berucksichtigung von Besetzt-heitsstrukturen (Bandstruktur, Hessenbergstruktur, auch ”sparsity”). Der Fehle-reinfluss bei der Anwendung dieses Algorithmus oder allgemeiner von Datenfeh-lern in Matrix und Inhomogenitat wird beschrieben durch die sogenannte ”Kondi-tionszahl” der Matrix. Wir haben (etwas vergrobert) die Aussage ”normrelativerFehler in der Losung kleinergleich Summe der normrelativen Fehler in Matrix undrechter Seite, multipliziert mit der Konditionszahl”. Die Konditionszahl ist stetsgrossergleich eins und oft sehr gross gegen eins. Lineare Ausgleichsaufgaben kannman uber die Normalgleichungen mit Hilfe der Choleskyzerlegung losen. Wegendes u.U. sehr verstarkten Fehlereinflusses sollte man aber besser den Weg uberdie QR-Zerlegung der Ansatzmatrix gehen oder sogar die Singularwertzerlegunganwenden. Die QR-Zerlegung und die Singularwertzerlegung vermitteln zugleicheine Berechnung von Orthogonalbasen von Bildraum R(A) und Kern N (AH).Die Singularwertzerlegung kann auch zur Festlegung eines ”numerischen Ran-ges” einer Matrix (der bei Storungen vorgegebener Grosse nicht unterschrittenwird) dienen.


1. Demmel, James W.: Applied numerical linear algebra. Philadelphia, PA:SIAM, Society for Industrial and Applied Mathematics (1997)

2. Golub, Gene; Van Loan, Charles F. Matrix computations.3rd ed. Baltimore,MD: The Johns Hopkins Univ. Press. (1996)

3. Householder, A.S. The theory of matrices in numerical analysis A Blais-dell Book in the Pure and Applied Sciences. New York-Toronto- London:Blaisdell Publishing Company (1964)

4. Trefethen, Lloyd N.; Bau, David Numerical linear algebra. Philadelphia,PA: SIAM. (2000)


Kapitel 4

Losung nichtlinearerGleichungssysteme

4.1 Einfuhrungsbeispiele

In diesem Kapitel beschaftigen wir uns mit der Losung nichtlinearer Gleichungs-systeme

F (x) = 0, F : D ⊂ Rn → Rn F = (f1, ..., fn)T

Die Existenz einer Losung werden wir in der Regel voraussetzen, doch werdenwir auch Satze kennenlernen, bei denen allein aus der “Kleinheit” von ‖F (x0)‖und gewissen Voraussetzungen an die Jacobi–Matrix JF (x) auf die Existenz einerLosung geschlossen werden kann. Einige einfache Beispiele sollen zuerst die mogli-chen Schwierigkeiten andeuten, mit denen man im nichtlinearen Fall rechnen muß.

Beispiel 4.1.1. n = 2, D = R2

f1(ξ1, ξ2) = ξ21 − ξ2 + α; f2(ξ1, ξ2) = −ξ1 + ξ2

2 + α

(a) α = 1 keine Losung

(b) α = 14

genau eine Losung ξ1 = ξ2 = 12

(c) α = 0 zwei Losungen ξ1 = ξ2 = 0; ξ1 = ξ2 = 1

(d) α = −1 vier Losungen ξ1 = −1, ξ2 = 0; ξ1 = 0, ξ2 = 1,ξ1 = ξ2 = 1

2(1±

√5)

165

166 KAPITEL 4. LOSUNG NICHTLINEARER GLEICHUNGSSYSTEME

—– f1 = 0 ..... f2 = 0

Abbildung 4.1.1

2

4.1. EINFUHRUNGSBEISPIELE 167

Beispiel 4.1.2. n = 2, D = R2

f1(ξ1, ξ2) = 12ξ1 sin(1

2πξ1)− ξ2; f2(ξ1, ξ2) = ξ2

2 − ξ1 + 1abzahlbar unendlich viele Losungen

Abbildung 4.1.2

2

Beispiel 4.1.3. n = 2, D = R2

f1(ξ1, ξ2) = ln(2ξ21 − ξ1 + 1)− ξ2

2ξ21 ln(2), f2(ξ1, ξ2) = ξ2ξ1 + ξ3

1

Hier gibt es drei isolierte Losungen

ξ1 = 1, ξ2 = −1; ξ1 = .512307608..., ξ2 = −.26245908...;ξ1 = −1.14497278, ξ2 = −1.3109626

und daneben das Losungskontinuum ξ1 = 0, ξ2 ∈ R bel.!

Abbildung 4.1.3

2


Allgemeine Existenz- und Eindeutigkeitsaussagen sind nur wenige bekannt. Einrelativ einfach anzuwendendes Ergebnis ist der folgende

Satz 4.1.1. Satz von Hadamard: Sei F : Rn → Rn uberall stetig differen-zierbar und fur die Jacobimatrix gelte in einer beliebigen Norm

supx ∈ Rn

‖(JF (x))−1‖ ≤ C

fur eine geeignete Konstante C. Dann hat die Gleichung

F (x) = b

fur jedes b genau eine Losung x∗ (Zum Beweis siehe z.B. Ortega und Rheinboldt:Iterative solution of nonlinear equations in several variables, Acad.Press 1970)

Ein Beispiel, bei dem dieser Satz leicht anwendbar ist, ist der Fall F (x) = ∇f(x)mit einer reellen Funktion f , die auf Rn zweimal stetig differenzierbar ist undderen Hessematrix nur Eigenwerte hat, die uber eine Schranke γ > 0 liegen,unahhangig von x. Eine solche Funktion heisst ”gleichmassig konvex”. Der Satzbesagt, daß der Gradient einer solchen Funktion ein Diffeomorphismus auf Rn istund daß es insbesondere genau eine Gradientennullstelle gibt (die naturlich einstrenges Minimum, also auch das globale Minimum von f ist).

4.2 Das Newton–Verfahren

Wir betrachten zunachst den eindimensionalen Fall. Sei xk eine Naherung fur x∗

und xk+1 die Nullstelle der Tangente an (x, f(x)) im Punkt (xk, f(xk))Die Tangentengleichung lautet y = f(xk) + (x − xk) · f ′(xk) und xk+1 ist die

Losung von 0!= f(xk) + (xk+1 − xk) · f ′(xk).

Unter der Voraussetzung f ′(xk) 6= 0 folgt nun xk+1 = xk − f(xk)f ′(xk)

.

Beispiel 4.2.1. Fur f(x) = x2 − a folgt als Verfahrensvorschrift

xk+1 = xk −x2k − a2xk

=x2k + a

2xk= 1

2(xk +

a

xk) .

Ist nun x0 ≥√a, dann folgt hier immer monotone Konvergenz und es gilt sogar

die sogenannte ‘quadratische Konvergenz‘

|xk+1 −√a|√

a≤ 1

2

( |xk −√a|√a

)2

Grob gesagt verdoppelt sich die Anzahl gultiger Stellen pro Schritt. 2

4.2. DAS NEWTON–VERFAHREN 169

3

y

x

xxx12

Wir betrachten zunachst den Fall n = 2.

Zu losen ist nun F (x∗) = 0 mit F = (F1, F2)T : R2 → R2 Eine geometrische

Vorstellung dazu ist die folgende: ζ = Fi(ξ1, ξ2) mit reellen ξ1, ξ2 und ζ beschreibteine Flache im R3.

1. Flache: ζ = F1(ξ1, ξ2)2. Flache: ζ = F2(ξ1, ξ2)ζ = 0 ergibt jeweils die Spur der Flache in der (ξ1,ξ2)-Ebene

Gegeben sei eine “Naherungslosung” x0 fur x∗.

In x0 wird jede Flache durch ihre Tangentialebene ersetzt.

Die Gleichung der Tangentialebene an ζ = F1(ξ1, ξ2) im Punkt x0 = (ξ(0)1 , ξ

(0)2 )T

lautet

ζ = F1(ξ(0)1 , ξ

(0)2 ) +

∂

∂ξ1F1(ξ

(0)1 , ξ

(0)2 ) · (ξ1 − ξ(0)

1 ) +∂

∂ξ2F1(ξ

(0)1 , ξ

(0)2 ) · (ξ2 − ξ(0)

2 ) .

Fur die zweite Funktion folgt analog

ζ = F2(ξ(0)1 , ξ

(0)2 ) +

∂

∂ξ1F2(ξ

(0)1 , ξ

(0)2 ) · (ξ1 − ξ(0)

1 ) +∂

∂ξ2F2(ξ

(0)1 , ξ

(0)2 ) · (ξ2 − ξ(0)

2 ) .

Wir berechnen die gemeinsame Schnittgerade der beiden Tangentialebenen.

Ihr Durchstoßpunkt mit der Ebene ζ = 0 ist dann der nachste Naherungspunkt.Mit d := x1 − x0 erhalt man das Gleichungssystem fur d der Form

0 = F (x0) + JF (x0) · d.

Beispiel 4.2.2. Das nichtlineare System

ξ31 + ξ2 − 1

2= 0 ,

ξ21 − ξ2

2 = 0


hat eine Losung in der Nahe von (0.5, 0.5)T . Mit diesem Startwert wird

F1(x0) = 18, F2(x0) = 0

und

JF (x) =

(3ξ2

1 12ξ1 −2ξ2

), also JF (x0) =

(34

11 −1

)und somit

x1 = 12

(11

)− 1

−34− 1

(−1 −1−1 3

4

)(18

0

)= 3

7

(11

)

Als neuen F -Wert erhalten wir F (x(1)) = (.0072886296, 0)T .

Die folgende Abbildung zeigt die beiden Flachen F1 und F2 zusammen mit derEbene z = 0. Eine Losung des Systems entspricht dem gemeinsamen Schnittpunktdieser drei Flachen.

−1−0.5

00.5

10

0.20.4

0.60.8

1

−1.5

−1

−0.5

0

0.5

1

1.5

Wir untersuchen nun den allgemeinen Fall. Wir setzen im Folgenden voraus, daßeine Losung x∗ des nichtlinearen Systems F (x) = 0 existiert und daß F in einerhinreichend großen “Kugel” D um x∗ zweimal stetig partiell ableitbar ist nachallen Variablen. Wir benotigen folgende Abschatzung fur die Anderung der Ja-cobimatrix JF in einer Umgebung von x∗:


Satz 4.2.1. Es sei

K := {x ∈ Rn : ‖x− x∗‖ ≤ ρ} ⊂ D

Dann gilt∀ x, y ∈ K : ‖JF (x)− JF (y)‖∞ ≤ n2M2‖x− y‖∞ (4.1)

mit

M2 := max {| ∂2fi

∂ξj∂ξk(y)| : 1 ≤ i, j, k ≤ n, y ∈ K}

2

Bew.:∂fi∂ξj

(x)︸︷︷︸∈K

−∂fi∂ξj

(y)︸︷︷︸∈K

=n∑k=1

∂2fi∂ξj∂ξk

(x+ ϑi(x− y))︸︷︷︸∈K

(ξk − ηk)

d.h.

|∂fi∂ξj

(x)− ∂fi∂ξj

(y)| ≤ nM2 maxk|ξk − ηk| = nM2‖x− y‖∞

⇒n∑j=1

|∂fi∂ξj

(x)− ∂fi∂ξj

(y)| ≤ n2M2‖x− y‖∞

unabhangig von i. 2

Wir nehmen an, x0 sei nahe bei x∗, so daß x0 ∈ K gilt.Anwendung der Taylorformel fur fi(x

∗) liefert:

0 = fi(x∗) = fi(x0) +

n∑j=1

∂fi∂ξj

(x0)(ξ∗j − ξ

(0)j ) +

1

2

n∑j=1

n∑k=1

∂2fi∂ξj∂ξk

(x0 + ϑi(x∗ − x0))(ξ

∗j − ξ

(0)j )(ξ∗k − ξ

(0)k )

Die Doppelsumme ist quadratisch klein in ‖x∗−x0‖∞. Vernachlassigt man diesenAnteil und schreibt das System wieder in Vektorschreibweise, dann erhalt man

0 ≈ F (x0) + JF (x0)(x∗ − x0) (4.2)

Wir setzen nun voraus, daß JF (x0) invertierbar ist. Dann ist das Gleichungssy-stem

JF (x0)(x1 − x0) = −F (x0)

eindeutig losbar und wegen (4.2) konnen wir annehmen, daß x1 eine wesentlichebessere Nullstellennaherung darstellt als x0. Fortsetzung der Verfahrensweise lie-fert das Newton–Verfahren fur nichtlineare Gleichungssysteme


JF (xk)dk = −F (xk)xk+1 = xk + dk

}k = 0, 1, . . .

(Falls F linear ist, d.h. F (x) = Ax + b, JF (x) = A, dann liefert naturlich einSchritt dieses Verfahrens die exakte Losung). Fur dieses Verfahren gilt der fol-gende einfache Konvergenzsatz:

Satz 4.2.2. lokale quadratische Konvergenz des Newtonverfahrens Essei x∗ eine Nullstelle von F , F : D ⊂ Rn → Rn. Es sei F ∈ C2(D) und

K := {x ∈ Rn : ‖x− x∗‖∞ ≤ r} ⊂ D

Falls gilt: JF (x∗) ist invertierbar und

βr ≤ 1

2mit β := n2M2‖(JF (x∗))−1‖∞

dann konvergiert das Newton–Verfahren fur jedes x0 ∈ K gegen x∗ und es bestehendie Abschatzungen

‖xk+1 − x∗‖∞ ≤ β‖xk − x∗‖2∞ ≤1

2‖xk − x∗‖∞ (∀k)

2

Bew.: Nach Def. von xk+1 gilt mit xk ∈ K

xk+1 − x∗ = xk − x∗ − (JF (xk))−1F (xk)

= xk − x∗ − (JF (xk))−1(F (xk)− F (x∗))

= xk − x∗ − (JF (xk))−1(F (xk)− (F (xk) + (JF (xk))(x

∗ − xk) +Rk))

= (JF (xk))−1Rk

mit

Rk =1

2

∑i

∑j

∂2f1

∂ξi∂ξj(xk + ϑ1,k(x

∗ − xk))(ξ∗i − ξ(k)i )(ξ∗j − ξ

(k)j )

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·∑i

∑j

∂2fn∂ξi∂ξj

(xk + ϑn,k(x∗ − xk))(ξ∗i − ξ

(k)i )(ξ∗j − ξ

(k)j )

Also nach Definition von M2 (s.o.)

‖Rk‖∞ ≤1

2n2M2‖xk − x∗‖2∞

Wegen (4.1) gilt

JF (xk) = JF (x∗) + JF (xk)− JF (x∗) = JF (x∗)(I + (JF (x∗))−1Hk)


mit

‖Hk‖∞ ≤ n2M2‖xk − x∗‖∞ ≤ n2M2r

Damit folgt nach Satz 3.6.1 wegen βr < 1/2 die Invertierbarkeit von JF (xk) unddie Abschatzung

‖(JF (xk))−1‖∞ = ‖(I + (JF (x∗))−1Hk)

−1(JF (x∗))−1‖∞ ≤ 2‖(JF (x∗))−1‖∞

Also

‖xk+1 − x∗‖∞ ≤ 2‖(JF (x∗))−1‖∞1

2M2n

2‖xk − x∗‖2∞= β‖xk − x∗‖2∞≤ βr‖xk − x∗‖∞

≤ 1

2‖xk − x∗‖∞

d.h. xk+1 ∈ K und die behaupteten Konvergenzaussagen durch Induktion. 2

Die wesentliche Aussage von Satz 4.2.2 ist die, daß fur eine zweimal stetig dif-ferenzierbare Funktion das Newtonverfahren fur eine Nullstelle x∗ mit JF (x∗)regular immer (und sogar quadratisch) konvergiert, wenn nur die Startnaherunghinreichend gut ist. Fur die Praxis ist der Satz naturlich nicht interessant, weiler ja schon Kenntnis uber die Losung x∗ erfordert.

<<

Wesentlich aufwendiger ist der Beweis des folgenden Satzes, bei dem noch nicht einmaldie Existenz einer Losung vorausgesetzt wird: (siehe z.B. bei Schwetlick, NumerischeLosung nichtlinearer Gleichungen). Die Lipschitzkonstante L in diesem Satz kann imFall der Norm ‖.‖∞ durch die oben eingefuhrten Großen n2M2 abgeschatzt werden.


Satz 4.2.3. (Kantorovich):Es sei F : D ⊂ Rn → Rn, D offen, D0 ⊂ D konvex, F ∈ C1(D0) und zusatzlich gelte

‖JF (x)− JF (y)‖ ≤ L‖x− y‖ ∀ x, y ∈ D0

Es sei x0 ∈ D0 und es existiere (JF (x0))−1. Man setze

β0 := ‖(JF (x0))−1‖α0 := ‖(JF (x0))−1F (x0)‖ = ‖x1 − x0‖x1 := x0 − (JF (x0))−1F (x0)h := α0β0L

Falls dann folgendes erfullt ist

(i) h ≤ 12

(ii) S1 := {x ∈ Rn : ‖x− x1‖ ≤ ξ1} ⊂ D0

wo ξ1 := ξ0 − α0 und ξ0 := (1−√

1− 2h )/(β0L),dann ist das Newton–Verfahren mit x0 als Startwert unbegrenzt durchfuhrbar, die Folge{xk} konvergiert gegen eine Nullstelle x∗ von F auf D0 und diese Nullstelle ist eindeutigaufD0 ∩ {x ∈ Rn : ‖x− x0‖ ≤ (1 +

√1− 2h )/(β0L)}.

Ferner gelten folgende Abschatzungen

‖xk+1 − x∗‖ ≤ 12‖xk − x∗‖

falls h < 12 , dann ‖xk+1 − x∗‖ ≤ 1

2

β0L√1− 2h

‖xk − x∗‖2 (∀k) 2

>>

Schon einfache Beispiele zeigen, daß das Newton–Verfahren auch dann nicht not-wendig fur beliebige Startwerte konvergiert, wenn die Gleichung F (x) = 0 nurgenau eine Losung besitzt.(z.B. F (x) = arctgx, |arctg(x0)| ≥ 2|x0|/(1 + x2

0)) Man benotigt also in derRegel tatsachlich gute Startwerte. Eine Ausnahme bilden konvexe und konkaveFunktionen (n = 1) mit reellen Nullstellen, wenn x0 grosser als die grosste oderkleiner als die kleinste Nullstelle ist. Ebenso Polynome mit nur reellen Nullstellen,wenn der Startwert ausserhalb des Nullstellenbereiches liegt.

Die Durchfuhrung des Newton–Verfahrens erfordert pro Schritt die Berechnungder Jacobimatrix von F und die Losung eines linearen Gleichungssystems. Diefolgende Variante behebt dies:


JF (x0)dk = −F (xk)xk+1 = xk + dk

}vereinfachtes Newton–Verfahren

Wenn man eine Dreieckszerlegung von JF (x0) berechnet hat (evtl. mit Pivot-wahl) dann ist als wesentlicher Aufwand beim vereinfachten Newton–Verfahrennur noch die Berechnung der F–Werte zu zahlen. Die Konvergenzeigenschaftensind aber ungunstiger, man hat nur noch lineare Konvergenz, die umso schnellerist, je besser die Naherung x0 ist. In vielen Anwendungen hat man jedoch dieSituation, einen guten Startwert zu besitzen. Dann ist das vereinfachte Newton-verfahren vorzuziehen.

Wenn die Bildung der partiellen Ableitungen zu schwierig erscheint, kann manDifferenzenquotienten als Naherungen dafur anwenden:

Ak :=1

τk(F (xk + τke1)− F (xk), . . . , F (xk + τken)− F (xk))

z.B. mit τk := max{√ε||xk||,min{10−3, ‖F (xk)‖1/2}}

Akdk = −F (xk)

xk+1 := xk + dk

Man beachte, daß man in der Praxis wegen der Rundungsfehlereinflusse τk auchnicht zu klein wahlen darf. Dazu dient oben der Term

√ε||xk||, in dem ε die

Rechengenauigkeit bezeichnen soll. Man bricht z.B. die Iteration ab, wenn ‖F (x)‖nicht mehr monoton fallt.

In allen diesen Fallen hat die Iterationsvorschrift die Form

xk+1 = Φ(xk)

(z.B. beim Newton–Verfahren Φ(x) = x− (JF (x))−1F (x)).Im folgenden Abschnitt werden wir uns mit der allgemeinen Konvergenztheoriefur Verfahren dieses Typs beschaftigen.

Das Newtonverfahren ist tatsachlich nur in einer, haufig recht kleinen, Umge-bung einer Nullstelle konvergent. Man kann es jedoch in einem gewissen Umfangglobalisieren durch folgende Modifikation:

Statt xk+1 = xk + dk wahlt man xk+1 = xk + σkdk, wobei die sogenannte Schritt-weite σk ∈]0, 1] so gewahlt wird, daß ‖F (xj)‖ eine streng monoton fallende Folgeist. Genauer verlangt man, daß

‖F (xj+1)‖2 ≤ (1− δσj)‖F (xj)‖2 (4.3)

gilt mit 0 < δ < 12

fest gewahlt. Man kann dann z.B. σj maximal in der Folge{1, 1

2, 1

4, · · · } wahlen, so daß (4.3) gilt. Die Norm muß dabei so gewahlt sein, daß

‖.‖2 eine C2-Funktion ist, z.B.

‖x‖ = ‖Ax‖2


mit festem regularem A. Fur A = (JF (x∗))−1 wurde das die (lokal) monotone Ab-nahme des Fehlers ‖xj−x∗‖2 bedeuten. Man kann zeigen, daß diese Modifikationfur jedes x0, das die Bedingung

‖F (x)‖ ≤ ‖F (x0)‖ ⇒ JF (x) invertierbar

erfullt, gegen eine Nullstelle von F konvergiert. Ferner wird ab einer gewissenSchrittzahl automatisch σj = 1, d.h. das Verfahren erhalt schliesslich die qua-dratische Konvergenz.

Deuflhard empfiehlt, A variabel als (JF (xk))−1 zu wahlen. Dafur gilt der Be-

weis jedoch nicht. In der Praxis hat sich die Vorgehensweise allerdings oft sehrbewahrt.

Das Newtonverfahren, wie wir es hier behandelt haben, bestimmt nur eine Null-stelle (in der Regel in der Nahe des Startwertes, aber nicht einmal das kanngenerell garantiert werden). Fur spezielle Aufgaben ist man in der Lage, Verfah-ren anzugeben, die alle Nullstellen finden, z.B. fur das Polynomnullstellenproblemund das Eigenwertproblem. Auf die speziellen Verfahren fur Polynomnullstellenkonnen wir aus Zeitgrunden hier nicht eingehen. Man kann jedoch sagen, daß die-ses Problem inzwischen befriedigend gelost ist. Eigenwerte von Matrizen werdennumerisch nie als Nullstellen des (explizit aufgestellten) charakteristischen Poly-noms bestimmt, dies ware ein grober Kunstfehler. Wir behandeln diese Aufgabein einem spateren Kapitel.

4.3 Konvergenztheorie stationarer Einstellenver-

fahren

In diesem Abschnitt diskutieren wir die Konvergenzbedingungen fur Verfahrendes Typs

xk+1 = Φ(xk) (stationare Einstellenverfahren)

(Verfahren dieses Typs bezeichnet man manchmal auch als Picard–Iteration oderdirekte Iteration.)Mit Hilfe der Substitution

~xk :=

xk......

xk−p

Ψ(~xk) =

Φ(xk, ..., xk−p)xk...xk−p+1

kann man (mit gewissen Einschrankungen) auch stationare Mehrstellenverfahren

xk+1 = Φ(xk, ..., xk−p)

Konvergenztheorie 177

behandeln.

Definition 4.3.1. Jede Losung von x∗ = Φ(x∗) heißt ein Fixpunkt von Φ. 2

Unter einschrankenden Bedingungen an die Iterationsfunktion Φ kann man Exi-stenz und Eindeutigkeit eines Fixpunktes von Φ sowie die Konvergenz des Ite-rationsverfahrens fur alle Startwerte aus einem gewissen Bereich, in der Regeleine ”Kugel” um einen vorgegebenen Wert, beweisen. Wir formulieren zunachsteine vereinfachte und zusammenfassende Version der spateren Satze in diesemAbschnitt:

Satz 4.3.1. Banach’scher Fixpunktsatz, vereinfachte Version: Es sei D ⊂Rn, Φ : D ⊂ Rn → Rn D0 ⊂ D sei abgeschlossen und konvex. Φ sei stetigdifferenzierbar auf D. ‖ · ‖ sei eine geeignet gewahlte Norm auf Rn. Es gelte

(i)

supx∈D0

‖JΦ(x)‖ def= L < 1 “Kontraktionseigenschaft”

L: “Lipschitzkonstante”

(ii) Mit einem geeignet gewahlten y(0) ∈ D0 gelte: Die ”Kugel”

K def= {x : ‖x− y(0)‖ ≤ δ}

liege ganz in D0, wo

δdef=

1

1− L||y(0) − Φ(y(0))||

Dann gilt:

(i) Es gibt genau einen Fixpunkt x∗ von Φ in D0, der sogar in K liegt.

(ii) Fur jeden Startwert x0 aus K konvergiert das Iterationsverfahren gegen die-sen Fixpunkt.

(iii) Es gilt dabei||xk+1 − x∗|| ≤ L||xk − x∗|| ∀ k

und

||xk+1 − x∗|| ≤L

1− L||xk+1 − xk|| ≤

Lk+1

1− L||x1 − x0||

2


L beschreibt also die Fehlerreduktion pro Schritt, gemessen in der gewahltenNorm. Haufig muss man die Norm erst noch konstruieren, weil die einfachenNormen die Kontraktionsbedingung nicht ergeben. Aus den Satzen des voraus-gegangenen Abschnitts sehen wir auch, daß jedenfalls die Jacobimatrix von Φ imbetrachteten Bereich niemals einen Spektralradius grosser als 1 haben darf, weilsonst die Konstruktion der Norm nicht gelingen kann. Naturlich konvergiert dasVerfahren in jeder Norm, wenn der Nachweis fur eine Norm gelingt. Konkret mußman in der Praxis wie folgt vorgehen:

1. Schritt: Wahl eines moglichst guten Startwertes x0 (durch “sinnvolles Pro-bieren”, bei n = 1 z.B. Tabellieren von Φ oder unter Ausnutzung analyti-scher Eigenschaften von Φ).

2. Schritt: Wahl von D0 als Teil des Definitionsbereiches von Φ. D0 solltesymmetrisch zu x0 liegen, um L moglichst gut abschatzen zu konnen (vgl.vorstehenden Satz ). Wenn die Konstruktion von L < 1 mit D0 = Rn

moglich ist, dann ist alles weitere trivial erfullt mit D = D0 = Rn. Bestim-mung von L.

3. Uberprufung der Voraussetzung an δ. Falls sie erfullt ist, ist alles bewiesen.

Fallt im 2. Schritt L ≥ 1 aus, dann kann dies zwei Grunde haben:

a) D0 ist zu groß gewahlt worden bzw. y(0) ist zu schlechte Naherung.

b) Die Iterationsfunktion Φ ist ungeeignet (z.B.

x3 − x− 5 = 0 ⇔ (1) x = x3 − 5 = Φ1(x)

(2) x = 3√x+ 5 = Φ2(x)

(3) x =5

x2 − 1= Φ3(x)

Zur Bestimmung der Losung bei ≈ 1.9 ist nur die zweite Formel ge-eignet!)

Man muß dann eine andere Iterationsvorschrift zu konstruieren versu-chen.

Wenn der Test K ⊂ D0 versagt, dann ist normalerweise y(0) eine zu schlechteNaherung.

Beispiel 4.3.1. n = 2, Φ(ξ1, ξ2) =

(3ξ1

2 − ξ2 + 0.0011

2000ξ1 + 4ξ2

3 − 0.002

), D = R2.

Vermutung: Ein Fixpunkt liegt nahe bei 0.


Bilde Jacobi-Matrix:

JΦ(ξ1, ξ2) =

(6ξ1 −1

12000

12ξ22

)Wahle ‖x‖ := max{|ξ1|; 10|ξ2|}

‖JΦ(ξ1, ξ2)‖ =

∥∥∥∥( 6ξ1 − 110

1200

12ξ22

)∥∥∥∥∞

= max{6|ξ1|+ 110

; 1200

+ 12ξ22}

Wir schatzen

D0 = {x : |ξ1| ≤ 110, |ξ2| ≤ 1

5}

Damit folgt nun

L = 0.7 = supx∈D0

‖JΦ(x)‖

y(0) = 0⇒ y(1) =

(0.001

−0.002

)= Φ(y(0))

‖y(0) − y(1)‖ = max{| − 0.001|; 10 · |0.002|} = 0.02

δ =1

1− L· ‖Φ(y(0))− y(0)‖ =

1

1− 0.7· 0.02 =

0.02

0.3= 0.06

K def= {x : ‖x− y(0)‖ = max{|ξ1|; 10|ξ2|} ≤ 0.06} ⊂ D0 .

Es existiert also genau ein Fixpunkt x∗ von Φ auf K und fur jeden Startwert ausK ist {xk} konvergent gegen x∗. Der Fixpunkt ist sogar in D0 eindeutig.

Im Folgenden wird der vorstehende Satz in mehreren Stufen und ein wenig allge-meiner formuliert bewiesen.

<<

Satz 4.3.2. Banach’scher Fixpunktsatz:Es sei D ⊂ Rn, Φ : D ⊂ Rn → Rn D0 ⊂ D sei abgeschlossen.‖ · ‖ sei eine geeignet gewahlte Norm auf Rn. Es gelte

(i) ∀ x, y ∈ D : ‖Φ(x)− Φ(y)‖ ≤ L‖x− y‖ mit 0 ≤ L < 1“Kontraktionseigenschaft”L: “Lipschitzkonstante”

(ii) ∀ x ∈ D0 : Φ(x) ∈ D0 “Selbstabbildung von D0”

Dann gilt: Es existiert genau ein Fixpunkt x∗ von Φ auf D, sogar x∗ ∈ D0 und furjedes x0 ∈ D0 ist die durch xk+1 := Φ(xk) definierte Folge wohldefiniert, liegt in D0

und erfullt

‖xj − x∗‖ ≤ L

1− L‖xj − xj−1‖ ≤

Lj

1− L‖x1 − x0‖ j ≥ 1

‖x0 − x∗‖ ≤ 11− L

‖x0 − x1‖

2


Beweis:

1. Eindeutigkeit: Ann.: ∃ x∗, x∗∗ ∈ D Fixpunkte von Φ, x∗ 6= x∗∗

⇒ 0 < ‖x∗ − x∗∗‖ = ‖Φ(x∗)− Φ(x∗∗)‖≤ L‖x∗ − x∗∗‖ < ‖x∗ − x∗∗‖ Widerspruch!

2. Sei x0 ∈ D0. Wegen Φ : D0 → D0 ist {xk} wohldefiniert und ⊂ D0. Ferner

‖xk+1 − xk‖ = ‖Φ(xk)− Φ(xk−1)‖ ≤ L‖xk − xk−1‖und

‖xk+p − xk‖ ≤p∑j=1

‖xk+j − xk+j−1‖

≤ (p−1∑j=0

Lj)‖xk+1 − xk‖

≤ 1− Lp

1− LLk‖x1 − x0‖

≤ 11− L

Lk‖x1 − x0‖

fur alle p ≥ 1, wahrend Lk → 0 fur k →∞.Also ist {xk} eine Cauchy–Folge und da D0 abgeschlossen, gilt

∃ limk→∞

xk = x∗ ∈ D0

Aus der Stetigkeit von Φ folgt x∗ = Φ(x∗).

3. Die Fehlerabschatzung ergibt sich aus

‖xj − x∗‖ ≤ ‖xj+p − x∗‖+ ‖xj+p − xj‖

≤ ε(p) +1− Lp

1− L‖xj+1 − xj‖

≤ ε(p) +Lj

1− L‖x1 − x0‖

wo ε(p)→ 0 mit p→∞2

Satz 4.3.2 erlaubt also

1. Einen Schluß auf die Existenz einer Losung

2. Eine Konvergenzaussage fur das Iterationsverfahren

3. Eine Fehlerabschatzung fur xj − x∗, und zwar sowohl a priori in der Formδ ≤ ‖x1 − x0‖ undj ≥ ln((1− L)δ/ ‖x1 − x0‖)/ lnL ⇒ ‖xj − x∗‖ ≤ δals auch a posteriori:

‖xj − x∗‖ ≤ L

1− L‖xj − xj−1‖


Im Folgenden wollen wir diskutieren, wie man die beiden zentralen Bedingungen desBanach’schen Fixpunktsatzes sicherstellen und L praktisch bestimmen kann. Trivial istder Fall eines Iterationsverfahrens fur lineare Gleichungssysteme

Φ(x) = Bx + c

Dann kann man D0 = D = Rn wahlen und es existiert eine Norm auf Rn und eine ge-eignete Lipschitzkonstante L < 1 genau dann, wenn ρ(B) < 1.(Satz 3.5.7, ε hinreichend klein. Andererseits giltρ(B) ≥ 1 ⇒ Bx0 = λ0x0 mit |λ0| ≥ 1 ⇒‖Φ(x + τx0︸︷︷︸

=:y

)− Φ(x)‖ = |τ ||λ0|‖x0‖ = |λ0|‖y − x‖ mit |λ0| ≥ 1

fur jede Norm ⇒ L ≥ 1)Zunachst beschaftigen wir uns mit der Bedingung (ii), die in der Regel schwieriger zuverifizieren ist.

Satz 4.3.3. Selbstabbildung Sei D ⊂ Rn, Φ : D → Rn erfulle die Bedingungen

(i) ∀ x, y ∈ D : ‖Φ(x)− Φ(y)‖ ≤ L‖x− y‖+ ε mit 0 ≤ L < 1 undε ≥ 0.

(ii) ∃ y0, y1 ∈ D : D0 := {x ∈ Rn : ‖x− y1‖ ≤ δ} ⊂ Dmit

δ :=1

1− L{L‖y1 − y0‖+ ε + ‖Φ(y0)− y1‖}

Dann gilt: ∀x ∈ D0 : Φ(x) ∈ D0 (Φ(D0) ⊂ D0).2

Beweis: Sei x ∈ D0 beliebig. Zu zeigen ist ‖Φ(x)− y1‖ ≤ δ.

‖Φ(x)− y1‖ ≤ ‖Φ(x)− Φ(y0)‖+ ‖Φ(y0)− y1‖≤ L‖x− y0‖+ ε + ‖Φ(y0)− y1‖≤ L‖x− y1‖+ L‖y1 − y0‖+ ε + ‖Φ(y0)− y1‖≤ Lδ + (1− L)δ = δ

2


Dieser Satz wird am haufigsten angewandt in folgender Form :ε = 0 und x0 = y0 = y1, x1=Φ(x0) = Φ(y0):

D0 = {x ∈ Rn : ‖x− x0‖ ≤1

1− L‖x1 − x0‖}

ε = 0 und x0 = y0, x1=Φ(x0) = y1:

D0 = {x ∈ Rn : ‖x− x1‖ ≤L

1− L‖x1 − x0‖}

Der Fall ε > 0 ist nutzlich, wenn man den Einfluß von Storungen (Rundungs- undApproximationsfehlern) in Φ diskutieren will. Zur Bestimmung der LipschitzkonstanteL kann man den folgenden Satz benutzen:

Satz 4.3.4. Berechnung der Lipschitzkonstanten Es sei D ⊂ Rn konvex undΦ ∈ C1(D). Man setze

L := sup {‖JΦ(x)‖ : x ∈ D}.

Dann gilt∀ x, y ∈ D ‖Φ(x)− Φ(y)‖ ≤ L‖x− y‖

2

Beweis: Sei Φ = (ϕ1, ..., ϕn) und i ∈ {1, ..., n} bel. Setze gi(t) := ϕi(x + t(y− x)) mitx, y ∈ D bel. fest. Nach dem Hauptsatz und der Kettenregel wird

gi(1)− gi(0) = ϕi(y)− ϕi(x)

=∫ 1

0g′i(t)dt

= (∫ 1

0∇ϕi(x + t(y − x))Tdt)(y − x) i = 1, ..., n

d.h.

Φ(y)− Φ(x) =∫ 1

0JΦ(x + t(y − x))dt(y − x)1

⇒

‖Φ(y)− Φ(x)‖ ≤∫ 1

0‖JΦ(x + t(y − x))‖ dt ‖y − x‖ ≤ L‖y − x‖

2 Wenn die nach Satz 4.3.4 berechnete Lipschitzkonstante ≥ 1 ausfallt, dannkann dies zwei Grunde haben:

1. D ist zu “groß”(viele Verfahren, auch das Newton–Verfahren, sind nur lokal konvergent.)

2. Φ ist ungeeignet konstruiert.

1Integral einer Matrix ist komponentenweise zu verstehen


Beispiel 4.3.2. Losung der Gleichung x3 − x− 5 = 0Iterationsfunktionen:

1. Φ1(x) = x3 − 5 Φ′1(x) = 3x2

2. Φ2(x) =2x3 + 53x2 − 1

(Newton–Verfahren)

Φ′2(x) = 6xx3 − x− 5(3x2 − 1)2

3. Φ3(x) =5

x2 − 1Φ′3(x) = − 10x

(x2 − 1)2

Losung: x∗ = 1.9041608 |Φ′1(x∗)| = 10.877..., |Φ′3(x∗)| = 2.7616...⇒ Φ1,Φ3 unbrauchbar. Φ′2(x

∗) = 0. |Φ′2(x)| ≤ 1 ∀x ∈]1.46183106,∞[. Das Newton–Verfahren konvergiert in diesem Bereich gegen x∗

(hier sogar fur x > 1/√

3). 2

Wenn die Existenz eines Fixpunktes schon anderweitig sichergestellt ist, dann kann fol-gender wesentlich schwacherer Satz zur Konvergenzuntersuchung herangezogen werden:

Satz 4.3.5. Satz von Ostrowski:Sei Φ : D ⊂ Rn → Rn im Fixpunkt x∗ differenzierbar. Es gelte

ρ := ρ(JΦ(x∗)) < 1

Dann existiert ein ε1 > 0 und eine geeignete Norm ‖ · ‖, so daß mit

K := {x ∈ Rn : ‖x− x∗‖ ≤ ε1}1

gilt: ∀ x0 ∈ K : xi+1 = Φ(xi) ist wohldefiniert (∀i) und limi→∞

xi = x∗.2

Beweis: Setze ε = 1−%4 . Nach Satz 3.5.7 existiert eine Norm ‖ · ‖ mit

‖JΦ(x∗)‖ ≤ ρ +1− ρ

4

Aufgrund der Differenzierbarkeit von Φ gibt es ein ε1 > 0 : ∀ x : ‖x− x∗‖ ≤ ε1

‖Φ(x)− Φ(x∗)− JΦ(x∗)(x− x∗)‖ ≤ 1− ρ

4‖x− x∗‖

und damit‖Φ(x)− Φ(x∗)‖ = ‖Φ(x)− x∗)‖ ≤ (ρ +

1− ρ

2)︸︷︷︸

σ

‖x− x∗‖

Also ∀ x ∈ K : Φ(x) ∈ K und ‖xk − x∗‖ ≤σk→0‖x0 − x∗‖ ≤ σkε1, d.h. lim

i→∞xi = x∗ 2


Bemerkung 4.3.1. In der Praxis kann man aufgrund unvermeidlicher Approximations-und Rundungsfehler den Iterationsprozeß nicht exakt ausfuhren. Wenn jedoch Φ dieVoraussetzung des Banach’schen Fixpunktsatzes erfullt und man tatsachlich rechnetxk+1 = Φk(xk), wo x0 = x0 ∈ D0 und

∀ k ∈ N0 ∀ x ∈ D : ‖Φ(x)− Φk(x)‖ ≤ ε

und

D1 := {x ∈ Rn : ‖x− x‖ ≤ ε/ (1− L) fur (mind.) ein x ∈ D0} ⊂ D,

dann giltlimi→∞

‖xi − x∗‖ ≤ ε/ (1− L)

Eine geringe Kontraktion, d.h. L ≈ 1, wirkt also unter Umstanden sehr fehlerverstarkend!Diese Aussage und Verallgemeinerungen findet man bei Collatz: Funktionalanalysis undNumerische Mathematik. 2

>>

4.4. DIE BEGRIFFE KONVERGENZORDNUNG UNDKONVERGENZRATE, ERG185

4.4 Die Begriffe Konvergenzordnung und

Konvergenzrate, ERG

Die Kontraktionsbedingung im Banach’schen Fixpunktsatz besagt, daß der “Feh-ler” ‖xk − x∗‖ pro Schritt um den Faktor L verkleinert wird. Man ist naturlichdaran interessiert, eine gewunschte Genauigkeit mit moglichst wenig Aufwand,d.h. mit moglichst wenigen Auswertungen von Φ zu erzielen. Vergleicht man alsozwei Iterationsfunktionen Φ1 und Φ2 mit dem gleichen Fixpunkt auf dem gleichenGebiet D und in der gleichen Norm, dann wird man Φ1 als “besser” bezeichnen,wenn L1 < L2. Daß hierdurch u.U. der Sachverhalt nicht korrekt wiedergegebenwird, zeigt das Beispiel.

Beispiel 4.4.1. Nullstellenbestimmung bei F (x) = arctgx

Φ1(x) = x− 12arctgx Verfahren der parallelen Strahlen

Φ2(x) = x− (arctgx)(1 + x2) Newton–Verfahren

D = [−34, 3

4] L1 = 0.68, L2 = 0.96525

Φ1 “besser” als Φ2 ?x0 = 0.75

Φ1 Φ2

x1 = 0.42824944x2 = 0.22593957 x2/x1 = 0.527588x3 = 0.11483529 x3/x2 = 0.508257x4 = 0.05766806 x4/x3 = 0.502181x5 = 0.028865929 x5/x4 = 0.500553

x1 = −0.25547048x2 = 1.097437410−2 x2/x

31 = 0.6582

x3 = −8.811310−7 x3/x32 = 0.6667

x4 = 0

Fur Φ1 haben wir also asymptotisch eine Fehlerreduktion von 0.5 pro Schritt,wahrend das Newtonverfahren hier sogar eine Fehlerreduktion wie (2/3)∗|xk−x∗|2zeigt, der Fehler geht kubisch gegen null.

2

Die Ergebnisse der Abschnitte 2,3 und Beispiel 4.4.1 zeigen, daß das Modell derKonvergenzbeschreibung ‖xk+1−x∗‖ ≤ L‖xk−x∗‖ verallgemeinert werden sollte.Dies geschieht in


Definition 4.4.1. Es sei Φ : D ⊂ Rn → Rn eine Iterationsfunktion,x∗ ∈ D ein Fixpunkt von Φ. Mit einem geeigneten δ0 > 0 gelte fur

‖x0 − x∗‖ ≤ δ0 : x∗ = limi→∞

xi

wo xi+1 := Φ(xi). Dann heißt die Konvergenz von mindestens pter (Q)–Ordnung, falls ein C(δ) ≥ 0 existiert mit

‖xi+1 − x∗‖ ≤ C(δ)‖xi − x∗‖p (4.4)

falls ‖x0 − x∗‖ ≤ δ ≤ δ0.Dabei sei p ≥ 1 (∈ R) und C(δ) < 1 falls p = 1. Die Große C0 := inf{C(δ) :δ > 0 und es gilt (4.4)} bezeichnet man als die zugehorige Konvergenzrate.Falls zugleich fur ein C1 > 0

‖xi+1 − x∗‖ ≥ C1‖xi − x∗‖p

dann heißt die Konvergenz von der genauen Ordnung p. Spezielle Bezeichnungensindp = 1 C0 < 1 linearep = 1 C0 = 0 superlinearep = 2 quadratischep = 3 kubische

Konvergenz 2

Unter den Bedingungen von Satz 4.3.2 besteht also (mindestens) lineare Konver-genz. Die beiden folgenden Satze ergeben sich unmittelbar aus der Taylor’schenFormel.

Satz 4.4.1. (n=1)Es sei n = 1, D =]a, b[, x∗ = Φ(x∗) ∈ D,Φ ∈ Cp(D) mitp ≥ 1 ∈ N. Falls Φ(1)(x∗) = · · · = Φ(q)(x∗) = 0 mit 1 ≤ q ≤ p − 1 oderq = 0 und 0 < |Φ′(x∗)| < 1, dann ist die Konvergenz des durch Φ beschriebenenIterationsverfahrens von mindestens (q + 1)ter Ordnung. Falls zugleich

|Φ(q+1)(x∗)| > 0

dann ist die Konvergenz von genau (q + 1)ter Ordnung. 2

Satz 4.4.2. (n bel.)Es sei D ⊂ Rn und Φ ∈ C2(D). Falls x∗ = Φ(x∗) ∈ D und JΦ(x∗) = 0, dann istdie Konvergenz des durch Φ beschriebenen Verfahren von mindestens 2. Ordnung.

2

Fur dreimal stetig differenzierbares F kann man z.B. mit diesem Satz die qua-dratische lokale Konvergenz des Newtonverfahrens sehr einfach zeigen.

4.5. QUASI-NEWTON-VERFAHREN, ERG 187

Bemerkung 4.4.1. Es gibt auch praktisch interessante Verfahren von nicht ganz-zahliger Ordnung, z.B. hat das Sekantenverfahren (n=1)

xk+1 = xk − F (xk)xk − xk−1

F (xk)− F (xk−1)

die Ordnung p = (1 +√

5)/2, falls F ′(x∗) 6= 0 und F ∈ C3(D). Das Verfahrenist also etwas langsamer als das Newton–Verfahren. Berucksichtigt man aber denAufwand pro Schritt (Sekanten–Verfahren 1 F–Wert, Newton–Verfahren 1 F–und 1 F ′–Wert), dann erweist sich das Sekantenverfahren als das effizientere. DasSekantenverfahren hat allerdings keine so guten globalen Konvergenzeigenschaf-ten und ist auch mit numerischen Schwierigkeiten behaftet. (0 / 0 –Situation.)Die Konstruktion von Verfahren sehr hoher Ordnung ist theoretisch ohne Schwie-rigkeiten, jedoch gibt es dabei keine von praktischem Interesse. 2

4.5 Quasi-Newton-Verfahren, ERG

Das Newtonverfahren erfordert die Berechnung der partiellen Ableitungen vonF , was selbst dann sehr aufwendig ist, wenn diese Ableitungen im Prinzip ein-fach aufzustellen oder durch geeignete Software automatisch berechenbar sind.Es ist deshalb von Interesse, daß man superlinear konvergente Verfahren zurGleichungslosung konstruieren kann, die nur mit den ohnehin zu berechnendenFunktionswerten F (xk) auskommen. Dies sind die sogenannten Quasi-Newton-Verfahren, bei denen, ausgehend von einer “Naherung” A0 fur JF (x∗) neue Ma-trizen Ak rekursiv gebildet werden nach folgendem Prinzip: ist Ak gegeben und

Akdk = −F (xk)

xk+1 = xk + dk,

dann wird Ak+1 konstruiert durch die Forderung

‖Ak+1 − Ak‖ = minimal

Ak+1dk = F (xk+1)− F (xk)def= yk.

Dabei ist ‖.‖ eine gewahlte Norm. Nimmt man hierfur die Frobeniusnorm, danngelangt man zum Broydenverfahren, das durch

Ak+1 = Ak +(yk − Akdk)dTk

dTk dk

erklart ist.


Man kann zeigen, daß dieses Verfahren fur affin lineares F (x) = a + Ax inhochstens 2n Schritten mit der exakten Losung abbricht, wenn ‖I−A−1A0‖2 < 1gilt. Dies ist aber fur die Praxis irrelevant, der Aufwand ware ja hoher als furden Gauss’schen Algorithmus. Wesentlich interessanter ist folgendes Resultat:

Satz 4.5.1. Sei F (x∗) = 0 und JF (x∗) regular, F ∈ C2(U(x∗)). Dann gibt esδ0 > 0 und %0 > 0, so daß fur jedes Paar (x0, A0) mit ‖x0− x∗‖2 < δ0 und ‖A0−JF (x∗)‖2 < %0 das Broydenverfahren unbegrenzt durchfuhrbar ist und entwedernach endlicher Schrittzahl mit F (xN) = 0 abbricht oder superlinear konvergiert,d.h. xk → x∗ und

‖xk+1 − x∗‖‖xk − x∗‖

→ 0.

Beweis: siehe z.B. bei Schwetlick, Numerische Losung nichtlinearer Gleichungen,Oldenbourg Verlag 1979. 2

4.6 Einschachtelungsverfahren (n=1) ERG

Ein schwerwiegender Nachteil der bisher besprochenen Verfahren ist die norma-lerweise nur lokale Konvergenz. Ist bei einer reellwertigen stetigen Funktion einerreellwertigen Veranderlichen ein Intervall [a, b] bekannt mit F (a)F (b) ≤ 0 (d.h.auf Grund des Zwischenwertsatzes [a, b] enthalt mindestens eine Nullstelle), dannkann man eine der Nullstellen x∗ von F auf [a, b] mit global konvergenten Ein-schachtelungsverfahren finden. Hierbei wird eine Folge {[ak, bk]k∈N} konstruiertmita =: a0 ≤ a1 ≤ a2 ≤ · · · · · · ≤ b2 ≤ b1 ≤ b0 := bund lim

k→∞ak = x∗ oder lim

k→∞bk = x∗.

Das einfachste Verfahren ist die Intervallhalbierungsmethode (Bisektion).k = 0, 1, 2,tk := (ak + bk)/2

ak+1 :=

{ak falls F (ak)F (tk) < 0tk sonst

bk+1 :=

{tk falls F (ak)F (tk) ≤ 0bk sonst

Hier gilt offensichtlich |x∗ − tk| ≤ 2−k−1(b− a) (∀k)

4.6. EINSCHACHTELUNGSVERFAHREN (N=1) ERG 189

Die folgenden Verfahren unterscheiden sich nur in der Konstruktion des “Test-punktes” tk.Bei der Regula falsi benutzt man die Nullstelle der Sekante durch(ak, F (ak)) (bk, F (bk)) als neuen Testpunkt tk, d.h.

tk := ak − F (ak)bk − ak

F (bk)− F (ak)

Nachteile der Regula falsi ist, daß eines der Intervallenden gewohnlich “stehenbleibt”, d.h. ak0 ≡ ak (∀k ≥ k0) oder bk0 ≡ bk (∀k ≥ k0). Die Konvergenzge-schwindigkeit ist oft langsamer als bei der Bisektion. Die folgende Modifikation,der Illinois–Algorithmus, schafft hier Abhilfe:

tk :=

tk−1 − F (tk−1)tk−1 − tk−2

F (tk−1)− F (tk−2)falls F (tk−1)F (tk−2) < 0

tk−1 − F (tk−1)tk−1 − tk−3

F (tk−1)− F (tk−3)/2falls F (tk−1)F (tk−2) > 0

und F (tk−1)F (tk−3) < 0

(ak + bk)/2 sonst

Die Modifikation bewirkt, daß limk→∞

ak = limk→∞

bk = x∗ und

|tk+3 − x∗| ≤ C|tk − x∗|3

mit einer geeigneten Konstanten C (die von F ′, F ′′, F ′′′ abhangt), falls F ∈C3 (a, b). Der Beweis dieser letzten Abschatzung ist allerdings bereits ziem-lich diffizil.

Beispiel 4.6.1. F (x) = 1− xx, a0 = 110, b0 = 2.


Rechengenauigkeit 10 Dezimalstellen.Aufwand zur Bestimmung der Nullstelle x∗ = 1 in F–Werten:Bisektion: 33, Regula falsi: 57 (bk ≡ 2), Illinois–Algorithmus: 13 2

Bemerkung 4.6.1. Man kennt inzwischen auch brauchbare Ubertragungen derBisektion auf nichtlineare Gleichungssysteme (bedeutsam wegen der globalen Kon-vergenz)Details siehe z.B. Moore, R.E.;Jones, S.T.: Safe starting regions for iterativemethods. SIAM J.Numer. Anal. 14, (1977), 1051− 1065 2

4.7 Zusammenfassung

Nichtlineare Gleichungen und Gleichungssysteme haben nicht notwendig eineLosung und u.U. aber auch viele Losungen. Die hier dargestellten Methodenbegnugen sich samtlich mit der Bestimmung nur einer Losung. Alle diese Verfah-ren sind iterativ. Das am haufigsten angewendete Verfahren, das Newtonverfahren, konvergiert fur eine Nullstelle mit regularer Jacobimatrix lokal superlinear undim Fall einer zweimal stetig differenzierbaren Funktion lokal von zweiter Ordnung.Es erfordert die Kenntnis eines ”hinreichend guten” Startwertes. Durch Kontrolleder monotonen Abnahme von ‖F‖ und deren Erzwingung durch Verkurzung desKorrekturschrittes (”gedampftes Newtonverfahren”) kann man den Konvergenz-bereich in der Regel vergrossern. Gelegentlich gelingt es auch auf andere Weise,ein Nullstellenproblem in ein aquivalentes Fixpunktproblem umzuwandeln, aufdas der Banach’sche Fixpunktsatz anwendbar ist. Dieser Satz garantiert unterden Bedingungen der Kontraktions- und der Selbsabbildungseigenschaft auf ei-nem Bereich die Existenz und Eindeutigkeit eines Fixpunktes in diesem Bereich.Die Kontraktionsbedingung ist erullt, wenn die Jacobimatrix der Iterationsfunk-tion Φ auf diesem Bereich in einer geeigneten Norm durch eine Konstante kleinerals 1 beschrankt werden kann. Fur die Selbstabbildungseigenschaft gibt es Tests,die diese Eigenschaft wenigstens auf einem Teilbreich (der dann notwendig denFixpunkt enthalt) garantieren. Gelegentlich kann man aber die Selbstabbildungauch direkt nachweisen. Eine notwendige, aber nicht hinreichende Bedingung furdie Kontraktion ist es, daß die Eigenwerte der Jacobimatrix von Φ betragsmassigstets kleiner als eins sind. Ist die Existenz eines Fixpunktes schon anderweitiggesichert, dann ist die Bedingung ”Spektralradius der Jacobimatrix im Fixpunktkleiner als eins” hinreichend fur lokale Konvergenz (Satz von Ostrowski).


Weiterfuhrende Literatur

1. Dennis, J.E.jun.; Schnabel, Robert B.: Numerical methods for unconstrai-ned optimization and nonlinear equations. Repr. Philadelphia, PA: SIAM,Society for Industrial and Applied Mathematics. (1996)

2. Deuflhard, P.: Newton Methods for Nonlinear Problems. Springer 2004.

3. Ortega,J.M.; Rheinboldt, W.C.: Iterative Solution of Nonlinear Equationsin Several Variables. Acad. Press. 1970

4. Schwetlick, H.: Numerische Losung nichtlinearer Gleichungen. Oldenbourg.1979.

Index

Interpolationspolynom nach Lagran-ge, 7

Abgeschlossene Newton–Cotes–Formel,78

Adaptive Quadratur , 85allgemeine Formel fur den Quadra-

turfehler , 72Anwendung von periodischen Splines

, 48Approximationsgute der hermitischen

kubischen Splines , 49asymptotische Entwicklung, 99Ausgleichsrechnung, 150

B-Spline, 48Banach’scher Fixpunktsatz, 177Bandmatrix, 134Basisdarstellung, 47Belegungsfunktion, 56Bernoulli–Zahlen, 99Bernstein–Polynome, 22Bidiagonalmatrix, 134Bisektion, 186

Cholesky–Zerlegung, 129Cramer’sche Regel, 113

Dachfunktionen, 34Das Gauß’sche Eliminationsverfahren,

116direkte Iteration, 174dividierte Differenzen, 10Dreibandmatrizen, 134Dreiecksmatrix, 115

Einschachtelungsverfahren, 186

euklidisch, 53

Fehlereinfluß , 18Fehlerfragen, 137Fehlerverstarkung , 19Fejer, 27Fouriertransformierte, 106

Gauß’sche Quadraturformel, 90geeigneter Basisfunktionen , 34Gesamtkrummung, 39gestaffelte Gleichungssysteme, 114Gewichte, 68Gewichtsfunktion, 56gleichmassig konvex, 166Gram’schen Matrix , 55

Hermite–Interpolation, 25hermitischer interpolierender kubischer

Spline, 40Hessenberg–Matrix, 133Hilbertmatrix, 57Householder–Transformation, 155Householdermatrix, 152

Illinois–Algorithmus, 187Interpolationsfehlers, 15Interpolationspolynom nach Newton,

11interpolatorisch, 76Intervallhalbierungsmethode, 186inverse Interpolation, 27

Kantorovich, 172Knoten, 68konfluenter Fall, 25Kontraktionseigenschaft, 175, 177

192

INDEX 193

Konvergenzordnung, 183Konvergenzrate, 183kubische Splinefunktion, 105kubischer interpolierender Spline , 38kubischer Spline, 38

Lagrangeschen Grundpolynome, 7LDLT-Zerlegung, 131Legendre–Polynome, 60Lipschitzkonstante, 175, 177LR–Theorem, 121

Mac–Laurin–Formeln, 78Matrixnorm, 139Monospline, 77

naturliche Pivotwahl, 118naturlicher interpolierender kubischer

Spline , 40Neumann’sche Reihe, 144Neville–Algorithmus, 9Newton–Gregory–Formel, 20Newton–Verfahren, 166Norm, 54Normabschatzungen, 137Normalgleichungen, 55, 156numerische Berechnung uneigentlicher

Integrale, 105

Offene Newton–Cotes–Formeln, 78optimalen Approximationen , 60Ordnung mindestens k, 76Orthogonalpolynomen, 57

Peano–Kern, 77periodischer interpolierender kubischer

Spline, 40Picard-Iteration, 174Pivotstrategie, 118Poissonschen Summenformel, 106positiv definit, 127

QR Zerlegung, 151QR-Zerlegung, 155Quadraturfehler, 69

Quadraturformel, 68Quadraturverfahren, 69

Rechteckregel, 118Regula falsi, 187Rekursionsformel, 58Restglied bei niedrigerer Differenzier-

barkeitsordnung , 84Restglied der Polynominterpolation ,

12Restmatrix-Pivotwahl, 118Romberg–Verfahren, 101

Satz von Hadamard, 166Satz von Jackson, 23Satz von Ostrowski, 181Satz von Powell, 24Selbstabbildung, 177Sensitivitatsanalyse, 143Singularwertzerlegung, 157sinh–Transformation, 107Spaltenpivotwahl, 118Spektralradius, 142Spiegelungsmatrix, 152Sprungstelle, 105Storungssatz fur lineare Gleichungs-

systeme, 146stuckweise kubische Hermite–Interpolation

, 37strikt diagonaldominant, 45, 127Submultiplikativitat, 139symmetrischer Differenzenquotient, 31symmetrischer Differenzenquotient 2.

Ordnung, 32

Testgroße, 87Tschebyscheff–Polynome erster Art,

60Tschebyscheff–Polynome zweiter Art,

60Tschebyscheffabszisse, 21

uneigentliche Integrale, 105

van der Monde–Matrix, 6

194 INDEX

Variablentransformation, 105Vektornorm, 137Vektorraum, 53verallgemeinertes Hornerschema, 11vereinfachtes Newtonverfahren, 173Verfahren von Romberg, 97Vorwartsdifferenzen, 20

Wiederholte Richardsonextrapolation, 104

zugeordnete (Schranken)–Matrixnorm,140

zugeordnete Matrixnorm, 140zusammengesetzte Rechteckregel, 69,

82zusammengesetzte Simpsonregel, 82zusammengesetzte Trapezregel , 82

Documents

Der Fachbereich Mathematik an der TU Darmstadt - Prof. Dr ...1 Dieses Skriptum stellt den Inhalt der Vorlesung in einer sehr knappen, sicher nicht buchreifen Form dar. Es soll nicht