Upload
juliane-grosse
View
221
Download
0
Embed Size (px)
Citation preview
Geoinformationssysteme - Vorlesung 7 - FH Koblenz 1
Geoinformationssysteme
Prof. Dr. Stefan Hawlitschka23.11.2009
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
2
Themen
23.11.2009
Bayes‘sche Entscheidungstheorie Maximum Likelihood Schätzer Maximum a Posteriori Schätzer
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
3
Bayes‘sche Entscheidungstheorie
23.11.2009
Kontinuierliche Variablen Wir betrachten mehrere Merkmale mit Merkmalsvektor x im
euklidischen Raum Rd. Wir lassen mehr als zwei Klassen zu Die Einführung einer Kostenfunktion ermöglicht, bestimmte
Fehlklassifizierungen als schwerwiegender zu bewerten als andere
Wir hatten die a posteriori Wahrscheinlichkeit durch die Regel von Bayes definiert:
Likelihood A priori
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
4
Bayes‘sche Entscheidungstheorie
23.11.2009
Wie konstruieren wir die Wahrscheinlichkeitsfunktionen? Beispiel für a priori Wahrscheinlichkeit: wie oft kommt jede Klasse
in einer Stichprobe vor (empirische Häufigkeit)? Beispiel für Likelihood: empirische Helligkeitsverteilung p(x|)
Daten (Beobachtungen) Empirische Verteilung
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
5
Bayes‘sche Entscheidungstheorie
23.11.2009
Das Auszählen der Klassenhäufigkeiten liefert meist eine gute Approximation des wahren Priors.
Problem: Die empirische Verteilung ist meist eine schlechte Approximation der Likelihood. Es existieren zu wenige Beobachtungen, um insbesondere hochdimensionale Verteilungen zu schätzen
Ansatz: Modellannahmen geben zusätzliche Information zur Struktur des Problems, bzw. der Form der Likelihood. Beispiel: Daten D={x1,…,xk} Helligkeit des Seeteufels. Wir suchen die Verteilung der Zufallsvariablen X.
Bayes‘sche Entscheidungstheorie
23.11.2009Geoinformationssysteme - Vorlesung 7 - FH Koblenz
6
Histogram of b
b
Freq
uenc
y
150 160 170 180 190 200
05
1015
20
Modellannahme: X ist eine
normalverteilte Zufallsvariable
N(μ,σ2)
Parameterschätzung (ML):
Mittelwert = 179Standardabw. = 9.5
tatsächliche Dichte von X
empirische Dichtefunktion
140 160 180 200 220
0.00
0.01
0.02
0.03
density(x = a)
N = 1000 Bandwidth = 2.363
Dens
ity
„gelernte“ Dichtefunktion
150 160 170 180 190 200 210
0.00
0.01
0.02
0.03
0.04
seq(150, 210, length = 100)
dnor
m(s
eq(1
50, 2
10, le
ngth
= 1
00),
mea
n =
178,
sd =
10)
140 160 180 200 220
0.00
0.01
0.02
0.03
density(x = a)
N = 1000 Bandwidth = 2.363
Dens
ity
140 160 180 200 220
0.00
0.01
0.02
0.03
density(x = a)
N = 1000 Bandwidth = 2.363
Dens
ity
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
7
Die Gauß (Normal-) Verteilung
23.11.2009
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
8
Die Gauß-Verteilung
23.11.2009
T
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
9
Die Gauß-Verteilung
23.11.2009
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
10
Bayes‘sche Entscheidungstheorie
23.11.2009
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
11
Bayes‘sche Entscheidungstheorie
23.11.2009
Loss Funktion und Risk Seien {1,…,c} die c wahren Zustände und {1,…,a} a
mögliche Aktionen (Entscheidungen) Loss: Die loss function (kurz: loss) (i|j) gibt die mit der
Entscheidung i(x) verbundenen Kosten (cost) an, wenn die wahre Klassenzugehörigkeit durch wj gegeben ist
Risk: Der Erwartungswert einer loss-Funktion wird risk R genannt. Da P(j|x) die Wahrscheinlichkeit für das Auftreten der Klasse i ist, definieren wir für c Klassen i:
Wenn wir die Daten x messen, können wir die Kosten minimieren, indem wir die Aktion i wählen, welche die riskfunktion minimiert.
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
12
Bayes‘sche Entscheidungstheorie
23.11.2009
Bei kontinuierlichen Variablen x wird die loss function zu einer Entscheidungsfunktion (x) für die Werte 1,…,a. Das Gesamtrisiko R ergibt sich zu
Wenn (x) so gewählt ist, dass jedes einzelne R(i(x)) minimal für jedes x ist, ist sicherlich R minimal.
Die Bayes Entscheidungsregel lautet also: Berechne die bedingten riskfunktionenund wähle die Aktion, bei welcher R(i(x)) minimal ist. Das resultierende Gesamtrisiko R* heißt Bayes risk und die beste erreichbare Lösung
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
13
Bayes‘sche Entscheidungstheorie
23.11.2009
Beispiel: Zwei Kategorien Klassifikation 1 ist die Entscheidung für Klasse 1
2 die Entscheidung für Klasse 2 ij sind die Kosten für die Entscheidung für Klasse i, wenn j vorliegt.
Wir schreiben die bedingten Risikofunktionen aus:
Üblicherweise würde man sich für 1 entscheiden, wenn R(1|x)< R(2|x). Wenn man dies in den a posteriori Wahrscheinlichkeiten ausdrückt, ergibt sich:
Wenn die richtig definiert worden sind, sind 21-11 und 12-22 positiv. In
Praxis ist unsere Entscheidung den wahrscheinlicheren Zustand definiert, und wir können nach obiger Ungleichung die Wahrscheinlichkeiten mit den Differenzen der Loss-Funktionen skalieren.
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
14
Bayes‘sche Entscheidungstheorie
23.11.2009
Nach Anwendung der Regel von Bayes können wir die Entscheidungsregel schreiben als:Wir entscheiden uns für 1, falls
und für 2 andernfalls. Alternative Schreibweise:
Dies ist die Likelihood Ratio und ist eine Entscheidungsregel, welche auf den Likelihood Funktionen der gemessenen Daten x basiert. Wir entscheiden uns für \omega_1, falls die Likelihood ratio eine vorgegebene Schwelle übersteigt.
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
15
Bayes‘sche Entscheidungstheorie
23.11.2009
Loss functions können unterschiedlich definiert werden. Bei der Regression sind es die quadratischen Abstände von der Ausgleichsgeraden. Hier werden die Abweichungen quadratisch gewertet. Wenn bei einer Klassifikation alle Fehlklassifikationen gleich gewichtet werden sollen, wird die so genannte symmetrische oder null-eins loss Funktion angewendet:
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
16
Bayes‘sche Entscheidungstheorie
23.11.2009
Bei der 0-1 loss Funktion werden alle Fehler gleich gewichtet und die risk function ist gleich der mittleren Fehlerwahrscheinlichkeit
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
17
ML Schätzer für Gauß-Verteilung
23.11.2009
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
18
ML Schätzer für Gauß-Verteilung
23.11.2009
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
19
MAP Schätzer für Gauß-Verteilung
23.11.2009
Wir wollen P(μ|D) ∝ P(D| μ) P(μ) maximieren. Spezifikation des Priors: P(μ) ~N(μ0,σ0
2) , μ0 und σ02 sind
festgelegt
P(μ|D)
20
MAP Schätzer für Gauß-Verteilung
20
22
11
n
n20
022
xn
n
n
n
kkxn
x1
1
Somit hat p(μ|D) die Gestalt
Koeffizientenvergleich ergibt:
und , wobei
21
MAP Schätzer für Gauß-VerteilungAuflösen nach μn, σn ergibt (mit ) :
n
kkxn
x1
1
xn
xnn n
n 0220
2
220
20
0 für n∞1 für n∞
220
20
22
nn
0 für n∞
p(μ|D) nimmt bei μn sein Maximum an, somit ist μn der MAP-Schätzer. Für n∞ geht dieser in den ML-Schätzer μ = über.
x
Der Posterior versammelt seine Masse mit n∞ immer enger um μn. Mit zunehmendem n wird der Einfluss des Priors (μ0,σ0) auf den Posterior bzw. den MAP-Schätzer immer geringer.
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
22
MAP Schätzer für Gauß-Verteilung
23.11.2009
23
Geoinformationssysteme - Vorlesung 7 - FH Koblenz
Vielen Dank für Ihre Aufmerksamkeit!
23.11.2009