View
107
Download
0
Category
Preview:
Citation preview
1
Die Information Bottleneck Methode
Theoretische Informatik Seminar ENeumann Gerhard, 16.05.02
2
Gliederung des Vortrags Wiederholung
grundlegenden Begriffe der Informations- und Wahrscheinlichkeitstheorie
Teil 1: Berechnung der Rate Distortion Funktion Langrange Verfahren Blahut-Arimoto Algorithmus Rate Distortion Theorie
3
Gliederung des Vortrags Teil 2: Die Information Bottleneck
Methode Idee Berechnung mittels Langrange Verfahren Iterativer Algortihmus
Teil 3: Clustering Algorithmen (mit Bezug auf IB) Deterministic Annealing Agglomeratives Clustering
4
Wiederholung: Wahrscheinlichkeitstheorie
Conditional Probability:
Produktregel:
Summenregel (Randverteilungen)
)()|()()|(),( xPxyPyPyxPyxP
yy
yPyxPyxPxP )()|(),()(
)(
),()|(
yP
yxPyxP
5
Wiederholung: Wahrscheinlichkeitstheorie
Bayes Theorem:
Markov Kettenregel: Falls: also
Dann gilt:
x
xPxyP
xPxyP
yP
xPxyPyxP
)()|(
)()|(
)(
)()|()|(
y
zypyxpzxp )|()|()(
XYZ
)|(),|(
)|(),|(
)(),|(
YZPXYZP
XYPZXYP
XPZYXP
6
Wiederholung: Informationstheorie
Informationsgehalt:
Entropie:
Conditional Entropy
p(x)xh
1log)(
n
i ii ppxhEXH
1
1log:))((:)(
YX
X Y
AAxy
Ax Ay
yxpyxp
yxpyxpypYXH
))|(
1log(),(
))|(
1log()|()()(
7
Wiederholung: Informationstheorie
Joint-Entropy:
Kettenregel
Kullback-Leibler Divergenz
„Distanz“ zwischen 2 Verteilungen
Axiome:
X YAx Ay yxp
yxpYXH )),(
1log(),(),(
)()|(),( YHYXHYXH
x
KL xq
xpldxpQPD
)(
)()()(
)()(
0)(
PQDQPD
QPD
KLKL
KL
i.d.R
8
Wiederholung: Informationstheorie
Mutualinformation: Wichtiger Zusamenhang
Andere Axiome
)|()();( YXHXHYXI
0);();( XYIYXI
)|()|(),();( XYHYXHYXHYXI
))(*)(),((),( ypxpyxpDYXI KL
9
Teil 1: Rate Distortion Theorie Grundaussage:
... Kodeword ... Zuordnungswahrscheinlichkeit D ... Maximal gewünschte Distortion ... Distortionfunktion (Fehler von ) ... Erwartete Distortion:
Relevanze der Daten durch Distortion gegeben)ˆ,()|ˆ()()ˆ,(
ˆ
xxdxxpxpxxdx x
)ˆ;(min)()ˆ,(:)|ˆ(
XXIDRDxxdxxp
)|ˆ( xxpx̂
x̂)ˆ,( xxd)ˆ,( xxd
10
Rate Distortion Theorie Berechnung der Rate
Distortionfunktion Minimierungsaufgabe über :
Unter der Nebenbedingung:
=> Langrange Verfahren
)|ˆ( xxp
)ˆ;(min)()|ˆ(
XXIDRxxp
Dxxdxxpxpx x
)ˆ,()|ˆ()(ˆ
11
Wiederholung: Lagrange Verfahren
Definition (mit Gleichungsrestriktionen) Optimiere Unter den Nebenbedingungen
=>Menge der zulässigen Vektoren
Schnittpunkte aller durch die Nebenbedingungen gegebenen Kurven
),...,( 1 nxxf
mnmn cxxhcxxh ),...,(,...,),...,( 1111
})(,...,)(|{ 11 mmh cxhcxhxC
12
Geometrische Betrachtung
Im 2-dimensionalen Fall mit 1 Nebenbedingung
h(x,y) = c
Höhenlinien von f(x,y)
Maximum : Kurve h wird von Höhenlinie tangiert
Kein Max.
f
13
Langrange Verfahren Erkenntnisse aus geometrischer Betrachtung:
Gradient der Funktion und der Kurve h(x,y) = c müssen in die gleiche (bzw. entgegengesetzte) Richtung zeigen. =>
Resultierender Langrange Ansatz
Optimierbar mittels Nullsetzen des Gradienten
)()( xhxf
cxxhxxfxxL ),(),(),,( 212121
0),(),( 211
2111
xxx
hxx
x
f
x
L
0),(),( 212
2122
xxx
hxx
x
f
x
L
0),( 21
cxxhL
14
Langrange Verfahren (Gleichungsrestriktionen)
Verallgemeinerung für den n-dimensionalen fall mit m Nebenbedingungen Ansatz:
Gleichungen:
Vorteil: Einfache Optimierung (grad(L)=0) Nachteil: Einführen von m ( ) neuen Unbekannten
m
iíii cxhxfxL
1
])([)(),(
0),(
,...,0),(
1
nx
xL
x
xL
0),(
,...,0),(
1
n
xLxL
m ...1
15
Lagrange Verfahren mit Ungleichungen
Definition (mit Ungleichungsrestriktionen) Optimiere
Unter den Nebenbedingungen Bei Maximierung:
Bei Minimierung
),...,( 1 nxxf
nnnn bxxgbxxg ),...,(,...,),...,( 1111
knkn bxxgbxxg ),...,(,...,),...,( 1111
16
Geometrische Betrachtung Im 2-dimensionalen Fall mit 1
NebenbedingungHöhenlinien von f(x,y)
g(x,y) < bMaximierungsbereich
g(x,y) > b
Minimierungsbereich
Richtung von Gradient von f wichtig:
Bei Maximierung aus der Menge heraus,bei Minimierung in die Menge hinein.
=>Langrange Multiplikator immer positiv!!
17
Langrange Verfahren (Ungleichungsrestriktionen)
Verallgemeinerung für den n-dimensionalen fall mit k Nebenbedingungen Ansatz:
Gleichungen:
Zusätzliche Einschränkungen
k
iíii bxgxfxL
1
])([)(),(
0),(
,...,0),(
1
nx
xL
x
xL
0)(,...,0)( 11 kk bxgbxg
0,...,01 k
kk bxgbxg )(,...,)( 11
bzw.kk bxgbxg )(,...,)( 11
18
Minimierung der Rate Distortion Funktion Minimierung bezüglich Nebenbedingung:
Vereinfachter Langrangeansatz)ˆ,()ˆ;()),|ˆ(( xxdXXIxxpL
)|ˆ( xxp
Dxxdxxpxpx x
)ˆ,()|ˆ()(ˆ
19
Minimierung der Rate Distortion Funktion 2. Nebenbedingung
Einsetzen der Definitionen
xxxpx
1)|ˆ(ˆ
)ˆ(
)|ˆ()|ˆ()())(,),|ˆ((
ˆ xp
xxpldxxpxpxxxpL
x x
)ˆ,()|ˆ()(ˆ
xxdxxpxpx x
x x
xxpxˆ
)|ˆ()(
Mutual Information
Distortion
Normierungsterm
20
Ableitung bezüglich einer Wahrscheinlichkeitsverteilung Nullsetzen des Gradienten:
Ableitung bezüglich
Betrachtung von als normale Variable (nur für ein bzw. x)
Einsetzen von bekannten Formeln der Wahrscheinlichkeitstheorie um auf die Form zu kommen
0)|ˆ(
))(,),|ˆ((
xxp
xxxpL
)|ˆ( xxp
???)|ˆ(
))(,),|ˆ((
xxp
xxxpL
)|ˆ( xxpx̂
)|ˆ( xxp
21
Lösung der Langrange Funktion: konsistente Gleichungen
Probleme: Lösung nur für ein , optimales nicht
bekannt. Langrange Multiplikator für eine bestimmte
Distortion D unbekannt.
)ˆ(xp )ˆ(xp
),(
)ˆ(
)'ˆ(
)ˆ()|ˆ(
)ˆ,(
'ˆ
)'ˆ,(
)ˆ,(
xZ
exp
exp
expxxp
xxd
x
xxd
xxd
lungRandverteixxpxpxpx
...)|ˆ()()ˆ(
22
p*(x) unbekannt: Lösung 1
Mit p(x) Multiplizieren und über alle x aufsummieren.
=>
Für jedes Codewort x eine Gleichung, wenn dann SEHR schwierig lösbar.
^
'ˆ
)'ˆ,(
)ˆ,(
)'ˆ()()ˆ()|ˆ()(
x
xxd
xxd
xx exp
expxpxxpxp
'ˆ
)'ˆ,(
)ˆ,(
)'ˆ()(1
x
xxd
xxd
x exp
exp
^
23
p*(x) unbekannt, 2. Lösung
Algorithmus in der Geometrie Abwechselndes Minimieren eines Abstandes
mittels 2 Variablen, die sich in convexen Mengen befinden.
^
AB
24
Blahut-Arimoto Algorithmus Benötigt werden:
2 Variablen, welche Abstand minimieren: Abstandsmaß:
Minimierung bezüglich => Langrangeverfahren
Minimierung bezüglich =>Minimiert Randverteilung I ??
Convexe Mengen von Wahrscheinlichkeitsverteilungen
)|ˆ(),ˆ( xxpxp
))ˆ(*)()|ˆ(*)(( xpxpxxpxpDKL
)|ˆ( xxp
)ˆ(xp
25
Convexe Mengen von Verteilungen
Definition von convexen Mengen:
Bei Wahrscheinlichkeitsverteilungen: Für jedes Erreignis xi wird ein Intervall von
Wahrscheinlichkeiten festgelegt
XyxXyx )1(:,
26
Minimierung bezüglich p(x) ^
Wird minimiert wenn ... Randverteilung
))ˆ(*)()|ˆ(*)(( xqxpxxpxpDKL
)ˆ()|ˆ()()ˆ( xpxxpxpxqx
27
Blahut Arimoto: Iterative Gleichungen
Abwechselnde Optimierung über und
Iterative Gleichungen
Konvergiert zum globalen Minimum Keine Regel für die Codewords bzw.
)ˆ(xp )|ˆ( xxp
)ˆ,()ˆ,(minmin)|ˆ()ˆ(
xxdXXIxxpxp
)|ˆ()()ˆ(1 xxpxpxp tx
t
))ˆ,(exp(),(
)ˆ()|ˆ( xxd
xZ
xpxxp
t
tt
x̂ |ˆ| X
28
Bedeutung des Langrange Multiplikators
Nicht (oder nur schwer) berechenbar für eine gewünschte Distortion
Bestimmt Steigung der R(D) Kurve:
Durch Variieren von kann die R(D) Kurve bei genügend grossen durchlaufen werden Besondere Werte:
: Codealphabet kollabiert zu einzigen Codeword
: ,Distortion geht gegen 0
D
RxxdXXI
0)ˆ,()ˆ,(
0 X̂
|||ˆ| XX
|ˆ| X
29
Bedeutung des Lagrange Mutliplikators
SoftMax Verfahren
Bei Erhöhung von Beta werden mit kleiner Distortion bevorzugt.
Durchlaufen der R(D) Kurve
),(
)ˆ()|ˆ(
)ˆ,(
xZ
expxxp
xxd
x̂
30
Zusammenfassung: Rate Distortion Theorie Liefert Optimale Rate für gegebene
Distortion Distortion Funktion FREI wählbar Blahut-Arimoto Algorithmus:
Durchlaufen der R(D) Funktion mittels des Lagrange Multiplikators.
Relevanz der Information wird nur über die Distortion spezifiziert
31
Teil 2 :Die Information Bottleneck Methode Idee: Komprimierung mit Bezug auf
Relevanz der Daten Relevanz gegeben durch eine andere
Variable Zusätzlich gegebene Verteilung:
Ziel: Komprimiere X und erhalte dabei die
meiste Information von Y minimieren
maximieren
),( YXP
)ˆ;( XXI
);ˆ( YXI
32
Langrange Ansatz der I.B.M.
Geometrische Betrachtung: Minimierung von f(x,y) und Maximierung von g(x,y):
Beobachtung :
=> gleicher Langrange Ansatz
{x*}
grad(g)-grad(f)
gf
33
Langrange Ansatz der I.B.M. Vereinfachte Langrange Funktion:
Bedeutung von beta: Tradeoff zwischen Kompression und
Erhaltung der relevanten Daten
siehe Rate Distortion Theory
);ˆ()ˆ;()),|ˆ(( YXIXXIxxpL
34
Lösung der Langrange Funktion
Formale Lösung
),(
))ˆ|()|(
log)|(exp()ˆ(
)|ˆ(
xZ
xypxyp
xypxp
xxpy
lungRandverteixxpxpxpx
...)|ˆ()()ˆ(
x
x
emBayesTheorxpxxpxypxp
XXYeMarkovkettxxpxypxyp
)...()|ˆ()|()ˆ(
1
ˆ...)ˆ|()|()ˆ(
35
Vergleich zu Rate Distortion Theorie
Lösung der Rate Distortion Theory
Lösung der Information Bottleneck Method
=>
),(
)ˆ()|ˆ(
)ˆ,(
xZ
expxxp
xxd
),(
)ˆ()|ˆ(
)ˆ|(
)|(log)|(
xZ
expxxp
y xyp
xypxyp
y xyp
xypxypxxd
)ˆ|(
)|(log)|()ˆ,(
36
Bedeutung der Distortionfunktion
Der begangene Fehler ist der „Abstand“ zwischen den Verteilungen p(y|x) und p(y|x)
)ˆ|(||)|(
)ˆ|(
)|(log)|()ˆ,(
xypxypD
xyp
xypxypxxd
KL
y
^
37
Der Iterative IB Algorithmus
Die Minimierung wird Unabhängig über die Convexen Mengen von Verteilungen durchgeführt ( , und ), ein allgemeiner BA Algorithmus.
)}ˆ({ xp )}|ˆ({ xxp)}ˆ|({ xyp
)ˆ(xp )|ˆ( xxp
)ˆ|( xyp
38
Der Iterative IB Algorithmus
Minimierung bei Iterationsschritt t
xtt
tx
t
KLt
tt
xxpxypxyp
xxpxpxp
xypxypDxZ
xpxxp
)ˆ|()|()ˆ(
)|ˆ()()ˆ(
))ˆ|(||)|(exp(),(
)ˆ()ˆ(
1
1
))ˆ|(||)|(()ˆ;(min)|ˆ(),ˆ(),ˆ|(
xypxypDXXI KLxxpxpxyp
39
Die Informationsebene Das optimale für ein gegebenes
ist eine konkave Funktion),ˆ( YXI
),ˆ( XXI
Possible phase
impossible
),(
),ˆ(
YXI
YXI
)(/),ˆ( XHXXI
1
)ˆ,(
)ˆ,(
XXI
XYI
40
Zusammenfassung: Information Bottleneck Methode
Relevanz durch eine zusätzliche Variable
Distortionfunktion:
Iteratver Algorithmus zur Berechnung der optimalen Codeword-zuordnung
)ˆ|(||)|( xypxypDKL
41
Teil 3: Clustering Algorithmen Agglomeratives Clustering
Beginne mit Verschmelze bei jedem Schritt 2 Cluster,
deren Verschmelzung den grössten Verlust der Rate und den kleinsten Zuwachs der Distortion ergibt
Zuordnungwahrscheinlichkeit für Cluster = 1 (hard clustering)
=>nächster Vortrag
XX ˆ
),(
)ˆ()|ˆ(
)ˆ,(
xZ
expxxp
xxd
42
Clustering Algorithmen Deterministic Annealing
Ansatz: Minimierung der Distortion unter gegebener Unsicherheit T...symbolisiert Temperatur Ableiten nach und Liefert ebenfalls Regel für Adaption der
z.B. für Lage der Codevectoren bei der Squared Error Distortion
)ˆ,()ˆ,( XXHTxxdF
)|ˆ( xxp x̂x̂
43
Deterministic Annealing: Ableitungen
Ableitung nach
Ableitung nach
Für z.B Squared Error Distortion
)|ˆ( xxp
TTxZTxxd
xpxxp
1
),(
))ˆ,(
exp()ˆ()|ˆ(
lungRandverteixxpxpxpx
...)|ˆ()()ˆ(
ix̂0)ˆ,(
ˆ)|ˆ()( i
x ii xxd
xxxpxp
)ˆ(
)|ˆ()(
ˆi
xi
i xp
xxpxpx
x
44
Deterministic Annealing: Phasenübergänge
Phasenübergange (Clusterteilung) für bestimmte Cluster Keine Minimierung der Distortion für diesen Cluster
mehr möglich Teile Cluster:
2 Möglichkeiten zur Berechnung Temperatur für jeden Cluster berechenbar
(rechenaufwendig) Für jeden Cluster kann ein zweiter Cluster angelegt
werden, falls diese bei abnehmender Temperatur auseinandergehen, dann Phasenübergang
2/)ˆ()ˆ(,2/)ˆ()ˆ(
ˆˆ
altaltaltneu
altneu
xpxpxpxp
xx
45
Deterministic Annealing 1) Beginne mit
Nur ein Cluster (bzw. Wahrscheinlichkeit für jeden Cluster gleich)
2)Update für Update Update (für alle x) Bis Konvergenz erreicht (BA-Algorithmus)
3)Abkühlung 4)Überprüfe für jeden Cluster Phasenübergang
Falls Übergang, Teile Cluster 5) Gehe zu 3. Kann jederzeit abgebrochen werden (soft clustering)
T
)1(, TT
ix̂ki ...1
)|ˆ( xxp i
46
Deterministic Annealing: Beispiel (squared error distortion)
47
Deterministic Annealing: Weitere Anwendungsmöglichkeiten
Noisy Channel Coding Entropy Constrained Coding Structural Constrained Coding Supervised Learning Berechnung der R(D) Funktion
Recommended