1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02

Die Information Bottleneck Methode

Theoretische Informatik Seminar ENeumann Gerhard, 16.05.02

Gliederung des Vortrags Wiederholung

grundlegenden Begriffe der Informations- und Wahrscheinlichkeitstheorie

Teil 1: Berechnung der Rate Distortion Funktion Langrange Verfahren Blahut-Arimoto Algorithmus Rate Distortion Theorie

Gliederung des Vortrags Teil 2: Die Information Bottleneck

Methode Idee Berechnung mittels Langrange Verfahren Iterativer Algortihmus

Teil 3: Clustering Algorithmen (mit Bezug auf IB) Deterministic Annealing Agglomeratives Clustering

Wiederholung: Wahrscheinlichkeitstheorie

Conditional Probability:

Produktregel:

Summenregel (Randverteilungen)

)()|()()|(),( xPxyPyPyxPyxP

yPyxPyxPxP )()|(),()(

),()|(

yxPyxP

Wiederholung: Wahrscheinlichkeitstheorie

Bayes Theorem:

Markov Kettenregel: Falls: also

Dann gilt:

xPxyPyxP

)()|()|(

zypyxpzxp )|()|()(

)|(),|(

)(),|(

YZPXYZP

XYPZXYP

XPZYXP

Wiederholung: Informationstheorie

Informationsgehalt:

Entropie:

Conditional Entropy

p(x)xh

1log)(

i ii ppxhEXH

1log:))((:)(

yxpyxp

yxpyxpypYXH

1log(),(

1log()|()()(

Joint-Entropy:

Kettenregel

Kullback-Leibler Divergenz

„Distanz“ zwischen 2 Verteilungen

Axiome:

X YAx Ay yxp

yxpYXH )),(

1log(),(),(

)()|(),( YHYXHYXH

xpldxpQPD

)()()(

PQDQPD

Mutualinformation: Wichtiger Zusamenhang

Andere Axiome

)|()();( YXHXHYXI

0);();( XYIYXI

)|()|(),();( XYHYXHYXHYXI

))(*)(),((),( ypxpyxpDYXI KL

Teil 1: Rate Distortion Theorie Grundaussage:

... Kodeword ... Zuordnungswahrscheinlichkeit D ... Maximal gewünschte Distortion ... Distortionfunktion (Fehler von ) ... Erwartete Distortion:

Relevanze der Daten durch Distortion gegeben)ˆ,()|ˆ()()ˆ,(

xxdxxpxpxxdx x

)ˆ;(min)()ˆ,(:)|ˆ(

XXIDRDxxdxxp

)|ˆ( xxpx̂

x̂)ˆ,( xxd)ˆ,( xxd

Rate Distortion Theorie Berechnung der Rate

Distortionfunktion Minimierungsaufgabe über :

Unter der Nebenbedingung:

=> Langrange Verfahren

)|ˆ( xxp

)ˆ;(min)()|ˆ(

XXIDRxxp

Dxxdxxpxpx x

)ˆ,()|ˆ()(ˆ

Wiederholung: Lagrange Verfahren

Definition (mit Gleichungsrestriktionen) Optimiere Unter den Nebenbedingungen

=>Menge der zulässigen Vektoren

Schnittpunkte aller durch die Nebenbedingungen gegebenen Kurven

),...,( 1 nxxf

mnmn cxxhcxxh ),...,(,...,),...,( 1111

})(,...,)(|{ 11 mmh cxhcxhxC

Geometrische Betrachtung

Im 2-dimensionalen Fall mit 1 Nebenbedingung

h(x,y) = c

Höhenlinien von f(x,y)

Maximum : Kurve h wird von Höhenlinie tangiert

Kein Max.

Langrange Verfahren Erkenntnisse aus geometrischer Betrachtung:

Gradient der Funktion und der Kurve h(x,y) = c müssen in die gleiche (bzw. entgegengesetzte) Richtung zeigen. =>

Resultierender Langrange Ansatz

Optimierbar mittels Nullsetzen des Gradienten

)()( xhxf

cxxhxxfxxL ),(),(),,( 212121

0),(),( 211

0),(),( 212

0),( 21

Langrange Verfahren (Gleichungsrestriktionen)

Verallgemeinerung für den n-dimensionalen fall mit m Nebenbedingungen Ansatz:

Gleichungen:

Vorteil: Einfache Optimierung (grad(L)=0) Nachteil: Einführen von m ( ) neuen Unbekannten

iíii cxhxfxL

])([)(),(

,...,0),(

m ...1

Lagrange Verfahren mit Ungleichungen

Definition (mit Ungleichungsrestriktionen) Optimiere

Unter den Nebenbedingungen Bei Maximierung:

Bei Minimierung

),...,( 1 nxxf

nnnn bxxgbxxg ),...,(,...,),...,( 1111

knkn bxxgbxxg ),...,(,...,),...,( 1111

Geometrische Betrachtung Im 2-dimensionalen Fall mit 1

NebenbedingungHöhenlinien von f(x,y)

g(x,y) < bMaximierungsbereich

g(x,y) > b

Minimierungsbereich

Richtung von Gradient von f wichtig:

Bei Maximierung aus der Menge heraus,bei Minimierung in die Menge hinein.

=>Langrange Multiplikator immer positiv!!

Langrange Verfahren (Ungleichungsrestriktionen)

Verallgemeinerung für den n-dimensionalen fall mit k Nebenbedingungen Ansatz:

Gleichungen:

Zusätzliche Einschränkungen

iíii bxgxfxL

])([)(),(

,...,0),(

0)(,...,0)( 11 kk bxgbxg

0,...,01 k

kk bxgbxg )(,...,)( 11

bzw.kk bxgbxg )(,...,)( 11

Minimierung der Rate Distortion Funktion Minimierung bezüglich Nebenbedingung:

Vereinfachter Langrangeansatz)ˆ,()ˆ;()),|ˆ(( xxdXXIxxpL

)|ˆ( xxp

Dxxdxxpxpx x

)ˆ,()|ˆ()(ˆ

Minimierung der Rate Distortion Funktion 2. Nebenbedingung

Einsetzen der Definitionen

1)|ˆ(ˆ

)|ˆ()|ˆ()())(,),|ˆ((

xxpldxxpxpxxxpL

)ˆ,()|ˆ()(ˆ

xxdxxpxpx x

xxpxˆ

)|ˆ()(

Mutual Information

Distortion

Normierungsterm

Ableitung bezüglich einer Wahrscheinlichkeitsverteilung Nullsetzen des Gradienten:

Ableitung bezüglich

Betrachtung von als normale Variable (nur für ein bzw. x)

Einsetzen von bekannten Formeln der Wahrscheinlichkeitstheorie um auf die Form zu kommen

0)|ˆ(

))(,),|ˆ((

)|ˆ( xxp

???)|ˆ(

))(,),|ˆ((

)|ˆ( xxpx̂

)|ˆ( xxp

Lösung der Langrange Funktion: konsistente Gleichungen

Probleme: Lösung nur für ein , optimales nicht

bekannt. Langrange Multiplikator für eine bestimmte

Distortion D unbekannt.

)ˆ(xp )ˆ(xp

)ˆ()|ˆ(

)'ˆ,(

expxxp

lungRandverteixxpxpxpx

...)|ˆ()()ˆ(

p*(x) unbekannt: Lösung 1

Mit p(x) Multiplizieren und über alle x aufsummieren.

Für jedes Codewort x eine Gleichung, wenn dann SEHR schwierig lösbar.

)'ˆ,(

)'ˆ()()ˆ()|ˆ()(

xx exp

expxpxxpxp

)'ˆ,(

)'ˆ()(1

p*(x) unbekannt, 2. Lösung

Algorithmus in der Geometrie Abwechselndes Minimieren eines Abstandes

mittels 2 Variablen, die sich in convexen Mengen befinden.

Blahut-Arimoto Algorithmus Benötigt werden:

2 Variablen, welche Abstand minimieren: Abstandsmaß:

Minimierung bezüglich => Langrangeverfahren

Minimierung bezüglich =>Minimiert Randverteilung I ??

Convexe Mengen von Wahrscheinlichkeitsverteilungen

)|ˆ(),ˆ( xxpxp

))ˆ(*)()|ˆ(*)(( xpxpxxpxpDKL

)|ˆ( xxp

)ˆ(xp

Convexe Mengen von Verteilungen

Definition von convexen Mengen:

Bei Wahrscheinlichkeitsverteilungen: Für jedes Erreignis xi wird ein Intervall von

Wahrscheinlichkeiten festgelegt

XyxXyx )1(:,

Minimierung bezüglich p(x) ^

Wird minimiert wenn ... Randverteilung

))ˆ(*)()|ˆ(*)(( xqxpxxpxpDKL

)ˆ()|ˆ()()ˆ( xpxxpxpxqx

Blahut Arimoto: Iterative Gleichungen

Abwechselnde Optimierung über und

Iterative Gleichungen

Konvergiert zum globalen Minimum Keine Regel für die Codewords bzw.

)ˆ(xp )|ˆ( xxp

)ˆ,()ˆ,(minmin)|ˆ()ˆ(

xxdXXIxxpxp

)|ˆ()()ˆ(1 xxpxpxp tx

))ˆ,(exp(),(

)ˆ()|ˆ( xxd

x̂ |ˆ| X

Bedeutung des Langrange Multiplikators

Nicht (oder nur schwer) berechenbar für eine gewünschte Distortion

Bestimmt Steigung der R(D) Kurve:

Durch Variieren von kann die R(D) Kurve bei genügend grossen durchlaufen werden Besondere Werte:

: Codealphabet kollabiert zu einzigen Codeword

: ,Distortion geht gegen 0

RxxdXXI

0)ˆ,()ˆ,(

|||ˆ| XX

|ˆ| X

Bedeutung des Lagrange Mutliplikators

SoftMax Verfahren

Bei Erhöhung von Beta werden mit kleiner Distortion bevorzugt.

Durchlaufen der R(D) Kurve

)ˆ()|ˆ(

expxxp

Zusammenfassung: Rate Distortion Theorie Liefert Optimale Rate für gegebene

Distortion Distortion Funktion FREI wählbar Blahut-Arimoto Algorithmus:

Durchlaufen der R(D) Funktion mittels des Lagrange Multiplikators.

Relevanz der Information wird nur über die Distortion spezifiziert

Teil 2 :Die Information Bottleneck Methode Idee: Komprimierung mit Bezug auf

Relevanz der Daten Relevanz gegeben durch eine andere

Variable Zusätzlich gegebene Verteilung:

Ziel: Komprimiere X und erhalte dabei die

meiste Information von Y minimieren

maximieren

),( YXP

)ˆ;( XXI

);ˆ( YXI

Langrange Ansatz der I.B.M.

Geometrische Betrachtung: Minimierung von f(x,y) und Maximierung von g(x,y):

Beobachtung :

=> gleicher Langrange Ansatz

grad(g)-grad(f)

Langrange Ansatz der I.B.M. Vereinfachte Langrange Funktion:

Bedeutung von beta: Tradeoff zwischen Kompression und

Erhaltung der relevanten Daten

siehe Rate Distortion Theory

);ˆ()ˆ;()),|ˆ(( YXIXXIxxpL

Lösung der Langrange Funktion

Formale Lösung

))ˆ|()|(

log)|(exp()ˆ(

xypxyp

...)|ˆ()()ˆ(

emBayesTheorxpxxpxypxp

XXYeMarkovkettxxpxypxyp

)...()|ˆ()|()ˆ(

ˆ...)ˆ|()|()ˆ(

Vergleich zu Rate Distortion Theorie

Lösung der Rate Distortion Theory

Lösung der Information Bottleneck Method

)ˆ()|ˆ(

expxxp

)ˆ()|ˆ(

)|(log)|(

expxxp

xypxyp

xypxypxxd

)|(log)|()ˆ,(

Bedeutung der Distortionfunktion

Der begangene Fehler ist der „Abstand“ zwischen den Verteilungen p(y|x) und p(y|x)

)ˆ|(||)|(

)|(log)|()ˆ,(

xypxypD

xypxypxxd

Der Iterative IB Algorithmus

Die Minimierung wird Unabhängig über die Convexen Mengen von Verteilungen durchgeführt ( , und ), ein allgemeiner BA Algorithmus.

)}ˆ({ xp )}|ˆ({ xxp)}ˆ|({ xyp

)ˆ(xp )|ˆ( xxp

)ˆ|( xyp

Der Iterative IB Algorithmus

Minimierung bei Iterationsschritt t

xxpxypxyp

xxpxpxp

xypxypDxZ

)ˆ|()|()ˆ(

)|ˆ()()ˆ(

))ˆ|(||)|(exp(),(

)ˆ()ˆ(

))ˆ|(||)|(()ˆ;(min)|ˆ(),ˆ(),ˆ|(

xypxypDXXI KLxxpxpxyp

Die Informationsebene Das optimale für ein gegebenes

ist eine konkave Funktion),ˆ( YXI

),ˆ( XXI

Possible phase

impossible

)(/),ˆ( XHXXI

Zusammenfassung: Information Bottleneck Methode

Relevanz durch eine zusätzliche Variable

Distortionfunktion:

Iteratver Algorithmus zur Berechnung der optimalen Codeword-zuordnung

)ˆ|(||)|( xypxypDKL

Teil 3: Clustering Algorithmen Agglomeratives Clustering

Beginne mit Verschmelze bei jedem Schritt 2 Cluster,

deren Verschmelzung den grössten Verlust der Rate und den kleinsten Zuwachs der Distortion ergibt

Zuordnungwahrscheinlichkeit für Cluster = 1 (hard clustering)

=>nächster Vortrag

)ˆ()|ˆ(

expxxp

Clustering Algorithmen Deterministic Annealing

Ansatz: Minimierung der Distortion unter gegebener Unsicherheit T...symbolisiert Temperatur Ableiten nach und Liefert ebenfalls Regel für Adaption der

z.B. für Lage der Codevectoren bei der Squared Error Distortion

)ˆ,()ˆ,( XXHTxxdF

)|ˆ( xxp x̂x̂

Deterministic Annealing: Ableitungen

Ableitung nach

Für z.B Squared Error Distortion

)|ˆ( xxp

TTxZTxxd

))ˆ,(

exp()ˆ()|ˆ(

...)|ˆ()()ˆ(

ix̂0)ˆ,(

ˆ)|ˆ()( i

x ii xxd

xxxpxp

)|ˆ()(

xxpxpx

Deterministic Annealing: Phasenübergänge

Phasenübergange (Clusterteilung) für bestimmte Cluster Keine Minimierung der Distortion für diesen Cluster

mehr möglich Teile Cluster:

2 Möglichkeiten zur Berechnung Temperatur für jeden Cluster berechenbar

(rechenaufwendig) Für jeden Cluster kann ein zweiter Cluster angelegt

werden, falls diese bei abnehmender Temperatur auseinandergehen, dann Phasenübergang

2/)ˆ()ˆ(,2/)ˆ()ˆ(

altaltaltneu

altneu

xpxpxpxp

Deterministic Annealing 1) Beginne mit

Nur ein Cluster (bzw. Wahrscheinlichkeit für jeden Cluster gleich)

2)Update für Update Update (für alle x) Bis Konvergenz erreicht (BA-Algorithmus)

3)Abkühlung 4)Überprüfe für jeden Cluster Phasenübergang

Falls Übergang, Teile Cluster 5) Gehe zu 3. Kann jederzeit abgebrochen werden (soft clustering)

)1(, TT

ix̂ki ...1

)|ˆ( xxp i

Deterministic Annealing: Beispiel (squared error distortion)

Deterministic Annealing: Weitere Anwendungsmöglichkeiten

Noisy Channel Coding Entropy Constrained Coding Structural Constrained Coding Supervised Learning Berechnung der R(D) Funktion

1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02

Documents

Theoretische Physik IV: Theoretische Atom ... - Uni Kassel · Theoretische Physik IV: Theoretische Atom- und Molekülphysik Bachelor Physik Seminar 05.12.2019 Prof. Dr. Philipp Demekhin

Pecha Kucha: Innovation - Das wahre Bottleneck?!

All-Pairs Bottleneck Paths in Vertex Weighted Graphs

MySQL Tuning For CPU Bottleneck

Usulan Keseimbangan Lintasan Stasiun Bottleneck dalam

USING EQUIST FOR BOTTLENECK ANALYSIS

Neumann Fix

Von neumann

BOTTLENECK ANALYSIS AND THROUGHPUT IMPROVEMENT …his.diva-portal.org/smash/get/diva2:797718/FULLTEXT01.pdf · BOTTLENECK ANALYSIS AND THROUGHPUT IMPROVEMENT THROUGH SIMULATION-BASED

Neumann dører

Bottleneck in secretion of α-amylase in Bacillus subtilis

Gruppe A4 – Stürmer Theoretische Informatik Seminar F Stephan Neumann Michael Groß 16.10.2002

Rodolfo Neumann

BUITENRING Bottleneck de KLING

Theoretische Grundlagen der Informatik 07.11.2011 Dorothea Wagner - Theoretische Grundlagen der Informatik INSTITUT FÜR THEORETISCHE INFORMATIK KIT INSTITUT FÜR THEORETISCHE INFORMATIK

How to find bottleneck in J2ee application first print · 2015-01-21 · How to find bottleneck in J2EE application 작성자 : 자바스터디 네트워크 조대협(bcho@bea.com)

Find the bottleneck of your system

ANALISA BOTTLENECK PADA PRODUK KAP LAMPU RM 236 ST …repository.upnvj.ac.id/3331/2/AWAL.pdf · lainnya adalah mengurangi bottleneck yang terjadi pada lintas produksi kap lampu RM

Neumann Tromsø

BALTHASAR-NEUMANN-CHOR BALTHASAR-NEUMANN …€¦ · mit Johanna Wokalek, Kate Lindsey, Benedict Nelson Balthasar-Neumann-Chor & -Solisten Balthasar-Neumann-Ensemble Thomas Hengelbrock