A 5M 33 IZS – Informační a znalostní systémy

A5M33IZS – Informační a znalostní systémy

Datová analýza I

Skládání příspěvků pravidel u ES typu Prospector

E1 -> H O(H/E1)

E2 -> H O(H/E2)} O(H/E1,E2) =

O(H/E1) * O(H/E2)

O(H)

Předpoklad:

Náhodné veličiny E1 a E2 jsou podmíněně nezávislépři dané hodnotě H.

E1 E2 / H

C=1 C=2 C=1 C=2A=1 2 2 4 1A=2 2 3 2 1

B=1 B=2

Frekvenční (kontigenční) tabulka:

Pacient A B CP1 1 2 1P2 2 1 2P3 1 1 2P4 1 2 1P5 1 2 1P6 2 2 1P7 2 1 1P8 1 2 2P9 1 1 2P10 2 2 2P11 1 2 1P12 1 1 1P13 2 1 1P14 2 1 2P15 2 2 1P16 1 1 1P17 2 1 2

Statistická data:

C=1 C=2 C=1 C=2A=1 2 2 4 1 9A=2 2 3 2 1 8

4 5 6 2

10 7

17

B=1 B=2

9 8

Sdružené pravděpodobnostní rozložení:

C=1 C=2 C=1 C=2A=1 0.12 0.12 0.24 0.06 0.53A=2 0.12 0.18 0.12 0.06 0.47

0.24 0.29 0.35 0.12

0.59 0.41

1.00

B=1 B=2

0.53 0.47

Struktura závislosti na množině náhodných veličin

{ A, B, C } : • A, B, C vzájemně nezávislé• A, B, C po dvojicích nezávislé• A B / C• B C / A• A, B závislé, C na nich nezávislá• a další

Danou množinu náhodných veličin potřebujeme rozdělit na podmnožiny vzájemně (silně) závislých náhodných veličin ....

Snížení dimenze pravděpodobnostního rozložení(rozložení frekvencí).

… tak, aby z nich bylo možné zrekonstruovat původní rozložení (s minimální ztrátou informace).

Dva problémy:

• nalézt co nejmenší množinu co nejjednodušších marginálních rozložení (množinu minimálních postačujících statistik)

Bishop, Fienberg, Holland: “Discrete Multivariate Analysis: Theory and Practice”,The MIT Press Cambridge, 1975

• k dané množině marginálních rozložení nalézt příslušné sdružené rozložení (množinu minimálních postačujících statistik)

Problém v teorii pravděpodobnosti známý jako „Marginální problém”

Jiroušek R.: “Metody integrace znalostí v pravděpodobnostních expertních systémech”, sborník Aplikace umělé inteligence AI’89, Praha, 1989

Marginální problém I

• {A, B, C} je množina (binárních) náhodných veličin

• {p(A), p(B), p(C)} je množina marginálních rozložení frekvencí

,91 Ax 82Ax

,91 Bx 82Bx

,101 Cx 72Cx

AxBxCx

C=1 C=2 C=1 C=2A=1 2 2 4 1 9A=2 2 3 2 1 8

4 5 6 2

10 7

17

B=1 B=2

9 8

C=1 C=2 C=1 C=2A=1 2 1 4 2 9A=2 3 3 1 1 8

5 4 5 3

10 7

17

B=1 B=2

9 8

K danému sdruženému rozložení frekvencí/pravděpodobností se libovolné marginální rozložení frekvencí/pravděpodobností určí jednoznačně, naopak tomu tak není.

Existuje nekonečně mnoho sdružených pravděpodobnostních rozložení, které vyhovují danému systému marginálních rozložení.

Marginální problém II

• Které z těch nekonečně mnoha sdružených pravděpodobnostních rozložení je to “správné” ?

KRITÉRIUM

• Jak ho nalézt? Nemůžeme testovat toto KRITERIUM na všech kandidátech - je jich nekonečně mnoho.

Kritérií i metod existuje několik. Často se jako kritérium používáPrincip maxima entropie (princip scházejícího důvodu). Vezmeme to sdružené pravděpodobnostní rozložení, které má maximum entropiepři využití veškeré dostupné informace.

METODA

Princip maxima entropie},...,{ 1 NXXS Množina všech náhodných veličin, které se účastní našeho

problému.

},...,{1 KSS pp Daná množina marginálních pravděpododbnostních

rozložení.

X Množina všech takových vektorů.

Informační (shannonovská) entropie:

Xx

xpxPpH ))(ln()()(

Vektor nějakých hodnot náhodných veličin X1 až XN. Nnji xxxx ,...,, 21

SSS K ,...,1 Daný systém jejích podmnožin

Množina všech sdružených pravděpodobnostních rozloženínad množinou S takových, že pro podmnožiny S1 až Sk je množina všech odpovídajících marginálních rozložení rovna množině

},...,{1 KSS pp

S

Princip maxima entropie: ))(()( max*

* pHpHSP

Princip maxima entropie II

Silviu Guiasu, Abe Shenitzer: Princip maxima entropie,Pokroky matematiky, fyziky a astronomie, ročník 31 (1986), č. 4

Silviu Guiasu, Abe Shenitzer: The Principle of Maximum Entropy,The Mathematical Intelligencer, Vol. 7, No. 1, pp. 42-48

Metoda Lagrangeových multiplikátorů (Cheeseman 1983)

AB

AxxN

ABxxN

AB pxxp

xxppABP

N

N|

1

1

|

1

1

),,(

),,()|(

0),,(),,(11

1|1 Axx

NABABxx

NNN

xxppxxp

Nxx

Nxxp

1

01),,( 1

ApAP )(

Axx

ANN

pxxp

1

0),,( 1

omezení

Řešení marginálního problému jako hledání vázaného extrému

Nxx

NN xxpxxppH

1

),,(ln),,()( 11

kritérium

21110

)(11

1

1

)(ln),,(1

),,(ln),,('

N

N

xxNN

xxNN

xxpxxp

xxpxxpH

Metoda Lagrangeových multiplikátorů II (Cheeseman 1983)

0),,(

'

1

NxxpH

,, 10

01

1

1).,(ln),,(

' NN

xxpxxp

H

eNxxp )(1

0),,(

Iterační metoda (IPFP - Iterative Proportional Fitting Procedure)(Deming & Stephan, 1940)

},...,{ 1 NXXS Množiny všech náhodných veličin, které se účastní našeho problému.

},...,{1 KSS pp Daná množina marginálních pravděpododbnostních

rozložení.

SSS K ,...,1 Daný systém jejích podmnožin

NN XX

xxp

1

101),,( (východisko: rovnoměrná distribuce na S)

1)mod)1(( Kijproj

jS

Si

ii p

ppp1

1

),...,/,...,(),...,(),...,( 11111 MNMiMS

Ni xxxxpxxpxxp j

Pro objasnění - nechť },...,{ 1 Mj XXS

IPFP II

Deming & Stephan 1940

Teprve 1975 (Cziszár) důkaz konvergence:

Je-li systém marginálních distribucí konsistentní, t.j. je neprázdná,IPFP konverguje a pro limitní distribuci

S

kk

pp lim*

platí

))(()( max*

* pHpHSP

IPFP - příklad

X2=1 X2=2X1=1 0.06 0.14 0.2x1=2 0.24 0.56 0.8

0.3 0.7

}{ 11 XS }{ 22 XS

X2=1 X2=2X1=1 0.25 0.25 0.5x1=2 0.25 0.25 0.5

0.5 0.5

0p

X2=1 X2=2X1=1 0.100 0.100 0.200x1=2 0.400 0.400 0.800

0.500 0.500

1p

X2=1 X2=2X1=1 0.060 0.140 0.200x1=2 0.240 0.560 0.800

0.300 0.700

2p

X2=1 X2=2X1=1 =0.2*0.25/0.5 =0.2*0.25/0.5x1=2 =0.8*0.25/0.5 =0.8*0.25/0.5

X2=1 X2=2X1=1 =0.3*0.1/0.5 =0.7*0.1/0.5x1=2 =0.3*0.4/0.5 =0.7*0.4/0.5

1)mod)1(( Kijproj

jS

Si

ii p

ppp1

1

Základy datové analýzy I

A=a1 A=a2

B=b1

B=b2

B=b3

C=c1

C=c2

ABCx111ABCx211

ABCx121ABCx221

ABCx131ABCx231

ABCijk

BCjk

ACik

ABij

Ck

Bj

Ai

ABCijk uuuuuuuup 0log

Logaritmicko-lineární model:

b1

a1 a2 a3

b2

b3c1

c2

J

j

K

k CBA

ABCABCijk

I

i

pKJI

pKJI

u1 1 ,,1

0 log1log111

Efekt nultého řádu:

0

,, ,,

log1log1log1 upKJ

pKJI

pKJ

uCB

ABC

CB CBA

ABCABCA

Hlavní efekty (efekty prvního řádu):

0

,, ,,

log1log1log1 upKI

pKJI

pKI

uCA

ABC

CA CBA

ABCABCB

0

,, ,,

log1log1log1 upJI

pKJI

pJI

uBA

ABC

BA CBA

ABCABCC

b1

a1 a2 a3

b2

b3c1

c2

C CBA

ABC

CA

ABCABCAB pKJI

pKI

pK

u,,,

log1log1log1

CBA

ABC

CBA

ABC

CB

ABC pKJI

pKJI

pKJ ,,,,,

log1log1log1

CBA

ABC

C CB

ABC

CA

ABCABC pKJI

pKJ

pKI

pK ,,,,

log1log1log1log1

Interakce prvního řádu (efekty druhého řádu):

b1

a1 a2 a3

b2

b3c1

c2

C CBA

ABC

CA

ABCABCAB pKJI

pKI

pK

u,,,

log1log1log1

CBA

ABC

CBA

ABC

CB

ABC pKJI

pKJI

pKJ ,,,,,

log1log1log1

CBA

ABC

C CB

ABC

CA

ABCABC pKJI

pKJ

pKI

pK ,,,,

log1log1log1log1

0000 log1log1 uuupK

uuuuupK

u BA

C

ABCBA

C

ABCAB

0log1 uuupI

u CB

A

ABCBC

0log1 uuupJ

u CA

B

ABCAC

Interakce prvního řádu (efekty druhého řádu):

CBA

ABC

CA

ABC

A

ABCABCABC pKJI

pKI

pI

pu,,,

log1log1log1log

CBA

ABC

CBA

ABC

BA

ABC pKJI

pKJI

pJI ,,,,,

log1log1log1

CBA

ABC

BA

ABC

B

ABC pKJI

pJI

pJ ,,,

log1log1log1

CBA

ABC

CBA

ABC

CB

ABC pKJI

pKJI

pKJ ,,,,,

log1log1log1

CBA

ABC

CA

ABC

C

ABC pKJI

pKI

pK ,,,

log1log1log1

CBA

ABC

CBA

ABC

CB

ABC pKJI

pKJI

pKJ ,,,,,

log1log1log1

CBA

ABC

BA

ABC pKJI

pJI ,,,

log1log1

CBA

ABC

CB

ABC pKJI

pKJ ,,,

log1log1

CBA

ABC

CA

ABC pKJI

pKI ,,,

log1log1

CBA

ABCpKJI ,,

log1

C

ABC

B

ABC

A

ABCABC pK

pJ

pI

p log1log1log1log

CBA

ABC

CB

ABC

CA

ABC

BA

ABC pKJI

pKJ

pKI

pJI ,,,,,

log1log1log1log1

0log uuuuuuup CBAACBCABABC

ABCu

Efekt třetího řádu:

b1

a1 a2 a3

b2

b3c1

c2

3

3

b1

a1 a2 a3

b2

b3

c1

c2

A, B, C jsou vzájemně nezávislé náhodné veličiny právě, když platí:

CBAABC uuuup 0log

eCBA uuuuABCp 0

Určíme marginální rozložení:

C

u

B

uuu

CB

ABCA eeeeCBA

pp 0

,

C

u

A

uuu

CA

ABCB eeeeCAB

pp 0

,

B

u

A

uuu

BA

ABCC eeeeBAC

pp 0

,

1,,,,

0

CBA

uuuu

CBA

ABC eCBA

p

10

C

u

B

u

A

uu eeeeCBA

C

u

B

u

A

uuuuuCBA eeeeeeeCBACBA

ppp 2223 )()()(0

tímto vztahem vydělíme pravou stranu rovnice

a dostaneme eeeeCBA uuuuCBA ppp

0

a tedy rovněž 1)2(0

C

u

B

u

A

uu

eeeeCBA

CBAABC uuuup 0logneboli

Documents

A 5M 33 IZS – Informační a znalostní systémy