26
A5M33IZS – Informační a znalostní systémy Datová analýza I

A 5M 33 IZS – Informační a znalostní systémy

  • Upload
    habib

  • View
    47

  • Download
    1

Embed Size (px)

DESCRIPTION

A 5M 33 IZS – Informační a znalostní systémy. Datová analýza I. }. O(H/E 1 ) * O(H/E 2 ). E 1 -> H O(H/E 1 ). O(H/E 1 ,E 2 ) =. E 2 -> H O(H/E 2 ). O(H). P ředpoklad:. / H. E 1. E 2. Náhodné veličiny E 1 a E 2 jsou podmíněně nezávislé při dané hodnotě H. - PowerPoint PPT Presentation

Citation preview

Page 1: A 5M 33 IZS – Informační a znalostní systémy

A5M33IZS – Informační a znalostní systémy

Datová analýza I

Page 2: A 5M 33 IZS – Informační a znalostní systémy

Skládání příspěvků pravidel u ES typu Prospector

E1 -> H O(H/E1)

E2 -> H O(H/E2)} O(H/E1,E2) =

O(H/E1) * O(H/E2)

O(H)

Předpoklad:

Náhodné veličiny E1 a E2 jsou podmíněně nezávislépři dané hodnotě H.

E1 E2 / H

Page 3: A 5M 33 IZS – Informační a znalostní systémy

C=1 C=2 C=1 C=2A=1 2 2 4 1A=2 2 3 2 1

B=1 B=2

Frekvenční (kontigenční) tabulka:

Pacient A B CP1 1 2 1P2 2 1 2P3 1 1 2P4 1 2 1P5 1 2 1P6 2 2 1P7 2 1 1P8 1 2 2P9 1 1 2P10 2 2 2P11 1 2 1P12 1 1 1P13 2 1 1P14 2 1 2P15 2 2 1P16 1 1 1P17 2 1 2

Statistická data:

C=1 C=2 C=1 C=2A=1 2 2 4 1 9A=2 2 3 2 1 8

4 5 6 2

10 7

17

B=1 B=2

9 8

Sdružené pravděpodobnostní rozložení:

C=1 C=2 C=1 C=2A=1 0.12 0.12 0.24 0.06 0.53A=2 0.12 0.18 0.12 0.06 0.47

0.24 0.29 0.35 0.12

0.59 0.41

1.00

B=1 B=2

0.53 0.47

Page 4: A 5M 33 IZS – Informační a znalostní systémy

Struktura závislosti na množině náhodných veličin

{ A, B, C } : • A, B, C vzájemně nezávislé• A, B, C po dvojicích nezávislé• A B / C• B C / A• A, B závislé, C na nich nezávislá• a další

Page 5: A 5M 33 IZS – Informační a znalostní systémy

Danou množinu náhodných veličin potřebujeme rozdělit na podmnožiny vzájemně (silně) závislých náhodných veličin ....

Snížení dimenze pravděpodobnostního rozložení(rozložení frekvencí).

… tak, aby z nich bylo možné zrekonstruovat původní rozložení (s minimální ztrátou informace).

Page 6: A 5M 33 IZS – Informační a znalostní systémy

Dva problémy:

• nalézt co nejmenší množinu co nejjednodušších marginálních rozložení (množinu minimálních postačujících statistik)

Bishop, Fienberg, Holland: “Discrete Multivariate Analysis: Theory and Practice”,The MIT Press Cambridge, 1975

• k dané množině marginálních rozložení nalézt příslušné sdružené rozložení (množinu minimálních postačujících statistik)

Problém v teorii pravděpodobnosti známý jako „Marginální problém”

Jiroušek R.: “Metody integrace znalostí v pravděpodobnostních expertních systémech”, sborník Aplikace umělé inteligence AI’89, Praha, 1989

Page 7: A 5M 33 IZS – Informační a znalostní systémy

Marginální problém I

• {A, B, C} je množina (binárních) náhodných veličin

• {p(A), p(B), p(C)} je množina marginálních rozložení frekvencí

,91 Ax 82Ax

,91 Bx 82Bx

,101 Cx 72Cx

AxBxCx

C=1 C=2 C=1 C=2A=1 2 2 4 1 9A=2 2 3 2 1 8

4 5 6 2

10 7

17

B=1 B=2

9 8

C=1 C=2 C=1 C=2A=1 2 1 4 2 9A=2 3 3 1 1 8

5 4 5 3

10 7

17

B=1 B=2

9 8

K danému sdruženému rozložení frekvencí/pravděpodobností se libovolné marginální rozložení frekvencí/pravděpodobností určí jednoznačně, naopak tomu tak není.

Existuje nekonečně mnoho sdružených pravděpodobnostních rozložení, které vyhovují danému systému marginálních rozložení.

Page 8: A 5M 33 IZS – Informační a znalostní systémy

Marginální problém II

• Které z těch nekonečně mnoha sdružených pravděpodobnostních rozložení je to “správné” ?

KRITÉRIUM

• Jak ho nalézt? Nemůžeme testovat toto KRITERIUM na všech kandidátech - je jich nekonečně mnoho.

Kritérií i metod existuje několik. Často se jako kritérium používáPrincip maxima entropie (princip scházejícího důvodu). Vezmeme to sdružené pravděpodobnostní rozložení, které má maximum entropiepři využití veškeré dostupné informace.

METODA

Page 9: A 5M 33 IZS – Informační a znalostní systémy

Princip maxima entropie},...,{ 1 NXXS Množina všech náhodných veličin, které se účastní našeho

problému.

},...,{1 KSS pp Daná množina marginálních pravděpododbnostních

rozložení.

X Množina všech takových vektorů.

Informační (shannonovská) entropie:

Xx

xpxPpH ))(ln()()(

Vektor nějakých hodnot náhodných veličin X1 až XN. Nnji xxxx ,...,, 21

SSS K ,...,1 Daný systém jejích podmnožin

Množina všech sdružených pravděpodobnostních rozloženínad množinou S takových, že pro podmnožiny S1 až Sk je množina všech odpovídajících marginálních rozložení rovna množině

},...,{1 KSS pp

S

Princip maxima entropie: ))(()( max*

* pHpHSP

Page 10: A 5M 33 IZS – Informační a znalostní systémy

Princip maxima entropie II

Silviu Guiasu, Abe Shenitzer: Princip maxima entropie,Pokroky matematiky, fyziky a astronomie, ročník 31 (1986), č. 4

Silviu Guiasu, Abe Shenitzer: The Principle of Maximum Entropy,The Mathematical Intelligencer, Vol. 7, No. 1, pp. 42-48

Page 11: A 5M 33 IZS – Informační a znalostní systémy

Metoda Lagrangeových multiplikátorů (Cheeseman 1983)

AB

AxxN

ABxxN

AB pxxp

xxppABP

N

N|

1

1

|

1

1

),,(

),,()|(

0),,(),,(11

1|1 Axx

NABABxx

NNN

xxppxxp

Nxx

Nxxp

1

01),,( 1

ApAP )(

Axx

ANN

pxxp

1

0),,( 1

omezení

Řešení marginálního problému jako hledání vázaného extrému

Nxx

NN xxpxxppH

1

),,(ln),,()( 11

kritérium

21110

)(11

1

1

)(ln),,(1

),,(ln),,('

N

N

xxNN

xxNN

xxpxxp

xxpxxpH

Page 12: A 5M 33 IZS – Informační a znalostní systémy

Metoda Lagrangeových multiplikátorů II (Cheeseman 1983)

0),,(

'

1

NxxpH

,, 10

01

1

1).,(ln),,(

' NN

xxpxxp

H

eNxxp )(1

0),,(

Page 13: A 5M 33 IZS – Informační a znalostní systémy

Iterační metoda (IPFP - Iterative Proportional Fitting Procedure)(Deming & Stephan, 1940)

},...,{ 1 NXXS Množiny všech náhodných veličin, které se účastní našeho problému.

},...,{1 KSS pp Daná množina marginálních pravděpododbnostních

rozložení.

SSS K ,...,1 Daný systém jejích podmnožin

NN XX

xxp

1

101),,( (východisko: rovnoměrná distribuce na S)

1)mod)1(( Kijproj

jS

Si

ii p

ppp1

1

),...,/,...,(),...,(),...,( 11111 MNMiMS

Ni xxxxpxxpxxp j

Pro objasnění - nechť },...,{ 1 Mj XXS

Page 14: A 5M 33 IZS – Informační a znalostní systémy

IPFP II

Deming & Stephan 1940

Teprve 1975 (Cziszár) důkaz konvergence:

Je-li systém marginálních distribucí konsistentní, t.j. je neprázdná,IPFP konverguje a pro limitní distribuci

S

kk

pp lim*

platí

))(()( max*

* pHpHSP

Page 15: A 5M 33 IZS – Informační a znalostní systémy

IPFP - příklad

X2=1 X2=2X1=1 0.06 0.14 0.2x1=2 0.24 0.56 0.8

0.3 0.7

}{ 11 XS }{ 22 XS

X2=1 X2=2X1=1 0.25 0.25 0.5x1=2 0.25 0.25 0.5

0.5 0.5

0p

X2=1 X2=2X1=1 0.100 0.100 0.200x1=2 0.400 0.400 0.800

0.500 0.500

1p

X2=1 X2=2X1=1 0.060 0.140 0.200x1=2 0.240 0.560 0.800

0.300 0.700

2p

X2=1 X2=2X1=1 =0.2*0.25/0.5 =0.2*0.25/0.5x1=2 =0.8*0.25/0.5 =0.8*0.25/0.5

X2=1 X2=2X1=1 =0.3*0.1/0.5 =0.7*0.1/0.5x1=2 =0.3*0.4/0.5 =0.7*0.4/0.5

1)mod)1(( Kijproj

jS

Si

ii p

ppp1

1

Page 16: A 5M 33 IZS – Informační a znalostní systémy

Základy datové analýzy I

A=a1 A=a2

B=b1

B=b2

B=b3

C=c1

C=c2

ABCx111ABCx211

ABCx121ABCx221

ABCx131ABCx231

ABCijk

BCjk

ACik

ABij

Ck

Bj

Ai

ABCijk uuuuuuuup 0log

Logaritmicko-lineární model:

Page 17: A 5M 33 IZS – Informační a znalostní systémy

b1

a1 a2 a3

b2

b3c1

c2

J

j

K

k CBA

ABCABCijk

I

i

pKJI

pKJI

u1 1 ,,1

0 log1log111

Efekt nultého řádu:

Page 18: A 5M 33 IZS – Informační a znalostní systémy

0

,, ,,

log1log1log1 upKJ

pKJI

pKJ

uCB

ABC

CB CBA

ABCABCA

Hlavní efekty (efekty prvního řádu):

0

,, ,,

log1log1log1 upKI

pKJI

pKI

uCA

ABC

CA CBA

ABCABCB

0

,, ,,

log1log1log1 upJI

pKJI

pJI

uBA

ABC

BA CBA

ABCABCC

b1

a1 a2 a3

b2

b3c1

c2

Page 19: A 5M 33 IZS – Informační a znalostní systémy

C CBA

ABC

CA

ABCABCAB pKJI

pKI

pK

u,,,

log1log1log1

CBA

ABC

CBA

ABC

CB

ABC pKJI

pKJI

pKJ ,,,,,

log1log1log1

CBA

ABC

C CB

ABC

CA

ABCABC pKJI

pKJ

pKI

pK ,,,,

log1log1log1log1

Interakce prvního řádu (efekty druhého řádu):

b1

a1 a2 a3

b2

b3c1

c2

Page 20: A 5M 33 IZS – Informační a znalostní systémy

C CBA

ABC

CA

ABCABCAB pKJI

pKI

pK

u,,,

log1log1log1

CBA

ABC

CBA

ABC

CB

ABC pKJI

pKJI

pKJ ,,,,,

log1log1log1

CBA

ABC

C CB

ABC

CA

ABCABC pKJI

pKJ

pKI

pK ,,,,

log1log1log1log1

0000 log1log1 uuupK

uuuuupK

u BA

C

ABCBA

C

ABCAB

0log1 uuupI

u CB

A

ABCBC

0log1 uuupJ

u CA

B

ABCAC

Interakce prvního řádu (efekty druhého řádu):

Page 21: A 5M 33 IZS – Informační a znalostní systémy

CBA

ABC

CA

ABC

A

ABCABCABC pKJI

pKI

pI

pu,,,

log1log1log1log

CBA

ABC

CBA

ABC

BA

ABC pKJI

pKJI

pJI ,,,,,

log1log1log1

CBA

ABC

BA

ABC

B

ABC pKJI

pJI

pJ ,,,

log1log1log1

CBA

ABC

CBA

ABC

CB

ABC pKJI

pKJI

pKJ ,,,,,

log1log1log1

CBA

ABC

CA

ABC

C

ABC pKJI

pKI

pK ,,,

log1log1log1

CBA

ABC

CBA

ABC

CB

ABC pKJI

pKJI

pKJ ,,,,,

log1log1log1

CBA

ABC

BA

ABC pKJI

pJI ,,,

log1log1

CBA

ABC

CB

ABC pKJI

pKJ ,,,

log1log1

CBA

ABC

CA

ABC pKJI

pKI ,,,

log1log1

CBA

ABCpKJI ,,

log1

Page 22: A 5M 33 IZS – Informační a znalostní systémy

C

ABC

B

ABC

A

ABCABC pK

pJ

pI

p log1log1log1log

CBA

ABC

CB

ABC

CA

ABC

BA

ABC pKJI

pKJ

pKI

pJI ,,,,,

log1log1log1log1

0log uuuuuuup CBAACBCABABC

ABCu

Efekt třetího řádu:

b1

a1 a2 a3

b2

b3c1

c2

3

3

Page 23: A 5M 33 IZS – Informační a znalostní systémy

b1

a1 a2 a3

b2

b3

c1

c2

Page 24: A 5M 33 IZS – Informační a znalostní systémy

A, B, C jsou vzájemně nezávislé náhodné veličiny právě, když platí:

CBAABC uuuup 0log

eCBA uuuuABCp 0

Určíme marginální rozložení:

C

u

B

uuu

CB

ABCA eeeeCBA

pp 0

,

C

u

A

uuu

CA

ABCB eeeeCAB

pp 0

,

B

u

A

uuu

BA

ABCC eeeeBAC

pp 0

,

Page 25: A 5M 33 IZS – Informační a znalostní systémy

1,,,,

0

CBA

uuuu

CBA

ABC eCBA

p

10

C

u

B

u

A

uu eeeeCBA

C

u

B

u

A

uuuuuCBA eeeeeeeCBACBA

ppp 2223 )()()(0

tímto vztahem vydělíme pravou stranu rovnice

a dostaneme eeeeCBA uuuuCBA ppp

0

a tedy rovněž 1)2(0

C

u

B

u

A

uu

eeeeCBA

CBAABC uuuup 0logneboli

Page 26: A 5M 33 IZS – Informační a znalostní systémy