Upload
kalin
View
42
Download
0
Embed Size (px)
DESCRIPTION
Wielowymiarowa analiza danych oparta na modelach gradacyjnych. Z implementacją w programie GradeStat 1. E. Pleszczyńska, E. Jarochowska, W. Szczesny Instytut Podstaw Informatyki PAN http://gradestat.ipipan.waw.pl. - PowerPoint PPT Presentation
Citation preview
Wielowymiarowa analiza danych oparta na modelach gradacyjnych
Z implementacją w programie GradeStat1
E. Pleszczyńska, E. Jarochowska, W. Szczesny
Instytut Podstaw Informatyki PANhttp://gradestat.ipipan.waw.pl
Artykuł częściowo finansowany z projektu badawczego nr 3T11CO5328przyznanego przez Ministerstwo Nauki i Informatyzacji
We point out that models based on probability theory, and the statistical techniques derived from them, have limited applicability, at least in exploratory multivariate situations.
Jan de Leeuw
Plan referatuo Czym jest Gradacyjna Analiza
Danych?o Przykład analizy – dane
ekonomiczno-gospodarczeo Wykrywanie elementów
odstającycho Odwracanie zwrotu
zmiennycho Schematy gradacyjnego
przetwarzania danych w teraźniejszości i przyszłości
0
0,2
0,4
0,6
0,8
1
0 2 4 6 8
Gradacyjna Analiza DanychParom rozkładów przyporządkowuje się zmienną „lilipucią” reprezentującą koncentrację jednego rozkładu względem drugiego
0
0.2
0.4
0.6
0.8
1
0 0.5 1
Para rozkładów Krzywa koncentracji
Implementacja w GradeStato GCA (ang. grade
correspondence analysis)
o Analiza skupień (GCCA)
o Wykrywanie elementów odstających
o Wizualizacja: mapy nadreprezentacji
http://gradestat.ipipan.waw.pl
Przykład analizy gradacyjnejo Dane Europejskiego Biura
Statystycznegoo 25 krajów UEo Zmienne ekonomiczne
mierzone na różnych skalach absolutnych: dzietność, zużycie energii, inflacja, przewidywana dlugość życia etc.
Macierz danych
Mapa nadreprezentacji po GCA
zuż.
en
erg
ii
PK
B n
a o
s/śr
EU
do
st e
-ad
m %
em
isja
g.
cie
pl.
dzi
etn
osc
po
da
tki %
PK
B
ud
z.w
yb.p
arl
zatr
ud
nie
nie
M p
rze
w.
dł.ż
ycia
F p
rze
w.
dł.ż
ycia
inw
est
. %
PK
B
be
zro
bo
cie
infla
cja
wzr
. d
och
. z
roln
.
Luksemburg
Finlandia
Szwecja
AustriaHolandia
Dania
IrlandiaFrancjaBelgia
WłochyWlk Brytania
CyprNiemcy
SłoweniaMalta
GrecjaPortugaliaHiszpania
CzechyWęgry
EstoniaLitwa
SłowacjaPolskaŁotwa
Luksemburg
Finlandia
Szwecja
AustriaHolandiaDania
IrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa
Mapy odstępstw od regularności
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
1. 2. 3. 14.* 4. 5. 6. 7. 8. 9. 11.* 10. 12.* 13.*
1.
2.
3.
14.*
4.
5.
6.
7.
8.
9.
11.*
10.
12.*
13.*
Przed odwróceniem zwrotu zmiennych
Po odwróceniu zwrotu zmiennych
11, 12, 13 i 14
Mapy wskaźników korelacji1 0.85 0.39 0.23 0.62 0.68 0.35 0.53 0.39 0.55 -0.42 -0.34 -0.36 -0.45
0.85 1 0.44 0.46 0.77 0.64 0.44 0.55 0.6 0.59 -0.48 -0.49 -0.4 -0.56
0.39 0.44 1 0.3 0.54 0.46 -0.01 0.49 0.38 0.5 -0.18 -0.3 -0.36 -0.09
0.23 0.46 0.3 1 0.42 0.22 0.42 0.26 0.65 0.64 -0.04 -0.25 -0.14 -0.71
0.62 0.77 0.54 0.42 1 0.48 0.24 0.59 0.47 0.49 -0.49 -0.41 -0.37 -0.48
0.68 0.64 0.46 0.22 0.48 1 0.48 0.29 0.44 0.58 -0.55 -0.12 -0.58 -0.48
0.35 0.44 -0.01 0.42 0.24 0.48 1 0.07 0.45 0.3 -0.29 -0.34 -0.08 -0.62
0.53 0.55 0.49 0.26 0.59 0.29 0.07 1 0.23 0.26 -0.31 -0.59 -0.38 -0.16
0.39 0.6 0.38 0.65 0.47 0.44 0.45 0.23 1 0.82 -0.36 -0.2 -0.4 -0.74
0.55 0.59 0.5 0.64 0.49 0.58 0.3 0.26 0.82 1 -0.4 0.03 -0.41 -0.67
-0.42 -0.48 -0.18 -0.04 -0.49 -0.55 -0.29 -0.31 -0.36 -0.4 1 0.06 0.71 0.32
-0.34 -0.49 -0.3 -0.25 -0.41 -0.12 -0.34 -0.59 -0.2 0.03 0.06 1 0.12 0.2
-0.36 -0.4 -0.36 -0.14 -0.37 -0.58 -0.08 -0.38 -0.4 -0.41 0.71 0.12 1 0.24
-0.45 -0.56 -0.09 -0.71 -0.48 -0.48 -0.62 -0.16 -0.74 -0.67 0.32 0.2 0.24 1
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
1.2.3.4.5.6.7.8.9.
10.11.12.13.14.
1 0.85 0.39 0.45 0.23 0.62 0.68 0.35 0.53 0.39 0.42 0.55 0.34 0.36
0.85 1 0.44 0.56 0.46 0.77 0.64 0.44 0.55 0.6 0.48 0.59 0.5 0.4
0.39 0.44 1 0.09 0.3 0.54 0.46 -0.01 0.49 0.38 0.18 0.5 0.3 0.36
0.45 0.56 0.09 1 0.71 0.48 0.48 0.62 0.16 0.74 0.32 0.67 0.21 0.24
0.23 0.46 0.3 0.71 1 0.42 0.22 0.42 0.26 0.65 0.04 0.64 0.26 0.14
0.62 0.77 0.54 0.48 0.42 1 0.48 0.24 0.59 0.47 0.49 0.49 0.41 0.37
0.68 0.64 0.46 0.48 0.22 0.48 1 0.48 0.29 0.44 0.55 0.58 0.13 0.58
0.35 0.44 -0.01 0.62 0.42 0.24 0.48 1 0.07 0.45 0.29 0.3 0.34 0.08
0.53 0.55 0.49 0.16 0.26 0.59 0.29 0.07 1 0.23 0.31 0.26 0.6 0.38
0.39 0.6 0.38 0.74 0.65 0.47 0.44 0.45 0.23 1 0.36 0.82 0.21 0.4
0.42 0.48 0.18 0.32 0.04 0.49 0.55 0.29 0.31 0.36 1 0.4 0.08 0.71
0.55 0.59 0.5 0.67 0.64 0.49 0.58 0.3 0.26 0.82 0.4 1 -0.02 0.41
0.34 0.5 0.3 0.21 0.26 0.41 0.13 0.34 0.6 0.21 0.08 -0.02 1 0.14
0.36 0.4 0.36 0.24 0.14 0.37 0.58 0.08 0.38 0.4 0.71 0.41 0.14 1
1. 2. 3. 14.* 4. 5. 6. 7. 8. 9. 11.* 10. 12.* 13.*
1.2.3.
14.*4.5.6.7.8.9.
11.*10.12.*13.*
Przed odwróceniemzwrotu zmiennych
Po odwróceniu zwrotu zmiennych11, 12, 13, 14
Krzywe koncentracji
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
Schematy gradacyjnego przetwarzania danych
Dla pary zmiennych:
Dla tablicy m×k:
Krzywa koncentracji
Krzywa maks. koncentracji
Pomiar asymetrii,spłaszczeniai nierówności
Powierzchniakoncentracji
Powierzchnia maks. koncentracji
HGCA.Pomiar asymetrii,
spłaszczeniai nierówności.
Literaturao Kowalczyk T., Pleszczyńska E.,
Ruland F. (red.), Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Berlin, Springer-Verlag, 2004.
o Książyk J., Matyja O., Pleszczyńska E., Wiech M. (red.), Analiza danych medycznych i demograficznych przy użyciu programu GradeStat, Warszawa, IPI PAN i Instytut „Pomnik – Centrum Zdrowia Dziecka”, 2005.
http://gradestat.ipipan.waw.pl
Zapraszamy na stronę programu:
o GradeStat do pobraniao Samouczek programuo Przykłady zastosowania