Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Esettanulmány Kvantitatív elemzési módszerek (GTÜSE3915) tantárgyhoz
Az SPSS statisztikai program World95.sav nevű adatbázisa a világ 109 nemzetének 26
társadalmi-gazdasági és politikai helyzetét leíró változót tartalmaz. Ezek rendre a következők:
1. táblázat: World95.sav adatbázis változói
Változók SPSS-beli
megnevezés Leírás Mérési skála
1 country Ország megnevezése Nominális
2 populatn Népesség (1000 főben) Arány
3 density Népsűrűség (fő / km2) Arány
4 urban A városban élők aránya (%) Arány
5 religion Vallás Nominális
6 lifeexpf Nők átlagos születéskor várható élettartama Arány
7 lifeexpm Férfiak átlagos születéskor várható élettartama Arány
8 literacy Azon emberek aránya, akik tudnak olvasni (%) Arány
9 pop_incr Népesség éves növekedés mértéke (%) Arány
10 babymort Csecsemőhalandóság (1000 élve születésre jutó
halálozások száma) Arány
11 gdp_cap 1 főre jutó GDP Arány
12 region Régiók, gazdasági csoportok Sorrendi
13 calories Napi kalória bevitel Arány
14 aids AIDS-es esetek száma Arány
15 birth_rt 1000 főre jutó születési arányszám Arány
16 death_rt 1000 főre jutó halálozási arányszám Arány
17 aids_rt 100 000 főre jutó AIDS-es esetek száma Arány
18 log_gdp A GDP_CAP változó 10-es alapú logaritmusa Arány
19 lg_aidsr Az AIDS_RT változó 10-es alapú logaritmusa Arány
20 b_to_d 1 halálozásra jutó születések száma Arány
21 fertilty Termékenységi mutató: átlagos gyermekszám Arány
22 log_pop A népesség 10-es alapú logaritmusa Arány
23 cropgrow Vetemény Arány
24 lit_male Azoknak a férfiaknak az aránya, akik olvasnak (%) Arány
25 lit_fema Azoknak a nőknek az aránya, akik olvasnak (%) Arány
26 climate Éghajlat Sorrendi
Feladat:
Az SPSS World95.sav fájl adatait felhasználva hozzon létre az országokat alkotó homogén
csoportokat (klasztereket) úgy, hogy a klaszterképző ismérvek a várható élettartamot
leginkább befolyásoló tényezők legyenek!
1. Válassza ki a várható élettartammal legszorosabb és szignifikáns kapcsolatban levő
változókat, amelyek a klaszterképzés alapjául szolgálhatnak!
2. Redukálja le a változók számát a könnyebb értelmezhetőség kedvéért!
3. Az elemzés célja homogén csoportok létrehozása. Nézze meg, vannak-e kiugró értékek,
s ha igen, azokat hagyja ki az elemzésből!
4. Határozza meg az ideális klaszterszámot!
5. Ábrázolja a befolyásoló tényezők alapján a különböző klaszterekbe sorolt országokat!
6. Jellemezze a klasztereket!
Készítsen kutatási összefoglalót a kapott eredményekről!
Megoldás Az esettanulmány eredményeinek bemutatása, az eredmények
értelmezésének gyakorlása
Kutatási célunk az adott országoknak a várható élettartammal szignifikáns kapcsolatban álló
változók alapján való klaszterekbe sorolása. Ennek első lépéseként meghatároztuk azon
változók körét, amelyek szignifikáns kapcsolatban állnak a várható élettartammal, tehát
amelyek befolyásolják az eredményeket.
1. Válassza ki a várható élettartammal legszorosabb és szignifikáns kapcsolatban
levő változókat, amelyek a klaszterképzés alapjául szolgálhatnak!
Többváltozós korrelációszámítás segítségével megvizsgáltuk, mely változók kerülhetnek be
az elemzésbe. Az eredményeket a táblázat terjedelme miatt nem szerepeltetjük. Arra a
következtetésre jutottunk, hogy a várható élettartamot szignifikánsan (p<0,1) a következő
tényezők befolyásolták: városi népesség aránya, olvasni tudók aránya, olvasni tudók aránya a
férfiak, valamint a nők körében, a népesség növekedési üteme, csecsemőhalandóság, egy főre
eső GDP, napi kalória bevitel, 1000 főre jutó születések száma, 1000 főre eső halálozások
száma, 10000 főre jutó AIDS esetek száma, átlagos gyermekszám.
Mivel a klaszteranalízis alapjául szolgáló változók száma túl sok, faktoranalízis segítségével
redukáltuk a számukat.
2. Redukálja le a változók számát a könnyebb értelmezhetőség kedvéért!
A faktoranalízis első lépéseként megvizsgáltuk az elemzéshez szükséges feltételek
teljesülését. A változók közötti korrelációs együtthatókat már a változók körének
kiválasztásakor meghatároztuk. Mivel szignifikáns kapcsolatokat figyelhetünk meg, az
elemzés ezen feltétele, miszerint szoros és szignifikáns kapcsolatoknak kell lennie a változók
között, teljesült. Ez után az anti-image mátrix segítségével megvizsgáltuk, hogy van-e a
faktoranalízis eredményeit torzító változónk. Az anti-image korrelációs mátrix főátlójának
elemei 0,502 és 0,899 közötti értékeket vesznek fel, amely mindegyike a kritikus 0,5 feletti
érték. Viszont a 100 000 főre jutó AIDS-es esetek száma esetében a 0,502-es érték oly
mértékben eltér a többitől, hogy célszerűnek tartottuk azt a változót kihagyni az elemzésből.
A változó elhagyása után a KMO értéke 0,838-ról 0,856-ra emelkedett, amely értelmében az
adatok alkalmasak a faktorelemzésre. Ezt támasztja alá a Bartlett hipotézisvizsgálat is.
2.1. táblázat: KMO és Bartlett Teszt
Kaiser-Meyer-Olkin érték ,838
Bartlett Teszt Becsült chi négyzet 971,601
df (szabadságfok) 66
Szignifikancia ,000
Miután meggyőződhettünk arról, hogy a feltételek teljesültek, valamint az adatok alkalmasak
a faktorelemzésre, ki kell választanunk a faktormódszert. Jelen esetben a főkomponens-
elemzést választottuk a módszerek közül, hogy a kiindulási változók lineáris
kombinációjaként olyan korrelálatlan főkomponenseket képezzünk, amelyek a legmagasabb
magyarázott varianciával bírnak. Ezután meghatároztuk az ideális faktorok számát. Ebben
lehet segítségünkre a Scree Plot, amely értelmében a 2 főkomponenst kellene létrehozni –
ugyanis a közös variancia és az egyedi faktorok töréspontja a 2-es főkomponens számnál
található. Amennyiben a Kaiser kritériumot vesszük alapul, vagyis az 1-nél alacsonyabb
sajátértékű főkomponenseket kizárjuk az elemzésből, akkor 3 az ideális száma a
főkomponenseknek.
2.1 ábra: Vonaldiagram az ideális főkomponensszám meghatározásához
3 főkomponens esetén a teljes magyarázott variancia 88,438% lenne, ami magasabb, mint a
kritikusként meghatározott 60%, vagyis a 3 főkomponens 88,438%-ban foglalja össze a
kiindulási változók tulajdonságait.
2.2. táblázat: Teljes magyarázott variancia
Komponensek
Kezdeti sajátértéks Loading négyzetösszege
Összesen A variancia
%-ban Kumulált % Összesen
A variancia
%-ban Kumulált %
1 7,436 67,597 67,597 7,436 67,597 67,597
2 1,261 11,466 79,063 1,261 11,466 79,063
3 1,031 9,375 88,438 1,031 9,375 88,438
4 ,468 4,257 92,695
5 ,292 2,659 95,354
6 ,265 2,410 97,764
7 ,101 ,923 98,686
8 ,068 ,616 99,303
9 ,034 ,306 99,608
10 ,024 ,215 99,823
11 ,019 ,177 100,000
Mivel a klaszteranalízis feltétele a független változók használata, és a változóink jelen esetben
a főkomponensek lesznek, ezért a főkomponenseket derékszögű forgatással rotáljuk. Azért
választjuk a Varimax módszert, mert az eljárás a főkomponensek által magyarázott varianciát
maximalizálja.
2.3. táblázat: Rotált főkomponensek
Főkomponensek
1 2 3
1000 főre jutó halálozások száma -,910 ,036 -,147
Csecsemőhalandóság -,749 ,426 -,417
Olvasni tudó emberek aránya ,686 -,638 ,228
Olvasni tudó nők aránya ,673 -,653 ,212
Olvasni tudó férfiak aránya ,651 -,622 ,213
Népesség éves növekedési üteme (%) ,089 ,948 -,206
Átlagos gyermekszám -,463 ,774 -,283
1000 főre jutó születések száma -,424 ,765 -,395
Egy főre jutó GDP ,069 -,302 ,878
Napi kalória bevitel ,340 -,262 ,804
Városokban élők aránya (%) ,626 -,082 ,626
Az első főkomponensben negatív súllyal szerepel az 1000 főre jutó halálozások száma,
valamint a csecsemőhalandóság, ezen kívül pedig pozitív súllyal szerepel benne az olvasni
tudók aránya összesen, illetve nemenként.
A második főkomponenst alkotó változók a népesség éves növekedési üteme, az átlagos
gyermekszám, valamint az 1000 főre jutó születések száma. Ezen változók közös ok-okozati
összefüggése az országok népességének növekedésére, mondhatni „frissülésére” utal vissza.
A harmadik főkomponenst az egy főre jutó GDP, a napi kalória bevitel, valamint a
városokban élők aránya alkotja, amelyek az országok „gazdagsági helyzetére” utalnak.
Miután több faktormódszerrel, forgatási eljárással leteszteltük a főkomponenselemzés
eredményességét, meggyőződtünk annak érvényességéről, a főkomponensek elnevezése
következik. Az elnevezéshez további vizsgálatok lennének szükségesek, de mivel a
főkomponenselemzés jelen esetben csak egy alkalmazott módszer egy másik elemzés
feltételeinek teljesüléséhez, így az egyszerűség kedvéért tekintsük ezeket F1, F2, F3
főkomponenseknek. Mivel az elemzést egy nagyobb volumenű vizsgálat (klaszteranalízis)
első lépéseként alkalmaztuk, szükséges a főkomponensek új változóként való elmentése. A
változók létrehozására a legelterjedtebb regressziós faktorérték módszert választottuk. A
mentést követően már három új változóval (F1, F2, F3) dolgozhatunk, hogy a vizsgált
országokat klaszterekbe sorolhassuk.
3. Az elemzés célja homogén csoportok létrehozása. Nézze meg, vannak-e kiugró
értékek, s ha igen, azokat hagyja ki az elemzésből!
Visszatérve eredeti kutatási tervünkhöz, folytattuk a klaszteranalízis menetét. A faktoranalízis
előzetes alkalmazása már biztosította nekünk, hogy a változók egymástól függetlenek
legyenek, valamint hogy a vizsgált változók skálái megegyezzenek.
Az elemzés módszerének a hierarchikus klaszterelemzést választottuk, mert nincs előzetes
információnk a klaszterek számáról. Mivel célunk homogén csoportok létrehozása, ezért első
lépésben az egyszerű láncmódszert (Nearest neighbour) alkalmazva megvizsgáltuk, hogy
vannak-e az adatbázisban kiugró értékek. Az eredmények alapján azt mondhatjuk, nincsenek
kiugró értékek, ezért a továbbiakban a Ward-féle eljárással folytattuk az elemzést. A Ward
módszer alkalmazásával azok az elemek kerültek egy klaszterbe, amelyek összevonása
minimalizálja a belső szórásnégyzet növekedését. Távolságmértéknek a négyzetes euklediszi
távolságot határoztuk meg.
4. Határozza meg az ideális klaszterszámot!
Az ideális klaszterszám meghatározásához az Agglomeretion Schedule táblázat alapján
kirajzolt vonaldiagramot használtuk.
4.1 ábra: Vonaldiagram az ideális klaszterszám meghatározásához
Az ábra alapján 4 klasztert lenne érdemes létrehozni.
A kialakítandó klaszterek lehetséges számát megvizsgáltuk a dendogram segítségével is. Ha a
klaszterösszevonások transzformált távolságát 5-ben határozzuk meg, akkor 5 klasztert, ha
egy kicsivel magasabb értékben (pl. 6) határozzuk meg, akkor pedig 4 klasztert lenne érdemes
létrehozni.
4.2 ábra: Dendogram
Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
32 -+
79 -+
31 -+
80 -+
25 -+-+
77 -+ |
23 -+ |
26 -+ |
2 -+ |
15 -+-+-------+
105 -+ | |
98 -+ | |
108 -+-+ |
24 -+ |
51 -+ |
67 -+ +-----------------------+
99 -+ | |
66 -+ | |
107 -+---+ | |
46 -+ | | |
78 -+ | | |
58 -+ +-----+ |
44 -+ | |
72 -+-+ | |
20 -+ | | |
73 -+ +-+ +---------+
14 -+ | | |
50 -+ | | |
109 -+-+ | |
12 -+ | |
34 -+ | |
59 -+ | |
52 -+ | +---+
87 -+ | | |
53 -+-+ | | |
64 -+ +-------------------------------+ | |
60 ---+ | |
63 -+ | |
88 -+---+ | |
36 -+ | | |
90 -+ +---------------------------------------+ |
33 -+-+ | |
39 -+ | | |
17 -+-+-+ |
22 -+ | |
85 -+ | |
97 -+ | |
19 -+ | |
8 -+-+ |
18 -+ |
45 -+ |
103 -+ |
56 -+ |
Mivel az 5 klaszteres megoldás homogénebb csoportokhoz vezet (ld. alábbi táblázatok), így
azt választjuk és mentjük el.
4.1./a táblázat: Klaszterek gyakorisági táblázata
Klaszterek száma Gyakoriság Relatív
gyakoriság (%)
Érvényes relatív
gyakoriság (%)
Kumulált relatív
gyakoriság
Valid 1 32 29,4 54,2 54,2
2 7 6,4 11,9 66,1
3 15 13,8 25,4 91,5
4 5 4,6 8,5 100,0
Összesen 59 54,1 100,0
Hiányzó adatok 50 45,9
Összesen 109 100,0
4.1./b táblázat: Klaszterek gyakorisági táblázata
Klaszterek száma Gyakoriság Relatív gyakoriság
(%)
Érvényes relatív
gyakoriság (%)
Kumulált relatív
gyakoriság
1 15 13,8 25,4 25,4
2 7 6,4 11,9 37,3
3 15 13,8 25,4 62,7
4 17 15,6 28,8 91,5
5 5 4,6 8,5 100,0
Összesen 59 54,1 100,0
Hiányzó adat 50 45,9
Összesen 109 100,0
5. Ábrázolja a befolyásoló tényezők alapján a különböző klaszterekbe sorolt
országokat!
A megfelelő klaszterösszetétel kiválasztását azok ellenőrzése követi. Miután egyéb
módszerekkel is leteszteltük, hogy a kapott eredmények megfelelnek az elemzésnek, a
klaszterek értelmezése, jellemzése következik. Az elmentett 5 klasztert a jellemzésük
egyszerűsítése kedvéért célszerű kirajzoltatni, ennek eredményeit mutatja az alábbi ábra.
5.1 ábra: Pontdiagram a klaszterekről
6. Jellemezze a klasztereket!
A klasztereket kereszttábla-vizsgálattal, valamint varianciaanalízis segítségével elemezhetjük
annak függvényében, hogy minőségi vagy mennyiségi ismérvekkel hasonlítjuk össze a
klasztertagságot.
Az első klaszter országaiban átlagosan a lakosság fele él városokban (55,4%±23,81%),
az olvasni tudók aránya is magas (87,67%±5,95%), a nők születéskor várható
élettartama 72 év, a férfiaké pedig átlagosan 66,5év. A népesség átlagos növekedési
üteme +66%±41%. Átlagosan egy halálozásra 3,6 születés jut, 1000 csecsemő közül
pedig átlagosan 38,5 veszíti el az életét. Az AIDS-es megbetegedések száma a többi
klaszterhez viszonyítva átlagosnak mondható. Dominánsan a latin-amerikai, valamint
ázsiai országok tartoznak ide, mint például Uruguay, Honduras vagy Kína, Vietnam.
A második klaszter országai már fejlettebbek, ugyanis átlagosan 76,3%±13,1%-a él
városokban, a nők születéskor várható élettartama 79,4 év, a férfiaké pedig átlagosan
72,9év, valamint az egy főre jutó GDP, valamint olvasni tudók aránya itt a legmagasabb
(95,6%±4,1%). Az átlagos csecsemőhalandóság is itt a legalacsonyabb. A népesség
viszont évről évre átlagosan fogy, ugyanis a születési arányszám alacsony: 12,86‰. Az
AIDS-es megbetegedések száma a többi klaszterhez viszonyítva magasnak mondható.
Dominánsan az OECD országok tartoznak ebbe a csoportba, mint például Olaszország,
Görögország, Magyarország valamint az USA és Ausztrália.
A harmadik klaszter országai mondhatók a legszegényebbnek, ugyanis átlagosan a
lakosság negyede él városokban (24,9%±15,6%), a fejlettséget jelző változók értékei,
mint az átlagos egy főre jutó GDP, a várható élettartam, a napi kalória bevitel értéke, az
olvasni tudók aránya (39,8%) itt a legalacsonyabb. Az AIDS-es megbetegedések száma,
a csecsemőhalandóság, valamint a halálozási arányszám magas a fejlettség hiánya
következtében. Ugyanerre az okra vezethető vissza a magas (42,2%±6,5%) születési
arányszám, valamint a népesség növekedésének mértéke is. Dominánsan az afrikai
országok tartoznak ide, mint például Nigéria, Közép-Afrikai Köztársaság, Burkina Faso.
A negyedik klaszter országaiban átlagosan a lakosság fele él városokban
(47,9%±18,01%). Ezek az országok az egy főre jutó GDP alapján kevésbé fejlettek. Ezt
támasztja alá az is, hogy a nők születéskor várható élettartama 66 év, a férfiaké pedig
átlagosan 62 év, valamint az olvasni tudók aránya 71,2%±13%. A születések száma
átlagosan 4,7-szer akkora, mint a halálozások száma. A 100 000 főre jutó AIDS-es
megbetegedések száma 40,15±81,86 fő, ami a többi klaszterhez viszonyítva átlagosnak
mondható. Többnyire a latin-amerikai országok tartoznak ebbe a klaszterbe. A klaszter
tagjai például Guatemala, Nicaragua, valamint Kenya és Egyiptom.
Az ötödik klaszter országaiban átlagosan a lakosság 76,8%±24%-a él városban. A nők
születéskor várható élettartama 70 év, a férfiaké pedig átlagosan 66 év. Az AIDS-es
megbetegedések száma minimális ezekben az országokban, valamint a halálozási
arányszám is itt a legalacsonyabb (6,2‰±2‰). A napi átlagos kalória beviteli értéke a
többi klaszter tagjaihoz viszonyítva – kivéve a 2. klasztert – magas (3092±201,2). Az
olvasni tudók aránya 62,6%±6,9%. A születések száma átlagosan 7,5-szer akkora, mint
a halálozások száma. Többnyire a Közel-Kelet országai tartoznak ebbe a klaszterbe,
mint például Líbia, Irak.
A várható élettartam alapján elvégzett klaszterelemzés eredményei alapján létrejött csoportok
szinte a regionális illetve gazdasági csoportosulások adatait tükrözik. Vagyis a várható
élettartamot befolyásoló tényezők alapján vett klaszterek a gazdasági-regionális csoportokon
belül homogének, amíg a különböző csoportok egymással összehasonlítva eltérő jellemzőkkel
bírnak.
Továbbgondolandó kérdések, feladatok:
Milyen szempontok alapján választhatná még ki az ideális változók körét?
Mire alapozná a döntését, ha a klaszterek kialakításánál több lehetséges klasztermegoldás is
elfogadhatónak tűnik?
Ön szerint diszkriminancia-analízis alkalmazható-e a probléma megoldására?
Mit tenne, ha a KMO értéke 0,5 lenne?
Mit tenne akkor, ha nem teljesül a homoszkedaszticitás?
Mit tenne az eredmények ellenőrzése érdekében?