35
Academia de Studii Economice Facultatea de Cibernetică, Statistică și Informatică Economică Proiect Analiza Datelor Student: Ionescu Andreea Gabriela, grupa 1043

Proiect analiza datelor

Embed Size (px)

DESCRIPTION

program SAS 9.3

Citation preview

Academia de Studii EconomiceFacultatea de Cibernetic, Statistic i Informatic Economic

Proiect Analiza Datelor

Student: Ionescu Andreea Gabriela, grupa 1043

Bucureti-2015-

Cuprins

Descrierea datelor analizate3Analiza componentelor principale.7Analiza cluster14Analiza discriminant21

Descrierea datelor analizateDatele alese pentru analiz sunt date relevante pentru determinarea calitii vieii n 80 de ri din ntreaga lume. Datele ce vor fi analizate sunt date de tip profil, deoarece reprezint rezultate ale unor msurtori efectuate n acelai timp ( anul 2011 ) asupra a 7 caracteristici ce sunt supuse studiului. Pentru caracterisiticile analizate voi utiliza urmtoarele prescutri:PIB = Produs intern brut per capita ($);VM = Venitul mediu ( PPP $ brut );CASP = Cheltuieli asigurate pentru sntate per capita ($);CE = Cheltuieli privind educaia ( % PIB );DAV = Durata ateptat a vieii ( ani );RC = Rata criminalitii ( calculat la 100000 persoane )ECL = Exportul pe cap de locuitor ( $ )

Importarea cu succes a datelor n SAS:

Afiarea datelor importate n SAS cu procedura PROC PRINT:

Analiza statistic a variabilelor. Msurile au fost obinute cu ajutorul procedurii PROC UNIVARIATE.

Lowest Obs.Highest Obs.MediaAbatere standard

PIB1924 13056 163475 414666 655425 2663181 2964363 5773823 1478762 7090333 50

26110

18685

VM66 1214 31295 40325 39333 553969 253983 294089 504297 424519 28

1699

1190

CASP51 1651 161 40108 41119 316304 257452 508895 688980 289055 57

1967

2310

CE1.1 291.73 11.91 202.59 612.6 607.81 437.9 218.58 658.74 2514.20 53

4.93

1.90

DAV54 3860 161 3061 265 4083 883 7483.3 4384 6984.6 47

76

5.86

RC0.2 700.2 470.3 430.6 410.6 2830.8 2231 239.3 4639.9 3753.7 80

6.14

10

ECL16 1189 16194 27247 65250 4032750 5932760 5735250 2940250 2878264 70

9080

12542

n tabelul precedent sunt sintetizate principalele msuri de analiz statistic a variabilelor: media i abaterea standard. Valoarea PIB-ului per capita n cele 80 de ri este, n medie 26110 $. Msura n care observaiile se abat de la medie este exprimat cu ajutorul abaterii standard. Astfel, pentru PIB, abaterea standard este de 18865. Aceast valoare a abaterii standard este foarte mare i se datoreaz n mare parte observaiilor de tip outlier, afiate n tabel n coloanele Lowest i Highest. Observm c, printre altele, observaia 1 este de tip lowest, adic este foarte mic n comparaie cu celelalte observaii, iar observaia 29 este de tip highest, adic este foarte mare fa de celelalte observaii.Valoarea venitului mediu n cele 80 de ri este, n medie 1699 $. Msura n care observaiile se abat de la medie este exprimat cu ajutorul abaterii standard. Astfel, pentru venitul mediu, abaterea standard este de 1190. Aceast valoare a abaterii standard este foarte mare i se datoreaz n mare parte observaiilor de tip outlier. Observm c, printre altele, observaia 1 este de tip lowest, adic este foarte mic n comparaie cu celelalte observaii, iar observaia 25 este de tip highest, adic este foarte mare fa de celelalte observaii.n mod asemntor se interpreteaz valorile msurilor de analiz statistic pentru fiecare dintre celelalte caracterisitici. Se observ c observaia 1 apare n coloana Lowest pentru toate caracterisiticile. Aceast observaie corespunde rii Afghanistan i ar trebui eliminat din tabelul de analiz. Interesant de remarcat este faptul c observaia 70 se regsete i la coloana Lowest pentru rata criminalitii, dar i la coloana Highest pentru PIB i exportul pe cap de locuitor. Acest lucru indic o corelaie foarte bun ntre atributele respective, deoarece este de ateptat ca ntr-o ar n care PIB-ul i exportul per capita sunt foarte mari, adic standardul de via este destul de crescut, rata criminalitii fie extrem de sczut. Aceast ar este Singapore. Afiarea matricei de corelaie cu procedura PROC CORR

Se observ c exist corelaie ntre date. Ca exemplu, ntre rata criminalitii i PIB corelaia datelor este invers i n procent de 32.83 %, adic atunci cnd PIB-ul crete, rata criminalitii scade. ntre venitul mediu i cheltuielile cu asigurarea de sntate exist o corelaie direct i puternic (82%). n afar de rata criminalitii, toate variabilele sunt corelate direct ntre ele. O rat mare a criminalitii este ne arat faptul c n acea ar nivelul de siguran i de calitate al vieii nu este crescut. Pentru toate celelalte caracterisitici, cu ct valoarea obseraiilor corespunztoare este mai mare, cu att calitatea vieii din acea ar este mai ridicat.

Standardizarea variabilelor cu procedura PROC STANDARD:

Datele se standardizeaz pentru a putea efectua analiza componenetelor principale, care este sensibil la schimbarea unitii de msur.

Analiza componentelor principale este o metod de reducere a redundanei informaiei. Este o tehnologie de analiz undimiensional care are ca scop extragerea informaiei obiecteor din analiz i redarea acesteia ntr-o form mai simpl i neredundant prin intermediul unor variabile (care sunt mai puine), numite componente principale.

Covariana este considerat a fi o expresie numeric a gradului de asociere a dou caracteristici ca urmare a faptului c, n toate cazurile n care dou variabile sunt semnificativ legate ntre ele, o variaie ntr-un sens a uneia dintre ele va determina o variaie proporional de acelai sens (n cazul legturii directe) sau de sens contrar (n cazul legturii inverse) a celeilalte variabile. Observm din matricea de covarian rezultat, ca variaie n sens pozitiv la PIB-ului determin o variaie n acelai sens a venitului mediu, a cheltuielilor legate de sntate, a cheltuielilor pentru educaie, a duratei de via i a exportului pe cap de locuitor. n schimb, variaia ratei criminalitii determin o variaie n sens invers a tuturor celorlalte atribute. Ca exemplu, variaia venitului mediu determin n procent de 82.8% variaia n acelai sens a cheltuielior asigurate pentru sntate. La fel se interpreteaz pentru toate celelalte atribute.

Prima component principal aduce cel mai mare grad de informaie, iar ultima component principal aduce cel mai mic grad de informaie. Prima component principal aduce 55.12% din gradul de informaie. Voi reine n analiz, conform criteriului procentului de acoperire, primele 3 componente principale deoarece, cumulativ, aduc un grad de informaie de 82.44% (adic mai mare dect 70-75%), adic ponderea variaiei n variana total a primelor 3 componente principale este de 82.44%. Acest lucru nseamn o pierdere informaional n proporie de 17.66%.

Prima component principal este mai corelat cu variabila PIB (45.26%), venit mediu(45.63%), cheltuieli pentru sntate (CASP) (44.84%) i exportul pe cap de locuitor (40.08%). Aceast component prinicpal ar putea fi intepretat ntr-o nou dimensiune: cea a bugetului rii. A doua component principal este mai corelat cu cheltuielile pentru educaie (86.15%), iar a treia component principal este mai corelat cu rata criminalitii (91.79%). Reprezentarea grafic a componentelor principale

Criteriul pantei se bazeaz pe reprezenatarea grafic a valorilor proprii n care abscisa are eticheta Principal Component iar ordonata reprezinta valorile (eigenvalues).Valoarea k se determin prin efectuarea unei taieturi astfel ncat la dreapta s rman o poriune cu panta apropiata de 0. Numrul de componente principale este dat de primul numar de la stanga. Observm din graficul de mai sus c ne putem opri la k=3 componente principale.

Gruparea rilor n noul spaiu determinat de primele dou componente principale.

Se identific cteva grupuri de ri mai apropiate, precum i ri distanate unele de celelate, cum ar fi Luxemburg, Brunei, Emiratele Arabe Unite, Singapore i cteva din rile nordice din Europa. Aceast distanare este datorat valorilor PIB-ului i a venitului mediul mult mai crescute dect n restul rilor analizate.

Scorurile principale sunt coordonatele pe care le iau obiectele n noua reprezentare dat de componentele reinute n analiz.

Scorurile principale sunt mai puin afectate de erori n comparaite cu msurtorile originale. Deoarece acestea sunt mai robuste n raport cu perturbaiile introduse de erori, le fae s devin mai importnte din punct de vedere informaional dect observaiile originale. Elemenetele matrice de covarian pot fi interpretate, deoarece variabilele sunt standardizate, ca msur a contribuiei pe care fiecare variabila o are la formarea varianei componentei principale. Cu ct aceste elemente sunt mai mari cu atat este mai adecvat i mai complet exprimat informaia din variabilele initiale n componentele principale. Pe baza acestei matrici se pot atribui semnificaii componentelor principale.

Sintetizarea statisticilor calculate pentru componentele principale

Analiza CLUSTERAnaliza cluster este o tehnic de clasificare n care afectarea formelor sau obiectelorse face progresiv i de asemenea, nu se cunoaste numrul de clase. Criteriul general de clasificare se determin astfel nct acesta s asigure o variabilitate minima n interiorul claselor i o variabilitate maxima ntre clase. Se efectueaz gruparea n clustere prin metoda lui Ward: clusterizare ierarhic, n care numrul de clustere nu este cunoscut apriori. Metoda lui Ward evalueaz distana dintre 2 clustere ca sum total a ptratelor abaterilor la nivelul configuraiei cluster rezultate din comasarea celor 2 clustere pentru care se evalueaz distana. Aceast metod exprim distanele din punct de vedere al minimizrii variabilitii intracluster (sau maximizrii variabilitii intercluster). Voi folosi doar variabilele care au cea mai mare pondere n primele dou componente principale: PIB, VM, CASP, CE, ECL.

n tabelul de mai sus se regsesc valorile proprii din matricea de covarian. Primele dou coloane listeaz valorile proprii i diferena dintre valoarea proprie i valoarea proprie care o succede. Ultimele dou coloane afieaz proporia individual i cumulativ a variaiei asociate cu fiecare valoare proprie. Abaterea ptratic a distanelor ntre observaii este de 3.16. n tabelul de mai sus sunt afiate ultimele 20 de generaii din istoria clusterului. n prima coloane avem numrul clusterului i numele clusterelor care se comaseaz. Observaiile sunt identificate prin id (OB14), fie prin CLn, unde n reprezint numrul clusterului. n coloana de frecven sunt afiate numrul de observaii din noul cluster. n urmtoarea coloan, R ptrat semiparial, este reprezentat descreterea proporiei varainei pe msur ce se comaseaz cele dou clustere. n coloana Cubic Clustering Criterion, o valoare ntr 2 i 4 indic un numr optim de clase, iar o valoare ntre 0 i 2 indic un numr acceptabil de clase. O valoare mare n coloana Pseudo F ne indic un numr acceptabil de clustere. n coloana lui Pseudo T ptrat, caut cea mai brusc cretere a valorii acestuia (n cazul acesta, de la 28 la 63.7) i astfel rezult c cel mai acceptabil numr de clustere ar fi dou. Pentru a stabili un numr bun de clustere trebuie ca cel puin dou criterii s ne indice acelai numr de clustere.

Dendograma

Dendograma conine o mulime de T soluii (ierarhie cluster) din care trebuie extras o anumit soluia particular. Obinerea unei astfel de soluii se face prin efectuarea unei trieturi n dendogram dup o dreapt paralel cu abscisa. Numrul de clustere dintr-o soluie individual obinut n acest fel este dat de numrul de intersecii dintre dreapta dup care se face tietura i ramurile arborelui de clasificare. Cu ct tietura se face mai aproapte de trunchi, cu att soluia are mai puine clustere.

Recalculm componentele principale, pentru a putea desena primul plan principal, vizualiznd cele 3 clase calculate mai nainte.

Observm c cea mai puternic corelaie exist ntre venitul mediu i cheltuielile asigurate pentru sntate (82.86%), iar cea mai slab corelaie ntre cheltuielile pentru educaie i exportul per capita.

Putem reine doar dou componente principale n analiz, deoarece primele dou componenente preiau 84.83 % din variana iniial.

n graficul de mai sus se evideniaz clasele n raport cu primele dou componente principale. Astfel, OB29, adic ara Emiratele Arabe Unite face parte din clasa 2, OB14, adic Brunei, face parte din clasa 3, iar OB1, adic Afganistan, face parte din clasa 1.

Analiza DISCRIMINANT

Analiza discriminant reprezint procesul de utilizare a unei game variate de metode, tehnici i algoritmi n scopul de a determina care dintre caracteristicile unor anumite obiecte au cea mai mare relevan din punct de vedere al recunoaterii apartenenei acestor obiecte la anumite clase aprioric definite i de a stabili apartenena cea mai probabil a obiectelor la diferite clase. Stabilirea apartenenei obiectelor unei populaii la anumite clase are la baz proprietile sau caracteristicile obiectelor respective, care sunt reprezentate la nivel formal prin intermediul unor variabile. n general, se poate spune c analiza discriminant se ocup cu rezolvarea urmtoarelor trei categorii de probleme: determinarea acelui set optimal de caracteristici ale unor obiecte, care s permit cea mai bun discriminare ntre dou sau mai multe tipuri de obiecte; utilizarea variabilelor din setul optimal de caracteristici pentru deducerea unor criterii sau reguli pe baza crora se poate face separarea populaiei studiate pe clase sau grupe distincte; utilizarea setului de caracteristici cu cea mai mare putere discriminatorie i a criteriilor de separare identificate pentru clasificarea unor obiecte, a cror apartenen nu este cunoscut, n grupele sau clasele populaiei studiate; clasificarea de noi obiecte, pe baza variabilelor discriminant i a criteriilor de separare, este cunoscut sub numele de predicie.

Funciile discriminant de tip FisherFundamentul teoretic al analizei discriminante de tip Fisher este reprezentat de analiza varianei. Criteriul lui Fisher definete o modalitate de deducere a funciilor discriminant pe baza analizei comparative dintre variabilitatea intragrupal i variabilitatea intergrupa|, la nivelul claselor sau grupelor populaiei analizate. Funciile discriminant deduse pe baza criteriului lui Fisher se mai numesc i funcii scor i sunt funcii liniare.O funcie discriminat de tip Fisher se determin ca o combinaie liniar de variabilele discriminant, combinaie ai crei coeficieni sunt componente ale unui vector propriu al matricii .Din aceast modalitate de definire rezult, n mod implicit, c pot fi identificate mai multe funcii discriminant. Numrul maxim posibil de funcii discriminant care pot fi identificate pe baza criteriului lui Fisher este egal cu numrul de valori proprii distincte i strict pozitive ale matricii . Deoarece aceast matrice este de dimeniune nxn , n situaia n care ea este strict pozitiv definit i are rangul maxim, rezult c numrul total de funcii discriminant care pot fi determinate este egal cu n. Notm cele n valori proprii ale matricii cu i vom presupune c ele sunt ordonate din punct de vedere al valorilor pe care le au:

Vom nota cu cei n vectori proprii ai matricii , asociai, n ordine, cu valorile proprii . Prima funcie discriminat se definete cu ajutorul vectorului propriu , care corespunde celei mai mari valori proprii i are forma urmtoare:

Deoarece aceast funcie corespunde celei mai mari valori posibile a raportului dintre variana intergrupal i variana intragrupal, ea asigur cea mai bun separabilitate a claselor. Aceastanseamn c proieciile obiectelor pe noua ax determina| de vectorul de coeficieni pot fi separate pe clase care se difereniaz n cel mai mare grad posibil i care au cel mai mare grad posibil de omogenitate.n mod similar, cea de-a doua funcie discriminat se definete cu ajutorul vectorului propriu care corespunde celei de-a doua valori proprii, respectiv:

Fiind determinat pe baza celei de-a doua valori proprii a matricii , aceast funcie discriminat corespunde unei valori mai reduse a raportului dintre variana intergrupal i variana intragrupal. n consecin, ea asigur o rezoluie mai mic din punct de vedere al separabilitii claselor mulimii . Din acest punct de vedere, este posibil ca proieciilor obiectelor pe noua ax care are ca suport vectorul de s le corespund clase care sunt i mai puin omogene i se difereniaz i mai puin ntre ele. Cu ajutorul vectorului propriu asociat cu cea mai mic valoare proprie, adic vectorul , se determin ultima funcie discriminant, respectiv:

Prin comparaie cu celelalte funcii discriminant, aceast ultim funcie discriminat asigur cea mai proast separabilitate ntre clasele mulimii . Puterea de separabilitate din ce n ce mai mic pe care o au funciile discriminant , conduce la ideea necesitii de a selecta n analiz numai un anumit numr de funcii discriminant, n ordinea puterii lor de discriminare. Numrul efectiv al funciilor discriminant care trebuie reinute n analiz, depinde n mod direct de numrul de clase i de numrul de variabile discriminant. Se pot defini funciile discriminant liniare i variabilele discriminant sub forma urmtoare:Funciile discriminant (Fisher) sunt combinaii liniare de variabilele descriptor, de forma:

unde X este vectorul variabilelor descriptor, iar este vector propriu al matricii Valorile funciilor discriminant se numesc scoruri descriminant. Variabilele discriminant sunt combinaii liniare de variabile descriptor, de forma

Media i variana variabilelor discriminant sunt:Odat ce funciile discriminat au fost estimate, ele pot fi utilizate pentru efectuarea de predicii cu privire la apartenena unor noi obiecte la clasele de predicie. Prin utilizarea procedurii DISCRIM din SAS datele de intrare vor fi privite ca un set de date de antrenate , de nvare. Pe baza acestui set de antrenare poate fi determinate n continuare apartentena formei la clas pentru o alt observaie. Functia discriminant sau criteriul de clasificare este determinat ca o msur a distanelorptrate generalizate. Am observat datele i ncadrarea lor n clustere i am ajuns la concluzia c n clusterul 1 sunt ncadrate rile n care calitatea vieii este sczut, n clusterul 2 sunt ncadrate rile n care calitatea vieii este medie, iar n clusterul 3 sunt ncadrate rile n care calitatea vieii este ridicat. Cteva exemple de ri din custerul 1: Afganistan, Bolivia sau Combodgia, din clusterul 2: Lituania, Croaia, Polonia, iar din clusterul 3: Germania, Canada, Islanda.

Noua matrice constituie setul de nvare (matricea observaiilor plus coloana claselor). Funcia discrim evalueaz performana unui criteriu de discriminare prin evaluarea erorilor (probabilitile clasificarilor greite). n tabelul de mai jos vizualizm frecvena, proporia i probabilitatea aprioric pentru fiecare dintre cele 3 clase:

n tabelele precedente avem matricea distantelor ptrate generalizate i funcia discriminant ce se poate citi de pe liniile matricii, acetia reprezentnd coeficienii claselor. Conform matricei distanelor, ntre clusterul 1 i clusterul 2 distanta este de 38.91, ntre clusterul 1 i clusterul 3 distana este de 8.57, iar ntre clusterul 2 i clusterul 3 distana este de 13.76.

Modul n care un clasificator asigur clasificarea obiectelor cu apartenen cunoscut poate fi descris prin intermediul unei matrici, numit matricea corectitudinii clasificrii, unde pe linii avem clasele reale, iar pe coloane avem clasele predictate. Astfel, din 44 de observaii din clasa 1 42 au fost corect ncadrate n clasa 1 (adica 95.45%), iar 2 observaii au fost ncadrate greit n clasa 3 (adica4.55%).Din 18 observaii care aparin clasei reale 2, 17 au fost corect ncadrate (94,44%), iar o observaie a fostpredictat greit n clasa 3 (5.56%). Din 18 observaii care aparin clasei reale 3, 17 (94.44%) au fost corect predictate, iar o observaie a fost ncadrat greit n clasa 1 (5.56%). De asemenea se poate observa ca 53.75% din observaii au fost predictate n clasa 1, 21.25% au fost predictate n clasa 2, iar 25% au fost predictate n clasa 3.

Rata erorilor: 4.55% din observaii au fost ncadrate greit n clasa 1, 5.56% din observaii au fost predictate greit n clasa 2 i 5.56% din observaii au fost predictate greit n clasa 3.Anexe

Datele utilizate:TaraPIBVMCASPCEDAVRCECL

Afganistan192466511.73606.516

Africa de Sud1250718386455.9861311981

Albania105965002283.27745387

Algeria137885832794.3473.120.72100

Arabia Saudita517793617955.6174.30.812576

Argentina2236311089955.78765.51825

Armenia70344711503.2174.41.8265

Australia45138261061405.12831.111787

Austria44402343754075.9881.50.920424

Belarus176239593395.2572.55.13350

Belgia40760303547116.57811.630209

Bolivia59283501497.66912.1258

Brazilia1498777810565.6276.225.2497

Brunei738239889393.2779225539

Bulgaria165187505164.5874.51.92960

Cambodgia3056725512.6666.5189

Canada4325327245741582.51.613231

Cehia27347178614324.3678112590

Chile22534102111034.279.53.14000

China118686563221.917611410

Cipru28748260519497.981.221664

Columbia127766925304.4974.630.8506

Coreea de Sud33791290317035.05810.913348

Croaia2022217569084.4277.51.22800

Danemarca43080396963048.7479.50.820000

Ecuador54247526354.8976.1912.4636

Egipt108705481523.7673.23.4194

Elveia53977451989805.3682.80.640250

Emiratele Arabe Unite63181398313431.179.22.635250

Estonia26052126710106.126159820

Filipine65972141192.65738.8704

Finlanda40045292542326.81811.610766

Frana39813288646905.982.318989

Georgia71566033332.7174.54.3313

Germania43475272046835.06810.818865

Grecia25126230020444.09811.72425

Guatemala72904332262.871.539.9313

Guineea Ecuatorial33767250011383.075419.320395

Guyana65733252353.5970.5171624

India5450295613.33653.5250

Indonezia34756621083720.6847

Irlanda44663429737086.581.41.225652

Islanda9635243138727.8183.30.321500

Israel36151180422895.8582.11.87060

Italia34103244530324.781.370.98750

Jamaica848711353186.0874.839.3601

Japonia36654252247523.7884.60.36197

Letonia2283210987925.0374.54.73750

Lituania2537411098595.6775.96.77250

Luxemburg90333408974523.2820.828534

Macedonia1258713453273.5751.42150

Malaezia231609614105.1375.72.35560

Maldive1190341655814.277.23.9476

Malta30567199618356.7812.88670

Maroc73563331905.3872.512.2373

Mexic173906096185.3177.221.53312

Republica Moldova46664382398.58716.5247

Norvegia64363367890557.3281.92.232760

Noua Zeelanda33626228332927.2481.70.96725

Olanda46440396557375.9281.50.932750

Paraguay80643503924.1274.79.7508

Peru1177522503372.5974.79.6570

Polonia2327315368545.0977.51.25039

Portugalia25643343219055.79801.25450

Regatul Unit36208306536475.68117582

Romania174407944204.32741.72800

Rusia2429812156694.170.59.23639

Serbia1246510585614.71741.21650

Singapore78762261625263.1840.278264

Slovacia26616138513264.0976.31.414570

Slovenia28512266919425.7800.716640

Spania31942235228085.0182.50.86596

SUA53001326388955.4379.84.74752

Suedia43407302353197.26830.719687

Thailanda141364892153.7574.952266

Turcia1887417136652.8674.42.61897

Ucraina86516862935.28714.31400

Ungaria2323613749875.12751.310700

Uruguay19679101613082.8877.37.91800

Venezuela1845311255933.637553.71800