35
Analiza Componentelor Principale - SAS ANALIZA COMPONENTELOR PRINCIPALE ACADEMIA DE STUDII ECONOMICE,BUCURESTI 2012

Analiza Componentelor Principale - SAS

Embed Size (px)

DESCRIPTION

model proiecte sas

Citation preview

Analiza Componentelor Principale - SAS

Analiza Componentelor Principale - SAS

ANALIZA COMPONENTELOR PRINCIPALE ACADEMIA DE STUDII ECONOMICE,BUCURESTI 2012

Proiect Analiza Datelor0.Descriere date

Tema Proiectului: Tema proiectului are ca scop determinarea trasaturilor masinilor de lux de catre un agent de vanzari independent ,care determina cumparatorul.Sursa Datelor: Datele au fost luate de pe urmatoarele siteuri: http://www.autosaga.ro, http://www.123auto.ro/, http://www.autolatest.ro/,precum si de pe paginile oficiale ale producatorilor diferitelor marci de masini prezente in proiect. Figura 1.0 este formata din 30 de linii ce contin 30 de modele de automobile si 10 coloane ce cuprind diverse trasaturi ale acestora care vor evidentia modelul cel mai compatibil pentru clientul agentului de vanzari. Cele 10 Trasaturi sunt prezentate in figura 1.0.

FIGURA 1.0

1Volum Portbagaj (litri)

V1

2Greutate(kg)

V2

3Capacitate rezervor

V3

4Viteza maxima (km/h)

V4

50-100 km/h(sec)

V5

6Consum mediu)l/100km)

V6

7Emisii (g CO2/km)

V7

8Capacitate (cmc)

V8

9Putere(CP)

V9

10Pret fara taxe incluse (Euro)

V10

FIGURA 2.0- sunt prezentate cele 30 de modele de automobile precum si caracteristicile acestora.

Model\Trasat.V1V2V3V4V5V6V7V8V9V10

Aston martin DB91751710853004.917.84215935450125000

Audi R81001560753014.614.6349416342088500

Bentely Continental FLYNG SPUR4752475903125.217.14105998560146000

BMW S5 2010 550 i520180570250510.4243439540795000

CADILLAC- XLR-V1251654692504.714.9354437145069000

Corvette 2008 Z066341418683203.914.7350700851274000

Citroen C6 3.0HDI4881816722358.57.4270299224045000

Ferrari F430 Spider2201595953114.118.34204308490165000

Ferrari 590 Fiorano32017651053303.717.94905999620211000

Honda Legend4521938732507.111.6282366429550000

Infiniti FX4102195902505.813.1298502639064000

Infiniti G Coupe 37s AT2751794802505.910.5265369632049000

Jaguar XF V85001855702505.711.1264500038558000

Jaguar XKR3301828712504.812.3301500051089000

Lamborhini Gallardo1101634903253.714.73805204560148000

Range Rover 3.6 TDV53531751052009.211.1300362827188500

Lexus IS-F V83782120642704.811.4256496942362000

Lexus LS-600H Executive3302730842506.39.3219496939493000

Masserati Grancabrio1732055752805.315.23454691440113000

Masserati Quattroporte Sport GT4502065902855.115.73704691440115000

Mercedes C Coupe AMG 634501730592504.512365620845061000

Mercedes SLK3351540602505.67.1355349830645000

Mercedes ML500231095250516.5410620837589500

Mitshubishi Lancer4151675602426.310.5280199829544000

Porsche Cayenne5802315852426.58.2198299533370000

Porsche 911 Carrera1351500643024.710.6194380038586000

Toyota Land Cruiser7012715932108.210.2270446128668000

Volswaken Toureg A8 Hybrid4332315852406.58.2310299533355000

Volvo V84802150702506.512.1290441431543000

Alfa Romeo Spider2351740702447.212.2320319526042000

I. Analiza componentelor principale

Definitie1:Analiza componentelor principale este o metoda de analiza multidimensionala care are ca scop determinarea unor noi variabile, numite componente principale si exprimate sub forma combinaiilor liniare de variabilele originale astfel nct aceste variabile noi sa fie caracterizate de o variabilitate maxima.

Definitie2:Componentele principale sunt variabile vectoriale abstracte, definite sub forma unorcombinari liniare de variabileleoriginale si care au urmatoarele doua proprieti fundamentale: sunt necorelate doua cte doua si suma patratelor coeficienilor care definesc combinatia liniarace corespunde unei componente principale este egala cu unitatea; prima component principala este o combinatie liniaranormalizataa carei variante este maxima,cea de-a doua componenta principal este o combinaie liniaranecorelata cu prima componenta principala si care are o varianta ct mai mare posibil, nsa mai mica dect cea a primei componente etc

1.0 Statistici descriptive

Figura 3-reda numarul de observatii studiate =30 si numarul de variabile(caracteristicile masinii dupa care se face studiul)=10

Observations30

Variables10

Figura 4- In figura urmatoare sunt calculate,media,disperisia,variant,minimul,maximul si totalul pentru fiecare variabila.

The MEANS Procedure Variable Mean Std Dev Variance N Minimum Maximum Sum V1 375.4666667 161.8295684 26188.81 30 100.0000000 701.0000000 11264.00 V2 1972.57 413.9949761 171391.84 30 1418.00 3175.00 59177.00 V3 78.7333333 13.0962836 171.5126437 30 59.0000000 105.0000000 2362.00 V4 264.9666667 33.5738849 1127.21 30 200.0000000 330.0000000 7949.00 V5 5.6433333 1.3848150 1.9177126 30 3.7000000 9.2000000 169.3000000 V6 12.5566667 3.1941415 10.2025402 30 7.1000000 18.3000000 376.7000000 V7 319.3000000 70.8554381 5020.49 30 194.0000000 490.0000000 9579.00 V8 4515.97 1159.76 1345041.69 30 1998.00 7008.00 135479.00 V9 397.1666667 97.0812256 9424.76 30 240.0000000 620.0000000 11915.00 V10 85050.00 40919.04 1674368103 30 42000.00 211000.00 2551500.00

MEDIAPentru media variabilelor avem urmatoarele valori:1.Volumul portbagajului are in medie 375,5 litri;2.O masina cantareste in medie 1972 de kilograme;3.In medie,capacitatea rezervorului este de 78,73 de litri;4.Viteza maxima medie a masinilor studiate este de aproximativ 265 km/ora;5.Timpul mediu de atingere a 100km/h este de 5,64 secunde;6.In medie ,consumul mediu a celor 30 de marci de masini este de 12,56 litri/100km;7.Cele 30 de masini emana in atmosfera,in medie, emisii(g C02/km) 319 grame CO2 per kilometru;8.Automobilele au in medie Cpacitatea motorului de 4515 centimetricubi;9.Puterea medie a tuturor masinilor prezentate este de 397,16 CP;10.Pretul mediu a automobilelor este de 85050 EURO.ABATEREA STANDARD SI DISPERSIAA 3-a si a 4-a coloana prezinta abaterea standard(standard deviation) si dispersia(variance) caracteristiciilor elementelor.MINIMUL SI MAXIMULIn a 6-a si a 7-a coloana sunt prezentate minimul si maximul fiecarei caracteristici.astfel pentru prima variabila(volumul portbagajului) avem un minim de 100 de litri si un maxim de 701 litri,pentru a 2-a variabila(greutate) avem un minim de 1418 kg si un maxim de 3175 kg,etc. SUMAIn ultima coloana este prezenta valoarea cumulata a fiecarei caracteristici a celor 30 de masini.Spre exemplu Pretul cumulat a masinilor este P(M1)+P(M2)+........+P(M30)= 2551500 EURO.Unde Mi=modelul de autombil,P(Mi)=pretul masinii i.Se procedeaza in mod analog pentru celelalte variabile.

1.1. Standardizarea datelor Deoarece datele au marimi si unitati de masura diferite se va realiza analiza componentelor principale pe date standardizate.

Definitie3:

Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecarei operatii cuo noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile:

s c __Xti=Xti/Si=(Xti-Xi)/Si __Unde Xi=media celei de a i a varabila,iar Si =abaterea standard a variabilei Xiunde reprezinta media celei de-a i-a variabile, iar reprezinta abaterea standard a variabilei . Figura 5 VALORI STANDARDIZATE

V1sV2SV3SV4SV5SV6SV7SV8SV9SV10S

Aston martin DB9-1.23875-0.634230.4785071.04347-0.536771.6415471.4353171.2235580.5442180.976318

Audi R8-1.7022-0.99655-0.285071.073255-0.753410.6397130.419163-0.304340.2351980.084313

Bentely Continental FLYNG SPUR0.615051.2136220.8602951.40089-0.320141.4223961.2800711.277881.677291.489527

BMW S5 2010 550 i0.893121-0.40476-0.66686-0.44578-0.46456-0.67519-1.07684-0.10430.101290.243163

CADILLAC- XLR-V-1.54772-0.76949-0.74321-0.44578-0.68120.7336350.48973-0.1250.544218-0.39224

Corvette 2008 Z061.597565-1.33955-0.819571.639171-1.258890.671020.4332772.148751.182858-0.27005

Citroen C6 3.0HDI0.695382-0.37818-0.51414-0.892562.062851-1.61441-0.69578-1.31404-1.61892-0.97876

Ferrari F430 Spider-0.96068-0.912011.2420831.371105-1.114471.7980841.421204-0.179320.9562441.953858

Ferrari 590 Fiorano-0.34275-0.501372.0056581.937021-1.403321.6728542.4091311.2787422.2953293.078029

Honda Legend0.472926-0.0835-0.43778-0.445781.051885-0.29951-0.52642-0.73461-1.05238-0.85657

Infiniti FX0.2133930.5372850.860295-0.445780.1131320.170103-0.300610.439775-0.07382-0.51443

Infiniti G Coupe 37s AT-0.62082-0.431330.09672-0.445780.185344-0.64389-0.76635-0.70701-0.79487-0.88101

Jaguar XF V80.769534-0.28398-0.66686-0.445780.04092-0.45604-0.780460.417357-0.12532-0.66106

Jaguar XKR-0.28095-0.3492-0.5905-0.44578-0.60899-0.08036-0.258270.4173571.1622570.096532

Lamborhini Gallardo-1.64041-0.81780.8602951.788096-1.403320.671020.8566740.5932551.677291.538404

Range Rover 3.6 TDV0.9858112.9044642.005658-1.935042.568333-0.45604-0.27239-0.76565-1.29960.084313

Lexus IS-F V80.0156540.356123-1.1250.149918-0.60899-0.36212-0.893370.3906270.2661-0.56331

Lexus LS-600H Executive-0.280951.8295710.40215-0.445780.474191-1.01957-1.415560.390627-0.032620.194286

Masserati Grancabrio-1.251110.199117-0.285070.447769-0.247930.8275570.362710.1509220.4412110.683056

Masserati Quattroporte Sport GT0.4605670.2232720.8602950.596694-0.392350.9840930.7155410.1509220.4412110.731933

Mercedes C Coupe AMG 630.460567-0.58592-1.50679-0.44578-0.82562-0.174280.6449751.4589520.544218-0.58775

Mercedes SLK-0.25006-1.04486-1.43043-0.44578-0.03129-1.708340.503843-0.87774-0.93908-0.97876

Mercedes ML0.7695340.8150661.242083-0.44578-0.464561.2345521.2800711.458952-0.228330.108751

Mitshubishi Lancer0.24429-0.71877-1.43043-0.684060.474191-0.64389-0.55465-2.17111-1.05238-1.0032

Porsche Cayenne1.2638810.8271440.478507-0.684060.618615-1.36396-1.71194-1.31145-0.66096-0.3678

Porsche 911 Carrera-1.48593-1.14148-1.1251.10304-0.6812-0.61258-1.76839-0.61734-0.125320.023217

Toyota Land Cruiser2.0115811.7933391.089368-1.637191.846215-0.73781-0.69578-0.04739-1.14509-0.41668

Volswaken Toureg A8 Hybrid0.3555180.8271440.478507-0.743630.618615-1.36396-0.13125-1.31145-0.66096-0.73438

Volvo V80.6459470.428588-0.66686-0.445780.618615-0.14297-0.41352-0.08792-0.84637-1.02764

Alfa Romeo Spider-0.86799-0.56176-0.66686-0.624491.124097-0.111660.009879-1.139-1.41291-1.05208

1.2. Matricea de corelatie

Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza matriceacoeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile dintre variabilele initiale si determina componentele pricipale

Figura 6 -MATRICEA DE CORELATIE Correlation Matrix V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V1 1.0000 0.4940 0.1118 -.4692 0.4597 -.3401 -.2560 0.0584 -.3104 -.3006 V2 0.4940 1.0000 0.5518 -.5275 0.6137 -.1884 -.2268 -.0425 -.2843 -.0301 V3 0.1118 0.5518 1.0000 0.1205 0.1052 0.4258 0.4014 0.2158 0.2354 0.6305 V4 -.4692 -.5275 0.1205 1.0000 -.8036 0.6889 0.5586 0.5180 0.8064 0.7140 V5 0.4597 0.6137 0.1052 -.8036 1.0000 -.6004 -.4879 -.5952 -.8427 -.5363 V6 -.3401 -.1884 0.4258 0.6889 -.6004 1.0000 0.7969 0.6404 0.7196 0.7350 V7 -.2560 -.2268 0.4014 0.5586 -.4879 0.7969 1.0000 0.5333 0.6039 0.6526 V8 0.0584 -.0425 0.2158 0.5180 -.5952 0.6404 0.5333 1.0000 0.7297 0.4887 V9 -.3104 -.2843 0.2354 0.8064 -.8427 0.7196 0.6039 0.7297 1.0000 0.7939 V10 -.3006 -.0301 0.6305 0.7140 -.5363 0.7350 0.6526 0.4887 0.7939 1.0000

Se identifica in matrice coeficientii de corelatie mari.Se observa ca intre V6(consum mediu ) si V4(viteza maxima) este o corelatie de 0,689 ,intre V10 (pret) si V4(viteza maxima) o corelatie de 0,714,etc. Figura 7 -Matricea de covarianta Covariance Matrix

VARIABLEV1V2V3V4V5

V12618933096237-2549103

V2330961713922992-7332352

V32372992172532

V4-2549-7332531127-37

V51033522-372

V6-176-2491874-3

V7-2935-66543721329-48

V810962-20385327720171-956

V9-4877-114242992628-113

V10-1990748-510116337876980898-30392

Covariance Matrix

V6 V7 V8 V9 V10

V1 -176 -2935 10962 -4877 -1990748 V2 -249 -6654 -20385 -11424 -510116 V3 18 372 3277 299 337876 V4 74 1329 20171 2628 980898 V5 -3 -48 -956 -113 -30392 V6 10 180 2372 223 96068 V7 180 5020 43821 4154 1892053 V8 2372 43821 1345042 82155 23193329 V9 223 4154 82155 9425 3153595 V10 96068 1892053 23193329 3153595 1674368103

Figura 8 -VARIANTA TOTALA Total Variance1675926481.9

1.3. Vectorii si valorile propriiCum componentele principale sunt combinatii liniare de variabile originale, le putem privi sub forma unui vector de forma:

Pi=a1i * v1 + a2 i * v2+..+ani*Vn, unde v1,v2,..Vn sunt variabilele originale si aji ponderile din tabelul de mai jos.

Figura 9 Vectorii proprii Eigenvectors Prin1 Prin2 Prin3 Prin4 Prin5 V1 -.193339 0.340503 0.637847 0.104735 0.608714 V2 -.167738 0.573361 0.009506 -.261128 -.423936 V3 0.132181 0.583524 -.320431 -.090853 0.157228 V4 0.383043 -.148526 -.034305 -.224424 0.332794 V5 -.363554 0.266949 -.199576 0.202087 0.037712 V6 0.378145 0.138795 -.072807 0.341285 -.209042 V7 0.337032 0.140834 -.101526 0.713608 0.100623 V8 0.304157 0.153882 0.588404 0.048361 -.431894 V9 0.398117 0.011610 0.185598 -.324740 -.021208 V10 0.361284 0.242032 -.230441 -.296438 0.268413

Eigenvectors Prin6 Prin7 Prin8 Prin9 Prin10 V1 0.057286 -.198037 0.113331 -.042080 -.034808 V2 -.059257 0.067641 0.382176 -.463045 -.162988 V3 0.056050 -.108210 -.657934 -.072024 0.231216 V4 0.514120 0.456012 0.101447 -.430084 0.037321 V5 0.263369 0.467798 0.279873 0.435079 0.398314 V6 0.541701 -.540364 0.275318 0.097712 0.038553 V7 -.436598 0.265173 0.104482 -.253458 -.028526 V8 0.126343 0.375736 -.320365 0.275278 -.114746 V9 -.356954 -.100248 0.262744 0.078428 0.698831 V10 -.170134 0.064633 0.247418 0.498646 -.504861 Prima componenta principala poate fi scrisa ca o combinatie liniara dintre variabilele originale:Prin 1= -.193339 *V1 +-.167738 *V2 + 0.132181 *V3 + 0.383043 *V4 + -.363554 *V5 + 0.378145 *V6 +-.436598 *V7 + 0.126343 *V8 + -.356954 *V9 + -.170134 *V10.Se procedeaza in mod similar pentru celalte componente principale. Calculam valorile proprii ce ne arata cantitatea de informatie extrasa de fiecare componentaprincipala: k k Var(Ck)=a unde Ck=componenta principal de ordin k iar a =valoarea proprie corespunzatoare acesteia

Figura 10 Valori proprii Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 5.36659449 3.22045675 0.5367 0.5367 2 2.14613774 1.16182919 0.2146 0.7513 3 0.98430855 0.43244130 0.0984 0.8497 4 0.55186725 0.18378003 0.0552 0.9049 5 0.36808722 0.17537388 0.0368 0.9417 6 0.19271333 0.06091768 0.0193 0.9610 7 0.13179566 0.00288082 0.0132 0.9742 8 0.12891483 0.04345539 0.0129 0.9870 9 0.08545945 0.04133796 0.0085 0.9956 10 0.04412149 0.0044 1.0000

In figura 10 prima coloana reprezinta valorile proprii ce exprima varianta explicata prin fiecare noua componenta principala si corelatia dintre noua variabila si variabilele vechi. A doua coloana reprezinta diferenta dintre 2 componente consecutive. In a treia coloana a doua a tabelului este exprimat procentul din inertia totala a norului de puncte retinut pe fiecare axa. In a patra coloana este exprimat procentul cumulative al componente dinainte.Deoarece primele 2 valori proprii sunt mai mari decat 1 (Criteriul lui Kaiser), putem spune ca avem 2 componente principale care sintetizeaza din punct de vedere informational restul de 8 variabile originale.Astfel prin intermediul primei componente principale se asigura conservarea a 53,67% din varianta totala .Varianta celei de-a doua componente principale este egala cu valoarea proprie 2.14613774 si retine 21,46% din varianta totala iar cumulativ cu prima componenta retine 75,13% din varianta totala.

Corelatia Pearson: Numele complet al acestui coeficient este "coeficientul de corelaie produs-moment Pearson". Acest coeficient poate fi calculat cu ajutorul relaiei (A). Valoarea coeficientului de corelaie Pearson poate varia ntre +1 i -1. O valoare apropiat de +1 indic o corelaie pozitivputernic; o valoare apropiat de -1 ne indic o corelaie negativ puternic, iar o valoare apropiatde zero ne indic faptul c ntre cele dou variabile nu exist nici o corelaie. rxy= [1/n*(xi-Mx)(yi-My)]/Sx*Sy (A) unde - n este mrimea eantionului format din msurtori pereche (x,y); - xi reprezint msurtorile individuale ale variabilei x; - yi reprezint msurtorile individuale ale variabilei y; - Mx reprezint media aritmetic a variabilelor x; - My reprezint media aritmetic a variabilelor y; - Sx reprezint deviaia standard pentru valorile x; - Sy reprezint deviaia standard pentru valorile y. Numrtorul din relaia (A) se numete covarian (notat cu Sxy) sau variabilitate pereche. Covariana este o msur a gradului n care variaia unei variabile se potrivete cu variaia celeilalte variabile.Figura 11 Coeficientul de corelaie Pearson Pearson Correlation Coefficients, N = 30 Prob > |r| under H0: Rho=0 V1 V2 V3 V4 V5 V1 1.00000 0.49400 0.11181 -0.46917 0.45973 V1 0.0055 0.5564 0.0089 0.0106 V2 0.49400 1.00000 0.55177 -0.52754 0.61375 V2 0.0055 0.0016 0.0027 0.0003 V3 0.11181 0.55177 1.00000 0.12052 0.10523 V3 0.5564 0.0016 0.5258 0.5800 V4 -0.46917 -0.52754 0.12052 1.00000 -0.80356 V4 0.0089 0.0027 0.5258