20
Proiect Analiza Datelor Student: Munteanu Ana-Maria Facultate: Academia de Studii Economice Specializare: Informatica Economica An III, Sem I, Grupa 1096 I. Introducere: In cadrul acestui proiect este prezentata repartizarea populatiei (categorizata pe grupe de varsta) pe judete, iar scopul acestei analize este de a avea in vedere factorii care influenteaza diferitele modificari in cadrul populatiei. Obiectele reprezinta 42 de judete ale Romaniei. Acestea sunt caracterizate de urmatorul set de variabile luate pentru anul 2014: 1

Proiect Analiza Datelor

Embed Size (px)

DESCRIPTION

Proiect Analiza Datelor

Citation preview

Proiect Analiza Datelor

Student: Munteanu Ana-MariaFacultate: Academia de Studii EconomiceSpecializare: Informatica Economica An III, Sem I, Grupa 1096

I. Introducere:In cadrul acestui proiect este prezentata repartizarea populatiei (categorizata pe grupe de varsta) pe judete, iar scopul acestei analize este de a avea in vedere factorii care influenteaza diferitele modificari in cadrul populatiei.Obiectele reprezinta 42 de judete ale Romaniei. Acestea sunt caracterizate de urmatorul set de variabile luate pentru anul 2014:

Tabel 1- Populatia rezidenta, Anul 2014, pe grupe de varsta si judete

DefinitiePopulatia rezidenta reprezinta totalitatea persoanelor cu cetatenie romana, straini si fara cetatenie, care au resedinta obisnuita pe teritoriul Romaniei.Resedinta obisnuita reprezinta locul in care o persoana isi petrece in mod obisnuit perioada zilnica de odihna, fara a tine seama de absentele temporare pentru recreere, vacante, vizite la prieteni si rude, afaceri, tratamente medicale sau pelerinaje religioase. Resedinta obisnuita poate sa fie aceeasi cu domiciliul sau poate sa difere, in cazul persoanelor care aleg sa-si stabileasca resedinta obisnuita in alta localitate decat cea de domiciliu din tara sau strainatate.Se considera ca isi au resedinta obisnuita intr-o zona geografica specifica doar persoanele care au locuit la resedinta obisnuita o perioada neintrerupta de cel putin 12 luni inainte de momentul de referinta.In populatia rezidenta sunt incluse persoanele care au imigrat in Romania, dar sunt excluse persoanele care au emigrat din Romania.

PeriodicitateAnuala

Surse de datePopulatia rezidenta a Romaniei (la 1 ianuarie si 1 iulie)

MetodologieSursa datelor o constituie cercetarea statistica privind populatia rezidenta a Romaniei.Indicatorii privind populatia rezidenta au fost construiti utilizand date prelucrate din surse administrative, date primite de la institutele nationale de statistica a Spaniei si Italiei, baza de date a Eurostat privind populatia si migratia internationala si rezultatele unui model econometric bazat pe tehnici de estimare pe domenii mici in vederea dimensionarii componentei de migratie internationala.

Varsta este exprimata in ani impliniti (de exemplu, o persoana avand varsta de 24 ani si 11 luni este considerata ca avand varsta de 24 ani).

Sursa: http://statistici.insse.ro/II. Analiza componentelor principale: Dupa incarcarea matricei de date (Tabel nr. 1) in SPSS, vom incepe analiza datelor. Remarcam faptul ca toti indicatorii (grupurile de varste) sunt variabile continue, scara lor de masura fiind usor de identificat. Prin urmare pentru fiecare variabila in parte, pentru inceput, vom calcula indicatorii de centrare i de imprastiere cum ar fi media, valoarea minima, valoarea maxima, precum si abaterea standard in Tabelul nr. 2.Semnificaia coloanelor tabelului este urmtoarea:N= numarul de variabileMinimum= valoarea minima pentru fiecare variabilaMaximum= valoarea maxima pentru fiecare variabilaMean= media unei variabileStd.Deviation= abaterea medie patratica

Descriptive Statistics

NMinimumMaximumMeanStd. Deviation

0- 4 ani429690.091741.022935.11913576.2933

5- 9 ani4211595.082716.025352.81012459.7041

10-14 ani4212047.064943.025393.23810592.2009

15-19 ani4211368.062478.025891.09510321.4204

20-24 ani429790.0119180.028406.23819507.2038

25-29 ani4212447.0178560.033152.61926707.3733

30-34 ani4213158.0173403.033150.61925349.0481

35-39 ani4216154.0174381.037806.33324983.2233

40-44 ani4216521.0136440.036994.28619715.8151

45-49 ani4213582.0134195.033483.90519228.9555

50-54 ani4211784.0104946.027974.52415054.8023

55-59 ani4214578.0142270.034232.21420443.0413

60-64 ani4213553.0125160.031671.33317910.9379

65-69 ani429357.078213.022645.97611219.1037

70-74 ani428666.062579.019354.8579112.8035

75-79 ani426627.059038.017700.7628724.4352

80-84 ani424209.042666.011526.5956163.6627

85 ani si peste422537.032234.07263.4524598.7616

Valid N (listwise)42

Tabel nr. 2

Tabelul nr. 2 ne arata, dupa o scurta interpretare a rezultatelor, numarul minim si numarul maxim de persoane din fiecare categorie de varsta, aceste date le putem lua din tabel, din coloanele minimum si maximum. Dupa cum putem observa elementele matricei de date initiale ar necesita si o standardizare, deoarece abaterile standard ale indicatorilor sunt destul de diferite. Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecrei observatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile. Daca o variabila a fost standardizata, media ei este intotdeauna 0, iar varianta este 1. Dupa ce ne-am detasat de scara de masurare a variabilelor, matricea coeficientilor de corelatii va fi echivalent cu matricea de covarian si astfel vom incepe analiza compomentelor principale utilizand matricea de date strandardizate. Pe baza datelor standardizate, apelam Analyse -> Dimension Reduction ->Factor. In urma alegerii datelor standardizate, in partea de jos a casutei de dialog avem mai multe optiuni ca: Descriptives, Extraction, Rotation, Scores, Options; care vor fi prezentate in urmatoarele print screenuri:

Tabel nr. 3

Tabelul nr. 3 ne ofera informatii cu privire la media si abatarea standard a fiecarui indicator si avand in vedere faptul ca media este 0 iar dispersia este 1, confirma faptul ca datele sunt standardizate.

Tabel nr. 4 Tabelul nr 4 ne arata daca indicatori calculati sunt independenti sau nu. Se poate observa c avem prezenti in matrice coeficienti de corelatie mari si exista numai corelatii in sens prozitiv. Deoarece avem in matricea de mai sus coeficienti de corelatie apropiati de 1, tragem concluzia ca putem renunta la anumiti indicatori. Ca urmare a acestor constatari intervine problema pe care sa-i eliminam; pentru a elimina subiectivismul de decizie, vom folosi tehnicile de analiza a componentelor principale implementate n SPSS, si ne propunem sa identificm doi indicatori sintetici cu care ne-am mulumi in atingerea scopului propus.

Tabelul nr 5

Tabelul Communalities ne arata influenta variabilelor luate in studiu. Din acest tabel reiese faptul ca toate variabilele folosite contribuie major la explicarea variabilelorartificialeobtinuteulterior. Din analiza acestuia se observa ca variabila 4 are o contributie majora la explicarea variabilelor artificiale care se obtin ulterior. Cantitatea de informatie recuperata dinacesta variabila este de 0.994, urmata in aproape de ultima variabila care recupereaza 0.993din informatie,dupa cumreiese din coloana Extractiondin tabelulde maisus.

Pentruastabilinumaruldecomponenteprincipalenecesare,sefolosesc informatiile din tabelul Total Variance Explained.Tabelulneoferainformatiicu privire la valorile proprii ale matricei de corelatie, dar si informatii referitoare la componenteleprincipalesicantitatedeinformatieretinutadeacestea.Ovaloare proprie mai mare decat 1, pentru o componenta, indica faptul ca acea componenta are o contributie mai mare decat a unei variabile initiale, deci este indicat a fi extrasa.

Tabel nr. 6

In tabelul nr 6 observam ca valorile proprii i ponderea lor n variana total arata ca sunt suficiente trei componente principale care preiau din variabilitatea spaiului iniial 98,6%. Pentru explicitarea norului de puncte pe 2 axe se procedeaza astfel: ajustand norul de puncte printr-o axa factoriala (adic acceptand doar un singur indicator sintetic) se explica 94,798% din totalul variatiei datelor. ajustand norul de puncte prin doua axe factoriale (adica acceptand doi indicatori sintetici), recuperam inca 2,380% din variatia totala, adica un total de 97,178% din aceast varian, ceea ce reprezinta un rezultat foate bun pentru analiza noastra.

Tabelul nr. 7

Graficul scree plot se realizeaza astfel: Se au in vedere diferentele semnificative existente intre valorile proprii; Se traseaza o linie paralela cu abscisa deasupra ultimei diferente; Numarul de valori proprii aflate deasupra paralelei reprezinta numarul de componente principale.

Pentru a stabili numarul de componente principale necesare se mai poatefolosi si metoda grafica. In Scree Plot, pe abscisa sunt reprezentate etichetele valorilor proprii, in timp ce pe ordonata se afla valorile efective ale acestora. Folosind criteriul pantei si reprezentarea grafica a valorilor proprii se poate determina numarul de componente principale necesa rereprezentarii spatiului initial. In urma identificarii numarului de diferente semnificative dintre valorile proprii reprezentare, deasupra ultimei diferente semnificative in reprezentarea grafica se duce o paralela la abscisa, iar numarul devalori proprii ramase deasupra paralelei da numarul de componente principale.

Tabelul nr 8

Pentru a caracteriza componentele astfel obtinute se determina coeficientul de corelatie intre variabilele artificiale obtinute si variabilele originale luate in calcul,datele fiind disponibile in Component Matrix. Cu ajutorul tabelului se poate da o interpretare variabilelor in spatiul transformat, aceasta continand coeficientii corelatiilor dintre componentele principale si valorile initiale.

Tabelul nr. 9

Component Plot in Rotated Space ofera o reprezentare grafica tridimensionala a celor 2 componente principale. Fiecare variabila este reprezentata in functie de corelatia cu fiecare componenta. Este un mod grafic de a prezenta aceeasi informatia ca in tabelul Rotated Component Matrix.

Tabel nr. 10 Componentele principale nu sunt altceva decat combinatii liniare ale variabilelor originale cu versorii noului spatiu redus . Acesti versori sunt dati de vectorii proprii corespunzatori valorilor proprii mai mari decat 1. TabelulComponent Score Coefficient Matrix (Tabel nr 10) reprezinta matricea versorilor, continand vectorii proprii corespunzatori valorilor proprii retinute.

In continuare apelam Graphs Scatter/Dot Alegem Simple Scatter:

In acest grafic putem observa un grup destul de compact ce par a avea un comportament asemanator in raport cu noii indicatori, dar i un grup de varsta care se detaseaza.

III Analiza cluster:

In continuare, tot pentru aceiasi matrice a datelor standardizate vom aplica tehnici de clasificare bazate pe algoritmi ierarhici pentru a putea exemplifica atat gruparea firmelor cat si gruparea indicatorilor. Analiza cluster este o tehnica de clasificare caracterizat prin faptul c afectarea formelor sau obiectelor in clustere sau grupe se face progresiv i fara a cunoate aprioric numarul de clase, in functie de verificarea a doua criterii fundamentale:a. obiectele sau formele clasificate n fiecare clas sa fie cat mai similare din punct de vedere al anumitor caracteristici;b. obiectele clasificate ntr-o clasa si se diferentieze cat mai mult de obiectele clasificate in oricare din celelalte clase.

In vederea aplicrii tehnicii de clasificare in SPSS vom parcurge urmatorii pasi:Pas 1 avem matricea de date standardizate in SPSSPas 2 apelam Analyse Classify Hierarchical Cluster

Va fi calculata matricea de proximitatea in care care fiecare element al ei este reprezentat de distanta euclidiana intre firmele corespunzatoare, distanta calculat in funcie de toti cei 6 indicatori observati (folosind distanta euclidiana ca masura a disimilaritatii). Aceasta matrice fiind prezentata in urmatorul tabel:

Dupa care pentru exemplificarea agregarii firmelor prezentm n tabelul urmtor etapele de constituire a claselor, in care se poate observa modul de formare a uni grup precum i nivelul de agregare corespunzator pentru fiecare algoritm in parte, astfel:

Structura metodelor de analiza cluster poate fi reprezentata sub o forma grafica care se numeste arborele clasificarii sau dendrograma clasificarii. Pentru a identifica numarul de clase trebuie sa identificam o partitie cu un numar redus de grupe si o partitie cu un numar mare de grupe. Apoi ducem o paralela cu axa oy iar numarul de puncte care intersecteaza dreapta ne da numarul de clase.

Figura de mai sus reprezinta dendrograma orizontala a indicatorilor. Structura metodelor de analiza cluster poate fi reprezentata sub o forma grafica care se numeste arborele clasificarii sau dendrograma clasificarii Astfel, pentru un prag de distanta de 20 se vor obtine 2 grupe: prima grupa este formata din judetul Bucuresti, iar a doua grupa este formata din restul judetelor. Daca pragul de distanta este 3 atunci putem considera urmatoarele grupe: prima grupa este formata din judetul Bucuresti, a doua grupa din judetul Iasi, a treia grupa din judetul Prahova, a patra grupa formata din restul judetelor.Astfel putem deduce ca Bucuresti are cea mai mare populatie medie din grupurile de varsta, pe cand Vaslui, Covasna si Salaj au printre cele mai mici populatii.In concluzie, analiza componentelor principale ne-a permis sa realizam o sintetizare informationala si sa caracterizam un sir de observatii prin 2 caracteristici in loc de 18. Astfel, am putut realiza comparatii intre observatii.

Bibliografie:

Ruxanda, Gheorghe,Analiza multidimensional a datelor, suport de curs pentru coala Doctoral, ASE, Bucureti,2009.Suport de curs: Analiza Multidimensionala a Datelorhttp://statistici.insse.ro/17