Download pdf - Suport Pentru Cursul 1

Transcript
  • Curs SPSS i Excel

    Marian Vasile

    Cuprins Cuprins ....................................................................................................................... 1 1. Cursul 1. Tema: contextul n care folosim cele dou programe. ............................ 4

    1.1. Obiectivul cursului .......................................................................................... 4 1.2. Exemplu n SPSS de analiz secundar ............................................................ 4

    1.2.1. Problema ................................................................................................... 4 1.2.2. Date ........................................................................................................... 5 1.2.3. Modelul testat, variabila dependent i variabilele independente ............ 5 1.2.4. Pregtirea bazei de date pentru analiz ..................................................... 5 1.2.5. ntrebri eseniale nainte de analiz ........................................................ 7 1.2.6. Analiza ...................................................................................................... 8 1.2.7. Lucrurile sunt ceva mai complexe ............................................................. 9

    1.3. Exemplu n SPSS i Excel de baz construit de la zero ................................ 10 1.4. Concluzie ....................................................................................................... 11

    2. Cursul 2. Tema: Construirea i curarea unei baze de date n SPSS, inclusiv cu ajutorul Excel. .......................................................................................................... 12

    2.1. Obiectivul cursului ........................................................................................ 12 2.2. Exemplu Intenia de a renuna la fumat. ................................................... 12 2.2.1. Crearea bazei de date i introducerea datelor ............................................. 12 2.2.2. Curarea bazei de date .............................................................................. 14

    2.2.2.1. Etichetare .......................................................................................... 14 2.2.2.2. Verificarea codurilor introduse ......................................................... 16 2.2.2.3. Verificarea filtrelor i legturilor logice ............................................ 16

    Acesta este un draft. A nu se distribui sau cita fr aprobarea autorului. Contact: [email protected]

  • 2

    2.2.2.4. Unirea bazelor (dac este cazul) ....................................................... 16 2.2.2.5. Definirea nonrspunsurilor .............................................................. 16

    2.3. Concluzie ....................................................................................................... 16 3. Cursul 3. Tema: Pregtirea variabilelor pentru analiz n SPSS ........................... 17

    3.1. Obiectivul cursului ........................................................................................ 17 3.2. Exemplul 1 (Recode) ..................................................................................... 17 3.3. Exemplul 2 (Compute) .................................................................................. 19 3.4. Concluzie ....................................................................................................... 21

    4. Cursul 4. Tema: Descrierea datelor folosind tabele de frecven i de contingen .................................................................................................................................. 21

    4.1. Obiectivul cursului ..................................................................................... 21 4.2. Tabelul de frecven, utilitatea lui i cum este preluat din SPSS ............... 21 4.3. Tabelul de contingen ............................................................................... 27 4.4. Concluzie .................................................................................................... 29

    5. Cursul 5. Tema: Descrierea datelor folosind indicatori numerici ........................ 30 5.1. Obiectivul cursului ........................................................................................ 30 5.2. Exemplu ......................................................................................................... 30 5.3. Concluzie ....................................................................................................... 35

    6. Cursul 6. Tema: Descrierea datelor folosind grafice realizate n SPSS ................. 35 6.1. Obiectiv .......................................................................................................... 35 6.2. Grafice prezentate n lucrri .......................................................................... 35

    6.2.1. Graficul bar ............................................................................................ 35 6.2.2. Scatterplot ............................................................................................... 44 6.2.3. Graficul linie ............................................................................................ 45

    6.3. Graficele analistului ....................................................................................... 50 6.3.1. Box plot i histogram ............................................................................ 50 6.3.2. Error bar cu interval de ncredere ........................................................... 53

    6.4. Concluzie ........................................................................................................... 53

  • 3

    7. Cursul 7. Tema: Descrierea datelor folosind grafice n Excel i Power Point ...... 54 7.1. Obiectivul cursului ........................................................................................ 54 7.2. Generaliti .................................................................................................... 54 7.3. Column chart ................................................................................................. 55 7.4. Bar chart ......................................................................................................... 58 7.5. Line chart ....................................................................................................... 59 7.6. Scatterplot ...................................................................................................... 60 7.7. Concluzie ....................................................................................................... 64

    8. Curs 8. Tema: Verificarea relaiilor dintre variabile categoriale ........................... 65 8.1. Obiectivul cursului ........................................................................................ 65 8.2. Tabelul de contingen .................................................................................. 65 8.3. Coeficieni ai asocierii dintre dou variabile categoriale ............................... 69 8.4. Concluzie ....................................................................................................... 70

    9. Curs 9. Tema: Testarea diferenelor dintre mediile a minim dou grupuri ......... 70 9.1. Obiectivul cursului ............................................................................................ 70 10. Curs 10. Tema: Verificarea relaiilor dintre variabilele metrice ......................... 70

    10.1. Obiectivul cursului ...................................................................................... 70 11. Curs 11. Tema: Testarea modelelor complexe: regresia multipl ...................... 70

    11.1. Obiectivul cursului ...................................................................................... 70 12-13-14. Cursurile 12-13-14. Exerciii ................................................................... 71

    12-13-14.1. Obiectivul cursurilor ......................................................................... 71 Acest material conine informaiile eseniale prezentate la curs i exerciiile de baz rezolvate n seminar.

  • 4

    1. Cursul 1. Tema: contextul n care folosim cele dou programe.

    1.1. Obiectivul cursului Dup acest curs trebuie s nelegei principalele motive pentru care sunt folosite programele SPSS i Excel. Acesta nu este un curs de statistic. Este un curs n care nvai sau v reamintii cum se efectueaz n SPSS i Excel diferite operaii care sunt frecvent folosite n analizele cantitative. Cursul utilizeaz cunotinele acumulate n anul 1 la cursul de Statistic. Cu unele lucruri v-ai ntlnit i la alte cursuri. O s discutm dou exemple. n primul exemplu, nelegem cum se face o analiz secundar n SPSS, adic care sunt paii cnd avem la dispoziie date culese de altcineva. n al doilea exemplu, nelegem care sunt paii pentru o cercetare cantitativ n care concepem chestionarul i baza de date.

    1.2. Exemplu n SPSS de analiz secundar

    1.2.1. Problema n Vasile (2013) autorul testeaz mai multe ipoteze:

    (H1) Cu ct evaluarea propriei snti este mai pozitiv, cu att satisfacia fa de via va fi mai ridicat,

    (H2) Cu ct calitatea sistemului de servicii publice de sntate este mai ridicat, cu att satisfacia fa de via va fi mai ridicat,

    (H3) Cei care i evalueaz pozitiv starea de sntate vor fi mai satisfcui fa de via, dar acest efect se diminueaz atunci cnd calitatea serviciilor publice de sntate este mai ridicat.

  • 5

    1.2.2. Date Datele folosite pentru testarea ipotezelor provin din cercetarea European Quality of Life Survey sau EQLS 2011-2012. Populaia de referin este aduli cu vrsta minim 18 ani. Eantioanele au volume ntre 1000-3000 respondeni. Datele sunt disponibile gratuit la UK Data Service.

    1.2.3. Modelul testat, variabila dependent i variabilele independente Pentru simplitate, o s ne referim doar la H1: Cu ct evaluarea propriei snti este mai pozitiv, cu att satisfacia fa de via va fi mai ridicat. Modelul testat de autor este multinivel, adic folosete simultan date despre individ i ara din care face parte individul. Tot pentru simplitate, o s discutm despre analiza n interiorul unei singure ri, Romnia. Pentru H1 avem dou variabile principale: evaluarea propriei snti sau EPS i satisfacia cu viaa sau SV. Satisfacia cu viaa este variabila dependent sau VD. Evaluarea propriei snti este variabila independent sau VI. Autorul vrea s afle care este relaia dintre aceste dou variabile: cum variaz VD n funcie de VI. Ateptarea lui este c atunci cnd EPS este mai pozitiv, SV va fi mai ridicat. Pentru a verifica aceast ipotez trebuie s realizeze o analiz statistic care s pun n relaie cele dou variabile. Analiza statistic este aleas n funcie de cum sunt msurate cele dou variabile.

    1.2.4. Pregtirea bazei de date pentru analiz Dac rulm o analiz pe o baz de date mare, cum este EQLS, s-ar putea sa ateptm cteva minute pe calculatoare mai puin performante. De aceea este recomandat s identificai care sunt variabilele pe care le folosii n analize i s creai o baz de date care s le conin doar pe acestea.

  • 6

    n chestionar EPS este msurat prin ntrebarea Q42: n general ai spune c sntatea dvs este (1) foarte bun (2) bun (3) acceptabil (4) proast (5) foarte proast. n chestionar SV este msurat prin ntrebarea Q30: Lund totul n consideraie, ct de mulumit suntei de viaa dvs n prezent: (1) foarte nemulumit (2) (3) (4) (5) (6) (7) (8) (9) (10) foarte mulumit. Etichetarea din chestionar nu corespunde ntotdeauna cu etichetarea din baza de date. n baza de date EPS este Y11_Q42, iar SV este Y11_Q30. Pe lng aceste dou variabile trebuie s mai includem cteva variabile standard cum ar fi id-ul unic atribuit fiecrui respondent i variabila de ponderare. Nu exist baz de date fr ca fiecrui respondent s i fie atribuit un numr unic de identificare. Aceast variabil poate fi un numr consecutiv notat chiar pe chestionar sau o variabil mai complex care apare doar n baza de date. n baza noastr de date este variabila uniqueid. Uneori, eantionul nu respect structura din populaie pentru variabile demografice cum ar fi genul, vrsta, educaia, statut ocupaional etc. De exemplu pot fi selectate mai multe persoane n vrst pensionare. Nu putem efectua analiza pe acest eantion pentru c nu este reprezentativ pentru populaia de referin. De aceea se calculeaz aceast variabil de ponderare. Aceast variabil nu apare n chestionar. Apare doar n baza de date. n baza noastr de date este w4. Aadar, s realizm o baz de date care i conine doar pe romni i este alctuit din codul unic atribuit fiecrui respondent (uniqueid), variabila de ponderare (w4), EPS (Y11_Q42) i SV (Y11_Q30).

  • 7

    Mai nti s selectm doar romnii. Pentru a pune condiia trebuie s identificm n baza de date variabila care indic apartenena la ar. Aceasta este Y11_Country. Apoi trebuie s vedem care este codul atribuit Romniei. Pentru aceasta realizm un tabel de frecven din meniul Analyze > Descriptive statistics > Frequencies. Dup ce am aflat codul folosim meniul Data > Select cases pentru a crea o nou baze de date care conine doar romnii. Apoi, din aceast baz de date selectm doar variabilele care ne intereseaz n analiz, adic codul unic atribuit fiecrui respondent (uniqueid), variabila de ponderare (w4), EPS (Y11_Q42) i SV (Y11_Q30). Autorul zice n articol pentru EPS: Variabila a fost recodificat astfel nct valorile mari s indice o sntate bun i este utilizat ca atare n analize, iar pentru SV zice: Variabila este folosit ca atare n analize. Deci pentru EPS a atribuit eticheta cea mai pozitiv codului celui mai mare. A fcut acest lucru pentru a uura interpretarea: variantele de rspuns la ambele variabile s aib corespondena etichet pozitiv = cod mare etichet negativ = cod mic. Realizm un tabel de frecven pentru a vedea care sunt codurile i cum trebuie s recodificm. Recodificarea se face n meniul Transform > Recode into different variables. Orice recodificare se verific. Folosim n acest sens un tabel de contingen sau crosstabs. Tabelul de contingen se realizeaz din meniul Analyze > Descriptive statistics > Crosstabs.

    1.2.5. ntrebri eseniale nainte de analiz nainte de analiz trebuie s ne punem urmtoarele ntrebri: (1) eantionul este probabilist?, (2) eantionul este distorsionat fa de populaie pe variabile cheie, (3) dac este distorsionat, baza de date a venit cu variabila de ponderare sau trebuie s o construiesc?, (4) este ponderea activ n baza de date?

  • 8

    EQLS, baza de date din exemplu vine cu o variabil de ponderare. Ea se numete w4. Activm ponderea din meniul Data / Weight cases.

    1.2.6. Analiza EPS are nivelul de msurare ordinal. La fel i SV. n practic, mai ales scala utilizat la SV este considerat de interval. Ct de corect este aceast practic rmn s analizai citind lecturile recomandate Stevens (1946), Velleman and Wilkinson (1993), Jamieson (2004), Norman (2010), Dua and Frunzaru (2011). Aadar putem calcula un coeficient de asociere cum este Gamma sau, dac facem concesia de care spuneam, putem calcula un coeficient de corelaie Pearson. Aceste analize se fac n SPSS n meniul Analyze > Descriptive statistics > Crosstabs > Statistics > Gamma, respectiv n meniul Analyze > Correlate > Bivariate. n articolul folosit ca exemplu pn acum exist i nite grafice. De exemplu:

    Acest grafic este realizat n Excel. Pentru realizarea lui este folosit meniul Insert / Chart. nainte de utilizarea meniului trebuie s ne pregtim datele. Asta nseamn c trebuie s avem media satisfaciei cu viaa n fiecare dintre rile de pe Ox.

    8 SNTATEA PERCEPUT, CALITATEA SERVICIILOR PUBLICE DE SNTATE 411

    relaia nonliniar dintre vrst i satisfacia fa de via, am introdus n model i variabila vrst ridicat la ptrat. Acest lucru ine seama de faptul c satisfacia fa de via tinde s scad pn la o anumit vrst, iar apoi tinde s creasc, chiar dac nu revine la valorile iniiale.

    Mediul de reziden, urban versus rural, este derivat din ntrebarea Zona n care locuii o considerai a fi: 1, situat n mediul rural, 2, un sat/un orel mic, 3, un ora de mrime medie, 4, un ora mare sau zona mrgina a unui ora mare9.

    Datele sunt ponderate att la nivelul 1 ct i la nivelul 2.

    REZULTATE

    Satisfacia fa de via variaz de la o ar la alta, mediile situndu-se ntre 5,5 (Bulgaria) i 8,4 (Danemarca). Romnii se poziioneaz sub media de satisfacie fa de via a rilor membre ale Uniunii Europene, cei mai satisfcui raportat la aceast valoare fiind locuitorii rilor nordice (Fig. 1).

    Figura 1

    Satisfacia fa de via n Europa 20112012

    5.5

    6.7

    8.4 7.1 7.1

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    Bulgaria

    Hu

    ngary

    Koso

    vo

    Greec

    e La

    tvia

    Es

    tonia

    Serb

    ia

    Slov

    akia

    Cz

    ech Re

    public

    Tu

    rkey

    FY

    R of

    Mac

    edon

    ia

    Lith

    uania

    Roman

    ia

    Portug

    al

    Croa

    a Ita

    ly

    Mon

    tene

    gro

    Slov

    enia

    Po

    land

    Cy

    prus

    German

    y Fran

    ce

    Malta

    UK

    Belgium

    Ire

    land

    Sp

    ain

    Austria

    Nethe

    rland

    s Lu

    xembo

    urg

    Swed

    en

    Finlan

    d Icelan

    d De

    nmark

    medie n ar

    media EU28

    Sursa datelor: EQLS 20112012. Calcule proprii.

    Relaia cu gradul de dezvoltare al rii pare liniar, dei sunt anumite incongruene

    (Fig. 2). Ungaria are, de exemplu, un nivel de satisfacie mai mic dect cel ateptat,

    9 ntrebarea n chestionarul master: Would you consider the area in which you live to be: 1, the open country side, 2, a village/small town, 3, a medium to large town, 4, a city or city suburb.

  • 9

    Mediile acestea sunt calculate n SPSS. n SPSS folosim meniul Data / Aggregate sau meniul Analyze / Tables / Custom Tables sau meniul Analyze / Descriptive statistics / Frequencies combinat cu Data / Split files etc. Apoi datele sunt copiat e n Excel cu Paste special sau cu funcia Export din SPSS. n Excel se fac mici ajustri estetice. Se sorteaz datele cu meniul Data / Sort. n fine, se face graficul folosind Insert / Chart.

    1.2.7. Lucrurile sunt ceva mai complexe Foarte rar o s fii n situaia aceasta: dou variabile = analiz bivariat = am ncheiat cercetarea. Pentru c realitatea social este complex, analizele univariate i bivariate sunt doar nceputul. Cel mai des o s rulai analize multivariate. De fapt, relaia dintre EPS i SV este verificat controlnd pentru diverse caracteristici individuale: vrst, gen, stare civil, educaie, venitul subiectiv. Rolul acestui control este s vedem cum variaz SV pentru persoane cu valori similare la caracteristicile enumerate anterior dar cu valori diferite la EPS. Aadar, trebuie s vedem cum sunt msurate vrsta (hh2b), genul (hh2a), starea civil (y11_q31), educaie (y11_q48), venitul subiectiv (q58). S ne uitm n chestionar. Autorul spune: vrst (valori ntre 18 i 95 de ani, cei mai n vrst de 95 de ani fiind cuprini n valoarea 95), gen (dummy, codul 1 fiind desemnat brbailor), stare civil (dummy, codul 1 fiind desemnat celor care sunt cstorii legal sau locuiesc cu partenerul), educaie (dou variabile dummy, codul 1 fiind desemnat educaiei primare, respectiv educaiei secundare), venitul subiectiv este folosit ca atare n analize. Trebuie s facem recodificri? De unde le facem?

  • 10

    ntr-un final rulm i analiza de regresie multipl din Analyze / Regression / Linear. Aceasta este ordinea n care lucrm de cele mai multe ori. Aceste meniuri i operaiuni n SPSS le vom discuta n cursurile urmtoare. nainte, ns, trebuie s nelegem structura SPSS-ului. Deci back to basics.

    1.3. Exemplu n SPSS i Excel de baz construit de la zero Data view Variable view Meniuri .sav .spv .sps Principiul de baz este c trebuie s avem echivalen ntre chestionar i baza de date. Datele pot fi introduse i n Excel i n SPSS. n Excel folosim meniul Data > Validation i, ulterior, Data > Form. Atenie: SPSS i Excel nu sunt recomandate pentru introducerea datelor. n colaborrile mele am lucrat mereu cu Access. Exist i programe dedicate cum ar fi SPSS Data Collection Data Entry. Astzi, cnd PAPI (Paper and Pencil Interviewing) este nlocuit frecvent cu CAPI (Computer Assisted Personal Interviewing), WAPI (Web Assisted Personal Interviewing), CATI (Computer Assisted Telephone Interviewing), TAPI (Tablet Assisted Personal Interviewing) sau SAPI (Smartphone Assisted Personal Interviewing), baza de date este creat n softuri specializate iar curarea ei se face automat. Pentru on-line, de exemplu, putei folosi gratuit LimeSurvey. Vom folosi ca exemplu chestionarul EQLS discutat i la exemplu anterior.

  • 11

    1.4. Concluzie n acest curs am vzut la ce sunt folosite SPSS i Excel. Am vzut legtura dintre programe. Am neles c procesul de analiz include i pregtirea variabilelor. Am neles c outputul din SPSS nu este preluat ca atare ci aranjat estetic.


Recommended