Upload
doanminh
View
216
Download
1
Embed Size (px)
Citation preview
Statistiska analysmetoder, en introduktion
Fördjupad forskningsmetodik, allmän del
Våren 2018
Vad är statistisk dataanalys?
• Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial
• Används dels för att beskriva data, t.ex. hur dess olika variabler fördelar sig, eller för att testa samband mellan variabler (t.ex. arbetstrivsel och medbestämmande)
• Statistiska sambandsanalyser utförs oftast med hjälp av hypotestestning där vi endera skattar estimat för populationer eller testar graden av systematiska samband med statistisk inferens (söker statistisk signifikans)
• Underlättas av tillgång till SPSS (eller andra statistikprogram)
Olika typer av statistisk analys
• Det finns många former av statistisk analys, beroende vilken typ av undersökning, urvalstyp och data vi har att göra med
• Grovt förenklat kan vi kanske skilja mellan två huvudtyper:
• Deskriptiva statistiska analyser: syftar till att beskriva variabler, t.ex. genom att beräkna central- eller spridningsmått, genom att framställa data i tabeller eller diagram/figurer
• Analyser av samband: syftar till att mäta samband mellan olika variabler, att skatta estimat för populationer, eller att testa hypoteser om skillnader i fördelningar
Deskriptiv statistisk analys
• Utgör vanligen ett första steg i analysen och syftar främst till att beskriva hur variablerna är fördelade
• I detta skede bör också svarsutfallet analyseras. I vårt fall svarade 136 av de samplade 150 personerna (ca 91 %), vilket gör bortfallet litet men ändå värt att analysera, eftersom detta kan avslöja ifall någon viss grupp varit mer ovillig att svara än i genomsnitt)
Exempel på deskriptiv analys
Tabell 1. Fördelningen av respondenter enligt befattning och övriga variabelkategori (n =
136)
Socialarbetare
(n=78)
Socialhandledare
(n=58)
Variabler:
Kön (kvinna, man) i procent 82.2% 17.8% 80.7 % 19.3%
Ålder (medeltal, standardavvikelse) 42 5,73 39 6,11
Arbetstrivsel (medeltal, stand.avv.) 2.7 6.232 3,112 5.884
Medbestämmande (medeltal, stand.avv.)
n
3.6
n
7.204
n
3.7
n
5.345
n
Statistiska sambandsanalyser
• Syftar till att mäta samband mellan enskilda variabler (bivariat analys) eller mellan flera oberoende variabler och en beroende variabler (multivariat analys)
• Oftast bygger sådana analyser på antaganden (forskningshypoteser) som vi testar statistiskt med hjälp av statistisk inferens
• Detta innebär att vi med statistikens hjälp prövar ifall vår hypotes stämmer eller inte
• Vi avgör graden av statistisk signifikans (dvs. om ett samband är verkligt eller slumpmässigt)
Hypotestestning och signifikansnivå
• Två olika hypoteser används:• Forskningshypotes (H1): det påstående vi vill testa (t.ex. det finns ett
samband mellan arbetstrivsel och graden av medbestämmande som inte är slumpmässigt)
• Nollhypotes (H0): det som gäller ifall forskningshypotesen är falsk (inget systematiskt samband finns)
• Signifikansnivån (p, Sig.) anger risken för att sambandet är skenbart, slumpmässigt genererat (bör helst vara mindre än 0.05 -> vi kan med 95 % säkerhet anta att sambandet gäller, dvs. att det inte är skenbart
Några vanliga test i statistisk sambandsanalys
• Korrelationstester (rxy, rs och Cxy) – visar samband mellan variabler
• Regressionstester (regressionskoefficient) – testar samband men även vilken riktning sambandet går (hur mycket av y förklaras av x?)
• χ2-testet av skillnader mellan fördelningar
• Testning av medelvärdet i ett stickprov (t-test)
• Testning av skillnaden mellan två fördelningars medelvärden (t-test)
Exempel: korrelations- och regressionstest
• Forskningshypotes: personer med hög grad av upplevd medbestämmanderätt tenderar uppleva en högre grad av arbetstrivsel (på ett sätt som inte kan förklaras pga. slumpen)
• Vi genomför med hjälp av SPSS ett korrelationstest samt ett regressionstest där vi testar hur våra huvudsakliga variabler (arbetstrivsel och medbestämmande) samt andra eventuella mellanliggande variabler förhåller sig till varandra
Något om skillnaden mellan korrelations- och regressionstest
• Båda mäter sambandet mellan variabler och testar forskningshypoteser
• Skillnaden är främst att korrelationstest (t.ex. Pearsons koefficient) endast mäter graden av samvariation mellan olika variabler (utan att vi vet något om sambandets riktning), medan regressionsanalys (t.ex. OLS=ordinary least squares, minsta kvadratmetoden) beräknar en funktion för sambandet (y = a + bx) och (vilket dock inte är bevis på kausalitet)
Parson’s korrelationstest
Correlations
1 ,709**
,000
136 136
,709** 1
,000
136 136
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Arbetstriv sel
Grad av upplev d
medbestämmande
Arbetstriv sel
Grad av
upplevd
medbestä
mmande
Correlat ion is signif icant at the 0.01 lev el (2-tailed).**.
Signifikanstest (p-värde); anger risken för att vi ska tro att sambandet finns när det egentligen inte finns
Pearsons korrelationskoefficient (varierar mellan 0 och +/-1)
Tolkning av korrelationstestet
• Det finns ett ganska starkt och positivt samband (0.709) mellan arbetstrivsel och medbestämmande
• Detta samband är statistiskt signifikant (Sig. = 0.000, dvs. p > 0.05) =>Vi kan alltså så här långt anta vår forskningshypotes
• Men finns det även andra faktorer som kan tänkas spela roll här och hur påverkar dessa i så fall detta samband?
• Vi beaktar därför även tre andra tänkbara variabler och gör först en ny multivariat korrelationsanalys och sen en multivariatregressionsanalys (OLS) med hjälp av SPSS
Resultat från multipla korrelationsanalysen
Correlations
1 ,525** ,388** ,554** ,308**
,000 ,000 ,000 ,000
136 136 136 136 136
,525** 1 ,674** ,709** ,303**
,000 ,000 ,000 ,000
136 136 136 136 136
,388** ,674** 1 ,593** ,428**
,000 ,000 ,000 ,000
136 136 136 136 136
,554** ,709** ,593** 1 ,294**
,000 ,000 ,000 ,001
136 136 136 136 136
,308** ,303** ,428** ,294** 1
,000 ,000 ,000 ,001
136 136 136 136 136
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Nöjd med egen lön
Arbetstrivsel
Uppsk.av närmaste
f örman
Grad av upplev d
medbestämmande
Uppsk.av arbetsgruppen
Nöjd med
egen lön Arbetstrivsel
Uppsk.av
närmaste
f örman
Grad av
upplevd
medbestä
mmande
Uppsk.av
arbetsgru
ppen
Correlat ion is signif icant at the 0.01 lev el (2-tailed).**.
Tolkningar av multipla korrelationstestet
• Det starka och signifikanta samband mellan arbetstrivsel och medbestämmande kvarstår (0.709) eftersom även detta är en bivariat analys, men vi ser också att andra faktorer påverkar arbetstrivseln -> sambandet inte är så entydigt som vi trodde
• Vi vill därför kolla hur medbestämmande påverkar arbetstrivsel när man samtidigt kontrollerar för inverkan av andra variabler. Vi genomför därför en multivariatregressionsanalys (dvs. en beroende och fyra oberoende variabler) och där iden är att testa vilken (relativ) förklaringsgrad variabeln medbestämmande har när vi samtidigt kontrollerar för påverkan från andra variabler
Model Summary
,787a ,619 ,608 ,598
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), Uppsk.av arbetsgruppen, Grad
av upplev d medbestämmande, Nöjd med egen lön,
Uppsk.av närmaste f örman
a.
Coefficientsa
,466 ,217 2,154 ,033
,372 ,070 ,397 5,328 ,000
,153 ,061 ,164 2,483 ,014
,358 ,065 ,388 5,466 ,000
-,029 ,059 -,030 -,491 ,624
(Constant)
Grad av upplev d
medbestämmande
Nöjd med egen lön
Uppsk.av närmaste
f örman
Uppsk.av arbetsgruppen
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardized
Coef f icients
t Sig.
Dependent Variable: Arbets triv sela.
Förklaringsgrad, dvs hur stor del av variationen i arbetstrivsel förklaras av modellen nedan?
Intercept (konstant)Regressionskoefficienter
Signifikansnivåer
Multivariat regressionstest
Standardfel
Beroende variabeln
De fyra oberoende variablerna
Tolkningar av regressionstestet
• Till att börja med kan vi se på Model Summary som visar att regressionsmodellen förklarar en relativt stor andel (ca. 60 %) av den totala variationen i arbetstrivsel (r2=.608) och att medelfelet är 0.598 - > dvs. ca 60 % av variationen i uppmätt arbetstrivsel hänger samman med de fyra oberoende variablerna i modellen
• För att kunna säga något mer exakt om vad medelfelet i detta fall säger om modellens statistiska kvalitet, behöver vi dock göra diverse tilläggsanalyser. Men på i det stora hela verkar testet dock fungera
Tolkningar av regressionstestet, forts.
• Betakoefficienterna (Coefficients) visar, som väntat, att det finns ett starkt, positivt, samband mellan arbetstrivsel och medbestämmande (Beta=0.397) och att detta samband är signifikant på 0.05-nivån, dvs. att vi kan anta forskningshypotesen med 95% säkerhet
• Även lönen (Beta=0.164) och uppskattning av förman (Beta=0.388) har positiv betydelse för arbetstrivseln, medan uppskattning av arbetsgruppen inte spelar lika viktig roll för arbetstrivsel och är negativt korrelerad (Beta= -0.030, Sig. = 0.624)
Sammanfattning
• Statistiska analysmetoder förutsätter kvantitativa data, helst på intervall- eller kvotnivå.
• Hjälper oss att beskriva data, att beräkna samband och att testa forskningshypoteser. För att statistiskt testa kausalsamband måste vi dock ha diakroniskt data, dvs. tidsseriedata
• Finns många bra guider för detta, t.ex. SPSS-akuten eller Julie Pallants bok (SPSS Survival manual). Denna visar hur man steg för steg gör det som jag gjort här (och mycket till) och innebär att vi alla kan använda statistiska analyser ifall vi vill!