51
讲讲 :SPSS 讲讲讲讲 讲讲讲 讲讲讲讲讲讲 [email protected] om

讲座 :SPSS 使用方法

  • Upload
    hansel

  • View
    165

  • Download
    0

Embed Size (px)

DESCRIPTION

讲座 :SPSS 使用方法. 吴志强 信息管理学院 [email protected]. 关于 SPSS. SPSS 原意为 Statistical Package for the Social Sciences ,即 “ 社会科学统计软件包 ” 。 随着 SPSS 产品服务领域的扩大和服务深度的增加, SPSS 公司于 2000 年将英文全称更改为 Statistical Product and Service Solutions ,意为 “ 统计产品与服务解决方案 ” 。. 社会科学研究中的统计. 数据的描述性统计 频次分布 - PowerPoint PPT Presentation

Citation preview

Page 1: 讲座 :SPSS 使用方法

讲座 :SPSS 使用方法

吴志强信息管理学院[email protected]

Page 2: 讲座 :SPSS 使用方法

关于 SPSS SPSS 原意为 Statistical Package for th

e Social Sciences ,即“社会科学统计软件包”。

随着 SPSS 产品服务领域的扩大和服务深度的增加, SPSS 公司于 2000 年将英文全称更改为 Statistical Product and Service Solutions ,意为“统计产品与服务解决方案”。

Page 3: 讲座 :SPSS 使用方法

社会科学研究中的统计 数据的描述性统计

频次分布 集中趋势:平均数、众数、中位数等; 离散趋势:方差和标准差、极差等;

数据分析 数据预测

Page 4: 讲座 :SPSS 使用方法

一、 SPSS 常用菜单的功能 Data 菜单:对数据进行排序、转置以及

观测记录的选择; Transform 菜单:数据转换功能,常用

的有 Compute 、 Recode 以及 Count 。 Analyze 菜单:各种统计分析。 Graphs 菜单:制图工具。

Page 5: 讲座 :SPSS 使用方法

二、 SPSS 的数据管理 常用的功能有: 数据转换; 数据聚合。

Page 6: 讲座 :SPSS 使用方法

1. 数据转换- Compute 对数据进行规律性的整理和计算。 步骤:

Transform->Compute If 条件的设置 新变量设定

示例说明

Page 7: 讲座 :SPSS 使用方法

2. 数据转换- Recode 对数据按分段模式转换,如:把数据中的年龄转换为年龄段。 步骤:

Transform->Recode 选择需要转换的变量,并设置转换后的变量; 设置旧变量转换为新变量的条件; 运行 OK 即可。

示例

Page 8: 讲座 :SPSS 使用方法

3. 数据聚合- Aggregate 把数据按照某一变量进行分类汇总。 步骤:

Data->aggregate 选定分类变量到 Break Variables 框 选定聚合变量到 Aggregate Variables 框 Function 设置聚合函数 选择创建新文件 运行 OK 即可

示例

Page 9: 讲座 :SPSS 使用方法

示例: Recode 和 Aggregate的组合使用

Page 10: 讲座 :SPSS 使用方法

三、数据的描述统计 包括:

频数分析 均值 标准差

Page 11: 讲座 :SPSS 使用方法

数据的集中趋势统计量

频数:各个组内含个体的个数

平均数(均值):

众数:频数出现最多的变量值

中位数:第 50 个百分位数点上的值

Xn

X1

Page 12: 讲座 :SPSS 使用方法

1. 频数 SPSS 操作 :

打开数据文件 , 执行 Analyze->Descriptive Statistics->Frequencies.

选择分析变量 Statistics 按钮设置频数 Charts 设置直方图以及正态曲线 OK 即可。

Page 13: 讲座 :SPSS 使用方法

2. 平均数与标准差 SPSS 操作 :

打开数据文件 , 执行 Analyze->Descriptive Statistics-> Descriptive.

选择分析变量 Option 按钮设置统计量 OK 即可。

Page 14: 讲座 :SPSS 使用方法

数据的离散趋势统计量 方差和标准差

极差:最大值与最小值之间的距离

四分位数差:第 25 、 50 、 75 个百分位数点之间的距离

sS SXXn

222;)(

1

1

Page 15: 讲座 :SPSS 使用方法

3. 分组求均值 对数据分组描述,可以输出分组数据的

均值、标准差、极值等,即对数据进行多层分类汇总。

SPSS 操作 Analyze->Compare Means->Means.

示例:求不同性别的人在各工资段上的平均值。

Page 16: 讲座 :SPSS 使用方法

4. 数据探测( Explore ) 计算描述统计量,通过各类统计图等描

述数据的分布类型。 SPSS : Analyze->Descriptive Statisti

cs-> Explore 。

Page 17: 讲座 :SPSS 使用方法

5.交互分析 目的:描述同一组样本中不同变量之间是否存在显著联系。

SPSS : Analyze->Descriptive Statistics-> Crosstabs. Rows 和 columns Chi-Square, Phi and Cramer’s V row

示例:性别与工资的联系。

Page 18: 讲座 :SPSS 使用方法

交互分析的结果 卡方检验。 P<0.05 ,则拒绝 0假设,变

量之间具有显著联系。 Phi 值反应变量之间的关系强度, 0.5表

示高, 0.3表示一般, 0.1表示低。

Page 19: 讲座 :SPSS 使用方法

四、 SPSS 数据的推断性统计分析 T检验 方差分析 … …

Page 20: 讲座 :SPSS 使用方法

1. T检验 T检验的目的是检验两个样本中存在的差异在

总体中是否也同样存在。 T检验的先决条件是:

两个样本是随机取样的; 被比较的变量属于区间或比率等级; 样本的抽样分布呈正态分布。

T检验是 0假设,即两者之间不存在差异。 T检验的结果:如果在置信度为 95%下,显著性水平 >0.05,则接受假设;如果 <0.05 ,拒绝假设。

Page 21: 讲座 :SPSS 使用方法

T检验的 SPSS 操作 Analyze->Compare Means->Independ

ent T Test. 确定 T检验的变量; 确定 T检验的分组变量。 Ok 即可。

示例:不同性别工资差异的 T检验。

Page 22: 讲座 :SPSS 使用方法

2. 方差分析 分析变量之间是否存在相关性。

例如:人的年龄是否受到地域的影响。不同地域的人的年龄,其平均年龄是否存在差异。

要求:因变量在影响因素的各个水平上的分布必须服从正态分布。

Page 23: 讲座 :SPSS 使用方法

方差分析的原理—以单因素分析为例 假定 H0 :在某一自变量下的不同水平下,

总体均值 μ没有差异。 将原始数据按照自变量的水平不同随机

分成 c 个组,然后进行分析: 如果组内差异大而组间差异下,则说明两个

变量之间没有什么关联性; 如果组间差异大而组内差异小,则说明两个

变量之间有某种关联性。

Page 24: 讲座 :SPSS 使用方法

例子:人年龄与地域之间是否存在关联性

要解决的问题:

他们之间是否存在关联性? 如果有,则: 不同地域对人年龄的影响程度如何? 哪些地域对人的年龄的影响明显? 哪些地域对人年龄的影响最不明显?

Page 25: 讲座 :SPSS 使用方法

解题步骤 1 )原始数据按地域随机抽样。结果如下表:

地域 1 地域 2 地域 38281828283

7980808180

8384838585

= 82 = 80 = 84X 1X 2 X 3

Page 26: 讲座 :SPSS 使用方法

解题步骤 2 )假定: 由于三个样本取自同一总体,因而其均值 μ相同。但各自的 有差异。因此

假设 H0 : μ1 = μ2 = μ3

(含义:地域对人的年龄没有影响,其本身的样本均值与总体均值不同是由于抽样的波动引起的。)

X 1

Page 27: 讲座 :SPSS 使用方法

解题步骤 3 )求组间变差与联合方差

82)828082(3

11 X

cX

41

1)(2

2

XXcSX

3

2

)1(

...11 )()(

22

2

nccc XXXXS p

组间样本总平均值:

组间样本总方差:

联合方差:

Page 28: 讲座 :SPSS 使用方法

解题步骤 4) . F检验: 如果Ho 为真, F比值将围绕着 1波动;如果Ho不真, F 值将倾向于比 1 大很多。

30

3245

2

2

p

X

S

nSF1)F 值:

2)F 的自由度

分子自由度: df1=c-1=3-1=2

分母自由度: df2=c(n-1)=3(5-1)=12

3)用 F 分布表查Ho 的概值。其概值远远小于 0.001, 趋近于 0 。

Ho 的概值小于 0.05 ( μ 的显著水平),拒绝 Ho 。

Page 29: 讲座 :SPSS 使用方法

解题步骤 5 )对方差的方差齐性检验 该检验是对自变量不同水平下各观测变量总体

方差是否相等进行检验。因为方差分析的前提是“自变量不同水平下观测变量总体方差无显著差异”。

分析过程:用 t检验,首先分析 p 值(概值)是否大于 a(=0.05),如果大于,方差无显著差异;然后,比较两个总体均值的 t检验结果,如果 t 统计量对应的两端的概率 p 值大于 a ,无显著差异,如果小于,则有显著差异。

Page 30: 讲座 :SPSS 使用方法

解题步骤 6) . 多重比较检验 确定自变量的不同水平对观测变量的影响程度。

这种检验比较复杂,方法也很多,其中 LSD敏感性最强。

Page 31: 讲座 :SPSS 使用方法

结果 总体描述及 95%置信区间

Descriptives

Æ«ÏòÐÔ

5 82.0000 .70711 .31623 81.1220 82.8780 81.00 83.00

5 80.0000 .70711 .31623 79.1220 80.8780 79.00 81.00

5 84.0000 1.00000 .44721 82.7583 85.2417 83.00 85.00

15 82.0000 1.85164 .47809 80.9746 83.0254 79.00 85.00

comÓòÃû

eduÓòÃû

govÓòÃû

Total

N Mean Std. Deviation Std. Error Lower Bound Upper Bound

95% Confidence Interval forMean

Minimum Maximum

地域 1

地域 2

地域 3

Page 32: 讲座 :SPSS 使用方法

检验结果 1 )概值趋近于 0 ,小于 0.05 ,拒绝Ho ,不同地域下人的年龄有显著差异。

2 )回归的概值为 0.002 ,地域与人的年龄之间不是零线性相关。

ANOVA

Æ«ÏòÐÔ

40.000 2 20.000 30.000 .000

10.000 1 10.000 15.000 .002

30.000 1 30.000 45.000 .000

8.000 12 .667

48.000 14

(Combined)

Contrast

Deviation

Linear Term

BetweenGroups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

Page 33: 讲座 :SPSS 使用方法

1). 单因素方差分析 Analyze->Compare Means-On Way ANOVA.

Dependent list 选择因变量; Factor 选择自变量。 posHoc 选择 R-E-G-W Q和 Tukey 。 Option 选择 Describtive 和 Homogeneity of V tes

t. 结果:如果 Post Hoc Tests 检验中 p<0.05 ,

则具有显著差异。

例子:职务与工资的方差分析。

Page 34: 讲座 :SPSS 使用方法

2). 多因素方差分析

SPSS: Analyze->General Linear Model->Univariate. Dependent Variable, Fixed Factors. Options 选择 Descriptive St.

例子:职务、性别与工资的方差分析。

Page 35: 讲座 :SPSS 使用方法

3.卡方检验 目的:检验样本中自变量与应变量之间

的关系在总体中是否存在。 0假设:自变量与应变量之间的关系在总

体中不存在。 结论:如果 p>0.05 ,拒绝 0假设。 卡方检验要求自变量与因变量都是分隔

变量。

Page 36: 讲座 :SPSS 使用方法

卡方检验的 SPSS 操作 SPSS : Analyze->Descriptive Statisti

cs-> Crosstabs. Rows 和 columns Chi-Square Ok.

Page 37: 讲座 :SPSS 使用方法

五、 SPSS 数据的预测分析 线性回归 对数回归 ……

Page 38: 讲座 :SPSS 使用方法

关于回归分析 回归分析是社会研究中进行定量分析的基本方法,主要解决 3 个方面的问题: ①确定几个变量间是否存在相关关系;若存在,则找出它们之间合适的数学表达式。

②据一个或几个变量值,预测或控制另一个或几个变量的值,且要知道这种控制或预测可达何种精确度。

③进行因素分析,即在共同影响一个变量的多个变量(因素)间,找出主要和次要因素及其相互关系。

Page 39: 讲座 :SPSS 使用方法

变量之间的两种关系 确定性关系

问题 1 :正方形的面积 y 与正方形的边长 x之间的函数关系是 y = x2 。--确定性关系

非确定性关系--相关关系 问题 2 :某水田水稻产量 y 与施肥量 x 之间

是否有一个确定性的关系?

Page 40: 讲座 :SPSS 使用方法

相关关系的回归分析 对具有相关关系的两个变量进行统计分

析的方法叫回归分析。

注:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。

Page 41: 讲座 :SPSS 使用方法

现实生活中的相关关系

人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。

Page 42: 讲座 :SPSS 使用方法

回归方程 对具有相关关系的现象,选择一适当的数学关系式,用以说明一个或一组变量变动时,另一变量或一组变量平均变动的情况,这种关系式称为回归方程。

如果所择关系式是线性的,就称为线性回归分析;反之,则称为非线性回归分析。

线性回归是回归分析的基本模型,很多复杂的情况都是转化为线性回归进行处理。

Page 43: 讲座 :SPSS 使用方法

线性回归分析--最小二乘法

n n(x -x)(y -y) x y -nxyi i i i

i=1 i=1b= = ,n n 22 2(x -x) x -nxi ii=1 i=1ˆa=y-bx.

n n1 1x= x ,y= y .i in ni=1 i=1

其中

ˆˆ ˆy bx a

Page 44: 讲座 :SPSS 使用方法

例子:大学生身高与体重的关系 从某大学中随机选出 8 名大学生,其身高

和体重数据如下表:编号 1 2 3 4 5 6 7 8

身高 165 165 157 170 175 165 155 170

体重 48 57 50 54 64 61 43 59

求大学生的身高与体重的回归方程。

Page 45: 讲座 :SPSS 使用方法

结果

172.85849.0ˆ xy回归方程:

Page 46: 讲座 :SPSS 使用方法

相关系数

r>0正相关;r<0负相关。 通常, r>0.75 ,认为两个变量有很强的相

关性。 本例中,由上面公式 r=0.798>0.75 .

n(x -x)(y -y)i i

i=1r=n n2 2(x -x) (y -y)i ii=1 i=1

Page 47: 讲座 :SPSS 使用方法

1.利用 SPSS 求线性回归 SPSS : Analyze->Regression->Linear.

因变量 dependent 和自变量 Idependent OK 即可。

示例:工作年限与工资水平的线性回归。

Page 48: 讲座 :SPSS 使用方法

线性回归的结果 Model Summary : R 方用来解释应变

量中有多少可以被自变量所解释。 ANOVA 方差分析:判断回归模型是否有

统计学意义。如果 P<0.05, 具有意义。 Coefficients :具体的数学模型 y=a+bx。

Coefficientsa

22843.324 6362.214 3.590 .000

142.723 77.844 .084 1.833 .067

(Constant)

Months since Hire

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Current Salarya.

Page 49: 讲座 :SPSS 使用方法

2.利用 SPSS 求对数回归 非线性回归。 通常用来求应变量是分隔变量的回归模型,而且要求应变量只有两个值,因此需要对变量进行重新编码。

SPSS : Analyze-> Regression-Binary Logistic.

示例:职务与工资之间的对数回归模型。

Page 50: 讲座 :SPSS 使用方法

SPSS 的使用心得 要掌握统计学的基本知识; 使用 SPSS 之前要先对数据进行宏观把握;

要根据数据以及分析思路选择合适的 SPSS命令。

Page 51: 讲座 :SPSS 使用方法