Download ppt - 讲座 :SPSS 使用方法

讲座 :SPSS 使用方法

吴志强信息管理学院[email protected]

关于 SPSS SPSS 原意为 Statistical Package for th

e Social Sciences ，即“社会科学统计软件包”。

随着 SPSS 产品服务领域的扩大和服务深度的增加， SPSS 公司于 2000 年将英文全称更改为 Statistical Product and Service Solutions ，意为“统计产品与服务解决方案”。

社会科学研究中的统计数据的描述性统计

频次分布集中趋势：平均数、众数、中位数等；离散趋势：方差和标准差、极差等；

数据分析数据预测

一、 SPSS 常用菜单的功能 Data 菜单：对数据进行排序、转置以及

观测记录的选择； Transform 菜单：数据转换功能，常用

的有 Compute 、 Recode 以及 Count 。 Analyze 菜单：各种统计分析。 Graphs 菜单：制图工具。

二、 SPSS 的数据管理常用的功能有：数据转换；数据聚合。

1. 数据转换－ Compute 对数据进行规律性的整理和计算。步骤：

Transform->Compute If 条件的设置新变量设定

示例说明

2. 数据转换－ Recode 对数据按分段模式转换，如：把数据中的年龄转换为年龄段。步骤：

Transform->Recode 选择需要转换的变量，并设置转换后的变量；设置旧变量转换为新变量的条件；运行 OK 即可。

示例

3. 数据聚合－ Aggregate 把数据按照某一变量进行分类汇总。步骤：

Data->aggregate 选定分类变量到 Break Variables 框选定聚合变量到 Aggregate Variables 框 Function 设置聚合函数选择创建新文件运行 OK 即可

示例

示例： Recode 和 Aggregate的组合使用

三、数据的描述统计包括：

频数分析均值标准差

数据的集中趋势统计量

频数：各个组内含个体的个数

平均数（均值）：

众数：频数出现最多的变量值

中位数：第 50 个百分位数点上的值

Xn

X1

1. 频数 SPSS 操作 :

打开数据文件 , 执行 Analyze->Descriptive Statistics->Frequencies.

选择分析变量 Statistics 按钮设置频数 Charts 设置直方图以及正态曲线 OK 即可。

2. 平均数与标准差 SPSS 操作 :

打开数据文件 , 执行 Analyze->Descriptive Statistics-> Descriptive.

选择分析变量 Option 按钮设置统计量 OK 即可。

数据的离散趋势统计量方差和标准差

极差：最大值与最小值之间的距离

四分位数差：第 25 、 50 、 75 个百分位数点之间的距离

sS SXXn

222;)(

1

1

3. 分组求均值对数据分组描述，可以输出分组数据的

均值、标准差、极值等，即对数据进行多层分类汇总。

SPSS 操作 Analyze->Compare Means->Means.

示例：求不同性别的人在各工资段上的平均值。

4. 数据探测（ Explore ）计算描述统计量，通过各类统计图等描

述数据的分布类型。 SPSS ： Analyze->Descriptive Statisti

cs-> Explore 。

5.交互分析目的：描述同一组样本中不同变量之间是否存在显著联系。

SPSS ： Analyze->Descriptive Statistics-> Crosstabs. Rows 和 columns Chi-Square, Phi and Cramer’s V row

示例：性别与工资的联系。

交互分析的结果卡方检验。 P<0.05 ，则拒绝 0假设，变

量之间具有显著联系。 Phi 值反应变量之间的关系强度， 0.5表

示高， 0.3表示一般， 0.1表示低。

四、 SPSS 数据的推断性统计分析 T检验方差分析 … …

1. T检验 T检验的目的是检验两个样本中存在的差异在

总体中是否也同样存在。 T检验的先决条件是：

两个样本是随机取样的；被比较的变量属于区间或比率等级；样本的抽样分布呈正态分布。

T检验是 0假设，即两者之间不存在差异。 T检验的结果：如果在置信度为 95％下，显著性水平 >0.05,则接受假设；如果 <0.05 ，拒绝假设。

T检验的 SPSS 操作 Analyze->Compare Means->Independ

ent T Test. 确定 T检验的变量；确定 T检验的分组变量。 Ok 即可。

示例：不同性别工资差异的 T检验。

2. 方差分析分析变量之间是否存在相关性。

例如：人的年龄是否受到地域的影响。不同地域的人的年龄，其平均年龄是否存在差异。

要求：因变量在影响因素的各个水平上的分布必须服从正态分布。

方差分析的原理—以单因素分析为例假定 H0 ：在某一自变量下的不同水平下，

总体均值 μ没有差异。将原始数据按照自变量的水平不同随机

分成 c 个组，然后进行分析：如果组内差异大而组间差异下，则说明两个

变量之间没有什么关联性；如果组间差异大而组内差异小，则说明两个

变量之间有某种关联性。

例子：人年龄与地域之间是否存在关联性

要解决的问题：

他们之间是否存在关联性？如果有，则：不同地域对人年龄的影响程度如何？哪些地域对人的年龄的影响明显？哪些地域对人年龄的影响最不明显？

解题步骤 1 ）原始数据按地域随机抽样。结果如下表：

地域 1 地域 2 地域 38281828283

7980808180

8384838585

＝ 82 ＝ 80 ＝ 84X 1X 2 X 3

解题步骤 2 ）假定：由于三个样本取自同一总体，因而其均值 μ相同。但各自的有差异。因此

假设 H0 ： μ1 ＝ μ2 ＝ μ3

（含义：地域对人的年龄没有影响，其本身的样本均值与总体均值不同是由于抽样的波动引起的。）

X 1

解题步骤 3 ）求组间变差与联合方差

82)828082(3

11 X

cX

41

1)(2

2

XXcSX

3

2

)1(

...11 )()(

22

2

nccc XXXXS p

组间样本总平均值：

组间样本总方差：

联合方差：

解题步骤 4） . F检验：如果Ho 为真， F比值将围绕着 1波动；如果Ho不真， F 值将倾向于比 1 大很多。

30

3245

2

2

p

X

S

nSF1)F 值：

2)F 的自由度

分子自由度： df1=c-1=3-1=2

分母自由度： df2=c(n-1)=3(5-1)=12

3)用 F 分布表查Ho 的概值。其概值远远小于 0.001, 趋近于 0 。

Ho 的概值小于 0.05 （ μ 的显著水平），拒绝 Ho 。

解题步骤 5 ）对方差的方差齐性检验该检验是对自变量不同水平下各观测变量总体

方差是否相等进行检验。因为方差分析的前提是“自变量不同水平下观测变量总体方差无显著差异”。

分析过程：用 t检验，首先分析 p 值（概值）是否大于 a(=0.05)，如果大于，方差无显著差异；然后，比较两个总体均值的 t检验结果，如果 t 统计量对应的两端的概率 p 值大于 a ，无显著差异，如果小于，则有显著差异。

解题步骤 6） . 多重比较检验确定自变量的不同水平对观测变量的影响程度。

这种检验比较复杂，方法也很多，其中 LSD敏感性最强。

结果总体描述及 95％置信区间

Descriptives

Æ«ÏòÐÔ

5 82.0000 .70711 .31623 81.1220 82.8780 81.00 83.00

5 80.0000 .70711 .31623 79.1220 80.8780 79.00 81.00

5 84.0000 1.00000 .44721 82.7583 85.2417 83.00 85.00

15 82.0000 1.85164 .47809 80.9746 83.0254 79.00 85.00

comÓòÃû

eduÓòÃû

govÓòÃû

Total

N Mean Std. Deviation Std. Error Lower Bound Upper Bound

95% Confidence Interval forMean

Minimum Maximum

地域 1

地域 2

地域 3

检验结果 1 ）概值趋近于 0 ，小于 0.05 ，拒绝Ho ，不同地域下人的年龄有显著差异。

2 ）回归的概值为 0.002 ，地域与人的年龄之间不是零线性相关。

ANOVA

Æ«ÏòÐÔ

40.000 2 20.000 30.000 .000

10.000 1 10.000 15.000 .002

30.000 1 30.000 45.000 .000

8.000 12 .667

48.000 14

(Combined)

Contrast

Deviation

Linear Term

BetweenGroups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

1). 单因素方差分析 Analyze->Compare Means-On Way ANOVA.

Dependent list 选择因变量； Factor 选择自变量。 posHoc 选择 R-E-G-W Q和 Tukey 。 Option 选择 Describtive 和 Homogeneity of V tes

t. 结果：如果 Post Hoc Tests 检验中 p<0.05 ，

则具有显著差异。

例子：职务与工资的方差分析。

2). 多因素方差分析

SPSS: Analyze->General Linear Model->Univariate. Dependent Variable, Fixed Factors. Options 选择 Descriptive St.

例子：职务、性别与工资的方差分析。

3.卡方检验目的：检验样本中自变量与应变量之间

的关系在总体中是否存在。 0假设：自变量与应变量之间的关系在总

体中不存在。结论：如果 p>0.05 ，拒绝 0假设。卡方检验要求自变量与因变量都是分隔

变量。

卡方检验的 SPSS 操作 SPSS ： Analyze->Descriptive Statisti

cs-> Crosstabs. Rows 和 columns Chi-Square Ok.

五、 SPSS 数据的预测分析线性回归对数回归 ……

关于回归分析回归分析是社会研究中进行定量分析的基本方法，主要解决 3 个方面的问题： ①确定几个变量间是否存在相关关系；若存在，则找出它们之间合适的数学表达式。

②据一个或几个变量值，预测或控制另一个或几个变量的值，且要知道这种控制或预测可达何种精确度。

③进行因素分析，即在共同影响一个变量的多个变量（因素）间，找出主要和次要因素及其相互关系。

变量之间的两种关系确定性关系

问题 1 ：正方形的面积 y 与正方形的边长 x之间的函数关系是 y = x2 。－－确定性关系

非确定性关系－－相关关系问题 2 ：某水田水稻产量 y 与施肥量 x 之间

是否有一个确定性的关系？

相关关系的回归分析对具有相关关系的两个变量进行统计分

析的方法叫回归分析。

注：自变量取值一定时，因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。

现实生活中的相关关系

人的身高与年龄；产品的成本与生产数量；商品的销售额与广告费；家庭的支出与收入。

回归方程对具有相关关系的现象，选择一适当的数学关系式，用以说明一个或一组变量变动时，另一变量或一组变量平均变动的情况，这种关系式称为回归方程。

如果所择关系式是线性的，就称为线性回归分析；反之，则称为非线性回归分析。

线性回归是回归分析的基本模型，很多复杂的情况都是转化为线性回归进行处理。

线性回归分析－－最小二乘法

n n(x -x)(y -y) x y -nxyi i i i

i=1 i=1b= = ,n n 22 2(x -x) x -nxi ii=1 i=1ˆa=y-bx.

n n1 1x= x ,y= y .i in ni=1 i=1

其中

ˆˆ ˆy bx a

例子：大学生身高与体重的关系从某大学中随机选出 8 名大学生，其身高

和体重数据如下表：编号 1 2 3 4 5 6 7 8

身高 165 165 157 170 175 165 155 170

体重 48 57 50 54 64 61 43 59

求大学生的身高与体重的回归方程。

结果

172.85849.0ˆ xy回归方程：

相关系数

ｒ＞０正相关；ｒ＜０负相关。通常， r>0.75 ，认为两个变量有很强的相

关性。本例中，由上面公式 r=0.798>0.75 ．

n(x -x)(y -y)i i

i=1r=n n2 2(x -x) (y -y)i ii=1 i=1

1.利用 SPSS 求线性回归 SPSS ： Analyze->Regression->Linear.

因变量 dependent 和自变量 Idependent OK 即可。

示例：工作年限与工资水平的线性回归。

线性回归的结果 Model Summary ： R 方用来解释应变

量中有多少可以被自变量所解释。 ANOVA 方差分析：判断回归模型是否有

统计学意义。如果 P<0.05, 具有意义。 Coefficients ：具体的数学模型 y=a+bx。

Coefficientsa

22843.324 6362.214 3.590 .000

142.723 77.844 .084 1.833 .067

(Constant)

Months since Hire

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Current Salarya.

2.利用 SPSS 求对数回归非线性回归。通常用来求应变量是分隔变量的回归模型，而且要求应变量只有两个值，因此需要对变量进行重新编码。

SPSS ： Analyze-> Regression-Binary Logistic.

示例：职务与工资之间的对数回归模型。

SPSS 的使用心得要掌握统计学的基本知识；使用 SPSS 之前要先对数据进行宏观把握；

要根据数据以及分析思路选择合适的 SPSS命令。