第七讲描述性统计分析

第七讲描述性统计分析描述性统计量概述描述性统计分析推断性统计基础回顾推断性统计基础分析缺省值和无穷值

一描述性统计量概述变量和个体样本均值和方差偏度和峰度次序统计量与样本分位数相关系数与相关系数阵

1.1 变量和个体概念：我们关心的是总体中每个个体的一组变量

（或指标）从该总体做按照某种方式随机地抽出 n 个个体进行观测，所得的观察结果记录为：

其中每一行对应一个个体各个变量的观察结果，每一列为不同个体同一变量的观察结果。变量可以是数值型的，也可以是字符型的或名义型的。

11 12 1

21 22 2

1 2

...

...

...

m

m

n n nm

x x x

x x x

x x x

1.2 样本均值和方差概念：若，，…，为一容量为 n 的单指标样本观察值。

样本均值 (mean) 就是，，…，的平均值，它反映分布集中趋势的特征。表达式为：

样本方差 (variance) 是描述样本取值分散化程度的一个度量，它是样本值相对于均值的偏差平方的平均

采用 n-1 平均是为了保证方差估计的无偏性。样本方差的开方称为样本标准差 (std deviation) ，即

样本标准差 =s=

1

1 n

ii

x xn

2 2

1

1( )

1

n

ii

s x xn

2s

1.3 偏度和峰度概念：1. 偏度 =

注：偏度是反映样本分布偏离对称的程度指标。样本的分布有对称分布和非对称分布，非对称分布包括不同程度的左偏态分布和右偏态分布。关于均值对称的数据其偏度为 0 ，右侧更分散的数据偏度为正，反之则偏度为负。

2. 峰度 =

注：峰度是以同方差的正态分布为标准，比较两侧极端数据分布情况的指标。若两侧极端数据较多，峰度为正，反之则峰度为负。正态分布的峰度为 0 。样本的偏度和峰度分别是总体的偏度和峰度的估计量。

33

1

( )( 1)( 2)

n

ii

nx x

n n s

24

41

( 1) ( 1)( ) 3

( 1)( 2)( 3) ( 2)( 3)

n

ii

n n nx x

n n n s n n

1.4 次序统计量与样本分位数概念：1. 次序统计量 (order statistics) ：将样本按

数值由小至大排序得到的统计量

注：次序统计量反映了样本分布在秩方面的信息。2. 极值 3. 极差（ Range ）：极大值和极小值之差：极差 =

注：同方差一样，极差也是描述样本数据离散程度的一个统计量。

(1) (2) ( ), ,..., nx x x

(1)1min ii n

x x

( )1maxn ii n

x x

( ) (1)nx x

4. 中位数 (median) ：

注：与均值相似，中位数也是描述样本数据中心位置的统计量。数据中大于和小于中位数的样本个数是一样的，大体上各占总样本一半。中位数的一个优点是它不受异常值的影响，具有稳健性。

5. p －分位数 :(p-quantile)

注：其中表示取整。分位数是描述样本分布和位置的统计量。 0.5分位数就是中位数， 0.75 分位数和 0.25 分位数又分别称为上、下四分位数（ upper ， lower- quantile ）。上下分位数之差称为四分位极差或半极差。

(( 1) / 2)

( / 2) ( / 2 1)

,

( ) / 2n

n n

x n

x x n

为奇数中位数=

为偶数

([ ] 1)])

,

)npnp

x np

x np

([np]+1)

([

不是整数（x /2 是整数

[ ]

1.5 相关系数与相关系数阵相关系数：

相关系数阵：

注：分别为变量和的样本观测值的均值。

1

2 2

1 1

( )( )

( ) ( )

n

i jik jkk

ij n n

i jik jkk k

x x x x

x x x x

12 1

21 2

1 2

1

1

1

m

m

m m

,i jx x iX jX

二描述性统计分析用菜单计算描述性统计量

演示一：计算 ozone.data 中 rad 变量的描述性统计量演示二：分组 temp 变量计算 rad 的描述性统计量演示三：求 ozone.data 中的四变量的相关阵

用 S 语言计算描述性统计量

S-PLUS 函数

描述

quantilemeanmedianstemvarbysummaryapply ， lapply ，sapply ， tapply

计算数据的分位数计算数据的均值计算数据的中位数绘制茎叶图计算数据的方差，如果包含两个变量，则计算协方差阵按照索引拆分数据集给出一个对象的描述性统计量对矩阵和数阵按行或列计算用 apply ，对列表的元素计算

用 lapply 或 sapply ，对数据集的子集进行计算用 tapply

2.1 用菜单计算描述性统计量演示一：计算 ozone.data 中 rad 变量的描述性统计量步骤：

1. StatisticsData SummariesSummary Statistics ，

2. 在变量表中 rad 处点击鼠标，选中rad 变量（要同时对数据集中的多个变量进行描述性统计，只需同时选中所有需要分析的变量），3. 点击 Statistics ，在弹出的新窗口中选择需要输出的统计量（点击前面的小方框，每次点击方框都会改变其状态，由打勾变为不打勾或由不打勾变为打勾） .

演示二：分组 temp 变量计算 rad 的描述性统计量

步骤：1. StatisticsData SummariesSummary Statistics ，2. 在变量表中 rad 处点击鼠标，使 rad 变亮（选中），3. 在 Group Variables 中点击 temp ，使其变亮（选中），4. 点击 Statistics ，弹出新的窗口，选择需要输出的结果

演示三：求 ozone.data 中的四变量的相关阵

步骤：1. 将光标移至数据表表头，按住 Ctrl 键，同时选择 rad 、 te

mp 、 wind 和 ozone 四个变量，2. 依次点击 StatisticsData SummariesCorrelations ，3. 在 Type 选项中可以分别选择 Correlations( 或 Covaria

nces) ，

2.2 用 S 语言计算描述性统计量函数：

1. summary( ) : 计算变量的常用描述性统计量2. stem( ) ：画出变量的茎叶图3. quantile( ) ：求出变量的分位数4. var/stdev/median/mean/sum ：计算常见统计量5. tapply( ) ：按照其他变量分类拆分数据进行计算6. by( ) ：拆分数据集，进而分析

例子：P105-110

上海财经大学统计学系

三假设检验回顾步骤：

1. 根据问题确立原假设和备择假设；2. 确定一个显著水平，用来限制犯第一类错误的概率；3. 决定合适的检验统计量，根据样本来计算统计量的值并和衡量结果极端性的 p 值；

4. 比较值和作出判断。

注：原假设成立时拒绝原假设（第一类错误）和原假设不成立时接受原假设（第二类错误）。这两类错误是互相矛盾的，减小其中一个必定增加另一个，所以在实际中一般预先限定发生第一类错误发生的概率（）而尽可能地减少第二错误发生的概率。取值越小，对原假设的保护程度就越高。

0H 1H

p

条件检验条件量拒绝域H0 、 H1

(1) H0 ： μ=μ0

H1 ： μ≠μ02

2

z

(2) H0 ： μ≤μ0

H1 ： μ ＞ μ0

(3) H0 ： μ≥μ0

H1 ： μ ＜ μ

z

Z0

zZ－ 0

n

xZ

0

正态总体 σ2

已知


(1) H0 ： μ=μ0

H1 ： μ≠μ02

2

t

(2) H0 ： μ≤μ0

H1 ： μ ＞ μ0

(3) H0 ： μ≥μ0

H1 ： μ ＜ μ

t

t0

t

t－ 0

ns

xt 0

2

t2

t0正态总体 σ2

未知 (n＜ 30)


(1) H0 ： μ=μ0

H1 ： μ≠μ02

2

z

(2) H0 ： μ≤μ0

H1 ： μ ＞ μ0

(3) H0 ： μ≥μ0

H1 ： μ ＜ μ

z

Z0

z

Z－ 0

2

Z2

Z0n

xZ

0

nS

xZ 0

非正态总体 n≥

30σ2 已知或未知


(1) H0 ： μ1=μ2

H1: μ1 ≠ μ2

2

2

z

(2) H0 ： μ1 ≤ μ2 H1: μ1 ＞ μ2

(3) H0 ： μ1 ≥ μ2 H1 ： μ1 ＜ μ2

z

Z0

z

Z－ 0

2

Z2

Z0

2

22

1

21

21

nn

xxZ

两个正态总体

21 2

2,已知


(1) H0 ： μ1=μ2

H1: μ1 ≠ μ2

2

2

z

(2) H0 ： μ1 ≤ μ2 H1: μ1 ＞ μ2

(3) H0 ： μ1 ≥ μ2 H1 ： μ1 ＜ μ2

z

Z0

z

Z－ 0

2

Z2

Z0

2

22

1

21

21

nn

xxZ

两个正态总体

21 2

2,已知


(1) H0 ： μ1 = μ2 H1 ： μ1 ≠ μ2

2

2

(2) H0 ： μ1 ≤ μ2 H1 ： μ1 ＞ μ2

(3) H0 ： μ1 ≥ μ2 H1 ： μ1 ＜ μ2

Z0

z

Z－ 0

2

Z2

Z0

两个非正态体n1≥30

n2≥3021 2

2,已知或

未知

2

22

1

21

21

nn

xxZ

2

22

1

21

21

nS

nS

xxZ

z

z


4.1 用菜单做统计推断演示：验证变量 temp 的均值与 78 度是否有显著差异

步骤：1. StatisticsCompare SamplesOne Sample t Tes

t2. 在变量列表中选择变量 temp ，3. 在 Mean Under Null Hypothesis 中用键盘输入数字 78 ，4. 在 Confidence Level 中选择置信水平的数值，默认值为 0.

95,5. 在 Alternative Hypothesis 中选择假设检验，默认值为“ two.sided”,

注：由于该变量的方差未知，我们采用检验法

t


One-sample t-Testdata ： temp in ozone.data t = -0.2291 ， df = 110 ， p-value = 0.8192 alternative hypothesis ： mean is not equal to 78 95 percent confidence interval ： 76.00020 79.58539 sample estimates ： mean of x 77.79279分析：p>0.05 ，应该接受原假设，即 temp 的均值为 78 ，同时附带给出的结果还有置信区间。图单样本 t 检验对话框


假设检验函数S-PLUS 函数备注binom.test 完全二项检验chisq.test 卡方检验和拟合优度检验chisq.gof 二维联列表的卡方检验cor.test 两样本零相关系数检验fisher.test 二维联列表的费雪完全检验friedman.test 弗里得曼秩和检验ks.gof 对单 \双样本的科尔莫戈罗夫 -斯米尔偌夫检验mantelhaen.test 芒泰尔 -亨策尔检验 prop.test 成功率检验var.test 两样本方差比较所用 F检验Wilcox.test 威尔科克森秩和检验


4.2 用 S 语言作统计推断与分布相关的函数及其代号

函数代号函数类型

d 密度函数 density

p 累积概率密度函数 probability

q 分位数函数 quantile

r 随机数生成函数 random

dnorm 表示正态密度函数 pnorm 表示正态累积概率密度函数 qnorm 表示正态分位数函数（即正态累积概率密度函数的逆函数）

rnorm 表示正态随机数生成函数。


常见的分布函数（一）分布 S-PLUS名

字参数

beta beta shape1 ， shape2

binomial binom size ， prob

Cauchy Cauchy location ， scale

chi-square chisq df

exponential exp rate

F f df1 ， df2

gamma gamma shape ， rate

geometric geom. prob

hypergeometric hyper m， n， k


常见的分布函数（二）分布 S-PLUS名

字参数

logistic logis location ， scale

negative binomial nbinom size ， prob

normal norm mean ， sd

multivariate normal

mvnorm mean ， cov

Poission pois lambda

T t df

uniform unif min ， max

Weibull weibull shape ， scale

Wilcoxon wilcox m n


例一：验证 temp 变量是否服从正态分布

QQ 图是用来判别一组样本是否服从某个分布的常用工具 >plot(qnorm(ppoints(temp)) ， sort(temp)) >qqline(temp)

图 temp 变量的 QQ 图从图上可以看出 temp 变量分布用正态分布去拟合基本合理。

qnorm(ppoints(temp))

so

rt(t

em

p)

-2 -1 0 1 2

60

70

80

90


例二：产生混合正态分布随机数

>rnorm(50 ， 0 ， (1+2*rbinom(50 ， 1 ，0.05))) 注：这 50 个数便服从混合正态分布（ 0.95×N(0 ， 1)+0.05×N(0 ，

9) ）注：随机数生成函数产生的数子只是伪随机数，

并不是真正随机的，一般在调用“ r” 函数前需要用 set.seed(n)设置种子数。


例三：作出标准正态分布密度函数图>x<-seq(-5 ， 5 ， by=0.01) 注：做密度函数图形常用 d 函数>y<-dnorm(x)>plot(x ， y ， type="l" ， xlab="" ， ylab="Density value" ，main=paste("Density of the standard normal distribution" ， sep=""))

标准正态分布密度函数图

Density of the standard normal distribution

De

nsity V

alu

e

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4


例四：检验 temp 变量均值是否等于 78

分析：我们并不知道 temp 变量的方差，所以不得不用样本标准差s来代替，采用 t检验，同时选取置信水平为 0.95

>attach(ozone.data) >t.test(temp ， mu=78 ， conf.level=0.95)One-sample t-Testdata ： temp t = -0.2291 ， df = 110 ， p-value = 0.8192 alternative hypothesis ： mean is not equal to 78 95 percent confidence interval ：76.00020 79.58539 sample estimates ： mean of x 77.79279 将上面结果与点击菜单作出的结果比较后发现两者是一模一样的。根据输出的结果，我们接受原假设，这仅仅说明 78 与真正的均值相差还不是太远，并不是说总体均值就是 78 。


例五：卡方拟和优度检验 temp 变量是否服从正态分布

分析：利用 chisq.gof() 函数做一次非参数拟合优度检验，以检验“ temp 的分布为正态”的假设。

>chisq.gof(temp ， distribution="normal") Chi-square Goodness of Fit Test

data ： temp Chi-square = 1443 ， df = 13 ， p-value = 0 alternative hypothesis ： True cdf does not equal the normal Distn. for at le

ast one sample point.注：结果拒绝了原假设，所以用正态分布去拟合 temp 变量是有一定问题的，正如在作 QQ 图时提到的一样， temp 变量的分布具有明显地厚尾性


例六： Kolmogorov-Smirnov 拟和优度检验

分析：正态分布是不能处理厚尾性的。其实在作统计检验时，通常可以根据需要选择不同的检验统计量，比如在做分布的假设检验时， chisq.gof() 可以由 ks.gof()替代，相应的检验称为 Kolmogorov-Smirnov检验，也是一种非参数的分布检验方法

>ks.gof(temp ， y=NULL ， distribution=”normal”)One sample Kolmogorov-Smirnov Test of Composite Normalitydata ： temp ks = 0.0912 ， p-value = 0.0238 alternative hypothesis ： True cdf is not the normal distn. with estimated parameters sample estimates ：mean of x standard deviation of x 77.79279 9.529969

注：该检验同样拒绝了原假设。


五缺省值和无穷值缺省值问题

情况：在一次调查城市居民生活质量的活动中，被调查对象可能拒绝回答一部分问题，这就产生了缺省值

一些没有意义的计算也可以产生缺省值，比如求一个负数的对数值、 0/0等

处理： S-PLUS 将缺省值设定为 NA(Not Available 的简称 ) ，而不管数值的类型。并且NA 可以出现在数据文件或命令操作的过程中。一旦碰到 NA ，系统可自动识别该数据为缺省值。

判定一个值是否为缺省值可用 is.na() 函数方法：

1. 将所有非缺省值的 x 抽出来 >x.no.na<-x[!is.na(x)]2. 在函数（如 mean 和 median ）中设置参数选项 na.rm=T ，

其默认参数为 na.rm=F ，即在计算（均值和中位数）前将缺省值排除。象 var() 需要将默认项改为 na.method=“omit”


五缺省值和无穷值无穷值问题

情况：一般无穷值是由于不恰当的运算造成的，比如：零除一

个非零数就是无穷大，但由于被除数是带有符号的，所以无穷大又分为正无穷和负无穷。

处理： S-PLUS 用 inf代表无穷大判定一个值是否为无穷值可用 is.inf() 函数

方法：1. 用 is.finite()检验一个值是否为有限值2. 可以使用 wichi.na( )/which.inf( ) 函数来确定向量中

的 NA 或 inf 的位置 >x<-(-1 ： 1)/0 >which.na(x) >which.inf(x)


第五次作业（ 4.3-4.13)1. Generate 100 and 1000 random numbers,

both samples from a normal distribution with mean value 3 and variance 5. Draw histograms with bandwidth 0.5, 1, and 2 for each of the two samples.Remember that all figures have exactly the same underlying distribution . Plot them all in a single graphics window and label them accordingly. What is visible?

2. 画出自由度为 4,6,8,10,20,30 的 t 分布密度函数图形并在一张图上和标准正态分布密度函数图形作比较，你能得出什么结论？

Documents

第七讲 描述性统计分析

第七讲描述性统计分析