第 3 章 数据描述统计分析
3.1 集中趋势的测定与分析
3.2 离中趋势的测定与分析
3.3 分布形态的测定与分析
3.4 描述统计工具
本章学习目标
Excel描述数据集中趋势的工作表函数及其应用 Excel描述数据离中趋势的工作表函数及其应用 Excel描述数据分布形态的工作表函数及其应用 Excel描述统计工具的内容及其应用
3.1 集中趋势的测定与分析
3.1.1 集中趋势的测定内容
3.1.2 用Excel工作表函数描述集中趋势
3.1.3 三种平均数的特点
返回首页
3.1.1 集中趋势的测定内容
在统计研究中,需要搜集大量数据并对其进行加工整理,对这些数据进行整理之后发现:大多数情况下数据都会呈现出一种钟形分布,即各个变量值与中间位置的距离越近,出现的次数越多;与中间位置距离越远,出现的次数越少,从而形成了一种以中间值为中心的集中趋势。这个集中趋势是现象共性的特征,是现象规律性的数量表现。
返回本节
3.1.2 用 Excel 工作表函数描述集中趋势
1.均值函数( 1 )算术平均数。( 2 )调和平均数。( 3 )几何平均数。
2.中位数(中位次数)函数中位数是指全体数值按大小排列后位于中间的数值。 语法: MEDIAN(number1,number2, ...)
如 果 参 数 集 合 中 包 含 有 偶 数 个 数 字 , 函 数MEDIAN() 将返回位于中间的两个数的平均值。
3.众数函数众数是一组数列中出现次数最多的数值,众数函数 MODE() 返回某一数组或数据区域中出现频率最多的数值。与 MEDIAN 相同, MODE 也是一个位置测量函数。语法: MODE(number1,number2, ...)
如果数据集合中不含有重复的数据,则 MODE()函数返回错误值 N/A 。
4.最大(小)值函数最 大 ( 小 ) 值 函 数 可 以 返 回 数 据 集 中 的 最 大(小)数值。语法: MAX(number1,number2,...)
MIN(number1,number2, ...)
如果参数不包含数字,函数 MAX ( MIN )返回0 。
返回本节
3.1.3 三种平均数的特点
众数是一组数据中出现次数最多的变量值,它用于对分类数据的概括性度量,其特点是不受极端值的影响,但它没有利用全部数据信息,而且还具有不惟一性。一组数据可能有众数,也可能没有众数;可能有一个众数,也可能有多个众数。
中位数是一组数据按大小顺序排序后处于中间位置上的变量,它主要用于对顺序数据的概括性度量。
均值是一组数据的算术平均,它利用了全部数据信息,是概括一组数据最常用的一个值。
例 3-1 某商场家用电器销售情况如图 3-1 所示。( 1 )计算各种电器的全年平均销售量,如图 3-
2 所示。( 2 )计算各种电器销售量的中位数,如图 3-3
所示。( 3 )计算各种电器销售量的众数,如图 3-4 所
示。
图 3-1 某商场家用电器销售情况
图 3-2 家用电器销售量平均数
图 3-3 家用电器销售量中位数
图 3-4 家用电器销售量众数返回本节
3.2 离中趋势的测定与分析
3.2.1 离中趋势的测定内容3.2.2 用 Excel 函数计算标准差3.2.3 四分位数与四分位距
返回首页
3.2.1 离中趋势的测定内容
在研究现象总体标志的一般水平时,不仅要研究总体标志的集中趋势,还要研究总体标志的离中趋势,如研究价格背离价值的平均程度。研究离中趋势可以通过计算标志变异指标来进行。标志变异指标是同统计平均数相联系的一种综合指标,用于度量随机变量在取值区间内的分布情况,主要有平均差、标准差、方差、四分位数、百分位数等。在一般计算中,这些指标计算是比较复杂的,但在 Excel 中都有相应的函数,因而使计算变得很简单。
返回本节
3.2.2 用 Excel 函数计算标准差
1 .样本标准差 2 .总体标准差
1 .样本标准差
样本标准差函数用来估算样本的标准偏差,反映相对于平均值( mean )的离散程度, Excel 计算样本标准差采用不偏估计式(亦即自由度= n-1 ),其计算公式为
1
22
nn
xxns
语法: STDEV(number1,number2,...)
2 .总体标准差
总体标准差函数返回以参数形式给出的整个样本总体的标准偏差,反映相对于平均值( mean )的离散程度。计算总体标准差使用整个总体的变量,通常采用偏性估计式(亦即自由度为 n),其计算公式为
2
22
n
xxn
语法: STDEVP(number1,number2,...)
例 3-2 使用例 3-1 资料,计算各家电销售量的总体标准差,如图 3-5 所示。
图 3-5 计算总体标准差
例 3-3 两组工人生产某种零件的产量如图 3-6所示。
图 3-6 两组工人产量
图 3-7 计算产量平均数
图 3-8 计算两组工人产量标准差
图 3-9 计算两组工人产量标准差系数
返回本节
3.2.3 四分位数与四分位距
四分位数是将中值的前后两部分数值再等分为二,以数值小的一端算起,前半部的分区点称为第 1 四分位数,后半部的分区点称为第 3 四分位数,而中值即为第 2 四分位数。四分位数通常用于在销售额和测量值数据集中对总体进行分组。语法: QUARTILE(array,quart)
array :需要求四分位数值的数组或数字型单元格区域。quart :决定返回哪一个四分位值。Quart 值与 QUARTILE 返回值的对应关系见表 3-1 所示。
quart 值 函数 QUARTILE 返回值
0 最小数值
1 第一个四分位数(第 25 个百分排位)
2 中分位数(第 50 个百分排位)
3 第三个四分位数(第 75 个百分排位)
4 最大数值
表 3-1 Quart 值与 QUARTILE 返回值的对应关系
例 3-4 使用例 3-1 资料,计算四分位数和四分位距,如图 3-10 所示。
图 3-10 计算四分位数和四分位距 返回本节
3.3 分布形态的测定与分析
3.3.1 分布形态的测定内容3.3.2 用 Excel 工作表函数描述分布形态
返回首页
3.3.1 分布形态的测定内容
只用集中趋势和离中趋势来表示所有数据,难免不够准确。分析总体次数的分布形态有助于识别整个总体的数量特征。总体的分布形态可以从两个角度考虑,一是分布的对称程度,另一个是分布的高低。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。峰度是掌握分布形态的另一指标,它能描述分布的平缓
或陡峭程度。如果峰度数值等于零,说明分布为正态;如果峰度数值大于零,说明分布呈陡峭状态;如果峰度数值小于零,说明分布形态趋于平缓。
返回本节
3.3.2 用 Excel 工作表函数描述分布形态
1.偏度函数2.峰度函数
1.偏度函数
偏度函数返回分布的偏斜度。偏斜度反映以平均值为中心的分布的不对称程度。正偏斜度表示不对称边的分布更趋向正值,负偏斜度表示不对称边的分布更趋向负值。其计算公式为
3
21
s
xx
nn
n i
语法: SKEW(number1,number2,...)
2.峰度函数
峰度函数返回数据集的峰值,表示次数分布高峰的起伏状态。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布,负峰值表示相对平坦的分布。其计算公式为
32
)1(3
321
1 24
nn
n
s
xx
nnn
nn i
语法: KURT(number1,number2, ...)
例 3-5 使用例 3-1 资料,计算各家电销售量的偏度和峰度,如图 3-11 所示。
返回本节
3.4 描述统计工具
对于统计数据的一些常用统计量,比如均值、中位数、众数、标准差、峰度系数、偏度系数等,可以利用上述统计函数计算。但 Excel提供了一种更快捷的方法,就是描述统计工具。描述统计分析工具用于生成数据源区域中数据的单变量统计分析报表,它可以同时计算出一组数据的多个常用统计量,提供有关数据集中趋势和离中趋势以及分布形态等方面的信息。
返回首页
例 3-6 调查某企业生产车间 10名工人的月工资水平,资料如图 3-12 所示。用描述统计工具对工人工资数据进行分析。
图3-12
工资资
料
图 3-13 “ 统计描述”对话框
图 3-14 “ 描述统计”工具输出结果返回本节