第 7 章 回归分析

Preview:

DESCRIPTION

第 7 章 回归分析. 7.1 线性回归分析的基本原理 7.2 图表分析与回归函数分析 7.3 Excel 回归分析工具 7.4 多元回归分析 7.5 非线性回归分析 7.6 品质变量回归分析. 下一页. 返回目录. 7.1 线性回归分析的基本原理. 7.1.1 回归分析的概念 7.1.2 回归分析的主要内容. 上一页. 下一页. 返回本章首页. 7.1.1 回归分析的概念. - PowerPoint PPT Presentation

Citation preview

第 7 章 回归分析 7.1 线性回归分析的基本原理 7.2 图表分析与回归函数分析 7.3 Excel 回归分析工具 7.4 多元回归分析 7.5 非线性回归分析 7.6 品质变量回归分析

下一页 返回目录

7.1 线性回归分析的基本原理

7.1.1 回归分析的概念 7.1.2 回归分析的主要内容

上一页 下一页 返回本章首页

7.1.1 回归分析的概念

现实世界中大多数现象表现为相关关系,人们通过大量观察,将现象之间的相关关系抽象概括为函数关系,并用函数形式或模型来描述与推断现象间的具体变动关系,用一个或一组变量的变化来估计与推算另一个变量的变化。这种分析方法称为回归分析。

上一页 下一页 返回本节首页

7.1.2 回归分析的主要内容

回归参数估计 方程拟合效果评价 回归参数的推断

上一页 下一页 返回本节首页

7.2 图表分析与回归函数分析

7.2.1 利用图表进行回归分析 7.2.2 Excel中的回归分析工作表函数 7.2.3 利用工作表函数进行回归分析

上一页 下一页 返回本章首页

7.2.1 利用图表进行回归分析例 近年来国家教育部决定将各高校的后勤社 会化。某从事饮食业的企业家认为这是一 个很好的投资机会,他得到十组高校人数 与周边饭店的季销售额的数据资料,并想 根据高校的数据决策其投资规模。

上一页 下一页 返回本节首页

操作过程:

上一页 下一页 返回本节首页

① 打开“第 7 章 简单线性回归 .xls” 工作簿,选择“饭店” 工作表,如下图所示。

② 从“插入”菜单中选择“图表”选项,打开“图表向导”对话框如下图所示。在“图表类型”列表中选择 XY 散点图,单击“下一步”按钮。

上一页 下一页 返回本节首页

③ 在数据区域中输入 B2:C11 ,选择“系列产生在——列”,如下图所示,单击“下一步”按钮。

上一页 下一页 返回本节首页

④ 打开“图例”页面,取消图例,省略标题,如下图所示。

上一页 下一页 返回本节首页

⑤ 单击“完成”按钮,便得到 XY 散点图如下图所示。

0

50

100

150

200

250

0 5 10 15 20 25 30

上一页 下一页 返回本节首页

⑥ 如图 1 所示,用鼠标激活散点图,把鼠标放在任一数据点上,单击鼠标右键,打开菜单,在菜单栏里选择“填加趋势线”选项,打开趋势线对话框如图 2 所示。

图 1

上一页 下一页 返回本节首页

图 2上一页 下一页 返回本节首页

⑦ 打开“类型”页面,选择“线性”选项, Excel 将显示一条拟合数据点的直线。

⑧ 打开“选项”页面如图 3 所示,在对话框下部选择“显示公式”和“显示 R 平方根”选项,单击“确定”按钮,便得到趋势回归图如图 4 所示。

图 3上一页 下一页 返回本节首页

y = 5x + 60

R2 = 0. 9027

0

50

100

150

200

250

0 5 10 15 20 25 30

图 4

上一页 下一页 返回本节首页

7.2.2 Excel 中的回归分析工作表函数

截距函数 INTERCEPT 功能:利用已知的 x 值与 y 值计算回归直线在 y 轴 的截距。 语法结构: INTERCEPT(known_y's,known_x's)

斜率函数 SLOPE 功能:返回根据 known_y‘s 和 known_x’s 中的数据 点拟合的线性回归直线的斜率。 语法结构: SLOPE(known_y's,known_x's)

上一页 下一页 返回本节首页

测定系数函数 RSQ 功能:返回根据 known_y‘s 和 known_x’s 中数 据点 计算得出的 Pearson 乘积矩相关系数的平方。 语法结构: RSQ(known_y's,known_x's)

估计标准误差函数 STEYX 功能:返回通过线性回归法计算 y 预测值时所产生 的标准误差。标准误差用来度量根据单个 x 变量计算出的 y 预测值的误差量。 语法结构: STEYX(known_y's,known_x's)

上一页 下一页 返回本节首页

7.2.3 利用工作表函数进行回归分析

例 某企业希望确定其产品制造过程中的每 月成本支出与产量之间的关系,以制定 生产计划。试根据该企业选择历年的产 量 ( 吨 )和成本支出 ( 千元 )的样本,计算 上面四个函数值。

上一页 下一页 返回本节首页

操作过程:

① 打开“第 10 章 简单线性回归 .xls” 工作簿,选择“成本产量”工作表,如下图所示。

上一页 下一页 返回本节首页

② 在单元格 A19、 A20、 A21 和 A22 中分别输入“截距 b0”、“斜率 b1”、“估计标准误差”和“测定系数” 。

③ 在单元格 B19 中输入公式:“ =INTERCEPT(C2:C15,B2:B15)” ,单击回车键。

④ 在单元格 B20 中输入公式: “=SLOPE(C2:C15,B2:B15)” ,单击回车键。⑤ 在单元格 B21 中输入公式: “=STEYX(C2:C15,B2:B15)” ,单击回车键。⑥ 在单元格 B22 中输入公式: “=RSQ(C2:C15,B2:B15)” ,单击回车键。上一页 下一页 返回本节首页

7.3 Excel 回归分析工具

7.3.1 回归分析工具的主要内容 7.3.2 回归分析工具的应用 7.3.3 回归分析工具的输出解释

上一页 下一页 返回本章首页

7.3.1 回归分析工具的主要内容

回归分析工具是通过对一组观察值使用“最小平方法”进行直线拟合,以分析一个或几个自变量对单个因变量的影响方向与影响程度的方法。它是 Excel 中数据分析工具的一个内容。回归分析的对话框如图 5 所示 。

上一页 下一页 返回本节首页

图 5上一页 下一页 返回本节首页

7.3.2 回归分析工具的应用

例 某房地产经纪人从政府部门列举的地 区中随机抽取了 15户居民作为样本, 记录了他们的家庭住房面积及其相应 的价格,他想确认一下住房面积(平 方米)与价格(千元)的关系,并想 据此拟合住房价格的回归方程。

上一页 下一页 返回本节首页

操作过程:

① 打开“第 7 章 简单线性回归 .xls” 工作簿,选择“住房”工作表如下图所示。

上一页 下一页 返回本节首页

② 在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框如下图所示。

上一页 下一页 返回本节首页

③ 在“分析工具”列表中选择“回归”选项,单击“确定”按钮,打开“回归”对话框如下图所示。

上一页 下一页 返回本节首页

④ 在 Y 值输入区域中输入 C1:C16 。⑤ 在 X 值输入区域中输入 B1:B16 。

⑥ 选择“标志”,置信度选择 95% 。⑦ 在“输出选项”中选择“输出区域”,在其右边的位置输入

“ D1” ,单击 “确定”按钮。输出结果如下图所示。

上一页 下一页 返回本节首页

Excel 的回归分析工具计算简便 ,但内容丰富,计算结果共分为三个模块: 回归统计表 方差分析表 回归参数

7.3.3 回归分析工具的输出解释

上一页 下一页 返回本节首页

回归统计表包括以下几部分内容: Multiple R(复相关系数 R): R2 的平方根,又称为

相关系数,它用来衡量变量 x 和 y 之间相关程度的大小。

上节例中: R 为 0.848466 ,表示二者之间的关系是 高度正相关。 R Square(复测定系数 R2 ) :用来说明用自变量解释因

变量变差的程度,以测量同因变量 y 的拟合效果。 上节例中:复测定系数为 0.719894 ,表明用自变量可解释因变量变差的 71.99% 。

1. 回归统计表

上一页 下一页 返回本节首页

Adjusted R Square (调整复测定系数 R2) :仅用于多元回归才有意义,它用于衡量加入独立变量后模型的拟合程度。当有新的独立变量加入后,即使这一变量同因变量之间不相关,未经修正的 R2也要增大,修正的 R2仅用于比较含有同一个因变量的各种模型。

标准误差:又称为标准回归误差或叫估计标准误差,它用来衡量拟合程度的大小,也用于计算与回归有关的其他统计量,此值越小,说明拟合程度越好。

上一页 下一页 返回本节首页

观测值:是指用于估计回归方程的数据的观测值个数。

2. 方差分析表 方差分析表的主要作用是通过 F检验来判断回归

模型的回归效果。3. 回归参数表 如下页图所示,回归参数表是表中最后一个部分:

上一页 下一页 返回本节首页

上一页 下一页 返回本节首页

图中,回归参数如下: Intercept :截距 β0

第二、三行: β0( 截距 ) 和 β1( 斜率 ) 的各项指标。 第二列:回归系数 β0( 截距 ) 和 β1( 斜率 ) 的值。 第三列:回归系数的标准误差 第四列:根据原假设 Ho : β0=β1=0 计算的样本 统计量 t 的值。 第五列:各个回归系数的 p 值 (双侧 )

第六列: β0 和 β195% 的置信区间的上下限。 上一页 下一页 返回本节首页

7.4 多元回归分析

7.4.1 案例研究:销售额与广告媒体的关系

7.4.2 回归输出结果解释

上一页 下一页 返回本章首页

7.4.1 案例研究:销售额与广告媒体的关系

例 某 VCD连锁店非常想知道在电视台做广告与在广播

电台做广告哪种媒体更有效。它收集了连锁店各个 商店的每月销售额(万元)和每月用在以上两种媒 介的广告支出。试问: 在显著性水平为 0.05 的基础上,销售额是否同两种媒介的广告有关?

每种媒介上的广告支出额对销售额的影响如何? 哪种广告形式带来的成本效益更高 ?

上一页 下一页 返回本节首页

操作过程:

① 打开“第 7 章 多元回归分析 .xls” 工作簿,选择“ VCD” 工作表,如下图所示。

上一页 下一页 返回本节首页

② 在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框,在“分析工具”列表中选择 “回归”选项,单击“确定”按钮,进入“回归”对话框。

③ 在“ Y 值输入区域”中输入 A1:A21 单元格,它代表销售额的数据范围。

④ 在“ X 值输入区域”中输入 B1:C21 单元格,这里包括“广播”与“电视”两个自变量,回归工具要求自变量之间必须是相邻的,不能隔开。

上一页 下一页 返回本节首页

⑤ 选中标志。选择 95% 的置信度⑥ 在“输出区域”中输入 D1 单元格,表示输出结果的起

点。单击“确定”按钮。得多元回归计算结果如下图所示。

上一页 下一页 返回本节首页

10.4.2 回归输出结果解释

1. 回归统计表 调整复测定系数为 28.99% ,这说明两种媒

体的广告支出只能解释销售额变动的 29% ,大约销售额变动的 71% 要由其他因素的变动来解释。

估计标准误差为 210.9553 ,说明实际值与估计值之间的误差 。

上一页 下一页 返回本节首页

2. 方差分析表 方差分析的目的是进行回归方程的回归效果检验, F统计量的 P 值约等于 0.021 ,小于显著水平 0.05 ,说明方程回归效果显著,方程中至少有一个回归系数显著不为零。

上一页 下一页 返回本节首页

3. 回归参数表 回归方程为:

广播广告支出的回归系数的 t统计量的 p 值近似等于 0.013 。说明在显著性水平 0.05 时要拒绝原假设,而在 0.1 显著水平时接受原假设。此题中的 p 值证明每月用于广播的广告支出同VCD盘的销售额是相关的。

21 75.127151.154565.256ˆ xxy

上一页 下一页 返回本节首页

电视广告支出的回归系数的 t统计量的 p 值很高,接近 0.18 ,值得注意。尽管它的回归系数同用于广播广告支出的回归系数比较接近,但如此大的 p 值说明电视广告支出同销售额之间不存在相关,那么抽取的回归系数不为零的的概率就是 p值 (0.18) 。在给定 5% 的显著性水平下,无法拒绝 β2 为零的原假设。结论便是电视广告支出回归系数不显著。

上一页 下一页 返回本节首页

决策建议: 用于广播的广告支出的回归系数比较大,并且比

用于电视广告支出的回归系数显著,这说明 VCD连锁店应该把更多的广告支出用于广播,而减少对电视台的广告支出。

上一页 下一页 返回本节首页

7.5 非线性回归分析

7.5.1 非线性关系的线性化 7.5.2 案例研究:成本产量多项式模型拟合 7.5.3 案例研究:产量收益对数模型拟合

上一页 下一页 返回本章首页

7.5.1 非线性关系的线性化 实际分析工作中,有许多回归模型的因变

量与自变量之间的关系并不呈现线性关系,此时,可以通过线性变换来使其线性化,从而利用回归分析工具进行分析。

上一页 下一页 返回本节首页

1. 多项式模型 在只有一个自变量的情况下,多项式模型形式如下:

2. 对数模型 对数模型方程为:

...ˆ 2210 xbxbby

)(xbLnay

上一页 下一页 返回本节首页

3. 幂函数 幂函数的方程形式为:4. 指数模型 指数模型方程为:

baxy

bxcey

上一页 下一页 返回本节首页

7.5.2 案例研究:成本产量多项式模型拟合

例 某企业财务经理欲对企业的成本进行控制, 为了掌握成本与产量的数量关系,需要拟 合一个成本函数。财务经理搜集了 50 组成 本与产量的资料,试以 0.05 的显著水平拟

合 二项成本函数。

上一页 下一页 返回本节首页

操作过程:

① 打开“第 10 章 回归分析 .xls” 工作簿,选择“多项式”工作表,如下图所示。

上一页 下一页 返回本节首页

绘制成本产量散点图,详细过程参照 10.2.1 制图过程。如下图所示。

成本产量散点图

10

30

50

70

90

450 950 1450 1950 2450产量

成本

上一页 下一页 返回本节首页

② 在 B 栏中任选一个单元格,打开“插入”菜单,选择“列”选项,则在 A、 B两列之间增加一列,成本数据将被移到 C 列。新列必须放在“产量”列旁边,因为 Excel 要求自变量是相邻的。

③ 在单元格 B1 中输入“产量平方”,在单元格 B2中输入公式“ =A2^2”以计算 A2 单元格数值的平方,并复制到 B3:B51 区域中的各个单元格中。如下页图所示。

上一页 下一页 返回本节首页

上一页 下一页 返回本节首页

④ 在 “工具”菜单中选择“数据分析”选项,打开“数据分析”对话框,“分析工具”列表中选择 “回归”选项,单击“确定”按钮 , 进入“回归”对话框,如下图所示。

上一页 下一页 返回本节首页

⑤ 在“ Y 值输入区域”中输入 C1:C51 ,它代表成本的数据范围,在“ X 值输入区域”中输入 A1:B51 ,这里包括“产量”与“产量平方”两个自变量,回归工具要求自变量之间必须是相邻的,不能隔开。

⑥ 选中标志。选择 95% 的置信度。

上一页 下一页 返回本节首页

⑦ 在“输出区域”中输入 D1 单元格,表示输出结果的起点。单击“确定”按钮。得多元回归计算结果如下图所示。

上一页 下一页 返回本节首页

回归计算结果分析:

R Square 约为 0.79 说明产量与产量平方这两个变量可解释成本变化的 79% ,而其余的 21% 变动要由其他因素的影响来解释。

F统计量为约 89.18 ,根据 F统计量得到的 P 值近似为 0 ,远远小于显著水平 0.05 ,说明回归方程有效。

回归系数分别在单元格 E18 和 E19 中,其相应的t检验值及 p 值表明回归系数显著不为零,能够解释成本的变化。

据此可写出方程:y=12.78-0.1255x+0.000044x2 上一页 下一页 返回本节首页

7.5.3 案例研究:产量收益对数模型拟合

例 某制衣企业想了解产量与收益之间 的关系,为此收集整理了历年的产 量收益数据资料情况,根据这些资 料建立适当模型说明产量收益之间 的关系。

上一页 下一页 返回本节首页

操作过程:

① 打开“第 10 章 回归分析 .xls” 工作簿,选择“对数”工作表如下图所示。

上一页 下一页 返回本节首页

② 制作产量收益散点图判断采用的模型形式,如下图所示。

产量收益散点图

05

1015202530354045

0 500 1000 1500 2000 2500 产量

收益

上一页 下一页 返回本节首页

③ 利用回归分析工具得到分析结果如下图所示。

上一页 下一页 返回本节首页

回归计算结果分析:

R Square 约为 0.87 说明产量与产量平方这两个变量可解释成本变化的 87% ,而其余的 13% 变动要由其他因素的影响来解释。

F统计量为约 318.83 ,根据 F统计量得到的 P 值近似为 0 ,远远小于显著水平 0.05 ,说明回归方程有效。

回归系数分别在单元格 E17 和 E18 中,其相应的 t检验值及 p 值表明回归系数显著不为零,能够解释成本的变化。

据此可写出方程: y =- 162.05+25.83Ln(x)

上一页 下一页 返回本节首页

7.6 品质变量回归分析

7.6.1 两种表现的品质变量回归分析 7.6.2 多种表现的品质变量回归分析

上一页 下一页 返回本章首页

7.6.1 两种表现的品质变量回归分析

例 某大学教务处对学生的动手能力颇感兴趣,在 研究中发现学生的学习成绩特别是统计成绩同 计算机有关。他们将学生分成两类,一类是利 用计算机学习统计,另一类是不用计算机学习 统计。现随机从利用计算机与不用计算机的学 生中抽取两个样本,包括统计成绩和过去的绩 分点在显著水平 0.05 上,能否确定使用计算机 学生的统计成绩高于不使用计算机学生的统计 成绩?

上一页 下一页 返回本节首页

操作过程:

① 打开“第 7 章 回归分析 .xls” 工作簿,选择“计算机”工作表如下图所示。

上一页 下一页 返回本节首页

② 在 C 栏中任选一个单元格,打开“插入”菜单,选择“列”选项,则在 B、 C两列之间增加一列。

③ 在单元格 C1 中输入“计算机”。在单元格C2 中输入条件函数 IF 的表达式“ =IF(D2=”

是“ ,1,0)” ,式中表示如果真则为 1 ,如果不真则为 0 。单元格 C2 显示值 1 ,将其复制到 C3:C21 各单元格中。

上一页 下一页 返回本节首页

④ 在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框,在“分析工具”列表中选择 “回归”选项,单击“确定”按钮,进入“回归”对话框,如下图所示。

上一页 下一页 返回本节首页

⑤ 在“ Y 值输入区域”输入地址为 A1:A21 ,在“ X 值输入区域”输入地址为 B1:C21;选择“标志”和 95% 的置信度。

⑥ 在“输出区域”中输入 E2 ,单击“确定”按钮,得计算结果如下图所示。

上一页 下一页 返回本节首页

7.6.2 多种表现的品质变量回归分析

例 现有某地区 15 个房地产的售价、居住面 积、评估价值和建筑等级 (低、中、高 ) 。 试根据表中资料拟合售价的预测模型 。

上一页 下一页 返回本节首页

操作过程:

①  打开“第 7 章 回归分析 .xls” 工作簿,选择“房地产”工作表如下图所示。

上一页 下一页 返回本节首页

② 在单元格 E1、 F1 和 G1 中分别输入“高”、“中”和“低”。

③ 在单元格 E2 中输入公式:= IF(D2=“高” ,1,0) 。

④ 在单元格 F2 中输入公式 IF(D2=“中” ,1,0) 。⑤ 在单元格 G2 中输入公式: IF= (D2=“低” ,1,0)

⑥ 将单元格 E2:G2 的内容复制到 E3:G16 区域中的各单元格。

上一页 下一页 返回本节首页

⑦ 选中 D 列,点击鼠标右键,在弹出的工具条中选择“剪切”;再选中 H 列,点击鼠标右键,在弹出的工具条中选择“插入剪切单元格” ,则调整后的工作表如下图所示。

上一页 下一页 返回本节首页

⑧ 在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框,在“分析工具”列表中选择 “回归”选项,单击“确定”按钮,进入“回归”对话框,如下图所示。

上一页 下一页 返回本节首页

⑨在“ Y 值输入区域”输入地址为 A1:A16 单元格;在“ X 值输入区域”输入地址为 B1:E1 单元格选择“标志”和 95% 的置信度;在“输出区域”中输入 A25 单元格;单击“确定”按钮,计算结果如下图所示。

上一页 下一页 返回本节首页