Download ppt - 3.2 独立性检验的基本思想及其初步应用（一）

3.2 独立性检验的基本思想及其初步应用（一）

高二数学选修 2-3 第三章统计案例

2

—— r定量变量回归分析（画散点图、相关系数、

R变量相关指数、残差分析）——分类变量

研究两个变量的相关关系：

定量变量：体重、身高、温度、考试成绩等等。变量分类变量：性别、是否吸烟、是否患肺癌、

宗教信仰、国籍等等。

P91两种变量：( 教材第一、二分类变量：自然段)

独立性检验独立性检验本节研究的是两个分类变量的独立性检验问题。

在日常生活中，我们常常关心分类变量之间是否有关系：例如，吸烟是否与患肺癌有关系？性别是否对于喜欢数学课程有影响？等等。

吸烟与肺癌列联表不患肺癌患肺癌总计

不吸烟 7775 42 7817

吸烟 2099 49 2148

总计 9874 91 9965

为了调查吸烟是否对肺癌有影响，某肿瘤研究所随机地调查了 9965 人，得到如下结果（单位：人）

列联表列联表 ( 教材 P91 第三自然段 )

在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明：吸烟者和不吸烟者患肺癌的可能性存在差异，吸烟者患

肺癌的可能性大。

0.54%2.28%

探究探究

不患肺癌患肺癌总计不吸烟 7775 42 7817

吸烟 2099 49 2148总计 9874 91 9965

11 、列联、列联表表

2 、三维柱形图

不患肺癌患肺癌吸烟不吸烟

不患肺癌患肺癌

吸烟不吸烟0

8000

7000

6000

5000

4000

3000

2000

1000

从三维柱形图能清晰看出各个频数的相对大小 .

从二维条形图能看出 , 吸烟者中患肺癌的比例高于不患肺癌的比例 .

通过图形直观判断两个分类变量是否相关：

3 、二维条形图

不吸烟吸烟0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

不吸烟吸烟

患肺癌比例

不患肺癌比例

3 、等高条形图

等高条形图更清晰地表达了两种情况下患肺癌的比例。

上面我们通过分析数据和图形，得到的直观印象是吸烟和患肺癌有关，那么事实是否真的如此呢？这需要用统计观点来考察这个问题。现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”，为此先假设

H0 ：吸烟与患肺癌没有关系 .

不患肺癌患肺癌总计不吸烟 a b a+b

吸烟 c d c+d总计 a+c b+d a+b+c+d

把表中的数字用字母代替，得到如下用字母表示的列联表

用 A 表示不吸烟， B 表示不患肺癌，则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”，即假设H0 等价于 P(AB)=P(A)P(B).

因此 |ad-bc| 越小，说明吸烟与患肺癌之间关系越弱； |ad-bc| 越大，说明吸烟与患肺癌之间关系越强。

不患肺癌患肺癌总计不吸烟 a b a+b

吸烟 c d c+d总计 a+c b+d a+b+c+d

ad bc即

a a+b a+c≈ ×

n n n

a+b

P(A) ,n

a+c

P(B) ,n

.a

P(AB)n

其中为样本容量，即n=a+b+c+d

在表中， a 恰好为事件 AB 发生的频数； a+b和 a+c 恰好分别为事件 A和 B 发生的频数。由于频率接近于概率，所以在 H0 成立的条件下应该有

(a+b+c+d)a (a+b) (a+c),

为了使不同样本容量的数据有统一的评判标准，基于上述分析，我们构造一个随机变量 ----- 卡方统计量

22 ( )

,( )( )( )( )

其中为样本容量。

n ad bcK

a b c d a c b d

n a b c d

（ 1 ）

若 H0 成立，即“吸烟与患肺癌没有关系”，则 K2 应很小。根据表 3-7 中的数据，利用公式（ 1 ）计算得到 K2 的观测值

为：

那么这个值到底能告诉我们什么呢？

242 209956.632

7817 2148 9874 91k

9965(7775 49 ）

（ 2 ）

独立性检验

在 H0 成立的情况下，统计学家估算出如下的概率即在 H0 成立的情况下， K2 的值大于 6.635 的概率非常小，近似于 0.01 。

2( 6.635) 0.01.P K （2）

也就是说，在 H0 成立的情况下，对随机变量 K2 进行多次观测，观测值超过 6.635 的频率约为 0.01 。思考

206.635 ?K H如果，就断定不成立，这种判断出错的可能性有多大

答：判断出错的概率为 0.01 。2

0

0

9965 7775 49 42 209956 632

7817 2148 9874 91

( ).k

H

H

现在观测值太大了，

0.01在成立的情况下能够出现这样的观测值的概率不超过，

99% 99% “因此我们有的把握认为不成立，即有的把握认为吸烟

”与患肺癌有关系。

判断是否成立的规则0H如果，就判断不成立，即认为吸烟与患肺癌有关系；否则，就判断成立，即认为吸烟与患肺癌没有关系。

6.635k 0H

0H

独立性检验的定义 ( 教材 P93 最后一行 ) 上面这种利用随机变量 K2 来确定在多大程度

上可以认为“两个分类变量有关系”的方法，称为两个分类变量的独立性检验。

在该规则下，把结论“ 成立”错判成“ 不成立”的概率不会差过

0H 0H2( 6.635) 0.01,P K

即有 99% 的把握认为不成立。0H

独立性检验的基本思想（类似独立性检验的基本思想（类似反证法反证法））(1) 假设结论不成立 , 即 “两个分类变量没有关系” .0 :H

(2) 在此假设下我们所构造的随机变量 K2 应该很小 , 如果由观测数据计算得到 K2 的观测值 k 很大 ,则在一定可信程度上说明不成立 . 即在一定可信程度上认为“两个分类变量有关系”；如果 k 的值很小，则说明由样本观测数据没有发现反对的充分证据。

0H

0H

(3) 根据随机变量 K2 的含义 , 可以通过评价该假设不合理的程度 , 由实际计算出的 , 说明假设合理的程度为 99%, 即“两个分类变量有关系”这一结论成立的可信度为约为 99%.

反证法原理与独立性检验原理的比较反证法原理与独立性检验原理的比较

反证法原理：反证法原理：在假设 H0 下，如果推出一个矛盾，就证明了 H0 不成立 .独立性检验原理：独立性检验原理：在假设 H0 下，如果出现一个与 H0 相矛盾的小概率事件，就推断 H0 不成立，且该推断犯错误的概率不超过这个小概率 .

怎样判断怎样判断 KK22 的观测值的观测值 kk 是大还是小呢？是大还是小呢？这仅需要确定一个正数，当时就认为 K2 的观测值 k 大。此时相应于的判断规则为：

0k 0k k0k

如果，就认为“两个分类变量之间有关系”；否则就认为“两个分类变量之间没有关系”。

0k k0k ----临界值

按照上述规则，把“两个分类变量之间没有关系”错误的判断为“两个分类变量之间有关系”的概率为 P( ).2

0K k在实际应用中，我们把解释为有

的把握认为“两个分类变量之间有关系”；把解释为不能以的把握认为“两个分类变量之间有关系”，或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据。

0k k 2(1 ( )) 100%P K k

0k k2(1 ( )) 100%P K k

在实际应用中，要在获取样本数据之前通过下表确定临界值：

0.50 0.40 0.25 0.15 0.10

0.455 0.708 1.323 2.072 2.706

0.05 0.025 0.010 0.005 0.001

3.841 5.024 6.636 7.879 10.828

0 )k2P(K

0k

0k0 )k2P(K

具体作法是：具体作法是：(1) 根据实际问题需要的可信程度确定临界值；

(2) 利用公式 (1) ，由观测数据计算得到随机变量的观测值；

(3) 如果，就以的把握认为“ X与 Y有关系”；否则就说样本观测数据没有提供“ X与 Y 有关系”的充分证据。

0k2K

0k k 20(1 ( )) 100%P K k

随机变量 ----- 卡方统计量2

2 ( ),

( )( )( )( )

其中为样本容量。

n ad bcK

a b c d a c b d

n a b c d

4 、独立性检验

0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001

0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.8280k

0 )k2P(K

临界值表

828.102 K

635.62 K

706.22 K2 2.706K

0.1% 把握认为 A 与 B无关

1% 把握认为 A 与 B无关

99.9% 把握认 A 与 B有关

99% 把握认为 A 与 B有关

90% 把握认为 A 与 B有关

10% 把握认为 A 与 B无关

没有充分的依据显示 A 与 B 有关，但也不能显示 A 与B 无关

第一步： H0 ：吸烟和患病之间没有关系

患病不患病总计吸烟 a b a+b

不吸烟 c d c+d

总计 a+c b+d a+b+c+d

第二步：列出 2×2 列联表

5 、独立性检验的步骤

第三步：计算

第四步：查对临界值表，作出判断。))()()((

)( 22

dcbadbca

bcadnK

P(≥k0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001

k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

例 1 在某医院，因为患心脏病而住院的 665名男性病人中，有214 人秃顶；而另外 772名不是因为患心脏病而住院的男性病人中有 175 人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系？你所得的结论在什么范围内有效？解：根据题目所给数据得到如下列联表：

患心脏病不患心脏病总计秃顶 214 175 389

不秃顶 451 597 1048总计 665 772 1437

相应的等高条形图如右图所示，因此可以在某种程度上认为“秃顶与患心脏病有关”。0%

20%

40%

60%

80%

100%

患心脏病不患心脏病

不秃顶秃顶

例 1 在某医院，因为患心脏病而住院的 665名男性病人中，有214 人秃顶；而另外 772名不是因为患心脏病而住院的男性病人中有 175 人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系？你所得的结论在什么范围内有效？解：根据题目所给数据得到如下列联表：

患心脏病不患心脏病总计秃顶 214 175 389

不秃顶 451 597 1048总计 665 772 1437

根据联表 1-13 中的数据，得到2

2 1437 (214 597 175 451)16.373 6.635.

389 1048 665 772K

所以有 99% 的把握认为“秃顶患心脏病有关”。

例 1. 秃头与患心脏病 ①在解决实际问题时，可以直接

计算 K2 的观测值 k 进行独立检验，而不必写出 K2 的推导过程。

②本例中的边框中的注解，主要是使得学生们注意统计结果的适用范围（这由样本的代表性所决定）。

因为这组数据来自住院的病人，因此所得到的结论适合住院的病人群体．

例 2 为考察高中生的性别与是否喜欢数学课程之间的关系，在某城市的某校高中生中随机抽取 300名学生，得到如下联表：

喜欢数学课程不喜欢数学课程总计男 37 85 122女 35 143 178

总计 72 228 300

由表中数据计算 K2 的观测值 k 4.514 。能够以 95% 的把握认为高中生的性别与是否喜欢数学课程之间有关系吗？请详细阐述得出结论的依据。

解：可以有 95% 以上的把握认为“性别与喜欢数学课程之间有关系”。分别用 a,b,c,d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数。如果性别与是否喜欢数学课有关系，则男生中喜欢数学课的比例与女生中喜欢数学课的比例应该相差很多，即

a

a bc

c d

( )( )

a c ad bc

a b c d a b c d

( )( )( )

( )( )

a b c d a b c d

a c b d

例 2 为考察高中生的性别与是否喜欢数学课程之间的关系，在某城市的某校高中生中随机抽取 300名学生，得到如下联表：

喜欢数学课程不喜欢数学课程总计男 37 85 122女 35 143 178

总计 72 228 300

由表中数据计算 K2 的观测值 k 4.514 。能够以 95% 的把握认为高中生的性别与是否喜欢数学课程之间有关系吗？请详细阐述得出结论的依据。

22 ( )

,( )( )( )( )

n ad bcK

a b c d a c b d

因此，越大， “性别与喜欢数学课程之间有关系”成立的可能性就越大。2K

另一方面，在假设“性别与喜欢数学课程之间有关系”的前提下，事件

的概率为2{ 3.841}K 2( 3.841) 0.05,P K

因此事件 A 是一个小概率事件。而由样本数据计算得的观测值 k=4.514,即小概率事件 A 发生。因此应该断定“性别与喜欢数学课程之间有关系”成立，并且这种判断结果出错的可能性约为 5% 。所以，约有 95% 的把握认为“性别与喜欢数学课程之间有关系”。

2K

例 3.在 500 人身上试验某种血清预防感冒作用，把他们一年中的感冒记录与另外 500名未用血清的人的感冒记录作比较，结果如表所示。未感冒感冒合计

使用血清 252 248 500

未使用血清 224 276 500

合计 476 524 1000

试画出列联表的条形图，并通过图形判断这种血清能否起到预防感冒的作用？并进行独立性检验。

解：设 H0 ：感冒与是否使用该血清没有关系。

075.7500500526474

2162422842581000 22

K

因当 H0 成立时， K2≥6.635 的概率约为 0.01 ，故有 99% 的把握认为该血清能起到预防感冒的作用。

P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001

k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001

k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

有效无效合计口服 58 40 98

注射 64 31 95

合计 122 71 193

解：设 H0 ：药的效果与给药方式没有关系。

3896.1959871122

40643158193 22

K

因当 H0 成立时， K2≥1.3896 的概率大于 15% ，故不能否定假设 H0 ，即不能作出药的效果与给药方式有关的结论。

例 4 ：为研究不同的给药方式（口服与注射）和药的效果（有效与无效）是否有关，进行了相应的抽样调查，调查的结果列在表中，根据所选择的 193 个病人的数据，能否作出药的效果和给药方式有关的结论？

P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001

k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

例 5 ：气管炎是一种常见的呼吸道疾病，医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比，所得数据如表所示，问：它们的疗效有无差异？

有效无效合计复方江剪刀草 184 61 245

胆黄片 91 9 100

合计 275 70 345

解：设 H0 ：两种中草药的治疗效果没有差异。

098.1110024570275

91619184345 22

K

因当 H0 成立时， K2≥10.828 的概率为 0.001 ，故有 99.9% 的把握认为，两种药物的疗效有差异。

例 6 、某校高三年级在一次全年级的大型考试中，数学成绩优秀和非优秀的学生中，物理、化学、总分也为优秀的人数如下表所示，则数学成绩优秀与物理、化学、总分也优秀哪个关系较大？

物理化学总分数学优秀 228 225 267

数学非优秀 143 156 99

注：该年级此次考试中，数学成绩优秀的有 360 人，非优秀的有 880 人。

物理优秀物理非优秀合计数学优秀

数学非优秀合计

（ 1 ）列出数学与物理优秀的 2x2 列联表如下

228 132 360

143 737 880

371 869 1240

代入公式可得 2 270.1143.K

注：该年级此次考试中，数学成绩优秀的有 360 人，非优秀的有 880 人。

物理化学总分数学优秀 228 225 267

数学非优秀 143 156 99

（ 2 ）列出数学与化学优秀的 2x2 列联表如下化学优秀化学非优秀合计

数学优秀数学非优秀合计

225 135 360

156 724 880

381 859 1240

（ 3 ）列出数学与总分优秀的 2x2 列联表如下总分优秀总分非优秀合计

数学优秀数学非优秀合计

267 93 360

99 781 880

366 874 1240

代入公式可得 2 240.6112.K

代入公式可得 2 2486.1225.K