3.2 独立性检验的基本思想及其初步应用(一)
高二数学 选修 2-3 第三章 统计案例
2
—— r定量变量 回归分析(画散点图、相关系数 、
R变量 相关指数 、残差分析)——分类变量
研究两个变量的相关关系:
定量变量:体重、身高、温度、考试成绩等等。变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
P91两种变量:( 教材 第一、二分类变量: 自然段)
独立性检验独立性检验本节研究的是两个分类变量的独立性检验问题。
在日常生活中,我们常常关心分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
吸烟与肺癌列联表不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了 9965 人,得到如下结果(单位:人)
列联表列联表 ( 教材 P91 第三自然段 )
在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患
肺癌的可能性大。
0.54%2.28%
探究探究
不患肺癌 患肺癌 总计不吸烟 7775 42 7817
吸烟 2099 49 2148总计 9874 91 9965
11 、 列 联、 列 联表表
2 、 三 维 柱 形图
不患肺癌 患肺癌 吸烟不吸烟
不患肺癌患肺癌
吸烟不吸烟0
8000
7000
6000
5000
4000
3000
2000
1000
从三维柱形图能清晰看出各个频数的相对大小 .
从二维条形图能看出 , 吸烟者中患肺癌的比例高于不患肺癌的比例 .
通过图形直观判断两个分类变量是否相关:
3 、二维条形图
不吸烟 吸烟0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
不吸烟 吸烟
患肺癌比例
不患肺癌比例
3 、 等 高 条 形图
等高条形图更清晰地表达了两种情况下患肺癌的比例。
上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢?这需要用统计观点来考察这个问题。 现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,为此先假设
H0 :吸烟与患肺癌没有关系 .
不患肺癌 患肺癌 总计不吸烟 a b a+b
吸烟 c d c+d总计 a+c b+d a+b+c+d
把表中的数字用字母代替,得到如下用字母表示的列联表
用 A 表示不吸烟, B 表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设H0 等价于 P(AB)=P(A)P(B).
因此 |ad-bc| 越小,说明吸烟与患肺癌之间关系越弱; |ad-bc| 越大,说明吸烟与患肺癌之间关系越强。
不患肺癌 患肺癌 总计不吸烟 a b a+b
吸烟 c d c+d总计 a+c b+d a+b+c+d
ad bc即
a a+b a+c≈ ×
n n n
a+b
P(A) ,n
a+c
P(B) ,n
.a
P(AB)n
其中 为样本容量,即n=a+b+c+d
在表中, a 恰好为事件 AB 发生的频数; a+b和 a+c 恰好分别为事件 A和 B 发生的频数。由于频率接近于概率,所以在 H0 成立的条件下应该有
(a+b+c+d)a (a+b) (a+c),
为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量 ----- 卡方统计量
22 ( )
,( )( )( )( )
其中 为样本容量。
n ad bcK
a b c d a c b d
n a b c d
( 1 )
若 H0 成立,即“吸烟与患肺癌没有关系”,则 K2 应很小。根据表 3-7 中的数据,利用公式( 1 )计算得到 K2 的观测值
为:
那么这个值到底能告诉我们什么呢?
242 209956.632
7817 2148 9874 91k
9965(7775 49 )
( 2 )
独立性检验
在 H0 成立的情况下,统计学家估算出如下的概率 即在 H0 成立的情况下, K2 的值大于 6.635 的概率非常小,近似于 0.01 。
2( 6.635) 0.01.P K (2)
也就是说,在 H0 成立的情况下,对随机变量 K2 进行多次观测,观测值超过 6.635 的频率约为 0.01 。思考
206.635 ?K H如果 ,就断定 不成立,这种判断出错的可能性有多大
答:判断出错的概率为 0.01 。2
0
0
9965 7775 49 42 209956 632
7817 2148 9874 91
( ).k
H
H
现在观测值 太大了,
0.01在 成立的情况下能够出现这样的观测值的概率不超过 ,
99% 99% “因此我们有 的把握认为 不成立,即有 的把握认为 吸烟
”与患肺癌有关系 。
判断 是否成立的规则0H如果 ,就判断 不成立,即认为吸烟与患肺癌有关系;否则,就判断 成立,即认为吸烟与患肺癌没有关系。
6.635k 0H
0H
独立性检验的定义 ( 教材 P93 最后一行 ) 上面这种利用随机变量 K2 来确定在多大程度
上可以认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验。
在该规则下,把结论“ 成立”错判成“ 不成立”的概率不会差过
0H 0H2( 6.635) 0.01,P K
即有 99% 的把握认为 不成立。0H
独立性检验的基本思想(类似独立性检验的基本思想(类似反证法反证法))(1) 假设结论不成立 , 即 “两个分类变量没有关系” .0 :H
(2) 在此假设下我们所构造的随机变量 K2 应该很小 , 如果由观测数据计算得到 K2 的观测值 k 很大 ,则在一定可信程度上说明 不成立 . 即在一定可信程度上认为“两个分类变量有关系”;如果 k 的值很小,则说明由样本观测数据没有发现反对 的充分证据。
0H
0H
(3) 根据随机变量 K2 的含义 , 可以通过评价该假设不合理的程度 , 由实际计算出的 , 说明假设合理的程度为 99%, 即“两个分类变量有关系”这一结论成立的可信度为约为 99%.
反证法原理与独立性检验原理的比较反证法原理与独立性检验原理的比较
反证法原理:反证法原理:在假设 H0 下,如果推出一个矛盾,就证明了 H0 不成立 .独立性检验原理:独立性检验原理:在假设 H0 下,如果出现一个与 H0 相矛盾的小概率事件,就推断 H0 不成立,且该推断犯错误的概率不超过这个小概率 .
怎样判断怎样判断 KK22 的观测值的观测值 kk 是大还是小呢?是大还是小呢? 这仅需要确定一个正数 ,当 时就认为 K2 的观测值 k 大。此时相应于 的判断规则为:
0k 0k k0k
如果 ,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”。
0k k0k ----临界值
按照上述规则,把“两个分类变量之间没有关系”错误的判断为“两个分类变量之间有关系”的概率为 P( ).2
0K k在实际应用中,我们把 解释为有
的把握认为“两个分类变量之间有关系”;把 解释为不能以 的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据。
0k k 2(1 ( )) 100%P K k
0k k2(1 ( )) 100%P K k
在实际应用中,要在获取样本数据之前通过下表确定临界值:
0.50 0.40 0.25 0.15 0.10
0.455 0.708 1.323 2.072 2.706
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.636 7.879 10.828
0 )k2P(K
0k
0k0 )k2P(K
具体作法是:具体作法是:(1) 根据实际问题需要的可信程度确定临界值 ;
(2) 利用公式 (1) ,由观测数据计算得到随机变量 的观测值;
(3) 如果 ,就以 的把握认为“ X与 Y有关系”;否则就说样本观测数据没有提供“ X与 Y 有关系”的充分证据。
0k2K
0k k 20(1 ( )) 100%P K k
随机变量 ----- 卡方统计量2
2 ( ),
( )( )( )( )
其中 为样本容量。
n ad bcK
a b c d a c b d
n a b c d
4 、独立性检验
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.8280k
0 )k2P(K
临界值表
828.102 K
635.62 K
706.22 K2 2.706K
0.1% 把握认为 A 与 B无关
1% 把握认为 A 与 B无关
99.9% 把握认 A 与 B有关
99% 把握认为 A 与 B有关
90% 把握认为 A 与 B有关
10% 把握认为 A 与 B无关
没有充分的依据显示 A 与 B 有关,但也不能显示 A 与B 无关
第一步: H0 : 吸烟和患病之间没有关系
患病 不患病 总计吸烟 a b a+b
不吸烟 c d c+d
总计 a+c b+d a+b+c+d
第二步:列出 2×2 列联表
5 、独立性检验的步骤
第三步:计算
第四步:查对临界值表,作出判断。))()()((
)( 22
dcbadbca
bcadnK
P(≥k0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例 1 在某医院,因为患心脏病而住院的 665名男性病人中,有214 人秃顶;而另外 772名不是因为患心脏病而住院的男性病人中有 175 人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?解:根据题目所给数据得到如下列联表:
患心脏病 不患心脏病 总计秃顶 214 175 389
不秃顶 451 597 1048总计 665 772 1437
相应的等高条形图如右图所示,因此可以在某种程度上认为“秃顶与患心脏病有关”。0%
20%
40%
60%
80%
100%
患心脏病 不患心脏病
不秃顶秃顶
例 1 在某医院,因为患心脏病而住院的 665名男性病人中,有214 人秃顶;而另外 772名不是因为患心脏病而住院的男性病人中有 175 人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?解:根据题目所给数据得到如下列联表:
患心脏病 不患心脏病 总计秃顶 214 175 389
不秃顶 451 597 1048总计 665 772 1437
根据联表 1-13 中的数据,得到2
2 1437 (214 597 175 451)16.373 6.635.
389 1048 665 772K
所以有 99% 的把握认为“秃顶患心脏病有关”。
例 1. 秃头与患心脏病 ①在解决实际问题时,可以直接
计算 K2 的观测值 k 进行独立检验,而不必写出 K2 的推导过程 。
②本例中的边框中的注解,主要是使得学生们注意统计结果的适用范围(这由样本的代表性所决定)。
因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.
例 2 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取 300名学生,得到如下联表:
喜欢数学课程 不喜欢数学课程 总计男 37 85 122女 35 143 178
总计 72 228 300
由表中数据计算 K2 的观测值 k 4.514 。能够以 95% 的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出结论的依据。
解:可以有 95% 以上的把握认为“性别与喜欢数学课程之间有关系”。分别用 a,b,c,d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数。如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例 与女生中喜欢数学课的比例 应该相差很多,即
a
a bc
c d
( )( )
a c ad bc
a b c d a b c d
( )( )( )
( )( )
a b c d a b c d
a c b d
例 2 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取 300名学生,得到如下联表:
喜欢数学课程 不喜欢数学课程 总计男 37 85 122女 35 143 178
总计 72 228 300
由表中数据计算 K2 的观测值 k 4.514 。能够以 95% 的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出结论的依据。
22 ( )
,( )( )( )( )
n ad bcK
a b c d a c b d
因此, 越大, “性别与喜欢数学课程之间有关系”成立的可能性就越大。2K
另一方面,在假设“性别与喜欢数学课程之间有关系”的前提下,事件
的概率为2{ 3.841}K 2( 3.841) 0.05,P K
因此事件 A 是一个小概率事件。而由样本数据计算得 的观测值 k=4.514,即小概率事件 A 发生。因此应该断定“性别与喜欢数学课程之间有关系”成立,并且这种判断结果出错的可能性约为 5% 。所以,约有 95% 的把握认为“性别与喜欢数学课程之间有关系”。
2K
例 3.在 500 人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外 500名未用血清的人的感冒记录作比较,结果如表所示。 未感冒 感冒 合计
使用血清 252 248 500
未使用血清 224 276 500
合计 476 524 1000
试画出列联表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?并进行独立性检验。
解:设 H0 :感冒与是否使用该血清没有关系。
075.7500500526474
2162422842581000 22
K
因当 H0 成立时, K2≥6.635 的概率约为 0.01 ,故有 99% 的把握认为该血清能起到预防感冒的作用。
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
有效 无效 合计口服 58 40 98
注射 64 31 95
合计 122 71 193
解:设 H0 :药的效果与给药方式没有关系。
3896.1959871122
40643158193 22
K
因当 H0 成立时, K2≥1.3896 的概率大于 15% ,故不能否定假设 H0 ,即不能作出药的效果与给药方式有关的结论。
例 4 :为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的 193 个病人的数据,能否作出药的效果和给药方式有关的结论?
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例 5 :气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?
有效 无效 合计复方江剪刀草 184 61 245
胆黄片 91 9 100
合计 275 70 345
解:设 H0 :两种中草药的治疗效果没有差异。
098.1110024570275
91619184345 22
K
因当 H0 成立时, K2≥10.828 的概率为 0.001 ,故有 99.9% 的把握认为,两种药物的疗效有差异。
例 6 、某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?
物理 化学 总分数学优秀 228 225 267
数学非优秀 143 156 99
注:该年级此次考试中,数学成绩优秀的有 360 人,非优秀的有 880 人。
物理优秀 物理非优秀 合计数学优秀
数学非优秀合计
( 1 )列出数学与物理优秀的 2x2 列联表如下
228 132 360
143 737 880
371 869 1240
代入公式可得 2 270.1143.K
注:该年级此次考试中,数学成绩优秀的有 360 人,非优秀的有 880 人。
物理 化学 总分数学优秀 228 225 267
数学非优秀 143 156 99
( 2 )列出数学与化学优秀的 2x2 列联表如下化学优秀 化学非优秀 合计
数学优秀数学非优秀合计
225 135 360
156 724 880
381 859 1240
( 3 )列出数学与总分优秀的 2x2 列联表如下总分优秀 总分非优秀 合计
数学优秀数学非优秀合计
267 93 360
99 781 880
366 874 1240
代入公式可得 2 240.6112.K
代入公式可得 2 2486.1225.K