独立性检验的基本思想及其初步应用(共5课时)
授课类型:新授课
一、教学内容与教学对象分析
通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方法解决一些实际问题。
① 通过对典型案例(如“患肺癌与吸烟有关吗”等)的探究。了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
② 通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、 方法及其初步应用。
二. 学习目标
1、知识与技能
通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。
2、过程与方法
在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义。从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。最后介绍了独立性检验思想的综合运用。
3、情感、态度与价值观
通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。明确数学在现实生活中的重要作用和实际价值。教学中,应多给学生提供自主学习、独立探究、合作交流的机会。养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。 三.教学重点、难点
教学重点:理解独立性检验的基本思想;独立性检验的步骤。 教学难点;1、理解独立性检验的基本思想;
2、了解随机变量K2的含义; 3、独立性检验的步骤。
四、教学策略
教学方法:诱思探究教学法
学习方法:自主探究、观察发现、合作交流、归纳总结。 教学手段:多媒体辅助教学
五、教学过程:
- 1 -
第一课时
对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍,等等.在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别对于是否喜欢数学课程有影响?等等.
为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
表3-7 吸烟与肺癌列联表
不患肺癌 患肺癌 总计 42 49 91 7817 2148 9965 不吸烟 7775 吸烟 总计 2099 9874 那么吸烟是否对患肺癌有影响吗?
像表3一7 这样列出的两个分类变量的频数表,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中,有0.54 %患有肺癌;在吸烟者中,有2.28%患有肺癌.因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.
与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3. 2 一1 是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.
图3.2一2 是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.
- 2 -
为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.
通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?
为了回答上述问题,我们先假设
H0:吸烟与患肺癌没有关系.用A表示不吸烟, B表示不患肺癌,则“吸烟与患肺癌没有关系”独立”,即假设 H0等价于
PAB)=P(A)+P(B) .
把表3一7中的数字用字母代替,得到如下用字母表示的列联表:
表3-8 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 b d b+d a+b c+d a+b+c+d 不吸烟 a 吸烟 总计 c a+c
在表3一8中,a恰好为事件AB发生的频数;a+b 和a+c恰好分别为事件A和B发生的频数.由于频率近似于概率,所以在H0成立的条件下应该有
aabac, nnn其中nabcd为样本容量, (a+b+c+d)≈(a+b)(a+c) ,
即ad≈bc.
因此,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad -bc|越大,说明吸烟与患肺癌之间关系越强.
- 3 -
为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量
nadbc2 (1) Kabcdacbd其中nabcd为样本容量.
若 H0 成立,即“吸烟与患肺癌没有关系”,则 K “应该很小.根据表3一7中的数据,利用公式(1)计算得到 K “的观测值为
29965777549422099K256.632,
78172148987491这个值到底能告诉我们什么呢?
统计学家经过研究后发现,在 H0成立的情况下,
2P(K26.635)0.01. (2)
2 (2)式说明,在H0成立的情况下,K的观测值超过 6. 635 的概率非常小,近似为0 .
201,是一个小概率事件.现在K的观测值k≈56.632 ,远远大于6. 635,所以有理由断定
H0不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系” .
在上述过程中,实际上是借助于随机变量K的观测值k建立了一个判断H0是否成立的规则:
如果k≥6. 635,就判断H0不成立,即认为吸烟与患肺癌有关系;否则,就判断H0成立,即认为吸烟与患肺癌没有关系.
在该规则下,把结论“H0 成立”错判成“H0 不成立”的概率不会超过
2P(K26.635)0.01,
即有99%的把握认为从不成立.
第二课时
上面解决问题的想法类似于反证法.要确认是否能以给定的可信程度认为“两个分类变量有关系”,首先假设该结论不成立,即
H0:“两个分类变量没有关系” 成立.在该假设下我们所构造的随机变量K应该很小.如果由观测数据计算得到的K的观测值k很大,则在一定可信程度上说明H0不成立,即在一定可信程度上认为“两个分类变量有关系”;如果k的值很小,则说明由样本观测数据没有发现反对H0 的充分证据.
怎样判断K的观测值 k 是大还是小呢?这仅需确定一个正数k0,当kk0时就认为
222K2的观测值k大.此时相应于k0的判断规则为:
如果kk0,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.
我们称这样的k0为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率为P(K2k0).
- 4 -
在实际应用中,我们把kk0解释为有(1P(K2k0))100%的把握认为“两个分类变量之间有关系”;把kk0解释为不能以(1P(K2k0))100%的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.上面这种利用随机变量K来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.
利用上面结论,你能从列表的三维柱形图中看出两个变量是否相关吗?
一般地,假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2}, 其样本频数列联表(称为2×2列联表)为:
表3一 9 2×2列联表 y1 y2 总计 x1 a b ab 2c d cd 总计 ac bd abcd
若要推断的论述为
Hl:X与Y有关系,
可以按如下步骤判断结论Hl 成立的可能性:
1.通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.
① 在三维柱形图中,主对角线上两个柱形高度的乘积ad 与副对角线上的两个柱形高度的乘积bc相差越大,H1成立的可能性就越大.
② 在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例
x2 ac,也可以估计满足条件X=x2的个体中具有Y=y2,的个体所占的比例.“两个比例abcd的值相差越大,Hl 成立的可能性就越大.
2.可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:
① 根据实际问题需要的可信程度确定临界值k0;
② 利用公式( 1 ) ,由观测数据计算得到随机变量K的观测值k;
③ 如果kk0,就以(1P(K2k0))100%的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据.
在实际应用中,要在获取样本数据之前通过下表确定临界值: 表3一10
2- 5 -
P(K2k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0
0.455 0.708 1.323 2.072 1.323 2.706 3.841 5.024 6.635 10.828 (四)、举例:
例1.在某医院,因为患心脏病而住院的 665 名男性病人中,有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶.
(1)利用图形判断秃顶与患心脏病是否有关系.
(2)能够以 99 %的把握认为秃顶与患心脏病有关系吗?为什么? 解:根据题目所给数据得到如下列联表: (1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.
(2)根据列联表3一11中的数据,得到
1437(214597175451)2≈16.373>6 . k3891048665772因此有 99 %的把握认为“秃顶与患心脏病有关” .
第三课时
例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:
表3一12 性别与喜欢数学课程列联表
男 女
2由表中数据计算得K的观测值k4.514.能够以95%的把握认为高中生的性别与是否喜欢
喜欢数学课程 不喜欢数学课程 总计 37 35 85 143 228 122 178 300 总计 72 数学课程之间有关系吗?请详细阐明得出结论的依据.
解:可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:
- 6 -
分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例
ac与女生中喜欢数学课的人数比例应该相差很多,即 abcd|acadbc||| abcd(ab)(cd)应很大.
将上式等号右边的式子乘以常数因子
(abcd)(ab)(cd)(ac)(bd)然后平方得
,
n(adbc)2 K,
(ab)(cd)(ac)(bd)2其中nabcd.因此K越大,“性别与喜欢数学课之间有关系”成立的可能性越大.
另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={K≥3. 841}的概率为P (K≥3. 841) ≈0.05,
因此事件 A 是一个小概率事件.而由样本数据计算得K的观测值k=4.514,即小概率事件 A发生.因此应该断定“性别与喜欢数学课之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.
补充例题1:打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?
患心脏病 未患心脏病 合计
30 224 254 每一晚都打鼾
24 1355 1379 不打鼾
54 1579 1633 合计
解:略。
补充例题2: 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
心脏搭桥手术 血管清障手术 合计
2222又发作过心脏病 39 29 68 未发作过心脏病 157 167 324 合计 196 196 392 - 7 -
试根据上述数据比较两种手术对病人又发作心脏病的影响有没有差别。 解略
(四) 课堂小结 1.知识梳理
2.规律小结
(1)三维柱形图与二维条形图 (2)独立性检验的基本思想 (3)独立性检验的一般方法
(五) 作业:
五 课后反思:
本节内容对独立性检验的探讨过程学生基本没什么困难,还有学生提出了新的探讨路径和思想,学生思维活泼!对独立性检验的作用,本节课也作了系统总结比较。
第四课时
独立性检验的基本思想及其初步应用
例题:
1.三维柱形图中柱的高度表示的是( )
A .各分类变量的频数B .分类变量的百分比C .分类变量的样本数D .分类变量的具体值 解析: 三维柱形图中柱的高度表示图中各个频数的相对大小.选A
2. 统计推断,当______时,有95 %的把握说事件A 与B 有关;当______时,认为没有充分的证据显示事件A与B 是有关的.
解析:当k3.841时,就有95 %的把握说事件A 与B 有关,当k2.076时认为没有充分的证据显示事件A 与B 是有关的.
3.为了探究患慢性气管炎与吸烟有无关系,调查了却339名50岁以上的人,结果如下表所示,据此数据请问:50岁以上的人患慢性气管炎与吸烟习惯有关系吗?
吸烟
患慢性气管炎 43 未患慢性气管炎 162 合计 205 - 8 -
不吸烟 合计
13 56 121 283 134 339 分析:有表中所给的数据来计算K的观测值k,再确定其中的具体关系.
解:设患慢性气管炎与吸烟无关.
a=43,b=162,c=13,d=121,a+b=205,c+d=134, a+c=56,b+d=283,n=339
22n(adbc)所以K的观测值为k7.469.因此k6.635,故有99%的把握
(ab)(cd)(ac)(bd)认为患慢性气管炎与吸烟有关.
课后练习:
1. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )
A.越大 B.越小 C.无法判断 D.以上都不对
2.下列关于三维柱形图和二维条形图的叙述正确的是: ( ) A .从三维柱形图可以精确地看出两个分类变量是否有关系
B .从二维条形图中可以看出两个变量频数的相对大小,从三维柱形图中无法看出相对频数的大小
C .从三维柱形图和二维条形图可以粗略地看出两个分类变量是否有关系 D .以上说法都不对
3.对分类变量X 与Y 的随机变量K的观测值K ,说法正确的是() A . k 越大,\" X 与Y 有关系”可信程度越小; B . k 越小,\" X 与Y 有关系”可信程度越小; C . k 越接近于0,\" X 与Y 无关”程度越小 D . k 越大,\" X 与Y 无关”程度越大
4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若K的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;
C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;
D.以上三种说法都不正确.
5.若由一个2*2列联表中的数据计算得k=4.013,那么有 把握认为两个变量有关系
2
2
22
- 9 -
6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
性别 专业 男 女 非统计专业 13 7 统计专业 10 20 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到 50(1320107)2k4.844
23272030因为K23.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 ____;
7.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。 (1)根据以上数据建立一个2×2的列联表; (2)判断性别与休闲方式是否有关系。
1.2 独立性检验的基本思想及其初步应用参考答案 1.A 2.C 3.B 4.C 5. 95% 6. 5% 7.解:(1)2×2的列联表 性别 休闲方式 女 男 总计 计算
看电视 43 21 64 运动 27 33 60 总计 70 54 124 (2)假设“休闲方式与性别无关” 124(43332721)2k6.201
70546460因为k5.024,所以有理由认为假设“休闲方式与性别无关”是不合理的,
即有97.5%的把握认为“休闲方式与性别有关”
第五课时 生活中的独立性检验问题
独立性检验在实际生活中有广泛的应用,解决该类问题的关键是准确的运算。 例1 为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:
正常 色盲 男 442 38 女 514 6 根据上述数据,试问色盲与性别是否是相互独立的? 解析:由已知条件可得下表
- 10 -
正常 色盲 合计 男 442 38 480 2女 514 6 520 合计 956 44 1000 10004426385142 依据公式得K27.139。
95644480520 由于27.13910.828,∴有99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立的。
评注:根据假设检验的思想,比较计算出的K与临界值的大小,选择接受假设还是拒绝假设。
例2 考察黄烟经过培养液处理与否跟发生青花病的关系,调查了457株黄烟,得到下表中的数据,请根据数据作统计分析。
青花病 无青花病 合计 培养液处理 25 80 105 22未处理 210 142 352 合计 235 222 457 4572514280210241.61 解析:根据公式得K235222105352 由于41.6110.828,说明黄烟经过培养液处理与否跟发生青花病是有关系的。
- 11 -
因篇幅问题不能全部显示,请点此查看更多更全内容