独立性检验的基本思想及其初步应用

时间:2019/9/9 19:05:02   作者:数学名师王老师
1.了解分类变量、列联表的含义,会作2×2列联表.
2.了解随机变量K2的含义以及观测值k的计算公式.
3.了解独立性检验的基本思想及其初步应用.
知识点
  • 1.分类变量和列联表

    (1)分类变量.

    变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.

    (2)列联表.

    ①定义:列出的两个分类变量的频数表,称为列联表.

    ②2×2列联表.

    一般地,假设两个分类变量X和Y,它们的取值分别为$\left\{x_{1}, x_{2}\right\}$和$\left\{y_{1}, y_{2}\right\}$,其样本频数列联表(称2×2列联表)为:

     

    y1

    y2

    总计

    x1

    a

    b

    a+b

    x2

    c

    d

    c+d

    总计

    a+c

    b+d

    a+b+c+d

  • 2.等高条形图

    (1)等高条形图与表格相比,能更直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.

     (2)观察等高条形图发现 $\frac{a}{a+b}$ 和 $\frac{c}{c+d}$ 相差很大,就判断两个分类

    变量之间有关系.

    【做一做1】 观察下列各图,其中两个分类变量X,Y之间关系最强的是(  )

    image.png

    解析:在4个选项中,选项D的图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选D.

    答案:D

  • 3.独立性检验

    定义

    利用随机变量$K^{2}$来判断“两个分类变量有关系”的方法称为独立性检验

    公式

    $K ^{2}=\frac{n(a d-b c)^{2}}{(a+b)(c+d)(a+c)(b+d)}$,其中$n=a+b+c+d$

    具体

    步骤

    ①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界$a$,然后查表确定临界值$k_{0}$;

    ②利用公式计算随机变量$K^{2}$的观测值k;

    ③如果$k \geqslant k_{0}$,就推断“X与Y有关系”,这种推断犯错误的概率不超过$\alpha$;否则,就认为在犯错误的概率不超过$\alpha$的前提下不能推断“X与Y有关系“,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”;

    【做一做2】 对于分类变量X与Y的随机变量$K^{2}$的观测值k,下列说法正确的是(  )

    A.k越大,“X与Y有关系”的可信程度越小

    B.k越小,“X与Y有关系”的可信程度越小

    C.k越接近于0,“X与Y没有关系”的可信程度越小

    D.k越大,“X与Y没有关系”的可信程度越大

    解析:k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大;k越小,“X与Y有关系”的可信程度越小.故选B.

重难点
  • 怎样理解独立性检验的思想?

    剖析:独立性检验的基本思想类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下我们构造的随机变量$K^{2}$应该很小,如果由观测数据计算得到的$K^{2}$的观测值很大,则在一定程度上说明假设不合理,根据随机变量$K^{2}$的含义,可以通过P($K^{2}$≥6.635)≈0.01来评价假设不合理的程度,由实际计算出$K^{2}$≥6.635,说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信程度为99%.

例题解析
  • 题型一、列联表和等高条形图的应用

    【例1】 从某学校对高三学生作的一项调查中发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.

    反思利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,$\frac{a}{a+b}$ 与 $\frac{c}{c+d}$ 相差越大,两个分类变量有关系的可能性就越大.在作等高条形图时,可以用列联表来寻找相关数据,作图要精确,且易于观察,以便对结论的判断不出现偏差.

    【变式训练1】 现从发生交通事故的司机中随机抽取2 000名司机的样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任,将数据整理如下:

     

    有责任

    无责任

    总计

    有酒精

    650

    150

    800

    无酒精

    700

    500

    1 200

    总计

    1 350

    650

    2 000

  • 题型二、独立性检验原理的应用

    【例2】 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:

     

    患心脏病

    未患心脏病

    总计

    每一晚都打鼾

    30

    224

    254

    不打鼾

    24

    1 355

    1 379

    总计

    54

    1 579

    1 633

    反思

    解决一般的独立性检验问题的步骤:

    (1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值$k_{0}$;

    (2)利用$K^{2}=\frac{n(a d-b c)^{2}}{(a+b)(c+d)(a+c)(b+d)}$ 求出$K^{2}$的观测值k;

    (3)如果$k \geqslant k_{0}$,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过犯错误概率的上界$\alpha$,否则,就认为在犯错误的概率不超过犯错误概率的上界$\alpha$的前提下不能推断“两个分类变量有关系”,或者没有发现足够的证据支持结论“两个分类变量有关系”.

    【变式训练2】 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科生对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.

    根据以上数据建立一个2×2列联表,并在犯错误的概率不超过0.50的前提下分析学生选报文、理科与对外语的兴趣是否有关.

  • 题型三、独立性检验的综合应用

    【例3】 为了调查某生产线上质量监督员甲在现场对产品质量好坏有无影响,现统计数据如下:当甲在生产现场时,990件产品中有合格品982件,次品8件;当甲不在生产现场时,510件产品中有合格品493件,次品17件.试列出2×2列联表,并画出等高条形图分析质量监督员甲在现场对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲在现场与产品质量好坏有关?

    反思

    解决此类题目的关键是根据题中数据获得2×2列联表,常用等高条形图展示列联表数据的频率特征,即将 $\frac{a}{a+b}$与 $\frac{c}{c+d}$ (或$\frac{b}{a+b}$ 与 $\frac{d}{c+d}$)的值相比,由此能直观地反映出两个分类变量间是否相互影响,但是此方法较粗略.若要作出精确的判断,可以利用独立性检验.

    【变式训练3】 在一次对人们休闲方式的调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.

    (1)根据以上数据建立一个2×2列联表;

    (2)能否在犯错误的概率不超过0.025的前提下认为性别与休闲方式有关系?

声明:本站部分内容搜集整理自互联网,如果涉及侵犯您的版权,请联系我们举报,并提供相关证据,工作人员会在5个工作日内回复您,一经查实,本站将立刻删除涉嫌侵权内容。