变量的相关性

时间:2019/9/9 19:05:03   作者:数学名师王老师
1.理解变量与变量之间的函数关系与相关关系.
2.会通过现实问题中两个相关变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.
3.了解用最小二乘法求回归直线方程的思想,在所给数据较简单的情况下,能用最小二乘法求回归直线方程.
知识点
  • 1.两个变量的关系

    分类

    函数关系

    相关关系

    特征

    两变量关系确定

    两变量关系带有随机性

    【做一做1】 下列关系不属于相关关系的是(  )

    A.产品的样本数量与生产数量

    B.正方形的周长与面积

    C.家庭的支出与收入

    D.人的年龄与体重

    答案:B

  • 2.散点图与线性相关

    (1)散点图:将样本中n个数据点$\left(x_{i 2} y_{i}\right)(i=1,2, \dots, n)$描在平面直角坐标系中得到的图形.

    (2)正相关与负相关:

    ①正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.

    ②负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.

    【做一做2】 下列图形中的两个变量具有相关关系的是 (  )

    blob.png

    答案:C

  • 3.最小二乘法

    设$x,Y$的一组观察值为$\left(\mathrm{x}_{\mathrm{i}}, \mathrm{y}_{\mathrm{j}}\right), \mathrm{i}=1,2, \ldots, \mathrm{n}$,且回归直线方程为$\hat{\mathrm{y}}=a+b x$.当$x$取值$x_{i}(i=1,2, \ldots, n)$时,Y的观察值为$\mathcal{y}_{i}$,差$y_{i}-\hat{y}_{i}(\mathrm{i}=1,2, \ldots, \mathrm{n})$刻画了实际观察值$\mathrm{y}_{\mathrm{i}}$与回归直线上相应点纵坐标之间的偏离程度,通常是用离差的平方和,即$Q=\sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right)^{2}$作为总离差,并使之达到最小.这样,回归直线就是所有直线中$Q$取最小值的那一条,由于平方又叫二乘方,所以这种使“离差平方和为最小”的方法,叫做最小二乘法.

  • 4.回归直线方程的系数计算公式

     

    回归直线

    方程

    系$\hat{b}$

    计算公式

    系$\hat{a}$

    计算公式

    方程或

    公式

    $\hat{\mathrm{y}}=\hat{\mathrm{a}}+\hat{\mathrm{b}}^{x}$

    $\hat{\mathrm{b}}=\frac{\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{x}_{\mathrm{i}} \mathrm{y}_{\mathrm{i}}-\mathrm{n} \overline{\mathrm{x}} \overline{\mathrm{y}}}{\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{x}_{\mathrm{i}}^{2}-\mathrm{n} \overline{\mathrm{x}}^{2}}$

    $\hat{\mathrm{a}}=\overline{\mathrm{y}}-\hat{\mathrm{b} \overline{\mathrm{x}}}$

    上方加记

    号“$\wedge$”的意义

    区别:在y的上方加“$\wedge$”是为了区分Y的实际值y;$\wedge$表示观察值

    a,b上方加“$\wedge$”表示由观察值按最小二乘法求得的估计值

    【做一做3】 已知回归直线方程 $\hat{y}=0.5 x-0.81$,则$x=25$时,$\mathcal{y}$的估计值是_________. 

    解析:将$x=25$代入$\hat{y}=0.5 x-0.81$可得.

    答案:11.69

重难点
  • 1.函数关系与相关关系的区别和联系

    剖析:两种关系之间的区别:函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.

    两种关系之间的联系:两类关系在一定条件下可以相互转化,如正方形面积$S$与其边长$x$之间虽然是确定性关系,但在每次测量面积时,由于测量误差等原因,其数值大小表现为一种随机性.而对于具有线性相关关系的两个变量来说,在求得其回归直线之后,又可以用一种确定性的关系来对这两种变量间的关系进行估计.

  • 2.散点图的重要作用

    剖析:散点图对于探究两种事物、两种现象之间的关系起着重要的作用.它是用平面直角坐标系上点的分布情况来表示两种事物之间的相关性,例如:为研究小学生的身高与体重之间的关系,研究人员分别以每个学生的身高、体重为横、纵坐标,在平面直角坐标系内画出相应的点,这些点便组成了相关的散点图.从这个散点图中可以直观地反映学生的身高与体重对应的观测值之间是否存在相关性,至于是什么样的相关关系,就要看研究的角度.

    温馨提示求回归直线方程,首先应画出描述两个变量之间关系的散点图,然后再判断散点图中两个变量之间的关系是否呈线性相关,这样求出的回归直线方程就有意义,否则,求出的回归直线方程毫无意义.

  • 3.教材中的“思考与讨论”

    课本$\mathrm{P}_{75}$图$2-10$和图$2-11$中画出直线的标准合理吗?怎样判别拟合的优劣程度呢?

    剖析:将线性相关的数据画成散点图,图中的数据点大致分布在一条直线的附近,根据不同的标准可以画出不同的直线来近似表示这种线性相关关系,其中最贴近已知数据点的直线叫做最优拟合直线.因此,教材两图画出直线的标准不合理.判断拟合的优劣程度就是判断找出的这条直线“是否最贴近”已知的数据点.

例题解析
  • 相关关系的判断

    【例1】 下列两个变量之间的关系为相关关系的是(  )

    A.角度和它的正弦值

    B.fun88网上娱乐的半径和fun88网上娱乐的面积

    C.正n边形的边数和内角之和

    D.一定时间段内的人的年龄和身高

    【变式训练1】 下列两个变量之间的关系属于相关关系的是(  )

    A.底面积为常数时,棱柱的体积和高

    B.单位fun88网上娱乐中fun88网上娱乐心角的度数和它所对的弧长

    C.单产为常数时,土地面积和总产量

    D.日照时间与水稻的产量

  • 利用回归直线对总体进行估计

    【例2】 炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间y(从炉熔化完毕到出钢的时间)的一组数据,如下表所示:

    $ x / 0.01 \% $

    104

    180

    190

    177

    147

    134

    150

    191

    204

    121

    $y / \mathrm{min}$

    100

    200

    210

    185

    155

    135

    170

    205

    235

    125

    (1)作出散点图,你能从散点图中发现含碳量与冶炼时间的一般规律吗?

    (2)求回归直线方程.

    (3)预测当钢水含碳量为160时,应冶炼多少分钟?

    分析:画出散点图,看两者是否具有相关关系,然后利用最小二乘法可求出回归直线方程.最后利用方程预测当钢水含碳量为160时,应冶炼多长时间.

    反思

    最小二乘法是求回归直线方程的常用方法,可以通过本题的解答体会最小二乘法的优越性.为了便于计算,通常将有关数据列成表格,然后借助于计算器算出各个量.

    【变式训练2】 某车间为了规定工时定额,需要确定加工某零件所花费的时间,为此做了四次实验,得到的数据如下:

    零件的个数$x$

    2

    3

    4

    5

    加工的时间$y / \mathrm{h}$

    1.5

    2.5

    3

    4

    (1)求出$y$关于$x$的回归直线方程;

    (2)试预测加工10个零件需要多少时间?

  • 易错辨析

    易错点:对回归直线方程的理解不准确致错

    【例3】 由一组样本数据$\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{n}, y_{n}\right)$得到回归直线方程 $\begin{array}{rr}{\wedge} & {\wedge x} & {\wedge} \\ {y} & {=b}\end{array}+a$ ,那么下面说法中不正确的是(  )

    A.直线$\begin{array}{rr}{\wedge} & {\wedge x} & {\wedge} \\ {y} & {=b}\end{array}+a$

    B.直线$\begin{array}{rr}{\wedge} & {\wedge x} & {\wedge} \\ {y} & {=b} & {+a}\end{array}$至少经过点$\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{n_{2}} y_{n}\right)$中的一个点

    C.直线$\begin{array}{rr}{\wedge} & {\wedge x} & {\wedge} \\ {y} & {=b} & {+a}\end{array}$的斜率为$\hat{b}=\frac{\sum_{i=1}^{n} x_{i} y_{i} \cdot n \overline{x} \overline{y}}{\sum_{i=1}^{\sum} x_{i}^{2}-n \overline{x}^{2}}$

    D.直线$\begin{array}{rr}{\wedge} & {\wedge x} & {\wedge} \\ {y} & {=b} & {+a}\end{array}$和各点$\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{n}, y_{n}\right)$ blob.png是该坐标平面上所有直线与这些点的总离差中最小的直线

  • 真题

    1.下列关于线性回归的说法正确的是(  )

    ①变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中用描点的方法得到的表示具有相关关系的两个变量的一组数据的图形叫做散点图;③线性回归直线方程最能代表观察值x,y之间的线性相关关系;④任何一组观察值都能得到具有代表意义的回归直线方程.

    A.①②③  B.①③④ 

    C.②③④  D.①②④

    2.已知$x,y$之间的一组数据如下: 

    $x$

    0

    1

    2

    3

    $y$

    1

    3

    5

    7

    则$y$与$x$的线性回归直线$\wedge \quad \wedge \quad \wedge$$y=b x+a$

    必过点(  )

    A.(2,2)  B.(1.5,0)

    C.(1,2)  D.(1.5,4)

    3.设有一个回归直线方程 $\hat{y}=2-1.5 x$,则变量$x$增加1个单位时

    A.$\hat{y}$ 平均增加1.5个单位

    B.$\hat{y}$平均增加2个单位

    C.$\hat{y}$平均减少1.5个单位

    D.$\hat{y}$平均减少2个单位

    4.某超市“五一”过后统计了最近6个月某种鲜牛奶的进价x与售价y(单位:元)的对应数据,如下表:

    x

    3

    5

    2

    8

    9

    12

    y

    4

    6

    3

    9

    12

    14

    则$\overline{x}=$_________ ;$\overline{y}=$_________;$\sum_{i=1}^{6} \mathrm{x}_{\mathrm{i}}^{2}=$_________;blob.png=_________;回归直线方程为 . 

    5.测得10对父子身高如下(单位:英寸)(1英寸≈2.54厘米): 


    父亲身高$x$

    60

    62

    64

    65

    66

    儿子身高$y$

    63.6

    65.2

    66

    65.5

    66.9

    父亲身高$x$

    67

    68

    70

    72

    74

    儿子身高$y$

    67.1

    67.4

    68.3

    70.1

    70

    (1)求回归直线方程;

    (2)如果父亲的身高为73英寸,估计儿子的身高.

声明:本站部分内容搜集整理自互联网,如果涉及侵犯您的版权,请联系我们举报,并提供相关证据,工作人员会在5个工作日内回复您,一经查实,本站将立刻删除涉嫌侵权内容。