回归分析的基本思想及其初步应用
2.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.
3.通过典型案例的分析,了解回归分析的初步应用??相关检验.
1.回归分析
(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系.
(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(3)对于一组具有线性相关关系的数据$\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{n}, y_{n}\right)$,回归直线$y=b x+a$的斜率和截距的最小二乘估计公式分别为
$\hat{b}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}, \hat{a}=\overline{y}-\hat{b} \overline{x}$.
其中$\overline{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}, \overline{y}=\frac{1}{n} \sum_{i=1}^{n} y_{i},(\overline{x}, \overline{y})$称为样本点的中心.
(4)用相关系数$r=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}}}$来描述线性相关.
知识拓展
1.当r>0时,表明两个变量正相关;
当r < 0时,表明两个变量负相关.
2.$|r|$越接近于1,表明两个变量的线性相关性越强;
$|r|$越接近于0,表明两个变量之间几乎不存在线性相关关系.
通常,当$|r|$不小于0.75时,我们认为两个变量存在着很强的线性相关关系.
3.$r=\frac{\sum_{i=1}^{n}\left(\mathrm{x}_{\mathrm{i}}-\overline{\mathrm{X}}\right)\left(\mathrm{y}_{\mathrm{i}}-\overline{\mathrm{y}}\right)}{\sqrt{\sum_{\mathrm{i}=1}^{\mathrm{n}}\left(x_{i}-\overline{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}}}$
$=\frac{\sum_{i=1}^{n} x_{i} y_{i}-n \overline{x} \overline{y}}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-n \overline{x}^{2}\right)\left(\sum_{i=1}^{n} y_{i}^{2}-n \overline{y}^{2}\right)}}$
【做一做1-1】 下表是x与y之间的一组数据,则y关于x的线性回归直线必过点( )
x
0
1
2
3
y
1
3
5
7
A.(2,2) B.(1.5,2)
C.(1,2) D.(1.5,4)
解析:$\because \overline{x}=\frac{0+1+2+3}{4}=1.5, \overline{y}=\frac{1+3+5+7}{4}=4$
∴样本点的中心为(1.5,4),而回归直线过样本点的中心,故选D.
答案:D
【做一做1-2】 若分别计算具有线性相关关系的甲组数据和乙组数据,得相关系数r甲=0.8,r乙=-0.9,则相关关系较强的是( )
A.甲组数据
B.乙组数据
C.甲、乙两组数据一样强
D.不确定
解析:∵|r乙|=0.9>|r甲|=0.8更接近于1,∴乙组数据相关性强.
答案:B
2.随机误差
(1)随机误差的均值$E(e)=0$,方差$D(e)=\sigma^{2}$.
(2)线性回归模型的完整表达式是$\left\{\begin{array}{l}{y=b x+a+e} \\ {E(e)=0, D(e)=\sigma^{2}}\end{array}\right.$在此线性回归模型中,随机误差e的方差$\sigma^{2}$越小,通过回归直线预报真实值y的精度越高.
知识拓展随机误差的主要来源:
(1)用线性回归模型近似地逼近真实模型所引起的误差;
(2)忽略了某些因素的影响所产生的误差;
(3)观测误差.
(3)对于样本点$\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{n}, y_{n}\right)$而言,它们的随机误差为$e_{i}=y_{i}-b x_{i}-a, i=1,2, \ldots, n$,其估计值为
$\hat{e}_{i}$称为相应于点$\left(x_{i}, y_{i}\right)$的残差.
(4)以样本编号,或身高数据,或体重的估计值等为横坐标,残差为纵坐标作出的图形称为残差图.
(5)我们可以用$R^{2}$画回归的效果,其计算公式是
(6)$R^{2}$越大,意味着残差平方和越小,也就是说,模型拟合的效果越好.
知识拓展
在线性回归模型中,$R^{2}$表示解释变量对于预报变量变化的贡献率.$R^{2}$越接近于1,表示回归的效果越好(因为$R^{2}$越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可以采取几种不同的回归方程进行回归分析,也可以通过比较几个$R^{2}$,选择其值大的模型.
【做一做2】 有下列说法:
①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;
②$R^{2}$用来刻画回归效果,$R^{2}$值越大,说明模型拟合效果越好;
③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.
其中正确命题的个数是( )
A.0 B.1 C.2 D.3
答案:D
3.非线性回归方程
当回归方程不是形如$y=b x+a(a, b \in \mathbf{R})$时,称之为非线性回归方程.
非线性回归方程也可以线性化.
(1)将幂函数型函数$y=a x^{n}$(a为常数,a,x,y均取正值)化为线性函数:
将$y=a x^{n}$两边取常用对数,则有lg y=nlg x+lg a,令μ=lg y,v=lg x,b=lg a代入上式得μ=nv+b(其中n,b是常数),其图象是一条直线.
(2)将指数型函数$y=c a^{x}$(a>0,c>0,a,c为常数)化为线性函数:
将y=cax两边取常用对数,则有lg y=xlg a+lg c,令μ=lg y,b=lg c,d=lg a,代入上式得μ=dx+b(d,b是常数),它的图象是一条直线.
4.建立回归模型的基本步骤
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型.
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
1.相关分析的意义和作用是什么
剖析函数是大家比较熟悉的概念,它是指变量之间的确定性关系,即当X取某一数值x时,变量Y按照某种规则总有一个确定的数值与之对应.相关关系则是指变量之间的非确定性关系,由于随机因素的干扰,当变量X取确定值x时,变量Y的取值不确定,是一个随机变量,但它的概率分布与X的取值有关.这里,我们看到了函数关系与相关关系的本质区别,在函数关系中变量X对应的是变量Y的确定值,而在相关关系中,变量X对应的是变量Y的概率分布.换句话说,相关关系是随机变量之间或随机变量与非随机变量之间的一种数量依存关系,对于这种关系,只能运用统计方法进行研究.通过对相关关系的研究又可以总结规律,从而指导人们的生活与生产实践.
2.举例说明怎样确定线性回归的模型
剖析在确定数据适合哪种模型之前,首先应该对观测数据绘图,以便进行简单的观测.例如,为了研究建立初始工资与当前工资的回归模型,首先对观测数据绘图,如下图所示.
从图中可以发现初始工资与当前工资的趋势大概呈线性关系,可以建立线性回归方程.如果观测数据不呈线性分布,那么还可以根据其他方程模型的观测数据分布图形的特点以及对建立各方程后所得的$R^{2}$进行比较以便确定一种最佳方程式.
一般说来,如果所有的观测量都落到回归直线上,那么$R^{2}$等于1;如果自变量与因变量之间没有回归关系,那么$R^{2}$等于0.
另外,我们通过对观测数据分布图形的仔细观察还可以发现一些奇异值,所以还可以通过对数据的检查来消除奇异值.但是,对待奇异值时要格外小心.
题型一、求线性回归方程
【例1】 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验.测得的数据如下:
零件
数x/个
10
20
30
40
50
60
70
80
90
100
加工时
间y/min
62
68
75
81
89
95
102
108
115
122
(1)y与x是否具有线性相关关系?
(2)如果y与x具有线性相关关系,求回归直线方程;
(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少?
【变式训练1】 某工厂1~8月份某种产品的产量x(单位:t)与成本y(单位:万元)的统计数据如下表:
月份
1
2
3
4
5
6
7
8
产量/t
5.6
6.0
6.1
6.4
7.0
7.5
8.0
8.2
成本/万元
130
136
143
149
157
172
183
188
(1)画出散点图;
(2)判断y与x是否具有线性相关关系,若有,求出其线性回归方程.
题型二、线性回归分析
【例2】 某运动员训练次数与成绩之间的数据关系如下:
次数x
30
33
35
37
39
44
46
50
成绩y
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归方程;
(3)作出残差图;
(4)计算$R^{2}$;
(5)试预测该运动员训练47次及55次的成绩.
反思“$R^{2}$、残差图”在回归分析中的作用:
(1)$R^{2}$是用来刻画回归效果的,由
可知$R^{2}$越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域的宽度越窄,说明模型拟合精度越高,回归方程预报精度越高.
【变式训练2】 某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽数为多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x/℃
10
11
13
12
8
发芽数y/颗
23
25
30
26
16
该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻2天数据的概率;
(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程
题型三、求非线性回归方程
【例3】 在彩色显影中,由经验可知:形成染料光学密度y与析出银的光学密度x由公式$y=A \mathrm{e}^{\frac{b}{x}}(b < 0)$表示.现测得试验数据如下:
xi
0.05
0.06
0.25
0.31
0.07
0.10
0.38
0.43
0.14
0.20
0.47
yi
0.10
0.14
1.00
1.12
0.23
0.37
1.19
1.25
0.59
0.79
1.29
试求y对x的回归方程.
【变式训练3】 在一化学反应过程中,某化学物质的反应速率y(单位:g/min)与一种催化剂的量x(单位:g)有关,现收集了如下表所示的8组数据,试建立y与x之间的回归方程.
催化剂的量$x / \mathrm{g}$
15
18
21
24
27
30
33
36
化学物质反应速率
6
8
30
27
70
205
65
350
题型四、易错辨析
易错点:对概念理解不清致错
【例4】 对两个变量y和x进行回归分析,得到一组样本数据:$\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{n}, y_{n}\right)$,则下列说法中不正确的是( )
A.由样本数据得到的回归方程必过样本点的中心$(\overline{x}, \overline{y})$
B.残差平方和越小的模型,拟合的效果越好
C.用$R^{2}$来刻画回归效果,$R^{2}$的值越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数$r=-0.9362$,则变量y和x之间具有线性相关关系
反思把握好$R^{2}$的回归意义。