-
回归分析与时间序列
一、
一元线性回归
11.1
(
1
)编辑数据集,命名为
输入命令
scatter
cost product,xlabel(#10, grid) ylabel(#10, grid)
p>
,得到如下散点图,
可以看到,产量和生产费用是正线性相关的关系
。
(
2<
/p>
)输入命令
reg cost
product
,得到如下图:
<
/p>
可
得
线
性
函
数
(
produc
t
为
自
变
量<
/p>
,
cost
为
因
变
量
)
:
p>
y=0.4206832x+124.15,
即
β
0
=124.15
,β
1
=0.4206832
(
< br>3
)对相关系数的显著性进行检验,可输入命令
pwco
rr
cost
product, sig star(.05)
print(.05)
,得到下图:
可见,在
α
=0.05
的显著性水平下,
P=0.0000<
α
=0.05
,故拒绝原假设,即产量和生产费
p>
用之间存在显著的正相关性。
11.2
(
1
)编辑数据集,命名为
输入命令
scatter fenshu
time,xlabel(#4, grid) ylabel(#4, grid)
,
得到如下散点图,可以
看到,分数和复习时间是正线性相关的关系。
2
)输入命令
cor fenshu
time
计算相关系数,得下图:
可见,
r=0.8621
,可见分数和
复习时间之间存在高度的正相关性。
11.3
(
1
)
(
2
)
对
于线性回归方程
y=10-0.5x
,
其中
β
0
=10
,
表示回归直线的截距为
10
;
p>
β
1
=-0.5
,
表示
x
变化一单位引起
y
的变化为
-0.5
。
p>
(
3
)
x=6
p>
时,
E(y)=10-0.5*6=7
。<
/p>
11.4
(
1
)
,判定系数
测度了回归直线对观测数据的拟
合程度,
即在分数的变差中,
p>
有
90%
可以由分数与复习时间之间的线性
关系解释,
或者说,
在分数取值的变动中,有
< br>90%
由复习时间决定。可见,两者之间有很强的线性关系。
(
2
)估计标准误差
分
,即根据复习时间来估计分数时,平均的
估计误差为
0.25<
/p>
分。
11.5
(
1
)编辑数据集,命名为
输入命令
scatter time
juli,xlabel(#5, grid) ylabel(#5, grid)
,
得到如下散点图,可以看
到,时间和距离是正线性相关的关系。
(
2
)输入
命令
cor time
juli
计算相关系数,得下图:
可见,
r=0.9489
,可见时间和
距离之间存在高度的正相关性。
(
3
)输入命令
reg time
juli
得到下图:
可
得
线
性
< br>函
数
(
juli
为
自
变
量
,
time
为
因
< br>变
量
)
:
y=0.0035851x+0.1181291,
即
β
p>
0
=0.1181291
,表示回归直线的
截距为
0.1181291
;β
1
p>
=0.0035851
,表示距离(
x
p>
)变
化
1km
引起
时间(
y
)的变化为
0.003585
1
天。
11.6
(
1
)编辑数据集,命名为
输入命令
scatter cspt
GDP,xlabel(#3, grid) ylabel(#3, grid)
,得
到如下散点图,可以看
到,时间和距离是正线性相关的关系。
(
2
)输入
命令
cor cspt
GDP
计算相关系数,得下图:
<
/p>
可见,
r=0.9981
,可见人均消费
水平和人均
GDP
之间存在高度的正相关性。
< br>
(
3
)输入命令
reg cspt GDP
得到下图:
可
得
线
p>
性
函
数
(
GDP
为
自
变
量
,
cspt
为
因
变
量
)
:
y=0.3086827x+734.6928,
即
β
0
=734.6928
,
表示回归直线的截距为
734.6928
p>
;
β
1
=0.30
86827
,
表示人均
GDP
(
x
)
变化
1
元引起人均消费水平(
y
)的变化为
0.3086827
元。
(
4
)由(
3
)得到的结果可得
=0.9963
,判定系数
测度了回归直线对观测数据的拟合
程
度,即在人均消费水平的变差中,有
99.63%
可以由人均消
费水平与人均
GDP
之间的线
性关系解
释,
或者说,
在人均消费水平取值的变动中,
< br>有
99.63%
由人均
GDP<
/p>
决定。
可见,
两者之间有很强的线性关系
。
(
5
)由
(
3
)得到的结果可得回归方程线性关系的
F
检验值
1331.69
对应的检
验
P
值为
0.0000<
α
=0.05
,
故拒绝原假
设,
即人均消费水平和人均
GDP
之间
存在显著的正相关性。
(
6
)
x=5000
时,
E
(
y
)
=0.
3086827*5000+734.6928=2278.1063
。
(
7
)
x=5000
时,输入命令
predictnl
PT=predict(xb),ci(lb ub) l(95)
,得到各人均
GDP
水平下的置信区间,如下图:
输入如下命令,得到置信区间和预测区间示意图:
predict yhat
predict stdp,
stdp
predict stdf, stdf
generate zl = yhat -
invttail(5,0.025)*stdp
generate zu=
yhat + invttail(5,0.025)*stdp
generate
yl = yhat - invttail(5,0.025)*stdf
generate yu = yhat +
invttail(5,0.025)*stdf
twoway (lfitci
cspt GDP, level(95)) (scatter cspt GDP) (line zl
zu yl yu
GDP, pstyle(p2 p2 p3 p3)
sort)
取
cspt=y
,
GDP=x
,
y0
为
x0=5000
的预测值,
x1
为
GDP
平均值,
x2=
(
x0-x1
< br>)
^2
,
x3=
sum((x-x1)^2)
,
,
y0=0.3086827*5000+734.6928=
2278.1063
,
egen x
1=mean(x)
,得到
x1=12248.429
,
gen x2=(5000-12248.
429)^2
,得到
x2=
52539722.968
,
egen x3= sum((x-x1)^2)
,得到
x3=854750849.7143
display
y0+2.7764*247.3*sqrt(1/7+x2
/x3)
,得
zu=
2588.4671
display
y0-2.7764*247.3*sqrt(1/7+x2
/x3)
,得
zl=
1967.7455
display
y0+2.7764*247.3*sqrt(1+1/7+
x2/x3)
,得
yu=
3031.5972
display
y0+2.7764*247.3*sqrt(1+1/7+
x2/x3)
,得
yl= 1524.6154
即人均
GDP
为
5000<
/p>
元时,人均消费水平
95%
的置信区间为
[1967.7455,
2588.
4671]
,
预测区间为
[1524.
6154, 3031.5972]
。
11.7
(
1
)编辑数据集,命名为
输入命令
scatter
cmplts
percent,xlabel(#5, grid) ylabel(#5, gri
d)
,
得到如下散点图,
可以看到,时
间和距离是负线性相关的关系。
(
2
)输入命令
reg
cmplts
percent
得到下图:
可得线性函数(
percent
p>
为自变量,
cmplts
为因变量)
:
y=-4.700623x+430.1892,
< br>即
β
0
=430.1892
p>
,表示回归直线的截距为
430.1892
;β
1
=-4.700623
,表示航
班正点率
percent
提高
1%
p>
使投诉次数
cmplts
的减少
-4.700623
次。
(
3
)由(
2
)得到的结果可得回归系数检验的
t
值
-4.96
对应的
P
值为
0.001<
α
=0.05
,
故拒绝原假设,
即航班正点率
pe
rcent
是投诉次数
cmplts
的
一个显著因素
(或者输入
test
percent=0
)
。
(
4
)
< br>x=80
时,
E
(
y
)
=-4.700623*80+430.189
2=54.13936
次。
(
5
)
x=80
时,输
入命令
predictnl PT=predict(xb),ci(lb ub) l
(95)
,得到各航班正点率水
平下的置信区间,如下图:
p>
输入如下命令,得到置信区间和预测区间示意图:
predict yhat
predict stdp,
stdp
predict stdf, stdf
generate zl = yhat -
invttail(8,0.025)*stdp
generate zu=
yhat + invttail(8,0.025)*stdp
generate
yl = yhat - invttail(8,0.025)*stdf
generate yu = yhat +
invttail(8,0.025)*stdf
twoway (lfitci
cmplts
percent, level(95)) (scatter cmplts
percent) (line zl zu yl
yu percent, pstyle(p2 p2 p3 p3) sort)
取
cmplts=y
,
percent=x
,
y0
为
x0=80
的预测值,
x1
为
percent
平均
值,
x2=
(
x0-x1
)
^2
,
x3=
sum((x-x1)^2)
,
,
y0=-4.700623*80+430.1892=54
.13936
,
egen x1=m
ean(x)
,得到
x1=12248.429
,
gen x2=(80-
75.86)^2
,得到
x2=
17.1396
,
egen x3=
sum((x-x1)^2)
,得到
x3=
397.024
display
y0+2.3060*18.887*sqrt(1/10+
x2/x3)
,得
zu=
70.619033
display
y0-2.3060*18.887*sqrt(1/10+
x2/x3)
,得
zl=
37.659687
display
y0+2.3060*18.887*sqrt(1+1/1
0+x2/x3)
,得
yu=
100.7063
display
y0-2.3060*18.887*sqrt(1+1/1
0+x2/x3)
,得
yl= 7.5724171
即航班正点率为
80%
时,投诉次数的
95%
的置信区间为
[37.659687,<
/p>
70.619033]
,预测
区间为
[7.5724171,
100.7063]
。
11.8
(
1
)打开一张
EXCEL
表格,输入数据如下:
(
2
)数据|分析|数据分析|回归,弹出回归对话框并设置如下:
(
3
)单击
“确定”得如下输出结果:
SUMMARY OUTPUT
回归统计
Multiple R
0.79508
R Square
0.632151
Adjusted R
0.611715
Square
标准误差
2.685819
观测值
20
方差分析
回归分析
残差
总计
Intercept
X Variable 1
Significance
df
SS
MS
F
F
1
223.1403
223.1403
30.93318
2.79889E-05
18
129.8452
7.213622
19
352.9855
Coefficients
标准误差
t Stat
P-value
Lower 95%
49.31768
3.805016
12.96123
1.45E-10
0.249223
0.04481
5.561761
2.8E-05
Excel
输出的回归结果包括以下几个部分:
第一部分是“回归统计”
,这部分给出了回归分析中的一些常用统计量,
p>
包括表中复相关系数
Multiple
R=0.79508
,
它是度量复相关程度的指标,
取值
[0,1]
之间,
取
值越大,表明要素或变量之间的线性相关程度越密切;
判定系数
R
Square=0.63
2151
,表示有
63.2151%
的
出租率可以由每平方米月租金之间
的线性关系来解释;
调整的决定系数
Adjusted R Square=0.6
11715
,表示调整后的判定系数使用了自由度为
一个权重因
子,
即使解释变量增加,
如果它与被解释变量无关,
则调整后的判定系数不会增
加会减少;
标准误差,
表示各测量值误差的平方的平均值的平方根,
故又称为均方误差的平方根,
在这
里取
2.685819
(已验证,该值即为
)
;
p>
观测值个数
19
。
第二部分是“方差分析”
,这部分给
出的是回归分析的方差分析表,包括自由度
df
、回归平
方和
SSR=223.1403
、残差平方和
SSE=129.8452
、总平方和
SST=352.9855
、回归的
均方根
223.1403
、残差的均方根
MSE=7.21362
2
;
Upper
下限
上限
95%
95.0%
95.0%
41.32363505
57.31172
41.323635
57.31172
0.155080305
0.343365
0.1550803
0.343365
检
验
统
计
量
;
F
检
验
的
显
著
性
水
平
Sig
nificance
F=2.79889E-05
,用于线性
关系的显著性检验,说明两个变量之间的线性是否显著;
第三部分是参数估计的有关内容。包括
回归方程的截距
β
0=49.31768
;
斜率
β
1=0.249223
,表示月租金变化
1
< br>元引起的出租率变化
24.9223%
;
截距的标准误差
3.805016
< br>,斜率的标准误差
0.04481
;
用于回归系数检验的
t
统计量及
对应的
P
值,
说明回归系数的显著性,
即月租金和出租率两
者之间是否有显著关系;
< br>
截距和斜率的置信区间
[Lower 95%,
Upper 95%]
。
11.9
(
1
)方差分析表
方差分
析
回归分
析
残差
总计
df
1
10
11
SS
1602708.6
MS
1602708.6
4015.807
F
399.1
Significance
F
2.17E-09
40158.07
1642866.67
(
2
)
,即汽车销售量的变差中有
97.556%
由广告费用
的变动引起。
(
3
)
汽车销售量与广告费用的相关系数
,
表明汽车
销售量与广告费用有高度的相关性。
(
4
)由题意得,
y=1.420211x+3
63.6891
。β
0=363.6891
,表示回归直线的截距为
363.6891
;
β
1=1.420211
,
表示广告费用提高
1
单位使汽车销售量改变
1.420211
单位。
(
p>
5
)
线
性
关
系
显
著
性
检
验
的
< br>
。
,
其
对
应
的<
/p>
P=
Significance
F=
0.<0.05
,故拒绝原假设,即汽车销售量与广告费用之间
的线性关系显著。
11
.
10
(
1
)编辑数据集,命名为
输入命令
scatter y x
,得
到如下散点图,可以看到,
y
和
x
p>
是负线性相关的关系。
(
2
)输入命令
reg y
x
得到下图:
可得线性函数:
y=2.302932x+13.62541,
即
β
0
=13.62541
,表示回归直线的截距为
13.62541
;
β
1
=2.302932
,表示
x
变化
1
单位使使<
/p>
y
变化
2.302932
单位。
(3)
输入
predict yhat
gen e=x-yhat
得到残差
e
,见下图:
由(
2
)的结果可得,判定系数
,即
y
的变差
93.73%
由
x
引起,
y
和
x
之间
有较强的线性关系;
估计标准误差
;
由于
,
y
和
x
p>
之间有较强的线性关系,直线拟合得较好。
11.11
(
1
)
;
(
2
)
;
(
3
)由
,故拒绝原假设;
(
4
)
;
(
5
p>
)由(
3
)知,
x
与
y
之间有显著的线性关系。
11.12
由题
意得,
12
取
y0
为
x0=4
的预测值,
x1
为
x
平均值,
p>
x2=
(
x0-x1
)
^2
,
x3=
sum((x-x1)^2)
,
,
y0=3*4+5=17
,
x1=2
,
x2=4
,
x3= 20
display
<
/p>
17+2.1009*1.0*sqrt(1/20+4/20)
,得
zu= 18.05045
display
17-2.1009*1.0*sqrt(1/20+4/2
0)
,得
zl= 15.94955
display
17+2.100
9*1.0*sqrt(1+1/20+4/20)
,得
yu=
19.348878
display
17-2.1009*1.0*sqrt(1+1/20+4/20)
,得
yl= 14.651122
即
x
为
4
元时,
y
的
95%
的置信区间为
[15.949
55, 18.05045]
,
预测区间为
[14.651122,
19.348878]
。
11.13
(
1
)编辑数据集,命名为
输入命令
scatter y x
,得
到如下散点图,可以看到,
y
和
x
p>
是负线性相关的关系。
(
2
)输入命令
reg y
x
得到下图:
可得线性函数:
y=15.23977x-46.29181,
即
β
0
=-46.29181
p>
,表示回归直线的截距为
-46.29181
;β
1
=15.23977
,表示<
/p>
x
变化
1
单位使
使
y
变化
15.23977
单位。
(
3
)输入如下命令,得到置信区间示意图:
predict yhat
predict stdp,
stdp
generate zl = yhat -
invttail(20,0.025)*stdp
generate zu=
yhat + invttail(20,0.025)*stdp
twoway
(lfitci y x, level(95)) (scatter y x) (line zl zu
x, pstyle(p2 p2 p3 p3) sort)
取
y0
为
x0=40
的预测值,
x1
为
x
平均值,
x2=
(
x
0-x1
)
^2
,
x3= sum((x-x1)^2)
,
,
y0=15.23977*40-46.29181=563
.29899
,
egen
x1=mean(x)
,得到
x1=
24.9375
,
gen
x2=(40-24.9375)^2
,得到
x2=
226.87890625
,
egen x3= sum((x-x1)^2)
,得到
x3=
2692.11875
display
y0+2.4469*
*sqrt(1/8+x2/x3)
,得
zu=
685.04208
display
y0-2.4469*
*sqrt(1/8+x2/x3)
,得
zl=
441.5559
即
x
为
40
元时,
y
的
95%
p>
的置信区间为
[441.5559,
685.04208]
。
11.14
编辑数据集,命名为
输入命令
scatter e1
v1
得图:
可见对所有的
x
值,
ε
的方差都相同,
假定的描述
变量
x
和
y
之
间的关系模型是合理的,
该
残差图对应的模型是满意的模式;<
/p>
输入命令
scatter e2
v4
得图:
可见该残差图对应的模型不合适,应考虑曲线回归或多元回归模型。
11.15
(
1
)编辑数据集,命名为
输入命令
scatter y x
,得
到如下散点图,可以看到,销售额和广告费用是正线性相关的关
系。
输入命令
reg y
x
得到下图:
可得线性函数:
y=1.547478x+29.39911,
即
β
0
=29.39911
,表示回归直线的截距为
29.39911
;
β
1
=1.547478
,
表示广告支出费用提高
1
万元使销售额提高
1.547478
万元。
(
2
)由(
1
)得到的结果可得回归方程线性关系的
F
检验值
11.15
对应的检验
P
值为
0.0206<
α
=0.05
,故拒绝原假设,即销售额和广告费用之间存在显著的正相关性。
(
3
)输入
predict yhat
gen e=y-yhat
scatter e x
输入
gen z= e/
7.8775
scatter z x
得到标准化残差图如下:
可见标准化残差都在
-2
到
2
之间,
对所有的
x
值,
ε
的方差都相同,
假定
的描述变量
x
和
y
之间的关系模型是合理的,该残差图对应的模型是满意的模式。
< br>(
4
)由(
3
< br>)知虽然爱关于误差项
ε
的假设被满足了,可是通过散点
图的走势可以发现,
如果用指数型曲线模拟效果会更好。
11.16
(
1
)编辑数据集,命名为
输入命令
scatter y x
,得
到如下散点图,可以看到,销售量和广告费用是正线性相关的关
系。
输入命令
reg y
x
得到下图:
可得线性函数:
y=0.1958404x+4.068466,
< br>即
β
0
=4.068466
p>
,表示回归直线的截距为
4.068466
;β
1
=0.1958404
,表示广
告支出费用提高
1
万元使销售量提高
0
.1958404
万
箱。
(
2
)输入
predic
t yhat
gen e=y-yhat
scatter
e x
得到残差图如下
输入
gen z= e/
7.8775
scatter z x
得到标准化残差图如下:
可见标准化残差都在
-2
到
2
之间,
对所有的
x
值,
ε
的方差都相同,
假定
的描述变量
x
和
y
之间的关系模型是合理的,该残差图对应的模型是满意的模式。
< br>最后一点(
120.0,36.3
)对应的标准化残差较
大,接近
,该点为异常点。
取
x1
为
x
< br>平均值,
x2=
(
x-x1
p>
)
^2
,
x3=
sum((x-x1)^2)
egen
x1=mean(x)
,得到
x1=
40.5
,
gen x2=(x-x1)^2
,
egen x3= sum((x-x1)^2)
,得到
x3=
19176.64
gen x4=1/10+ x2/x3
gen
x5=1/10
gen x6=x4-x5
scatter
x6 x
由上图可知,倒数最大的一个点(
120.0,36.3
)具有高杠杆率,该点是有影响的观测值。
(
3
< br>)有影响的观测值不一定是一个异常值。
二、
多元线性回归
12.1
(
1
)编辑数据集,命名为
输入命令
reg y x1
x2
得到下图:
可得线性函数:
y=-0.0497
143x1+1.928169x2+25.0287
。
p>
当
x1=200
,
x2=7
时,
y=-0.0497143*200+1.928
169*7+25.0287=28.583023
。
12.2
模型涉及
3
个变量,
45
个观察值;<
/p>
回归方程
y=657.0534-0.
416917x1-3.471481x2
;
其中
Significance F=0.002724<0.
05
,故
y
与
x1
和
x2
之间的线性关系显著;
p>
S
e
=109.
429596
,
即
根
< br>据
所
建
立
的
多
元
回
归
方
程
进
行
p>
预
测
是
,
平
均
的
预
测
误
差
为
< br>109.429596
;
R<
/p>
2
=0.709650
,即
y
的变差中,能由
x1
和<
/p>
x2
解释的比例为
70.9650%
p>
;
=0.630463
,即在用样本量
和模型中的自变量的个数调整后,在
y
的变差中,能由
x1
和
x2
解释的比例
为
63.0463%
。
12.3
(
1
)
,
又
,
则
>F
,故拒绝原假设,则
y
与
x1
和
x2
之间的线性关系显著;
(
2
)
由于
,
故
,
,
而
,
故
,所以拒绝原假设,即回归方程的系数显著。
12.4
(
1
)编辑数据集,命名为
输入命令
reg y
x1
得到下图:
可得线性函数:
y=
1.603865x1+
88.63768
。
(
2
)
reg
y x1 x2
可得线性函数:
y=
2.290184x1+
1.300989x2+
83.23009
。
(3)
由(
1
)
(
2
)可见,电视广告费用的系数不同。
对(
1
)中,
=
1.6
03865
,电视广告费用每增加
1
万
元,月销售收入增加
1.603865
万
元;
对
(
2
)
中,
=
2.290184
,
在报纸广告费用不变的情况下,
电视广告费用每增加
1
万元,
月销售收入增加
2.290184
。
(<
/p>
4
)由(
2
)得
到的结果可以看出,
R
2
=
0.9190
,即销售收入的变差中,被估计的
回归方
程所解释的比例为
91.90%
。
(
5
)由
(
2
)得到的结果可以看出,
=7.53
,
=4.06
,而
,则
,所以拒绝原假设,即回归方程的系数显著。
12.5
编辑数据集,命名为