关键词不能为空

当前您在: 主页 > 英语 >

统计学第四版贾俊平人大-回归与时间序列stata

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-10 05:35
tags:

-

2021年2月10日发(作者:ctrp)


回归分析与时间序列



一、



一元线性回归



11.1

< p>


1


)编辑数据集,命名为




输入命令


scatter cost product,xlabel(#10, grid) ylabel(#10, grid)


,得到如下散点图,


可以看到,产量和生产费用是正线性相关的关系 。





2< /p>


)输入命令


reg cost product


,得到如下图:



< /p>




线






produc t





量< /p>



cost








y=0.4206832x+124.15,


β


0


=124.15


,β


1


=0.4206832


< br>3


)对相关系数的显著性进行检验,可输入命令


pwco rr



cost



product, sig star(.05)


print(.05)


,得到下图:




可见,在


α


=0.05


的显著性水平下,


P=0.0000<


α


=0.05


,故拒绝原假设,即产量和生产费


用之间存在显著的正相关性。




11.2



1


)编辑数据集,命名为




输入命令


scatter fenshu time,xlabel(#4, grid) ylabel(#4, grid)


, 得到如下散点图,可以


看到,分数和复习时间是正线性相关的关系。



2


)输入命令


cor fenshu time


计算相关系数,得下图:




可见,


r=0.8621


,可见分数和 复习时间之间存在高度的正相关性。




11.3



1




2



对 于线性回归方程


y=10-0.5x



其中


β


0


=10



表示回归直线的截距为


10



β


1


=-0.5


, 表示


x


变化一单位引起


y


的变化为


-0.5





3



x=6


时,


E(y)=10-0.5*6=7


。< /p>




11.4



1














,判定系数




测度了回归直线对观测数据的拟





合程度,


即在分数的变差中,



90%


可以由分数与复习时间之间的线性 关系解释,


或者说,


在分数取值的变动中,有

< br>90%


由复习时间决定。可见,两者之间有很强的线性关系。



2


)估计标准误差

< p>












分 ,即根据复习时间来估计分数时,平均的


估计误差为


0.25< /p>


分。




11.5



1


)编辑数据集,命名为






输入命令


scatter time juli,xlabel(#5, grid) ylabel(#5, grid)


, 得到如下散点图,可以看


到,时间和距离是正线性相关的关系。





2


)输入 命令


cor time juli


计算相关系数,得下图:




可见,


r=0.9489


,可见时间和 距离之间存在高度的正相关性。




3


)输入命令


reg time juli


得到下图:






线


< br>函




juli






time



< br>变





y=0.0035851x+0.1181291,



β


0


=0.1181291


,表示回归直线的 截距为


0.1181291


;β


1


=0.0035851


,表示距离(


x


)变



1km


引起 时间(


y


)的变化为


0.003585 1


天。




11.6



1


)编辑数据集,命名为




输入命令


scatter cspt GDP,xlabel(#3, grid) ylabel(#3, grid)


,得 到如下散点图,可以看


到,时间和距离是正线性相关的关系。





2


)输入 命令


cor cspt GDP


计算相关系数,得下图:



< /p>


可见,


r=0.9981


,可见人均消费 水平和人均


GDP


之间存在高度的正相关性。

< br>



3


)输入命令


reg cspt GDP


得到下图:






线






GDP







cspt






< p>


y=0.3086827x+734.6928,



β


0


=734.6928



表示回归直线的截距为


734.6928



β


1


=0.30 86827



表示人均


GDP



x



变化

< p>
1


元引起人均消费水平(


y


)的变化为


0.3086827


元。




4


)由(


3


)得到的结果可得




=0.9963


,判定系数




测度了回归直线对观测数据的拟合


程 度,即在人均消费水平的变差中,有


99.63%


可以由人均消 费水平与人均


GDP


之间的线


性关系解 释,


或者说,


在人均消费水平取值的变动中,

< br>有


99.63%


由人均


GDP< /p>


决定。


可见,


两者之间有很强的线性关系 。




5


)由 (


3


)得到的结果可得回归方程线性关系的

F


检验值


1331.69


对应的检 验


P


值为


0.0000<


α


=0.05



故拒绝原假 设,


即人均消费水平和人均


GDP


之间 存在显著的正相关性。




6



x=5000


时,


E



y



=0. 3086827*5000+734.6928=2278.1063





7


x=5000


时,输入命令


predictnl PT=predict(xb),ci(lb ub) l(95)


,得到各人均


GDP


水平下的置信区间,如下图:




输入如下命令,得到置信区间和预测区间示意图:



predict yhat


predict stdp, stdp


predict stdf, stdf


generate zl = yhat - invttail(5,0.025)*stdp


generate zu= yhat + invttail(5,0.025)*stdp


generate yl = yhat - invttail(5,0.025)*stdf


generate yu = yhat + invttail(5,0.025)*stdf


twoway (lfitci cspt GDP, level(95)) (scatter cspt GDP) (line zl zu yl yu


GDP, pstyle(p2 p2 p3 p3) sort)




cspt=y



GDP=x



y0



x0=5000


的预测值,


x1



GDP


平均值,


x2=



x0-x1

< br>)


^2



x3= sum((x-x1)^2)


























y0=0.3086827*5000+734.6928= 2278.1063




egen x 1=mean(x)


,得到


x1=12248.429




gen x2=(5000-12248. 429)^2


,得到


x2=



52539722.968




egen x3= sum((x-x1)^2)


,得到


x3=854750849.7143


display



y0+2.7764*247.3*sqrt(1/7+x2 /x3)


,得


zu=



2588.4671



display



y0-2.7764*247.3*sqrt(1/7+x2 /x3)


,得


zl=



1967.7455



display



y0+2.7764*247.3*sqrt(1+1/7+ x2/x3)


,得


yu=



3031.5972



display



y0+2.7764*247.3*sqrt(1+1/7+ x2/x3)


,得


yl= 1524.6154


即人均


GDP



5000< /p>


元时,人均消费水平


95%


的置信区间为


[1967.7455,



2588. 4671]



预测区间为


[1524. 6154, 3031.5972]





11.7



1


)编辑数据集,命名为




输入命令


scatter



cmplts



percent,xlabel(#5, grid) ylabel(#5, gri d)



得到如下散点图,


可以看到,时 间和距离是负线性相关的关系。





2


)输入命令


reg



cmplts



percent


得到下图:




可得线性函数(


percent


为自变量,


cmplts


为因变量)



y=-4.700623x+430.1892,

< br>即


β


0


=430.1892


,表示回归直线的截距为


430.1892


;β


1


=-4.700623


,表示航 班正点率


percent


提高


1%


使投诉次数


cmplts


的减少

< p>
-4.700623


次。




3


)由(


2


)得到的结果可得回归系数检验的


t



-4.96


对应的


P


值为

< p>
0.001<


α


=0.05



故拒绝原假设,


即航班正点率


pe rcent


是投诉次数


cmplts


的 一个显著因素


(或者输入


test



percent=0






4


< br>x=80


时,


E



y



=-4.700623*80+430.189 2=54.13936


次。




5



x=80


时,输 入命令


predictnl PT=predict(xb),ci(lb ub) l (95)


,得到各航班正点率水


平下的置信区间,如下图:




输入如下命令,得到置信区间和预测区间示意图:



predict yhat


predict stdp, stdp


predict stdf, stdf


generate zl = yhat - invttail(8,0.025)*stdp


generate zu= yhat + invttail(8,0.025)*stdp


generate yl = yhat - invttail(8,0.025)*stdf


generate yu = yhat + invttail(8,0.025)*stdf


twoway (lfitci



cmplts



percent, level(95)) (scatter cmplts



percent) (line zl zu yl


yu percent, pstyle(p2 p2 p3 p3) sort)




cmplts=y



percent=x



y0



x0=80


的预测值,


x1



percent


平均 值,


x2=



x0-x1



^2



x3= sum((x-x1)^2)


























y0=-4.700623*80+430.1892=54 .13936




egen x1=m ean(x)


,得到


x1=12248.429




gen x2=(80-



75.86)^2


,得到


x2= 17.1396




egen x3= sum((x-x1)^2)


,得到


x3=


397.024


display



y0+2.3060*18.887*sqrt(1/10+ x2/x3)


,得


zu=



70.619033



display



y0-2.3060*18.887*sqrt(1/10+ x2/x3)


,得


zl=



37.659687



display



y0+2.3060*18.887*sqrt(1+1/1 0+x2/x3)


,得


yu=



100.7063



display



y0-2.3060*18.887*sqrt(1+1/1 0+x2/x3)


,得


yl= 7.5724171


即航班正点率为


80%


时,投诉次数的


95%


的置信区间为


[37.659687,< /p>



70.619033]


,预测


区间为


[7.5724171, 100.7063]





11.8



1


)打开一张


EXCEL


表格,输入数据如下:





2

)数据|分析|数据分析|回归,弹出回归对话框并设置如下:





3


)单击 “确定”得如下输出结果:



SUMMARY OUTPUT






回归统计




Multiple R


0.79508



R Square


0.632151



Adjusted R


0.611715


Square



标准误差



2.685819



观测值



20






方差分析







回归分析



残差



总计






Intercept


X Variable 1













































































Significance


df


SS


MS


F


F


1


223.1403


223.1403


30.93318


2.79889E-05


18


129.8452


7.213622




19


352.9855













Coefficients


标准误差



t Stat


P-value


Lower 95%


49.31768


3.805016


12.96123


1.45E-10


0.249223


0.04481


5.561761


2.8E-05


Excel


输出的回归结果包括以下几个部分:



第一部分是“回归统计”


,这部分给出了回归分析中的一些常用统计量,



包括表中复相关系数


Multiple R=0.79508



它是度量复相关程度的指标,

< p>
取值


[0,1]


之间,


取 值越大,表明要素或变量之间的线性相关程度越密切;



判定系数


R


Square=0.63 2151


,表示有


63.2151%


的 出租率可以由每平方米月租金之间


的线性关系来解释;



调整的决定系数


Adjusted R Square=0.6 11715


,表示调整后的判定系数使用了自由度为


一个权重因 子,


即使解释变量增加,


如果它与被解释变量无关,

< p>
则调整后的判定系数不会增


加会减少;



标准误差,


表示各测量值误差的平方的平均值的平方根,


故又称为均方误差的平方根,


在这


里取


2.685819


(已验证,该值即为







观测值个数


19





第二部分是“方差分析”


,这部分给 出的是回归分析的方差分析表,包括自由度


df


、回归平


方和


SSR=223.1403


、残差平方和


SSE=129.8452


、总平方和


SST=352.9855


、回归的


均方根

223.1403


、残差的均方根


MSE=7.21362 2






Upper


下限



上限



95%


95.0%


95.0%


41.32363505


57.31172


41.323635


57.31172


0.155080305


0.343365


0.1550803


0.343365















F










Sig nificance


F=2.79889E-05


,用于线性 关系的显著性检验,说明两个变量之间的线性是否显著;



第三部分是参数估计的有关内容。包括



回归方程的截距


β


0=49.31768



斜率


β


1=0.249223


,表示月租金变化


1

< br>元引起的出租率变化


24.9223%




截距的标准误差


3.805016

< br>,斜率的标准误差


0.04481



用于回归系数检验的


t


统计量及 对应的


P


值,


说明回归系数的显著性,


即月租金和出租率两


者之间是否有显著关系;

< br>


截距和斜率的置信区间


[Lower 95%, Upper 95%]





11.9




1


)方差分析表



方差分






回归分




残差



总计




df


1


10


11




SS


1602708.6



MS


1602708.6


4015.807



F


399.1






Significance


F


2.17E-09





40158.07


1642866.67





2












,即汽车销售量的变差中有


97.556%


由广告费用


的变动引起。



3



汽车销售量与广告费用的相关系数














表明汽车


销售量与广告费用有高度的相关性。




4


)由题意得,


y=1.420211x+3 63.6891


。β


0=363.6891

,表示回归直线的截距为


363.6891



β


1=1.420211



表示广告费用提高


1


单位使汽车销售量改变

1.420211


单位。




5



线










< br>
















的< /p>


P=


Significance


F=


0.<0.05


,故拒绝原假设,即汽车销售量与广告费用之间 的线性关系显著。




11



10



1


)编辑数据集,命名为





输入命令


scatter y x


,得 到如下散点图,可以看到,


y



x


是负线性相关的关系。





2


)输入命令


reg y x


得到下图:



可得线性函数:


y=2.302932x+13.62541,


β


0


=13.62541


,表示回归直线的截距为


13.62541


; β


1


=2.302932


,表示


x


变化


1


单位使使< /p>


y


变化


2.302932


单位。



(3)


输入


predict yhat


gen e=x-yhat


得到残差


e


,见下图:



由(


2


)的结果可得,判定系数







,即


y


的变差


93.73%



x


引起,


y



x


之间


有较强的线性关系;



估计标准误差












由于








y



x


之间有较强的线性关系,直线拟合得较好。




11.11



1















2















3


)由










,故拒绝原假设;




4

















5


)由(


3


)知,


x



y


之间有显著的线性关系。




11.12


由题 意得,


12



y0


x0=4


的预测值,


x1



x


平均值,



x2=



x0-x1



^2



x3=


sum((x-x1)^2)


















y0=3*4+5=17




x1=2




x2=4




x3= 20


display


< /p>


17+2.1009*1.0*sqrt(1/20+4/20)


,得


zu= 18.05045


display



17-2.1009*1.0*sqrt(1/20+4/2 0)


,得


zl= 15.94955


display



17+2.100 9*1.0*sqrt(1+1/20+4/20)


,得


yu= 19.348878


display


17-2.1009*1.0*sqrt(1+1/20+4/20)


,得


yl= 14.651122






x



4


元时,


y



95%


的置信区间为


[15.949 55, 18.05045]



预测区间为

[14.651122,


19.348878]





11.13


1


)编辑数据集,命名为




输入命令


scatter y x


,得 到如下散点图,可以看到,


y



x


是负线性相关的关系。





2


)输入命令


reg y x


得到下图:



可得线性函数:


y=15.23977x-46.29181,


β


0


=-46.29181


,表示回归直线的截距为


-46.29181


;β


1


=15.23977


,表示< /p>


x


变化


1


单位使 使


y


变化


15.23977

< p>
单位。




3

< p>
)输入如下命令,得到置信区间示意图:



predict yhat


predict stdp, stdp


generate zl = yhat - invttail(20,0.025)*stdp


generate zu= yhat + invttail(20,0.025)*stdp


twoway (lfitci y x, level(95)) (scatter y x) (line zl zu x, pstyle(p2 p2 p3 p3) sort)



y0



x0=40


的预测值,


x1



x


平均值,


x2=



x 0-x1



^2


x3= sum((x-x1)^2)


























y0=15.23977*40-46.29181=563 .29899




egen x1=mean(x)


,得到


x1=



24.9375




gen x2=(40-24.9375)^2


,得到


x2= 226.87890625




egen x3= sum((x-x1)^2)


,得到


x3=



2692.11875


display



y0+2.4469*




*sqrt(1/8+x2/x3)


,得


zu=



685.04208



display



y0-2.4469*




*sqrt(1/8+x2/x3)


,得


zl=



441.5559




x



40


元时,


y



95%


的置信区间为


[441.5559,



685.04208]





11.14



编辑数据集,命名为



输入命令


scatter e1 v1


得图:





可见对所有的


x

值,


ε


的方差都相同,


假定的描述 变量


x



y


之 间的关系模型是合理的,



残差图对应的模型是满意的模式;< /p>



输入命令


scatter e2 v4


得图:




可见该残差图对应的模型不合适,应考虑曲线回归或多元回归模型。



11.15



1


)编辑数据集,命名为




输入命令


scatter y x


,得 到如下散点图,可以看到,销售额和广告费用是正线性相关的关


系。



输入命令


reg y x


得到下图:



可得线性函数:


y=1.547478x+29.39911,


β


0


=29.39911


,表示回归直线的截距为


29.39911



β


1


=1.547478



表示广告支出费用提高


1


万元使销售额提高


1.547478


万元。



2


)由(

1


)得到的结果可得回归方程线性关系的


F


检验值


11.15


对应的检验


P


值为


0.0206<


α


=0.05


,故拒绝原假设,即销售额和广告费用之间存在显著的正相关性。




3


)输入


predict yhat


gen e=y-yhat


scatter e x



输入


gen z= e/



7.8775


scatter z x


得到标准化残差图如下:




可见标准化残差都在


-2


2


之间,


对所有的


x


值,


ε


的方差都相同,


假定 的描述变量


x



y

之间的关系模型是合理的,该残差图对应的模型是满意的模式。


< br>(


4


)由(


3

< br>)知虽然爱关于误差项


ε


的假设被满足了,可是通过散点 图的走势可以发现,


如果用指数型曲线模拟效果会更好。




11.16


1


)编辑数据集,命名为




输入命令


scatter y x


,得 到如下散点图,可以看到,销售量和广告费用是正线性相关的关


系。



输入命令


reg y x


得到下图:



可得线性函数:


y=0.1958404x+4.068466,

< br>即


β


0


=4.068466


,表示回归直线的截距为


4.068466


;β


1


=0.1958404


,表示广 告支出费用提高


1


万元使销售量提高


0 .1958404



箱。


< p>


2


)输入


predic t yhat


gen e=y-yhat


scatter e x


得到残差图如下




输入


gen z= e/



7.8775


scatter z x


得到标准化残差图如下:




可见标准化残差都在


-2


2


之间,


对所有的


x


值,


ε


的方差都相同,


假定 的描述变量


x



y

之间的关系模型是合理的,该残差图对应的模型是满意的模式。


< br>最后一点(


120.0,36.3


)对应的标准化残差较 大,接近






,该点为异常点。




x1



x

< br>平均值,


x2=



x-x1



^2



x3= sum((x-x1)^2)


egen x1=mean(x)


,得到


x1=



40.5




gen x2=(x-x1)^2




egen x3= sum((x-x1)^2)


,得到


x3=



19176.64


gen x4=1/10+ x2/x3


gen x5=1/10


gen x6=x4-x5


scatter x6 x



由上图可知,倒数最大的一个点(


120.0,36.3


)具有高杠杆率,该点是有影响的观测值。





3

< br>)有影响的观测值不一定是一个异常值。






























二、



多元线性回归



12.1




1


)编辑数据集,命名为



输入命令


reg y x1 x2


得到下图:





可得线性函数:


y=-0.0497 143x1+1.928169x2+25.0287





x1=200



x2=7


时,


y=-0.0497143*200+1.928 169*7+25.0287=28.583023





12.2


模型涉及


3


个变量,


45


个观察值;< /p>



回归方程


y=657.0534-0. 416917x1-3.471481x2




其中


Significance F=0.002724<0. 05


,故


y



x1



x2


之间的线性关系显著;



S


e


=109. 429596




< br>据

























< br>109.429596




R< /p>


2


=0.709650


,即


y


的变差中,能由


x1


和< /p>


x2


解释的比例为


70.9650%







=0.630463


,即在用样本量 和模型中的自变量的个数调整后,在


y


的变差中,能由


x1



x2


解释的比例 为


63.0463%





12.3



1




























>F


,故拒绝原假设,则


y

< p>


x1



x2

< p>
之间的线性关系显著;




2



由于
















,































,所以拒绝原假设,即回归方程的系数显著。




12.4



1


)编辑数据集,命名为




输入命令


reg y x1


得到下图:




可得线性函数:


y=



1.603865x1+



88.63768





2



reg y x1 x2


可得线性函数:


y=



2.290184x1+



1.300989x2+



83.23009




(3)


由(


1




2


)可见,电视广告费用的系数不同。

< p>


对(


1


)中,




=



1.6 03865


,电视广告费用每增加


1


万 元,月销售收入增加


1.603865



元;





2



中,




=



2.290184



在报纸广告费用不变的情况下,


电视广告费用每增加


1


万元,


月销售收入增加


2.290184




(< /p>


4


)由(


2


)得 到的结果可以看出,


R


2


=

< p>


0.9190


,即销售收入的变差中,被估计的 回归方


程所解释的比例为


91.90%





5


)由 (


2


)得到的结果可以看出,




=7.53





=4.06


,而








,则










,所以拒绝原假设,即回归方程的系数显著。




12.5


编辑数据集,命名为



-


-


-


-


-


-


-


-



本文更新与2021-02-10 05:35,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/626773.html

统计学第四版贾俊平人大-回归与时间序列stata的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文