关键词不能为空

当前您在: 主页 > 英语 >

SAS学习系列39 时间序列分析Ⅲ—ARIMA模型

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-13 04:30
tags:

-

2021年2月13日发(作者:fault是什么意思)


39.


时间序列分析Ⅱ——


ARIMA


模型




随着对时间 序列分析方法的深入研究,


人们发现非平稳序列的确


定性因素分 解方法


(如季节模型、


趋势模型、


移动 平均、


指数平滑等)


只能提取显著的确定性信息,


对随机性信息浪费严重,


同时也无法对


确定性因素之 间的关系进行分析。



而非平稳序列随机分析的发展就是为了弥 补确定性因素分解方


法的不足。


时间序列数据分析的第一步都是 要通过有效手段提取序列


中所蕴藏的确定性信息。


Box



Jenkins


使用大量的案例分析证明差


分方法是一种非常简便有效的确定性信息的提取方法。而


Gra mer



解定理则在理论上保证了适当阶数的差分一定可以充分 提取确定性


信息。




(一)


ARMA


模型



即自回归移动平均移动模型,


是最常用的拟合平稳时间序列的模


型,分为三类:


AR


模型、

< br>MA


模型和


ARMA


模型。



一、


AR(


p< /p>


)


模型——


p


阶 自回归模型








1.


模型:



x


t


?


?


0


?


?


1


x


t


?


1


?


L


?


p


x


t

< br>?


p


?


?


t



其中,


?


p


?


0


,随机干扰序列


ε


t



0

< br>均值、


?


?


2

< br>方差的白噪声序列



E


(


?


t


?


s

< p>
)


?


0


, t

< p>


s




且当期的干扰与过去的序列值无关,



E(

< p>
x


t


ε


t


)=0.



由于是平稳序列,可推得均值

< p>
?


?


?


0


1


?


?


1

?


L


?


?


p


.



?


0


?


0


,称为


中 心化的


AR


(


p


)


模型,对于非中心化的平稳时间序列,可以令


?

< p>
0


?


?


(1


?


?


1


?

< br>L


?


?


p


)



x


t


*


?


x


t


?


?


转化为中心化。




B


为延迟算子,


?


p


(


B


)

?


I


?


?


1


B


?


L


?< /p>


?


p


B


p


称为


p


阶自回归多


项 式,则


AR


(


p


)


模型可表示为:


?


p


(


B


)


x

< br>t


?


?


t


.



2.


格林函数



用来描述系统记忆扰动程度 的函数,


反映了影响效应衰减的快慢


程度


(回到平衡位置的速度)



G


j


表示扰动


ε


t


-< /p>


j


对系统现在行为影响的


权数。



例如,


AR(1)


模 型(一阶非齐次差分方程)



G


j


?


?


1


j


,



j


?

< p>
0,1,2,


L



模型解 为


x


t


?


?< /p>


G


j


?


t


?


j


.


< p>
j


?


0


?


3.


模型的方差



?


?


2


对于


AR(1)


模型,


Var


(


x


t


)


?


?


G


Var


(


?


t


?


j


)


?


.



2


1


?


?


1


j


?


0


?

< br>2


j


4.


模型的自协方差



对中心化的平稳模型,可推得自协方差函数的递推公式:




用格林函数显示表示:


< p>
?


(


k


)


?


??


G


i

< br>G


j


E


(


?


t


?


j


?


t


?


k


?


j


)


?


?


i


?


0


j


?


0


?


?

< br>2


?


G


j


?


0


?


j


?


k


G


j



对于


AR(1)


模型,


?


?


2



?


(


k


)


?


?


?


(0)


?


?


2


1


?


?


1


k


1


k


1


5.


模型的自相关函数



递推公式:




对于


AR(1)


模型,


?

< p>
(


k


)


?


?


1


k


?

(0)


?


?


1

k


.



平稳


AR(


p


)


模型的自相关函数有两个 显著的性质:




1


)拖尾性



指自相关函数


ρ(k)


始终有非零取值 ,


不会在


k


大于某个常数之后


就恒等于零;




2< /p>


)负指数衰减



k


随着时间的推移,


自相关函数


ρ(k)


会迅速衰减,


且以负指数


?


(其


i



?


i


为自相关函数差分方程的特征根)的速度在减小。





6.


模型的偏自相关函数



自相关函数


ρ(k)


实际上并不只是


x


t



x


t

-


k


之间的相关关系,


它还会


受到中间


k


-


1< /p>


个随机变量


x


t


-


1


,


…,


x


t


-


k+


1


的影响。为了能剔除了中间


k


-


1


个随机变量的干扰,单纯测度


x


t



x


t


-


k


之间的相关关系,引入了滞后

< br>k


偏自相关函数(


PACF


)< /p>


,计算公式为:




其中,




滞 后


k


偏自相关函数实际上等于


k


阶自回归模型第


k


个回归系数


?


kk





两边同乘以


x


t


-


k


,求期望再除以


?


(0)


得到




取前


k


个方 程构成的方程组:




称为

< p>
Yule


-


Walker


方程,可以解出


?


kk


.



可以证明平稳


AR(p)

< p>
模型,当


k>p


时,


?< /p>


kk


?


0


. < /p>


即平稳


AR(p)


型的偏自相关函数具有


p


步截尾性。





注:


实际上样本的随机性使得偏自相关函数不是严格截尾,


例如


上面 两图都


1


阶显著不为


0



1


阶之后都近似为


0.




二、


MA (q)


模型——


q


阶移动平均模型



1.


模型:




其中,


?


q


?


0


,随机干扰序列

< br>?


t



0


均值、


?


?


2


方差的白噪声序列



E


(

< p>
?


t


?


s


)


?


0


, t



s





μ=0


称为中心化的


MA(q)


模型,


非 中心化的


MA(q)


模型可以


通过


x


t


*


?


x


t


?


?


转化为中心化。




B


为延迟算子,


?


q


(


B


)


?


I< /p>


?


?


1


B


?


L


?


?

< p>
q


B


q


称为


q


阶自移动平


均系数多项式,则中心化


MA(q)


模型可以表示为


x


t


?


?


q


(


B


)


?


t


.



2.


模型的方差




3.


模型的自协方差



只与滞后阶数


k


相关,且


q


阶截尾。当


k=0


时,





1


k



q


时,





k >q


时,


?


(


k


)


?


0


.< /p>



4.


模型的自相关函数:

< p>
?


(


k


)


?


?


(


k

)



q


阶截尾性)



?


(0)



5.


模型的滞后


k

< br>阶偏自相关函数(中心化)




可以证明滞后


k


阶偏自相关函数具有拖尾性。

< br>



6.


模型的可逆性



MR(1)


为例,



模型Ⅰ:


x


t


?


?


t


?


?


1


?


t


?


1

< br>




x


t


?


?


t



1


?


?< /p>


1


B


模型Ⅱ:


x


t


?


?


t


?


1


?


1


?


t


?


1






1


?


x


t

1


?


?


t



B


?


1


它们的 自相关函数


?


1


?

?


?


1


/


(1


?


?


1


2


)


相同


(即相同的自相关函数对应不< /p>


同的回归模型)



为了保证对应的唯一性 ,


需要增加约束条件,



MR(q)< /p>


模型的可逆性条件。



观察两个模型的第 二种表示:当


|


?


1

< br>|


?


1


时,模型Ⅰ收敛、模型Ⅱ


不收敛;当


|


?


1


|


?


1


时 ,模型Ⅰ不收敛、模型Ⅱ收敛。



表示成收敛形式的

< p>
MR(q)


模型称为可逆


MR(q)


模型。


一个自相关


函数只对应唯一一个可逆


MR(q)


模型。




三、


ARMA(p, q)


模型——自回归移动平均模型



1.


模型




其中,


?


p


?


0



?


q


?


0


,随机干扰序列


ε


t



0


均 值、


?


?


2


方 差的白噪声


序列(


E


(


?


t


?


s

)


?


0


,


t



s



, 且当期的干扰与过去的序列值无关,即


E(


x

< br>t


ε


t


)=0.




?


0

=0


,则称为中心化的


ARMA(p,q)


模型。引入延迟算子,中


心化的


ARMA(p,q)< /p>


模型可表示为:


?


p

(


B


)


x


t


?


?


q


(< /p>


B


)


?


t


.



显然,


AR(p )



MA(q)


模型是


ARMA(p,q)


模型的特例。



2.


数字特征



1


)均值:


E

< br>(


x


t


)


?


?


0


1


?


?


1


?


L


?


?


p


;




2


)自协方差函数 :


?


(


k


)< /p>


?


?


?


?


G


i


G


i

< p>
?


k


,其中


G

< p>
i


为格林函数;



2


i


?


0


?


?


(


k


)



3


)自相关函数:


?


(


k


)


?


?


?


(0)


?


G


G


i


i


?


0


?


i

< br>?


k


?


G


i


?


0


?



2


i



3.


模型的初步定阶



对于平稳非白噪声序 列,计算出样本自相关系数(


ACF


)和偏自

< br>?



?


和移动平均阶数


q


相关系数



PACF




根据其性质估计自相关阶数


p


称为


ARMA(p,q)

< br>模型的定阶。



?


都近似服


?


(


k


)


和偏自相关函数


?


可以推导出:样本自相关函数


?


kk


1


从正 态分布


N


(0,


)

.



n


取显著水平


α=0.05



若样本自相关系数和样本偏自相关系数 在最


初的


k


阶明显大于


2


倍标准差,


而后几乎


95%


的系数都落在


2


倍标准


差的范围内,


且非零系数衰减为小值波动的过程非常突然,

通常视为


k


阶截尾;若有超过


5%


的样本相关系数大于


2


倍标准差,或者 非零


系数衰减为小值波动的过程比较缓慢或连续,通常视为拖尾。



4.


参数估计



对非中心化的


ARMA(p,q)


模型



x


t


?

?


?


?


q


(


B


)


?


p< /p>


(


B


)


?


t


.



参数


μ


可用样本均值来估计总体均值(矩估计法)


, 初步定阶估计出


?


后,模型共有


p+q +1


个未知参数:


?


和移动平均阶数< /p>


q


自相关阶数


p


?


1


,


L


,< /p>


?


p


,


?


1


,


L


,

< p>
?


q


,


?


?


2


.








1


)参数的矩估计



用时间序列样本数据计算出延迟


1


阶到


p+q


阶的样本自相关函数


?


(


k


)



?


延迟


k


阶的总体自相 关函数为


?


k


(


?


1


,


L


,


?


p


,


?


1


,


L


,


?


q


)


.

< p>
用计算出


的样本自相关函数来估计总体自相函数,得到

p+q


个联立方程组:




?


,


L


,

< p>
?


?


,


?


?


,


L


,

?


?


.


从中解出


?


1


,


L

,


?


p


,


?


1


,


L


,< /p>


?


q


的值作为未知参数估计值

< p>
?


1


p


1


q


ARMA(p,q)


模型的两边同时求方差,并把前 面的参数的估计值代入,


可得白噪声序列的方差估计为:





2


)参数 的极大似然估计



当总体分布类型已知时,

极大似然估计是常用的估计方法。


其基


本思想是,认为样本 来自使该样本出现概率最大的总体。



因此,

< br>未知参数的极大似然估计,就是使得似然函数(即联合密


度函数)达到最大值的参 数值:




在时间序列分析中,


序列的总体分布通常是未知的。


为了便于分


析 和计算,


通常假设序列服从多元正态分布,


它的联合密度函数是 可


导的。在求极大似然估计时,为了求导方便,常对似然函数取对数,

< br>然后对对数似然函数中的未知参数求偏导数,


得到似然方程组。

< br>理论


上,


只要求解似然方程组即可得到未知参数的极大似 然估计。


但在实


际上是使用计算机经过复杂的迭代算法求出未知 参数的极大似然估


计。



两种估计的比较:



矩估计的优点是不 要求知道总体的分布,


计算量小,


估计思想简

< br>单直观。


但缺点是只用到了样本自相关系数的信息,


序列 中的其他信


息被忽略了,这导致估计精度一般较差。因此,它常被作为极大似然


估计和最小二乘估计的迭代计算的初始值。



极 大似然估计的优点是充分应用了每一个观察值所提供的信息,


因而它的估计精度高,同时 ,还具有估计的一致性、渐近正态性和渐


近有效性等优良统计性质,是一种非常优良的参 数估计方法。




3

< br>)参数的最小二乘估计



使


AR MA(p,q)


模型的残差平方和达到最小的那组参数值:




通过计算机借助迭代方法求出。


由于 充分利用了序列的信息,


该方法


估计精度最高。



在实际运用中,


最常用的是条件最小二乘估计,


假定时间序列过


去未观察到序列值等于序列均值,可得到残差的有限 项表达式:




于是残差平方和达到最小的那组参数值为:




5.


模型和参数的显著性检验



ARMA( p,q)


模型中,使用


Q


LB


统计量检验残差序列的自相关性,


为了克服


DW


检验的有偏性,


Durbin



1970


年提出了修正的


Durbin


h


统计量:




2


其中,


n


为 观察值序列的长度,


?


?


为延迟因变量 系数的最小二乘估计


的方差。



参数的 显著性检验是要检验每一个模型参数是否显著非零。


若某


个参数 为零,模型中包含这个参数的乘积项就为零,可以简化模型。


因此,该检验的是为了精简 模型。



原假设


H

0


:某未知参数


β


j


=0



H


1



β


j


0.


可以构造出检验未知


参数显著性的

< br>t(n


-


m)


检验统计量,其中


m


为参数的个数。



6.


模型优化


当一个拟合模型在置信水平


α


下通过了检验,


说明了在该置信水


平下该拟合模型能有效地拟合时间序列观察值的波动。


但是这种有效


的拟合模型并不是惟一的。



如果同一个时间序列可以构造两个拟合模型,


且两个模型都显著


有效,那么应该选择哪个拟合模型用于统计推断呢?通常采用


A IC



SBC


信息准则来进行模型优化 。





< /p>



1



AIC< /p>


准则——最小信息量准则



由日本统计学 家赤池弘次(


Akaike


)于


197 3


年提出,是一种考


评综合最优配置的指标,它是拟合精度和参 数未知个数的加权函数:



AIC


=< /p>



2ln(


模型中极大似然函数值


)+2(


模型中未知参数个数


)



使其达到最小值的模型被认为是最优模型。




2



BIC/S BC


准则



AIC

准则的不足:若时间序列很长,相关信息就越分散,需要多


自变量复杂拟合模型才能 使拟合精度比较高。在


AIC


准则中拟合误

?


?


2


)


,即随样本容量


n


增大,但模型参数个数的惩罚因子

< p>
差等于


n


ln(


?


(始终


=2


)却与


n


无关。因此在样本容量


n


趋于无穷大时 ,由


AIC


准则选择的拟合模型不收敛于真实模型,

< p>
它通常比真实模型所含的未


知参数个数要多。


< /p>


为了弥补


AIC


准则的不足,

< p>
Akaike



1976


年提出


BIC


准则。



Schwartz



1978


年根据贝叶斯理论也得出同样的判别准则,


称为


SBC


准则。


SBC


准则定义为:


SBC=



2ln(

< p>
模型中极大似然函数值


)+ln(


n


)(


模型中未知参数个数


)



即将未知参数个数的惩罚权重由常数


2


变成了


ln(


n


)

。在所有通过检


验的模型中使得


AIC


SBC


函数达到最小的模型为相对最优模型


(因


为不可能比较所有模型)



7.


模型预测



即利用时间序列已观察到的样本值对时间序列在未来某个时刻


的取值进行估计 。常用的预测方法是线性最小方差预测。



根据


ARMA(p,q)


模型的平稳性和可逆性,可以用格林函数的传


递形式和逆转函数的逆转形式等价描述该序列:




右式代入左式得:



?


?


?


?


?

?


x


t


?


?


G


i


?


?< /p>


I


j


x


t


?


i


?


j

< p>
?


?


??


G


i


I


j


x

< br>t


?


i


?


j


?


?


C


i


x


t


?


1


?


i



i


?


0


i


?


0


?


j


?

< br>0


?


i


?


0


j


?


0


?


可见,


x


t


是 历史数据


x


t


-


1


,


x


t


-


2


, …


的线性函数。



对于任意一个将来时 刻


t


+


l


,也 可以用上式预测,但


x


t+l


-


1


, …,


x


t+


1


未知。


根据线性函数的可加性,


所有未知信息都可以用已知信息的线


性函数表示出来,并用该线性函 数进行估计:




?

< br>t


?


l


来衡量预测误差,最常用 的预测原则是预测误差的



e


t


(


l


)


?

< p>
x


t


?


l


?


x


方差最小法:




?


t


?


l


是在序列


x


t< /p>


,


x


t


-


1


, …



在线性 预测方差最小法下得到的估计值


x


知的情况下得到的条件无偏最 小方差估计值。


且预测方差只与预测步



l


有关,而与预测起始点


t


无关。< /p>



预测步长


l


越 大预测值的方差越大,因此只适合于短期预测。在


?


t


?


l



1


-


α


的置信区间为:



正态假定下,估计值


x




(二)


ARIMA

< br>模型——混和自回归移动平均模型



一、原理



也称


Box


-


Jenkins


模型,用来 处理单变量同方差的非平稳时间序


列,


通过差分法或适当的变换 转化为平稳序列,


再使用


ARMA


模型 。







注:


残差的条件方差是异方差的时间 序列,


适合用


GARCH


模型。





< p>
ARIMA(p,d,q)


模型的形式如下:


< /p>


?


(


B


)


?


d


x


t

< p>
?


?


(


B


)


?


t





?


d


x


t


=


d


其中,


?


d


?


(


I


?


B




d


阶差分,< /p>



?


(


B


)


?


t


< p>
?


(


B


)




为平稳可逆


ARMA(p ,q)


模型的自回归和移动平均系数多项式。



可见,


ARIMA


模型的实质就是差分运算与


ARMA


模型的组合。


任何非平稳序列只要通过 适当阶数的差分实现平稳,


就可以对差分后


序列进行

< p>
ARMA


模型的拟合了。



d


阶差分后的序列可表示为:




i


其中,


C


d


为组合数,即


d

阶差分后序列等于原来序列的若干序列值


的某种加权和。




二、建模步骤



分为三个阶段:识别阶段、估计阶段和预测阶段。








1.


识别阶段







使用


id entify


语句来指定响应变量序列并且识别候选


ARIMA



型。一般先对序列进行非线性、差分和平稳性检验,可能对序 列进行


差分,然后计算自相关系数


ACF


、逆自相关系数


IACF


、偏自相关系



PACF


和互相关系数。


此阶段的 输出通常会建议一个或多个可拟合



ARIMA


模型。如果模型确定,还可以检验样本自相关系数


SACF

和样本偏自相关系数


SPACF


,以分出模型的类型。



2.



估计阶段



使用


estimate


语句来指定


ARIMA

模型去拟合在前面


identify


句中指定的响应变量,并且估计该模型的参数。


estimate

< br>语句也生成


诊断统计量从而帮助判断该模型的适用性。



关于参数估计值的显著性检验可以指出模型里的一些项是否不


需 要:拟合优度统计量


R


2


可帮助比较该 模型和其他模型的优劣;白


噪声残差检验可指明残差序列是否包含可被其他更复杂模型采 用的


额外信息,


如果诊断检验表明模型不适用,


则可尝试另一个模型然后


重复估计和诊断。



3.



预测阶段



使用


forecast


语句来预测时间序列的未来值,并对这些来自前面

< br>estimate


语句生成的


ARIMA


模型的预测值产生置信区间。




(三)


PROC ARIMA


过程



ARIMA


过程采用


Box


-


Je nkins


方法建立模型,


是集一元时间序列

< br>模型判定、参数估计和预测为一体的多功能综合工具。当


ARIMA



型包括其他时间序列作为输入变量时,


有时也被称 为


ARIMAX


模型。


ARIMA


模型还支持干预或中断时间序列模型、


误差的多元回归分析、


任意复杂程度的有理转移函数模型。



基本语法:



proc arima data=


数据集



out=


输出数据集


;



where


条件表达式


;



identify



var=


变量


(



) <


选项列表


>



estimate



<


选项列表


>;



forecast



<


选项列表


>;


-


-


-


-


-


-


-


-



本文更新与2021-02-13 04:30,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/648088.html

SAS学习系列39 时间序列分析Ⅲ—ARIMA模型的相关文章