关键词不能为空

当前您在: 主页 > 英语 >

基于机器学习算法的期权波动率预测20180827

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-11 09:01
tags:

-

2021年2月11日发(作者:carry是什么意思中文)



基于机器学习算法的金融期权波动率预测



马天平



对外经济贸易大学



北京


100032



摘要:



期权波动率预测是期权风险预 警管理的关键问题,


传统方法采取


GARCH

< br>等时间


序列模型。


与传统方法不同,

本文创建了基于机器学习算法的新预警体系,


体系


以中国波 指为对象,


采取


48


个相关指标作为对 中国波指预测的特征



Feature




依次引入


SVM

< br>机器学习、


KNN


样本不平衡机器学习、


RF


划分、


GBDT


优化完< /p>


成机器学习建模过程,


并对这几种方法进行比较。


测试样本显示,


基于机器学习


的预测效果好于传统的< /p>


GARCH


模型。


本文理论价值在于丰富 了期权随机波动率


预测领域的相关文献。


应用价值在于为波动率 的预测进而期权风险预警提供了新


的方法。



关键词




机器学习;期权交易;波动率预测




A


Forecast


Method


about


Option


Volatility


based


on


Machine


Learning



MA Tianping


Ma Tianping University of International Business and Economics Beijing 100032



Abstract



The prediction of option volatility is an important issue in the early warning


management


of


option


risk,


and


the


traditional


method


takes


time


series


model.


Different


from


traditional


methods,


this


paper


proposes


an


early


warning


method


based on machine learning algorithm. Specifically, we propose an analysis framework


of machine learning, and then make China V


olatility Index as testing object, taking 48


related indicators as the characteristics (Feature) of China V


olatility Index, introduce


the


SVM


machine


learning,


KNN,


RF,


GBDT


optimization


respectively,


and


then


make


a


comparison


between


these


methods.


The


testing


sample


shows


that


the


prediction


effect


based


on


machine


learning


is


better


than


the


traditional


GARCH


model. The theoretical value of this paper lies in that we enrich the relevant literature


in


the


field


of


stochastic


volatility


prediction.


The


application


value


lies


in


that


we


provide a new method for the prediction of volatility and the early warning of option


1



risk.


Key words:


Machine Learning, Option Trading, Risk Warning, China V


olatility Index



一、引言



金融工程中,


期权是重要的衍生品工具。


作为机构交易者,


在设计 交易期权


的策略中,


突出的交易策略是卖出类。


但单向卖出期权与单项买入期权一样,



在巨大的交易 风险。为获取稳健的卖出类期权策略收益,需要动态对冲。



如 何考虑对冲的动态连续性和前瞻性,


成为风险管理的焦点。


市场 波动率是


决定期权价格的重要变量,


然而事实和研究表明,


期权波动率并不是一成不变的,


而是具有随机性(

< br>Hull & White



1987

< br>;


Wigggins



1987



Heston


1993


;等)。


波动率的不可预测性意味着难以找到合适 的波动率对期权予以定价。


因而要把握


期权价格的变化趋势以及 对冲的动态性和前瞻性,


对波动率的预测就成为十分重


要的工作 。


比如,


在卖出期权的策略中风险很大一部分来自隐含波动率的 大幅度


上涨,


因此如果我们能够提前预测出隐含波动率的上涨,


便可以通过对冲仓位的


调整来削减或是规避掉波动率上涨带来的 风险



波动率预测急需使用新的方法体系模型,近年来,随着大 数据、人工智能、


机器学习技术的日趋成熟,


可以利用新技术实 现波动率的预测。


大数据是新技术


处理模式中,


具有更强的决策力、


洞察力和流程优化能力的海量、


高 增长率和多


样化的信息资产(迈尔


-


舍 恩伯格和库克耶,


2013



T+0< /p>


交易的期权在年度、月


度、


周度、


日度、


秒度的不同层次、


不同深度数据,


可以满足数据


“大”


的标准。





人工智能

< p>



1956



Dartmouth


学会上提出至今已经满了一个

60


年,其研


究、开发用于模拟、延伸和扩展人的智能的理 论、方法、技术及应用系统的技术


科学,


具体研究包括机器人、


语言识别、


图像识别、


自然语言处理和 专家系统等,


其中的核心是机器学习。


机器学习设计和分析这些 让计算机可以自动



学习


< p>
的算


法,正是期权策略中,对波动率预测可以使用的新方法。



因此,


利用交易数据和算法人工智能,

< p>
将机器学习技术应用于期权金融市场,


提高期权风险管理水平和投资决策效 率,


是本文尝试的一个方向。


本文主要目的

是探索机器学习在期权波动预测中的应用,主要创新是提出波动率预测“


SKRG< /p>


递进集成”


法,


较高质量预测了隐含波动 率,


该机器学习有利于提高波动率预测


的精度。


具体而言,


SKRG


递进集成法,

是基于中国波指预测的特征



Feature




分别运用随机森林、


G BM



K


临近等算法,搭建了层层递进 的


48


个指标,并


在逻辑上做集成处理 ,得到最优化成果。



文章后续内容安排如下:


第二部分文献综述,


第三部分提出一个基于机器学


习算 法的风险预警模型,


第四部分与传统波动率预测结果进行比较,


最后是本文


的结论。




二、文献综述



对收益波动率的建模和 预测是金融市场研究的一个重要议题。


主流的方法是


通过历史数 据即时间序列模型。



Engle


等较 早提出


ARCH


类模型,


之后学者提出


GARCH


等一系列修正模型。


黄海南 等(


2007


)运用


GARCH


模型对上证指数收益率进行估计及样本外预测,


然后以已实现波动率作 为波动率预测的评价标准,通过


M-Z


回归和损失函数来


评价


GARCH


类模型的波动率预测表现。结 果表明,无论是样本内还是样本外,


2


GARCH


类模型能够较好的预测上证指数的收益波动率。


其中


,


偏斜


t-


分布假设下



GJR(1,1)


模型 的预测能力最强。


赵华等



2011< /p>



分别基于误差项服从正态分布、


t


分布、


广义误差分布的


GARCH


族模型和


MRS-GARCH


模型对中国股市波 动的


结构变化特征进行实证研究。结果表明


,

< br>中国股市存在显著的高、低波动状态,


MRS-GARCH


模型预测效果总体上优于


GARCH


族模型。李汉东等(


2003


)讨


论了在金融时间序列中广泛应 用的两类波动性模型,即自回归条件异方差


(ARCH)


模型和 随机波动


(SV)


模型的关系问题,认为一个离散的

< p>
EGARCH(1,1)



型在弱


GARCH


过程的条件下与一个离散的


SV

< p>
模型是一一对应的。


在此基础上


进一步讨论了


EGARCH(1,1)


模型和


SV


模型的单位根问题,


结果表明:


两类模型


的单位根存在对应的关系,即二者的持续性能够通过随机微分方程的形式来传


递。



GARCH


模型的缺点 在于,


无法考虑期权波动率二阶的复杂性和非线性特


征。



部分学者利用贝叶斯原理对随机波动率模型进行研究。


Jacquieret al.



2002



利用股票的收益率和换手率的日数据和周数据,


通过抽样实验来比较贝叶斯估计


法、矩量法和拟极大似然法。实验结果表明:在参数估 计,贝叶斯估计法要优于


另外两种方法。蒋祥林等(


2005< /p>


)基于贝叶斯原理对随机波动性模型进行研究,


并将随机波动率模 型应用股市风险价值的估计与预测。


针对中国股市数据进行的


实 证结果表明:



GARCH


模型相比,


随机波动率模型能更好地描述股票市场回


报的异方差和波动率的 序列相关性,基于随机波动率的


VaR



GARCH


模型的


VaR


具有更高的 精度。类似地,罗嘉雯等(


2017


)通过构建包含时变系数和 动态


方差的贝叶斯



HAR


潜在因子模型


( DMA( DMS) -FAHAR)



对我国金融期货的高


频已实现波动率进行预测。


结果表明,


时变贝叶斯潜 在因子模型在所有参与比较


的预测模型当中具有最优的短期、


中 期和长期预测效果。


同时,


在股指期货和国

债期货的预测模型中加入投机活动变量可以获得更好的预测效果。


但贝叶斯估计


法难以处理期权的不同执行价、


不同到期日、


不同执行权的欧式或美式等多维度


特征,常常依赖于单因素的分布条件。



陈蓉等(


2010


)利用 香港恒生指数期权的数据


,


对隐含波动率曲面动态过程


进行建模和估计,


建立了一个五因子随机隐含波动率模型。


在模型的估计方法上,


首次引入了基于小样本面板数据的扩展的卡尔曼滤波法 。


结果显示,


在香港市场


上,


扩展的卡尔曼滤波法比传统的两步法可以得到更好的估计结果,


五因子随 机


隐含波动率模型能很好地刻画恒指期权隐含波动率曲面的变动规律,

< br>效果明显优


于静态隐含波动率模型。


但中国市场的期权交 易在交易量尚不充分活跃下,


部分


非主力合约的波动率曲面建立 容易失真。



除了传统的波动率预测模型之外,


部分学者不断提出新的预测模型。


魏宇等


< p>
2015



在已有的多分形波动率


( multifractal volatility)


测度方法的基础上 提出新


的波动率测度方法及模型。


基于上证综指的


5 min


高频数据,


发现不论是短记忆


模型还是长记忆模型,


多分形波动率模型的预测精度明显优于

< p>


GARCH


族模型,


且长记忆模型的预测能力要好于短记忆模型。


郑振龙等



2017



根据新的隐含波

< br>动率半参数模型,利用


MATLAB


编程,选择香港小型 恒生指数期权


2013



1

< p>
月到


2015



3


月的日交易数据,分别实现了滚动加权平均法与


BP

< br>神经网络法


对参数的周期性时间序列进行外推预测,发现


BP


神经网络法明显优于滚动加权


平均法。

这些尝试是机器学习在期权波动率预测的尝试,


尽管主要局限于上证股


票指数或香港期权市场。



近年来机器学习在金融市 场预测中得到越来越多的应用。


Rose


2013



将机


3



器学习用于流行病学研究中,


结果发 现超级学习者在预测死亡率方面比单一算法


具有优势。李光明(


2013


)基于粗糙集的神经网络模型,针对国有企业目前的经


营绩效进行分类,


实验结果显示约简后的国有资产指标集可以很好地反映国有企


业的财务风险情况。彭岩等(


2017


)讨论了 基于案例的推理



(CBR,Case


based


Reasoning)








(SVM,SupportVectot


Machine)




< p>






(ANN,Artificial


Neural


Network)


等机器学习方法在风险预测中的作用。曹正凤



2014



通过比较分析价值策略和成长策略,


提出以价值成长投资策略



GARP)


理念为基础的选股模型指标体系,

< br>通过样本数据发现,


使用随机森林算法可以更


好完成股票 分类,实现更好收益。辛治运和顾明(


2008


)基于最小二乘 支持向量


机的对复杂金融时间序列进行预测,吴微等(


2001


)运用


BP


神经网络预测股票


市场涨跌,张炜等(


2015


)基于自适应遗传 算法对股票未来走势进行预测,苏治


等(


2013


)通过核主成分遗传算法对


SVR


选股模型进行改进 ,王梦雪(


2016



利用拍拍贷平台 的借贷数据,


通过各种机器学习的算法选择风控模型的因子,



对约定的违约进行预测,


得到比较满意的结果。


整体的这些研究标的物多为股票


或借贷,在国内的金融期权上尚属于空白市场。



通过上述文献可以看出,


尽管机器学 习正越来越多的用于金融预测与风险管


理中,但用于期权风险预警、预测波动率的文献还 较少。同时,如何在期权隐含


波动率预测上建立一个机器学习应用模型,


这一空白需要填补。


因此,


本文运用

< br>机器算法机制,


综合随机森林、


GBM

< br>及


K


临近等算法,


提出



SKRG


递进集成”


法模型,用于期权风险预警,并通过实盘数据进行了有效检验。



三、基于机器学习算法的期权波动率预测



(一)机器学习在期权波动率预测上的评价标准



能否高质量地评价机器学习方法对波动的预测,需要建立科学的评价指标。


根 据机器学习的实际应用情况,机器学习一般分为三类:监督学习(


Supervised


Learning



SL


),非监督学习(


Unsupervised


le arning



UL


),和强化学习< /p>



Reinforcement Learning




RL

< p>
)。本文应用监督学习可判别预测的效果,监督


学习是在给定训练样本,< /p>


该样本既有数据,


又有数据对应结果,


利 用该样本进行


训练得到模型,


然后利用该模型,


将所有的输入映射为相应的输出,


之后对输出


进行简单 的判断,


从而达到了分类或回归的过程。


因而监督学习是原始数 据中既


有特征值,也有标签值的机器学习。


< br>因此,


本文机器学习的主要评价指标包括四个方面,


如下 图


1


所示:


①准确

率(


Accuracy


),指对于给定的测试数据集,分类 器正确分类的样本数和总样本


数之比;②精确率(


Precis ion


),每次预测成功的概率;③召回率(


Recall


)反


应的是能够识别风险的概率;④


F1- Score


,指精确率和召回率的调和均值。




评价指标





机器学习



特征和标签选择



准确率




精确率



模型参数




召回率




机器学习算法选择



F1-Score





4




1



期权波动率预测的机器学习评价指标



由图可知,


本文在机器学习模型效果上,


注重四个指标,


分别是预测的准确


率、精确率、召回率和二者的调和均值。通过四方面 的对比,寻找较优的预测模


型。



< /p>


(二)期权波动率预测特征(


Feature

)与标签(


Label


)选择



在卖出类期权类策略中,期权的价值表示为:




由于


Vega


为负,


如果隐含波动率大幅上涨,


势必带来较大的投资损失。


因此,


我们把波动率变化幅度予以分类,根据

< br>Scott


Mixon



20 07


)的分类法,本文把


波动幅度在


2 %


以内定义为安全类,把超过


2%


定义 为风险类。



对于隐含波动率的标的选择,

本文选择中国波指,




其特点是构 造


较公允、


波动价格的跟踪误差较小、


能够较好反应期权的隐含波动状况,


反映市


场情绪。

< p>


对于训练和测试的时间段的选择,


依据交易量较 大的


2015



2


9


日至


2017



10



18


日,共


655


个交易日。


< /p>


在隐含波动率的因子选择,由于隐含波动率的上涨下跌与标的资产实际的波


动状况以及市场的情绪有关,


考虑到数据的可得性,


本 文选取实际波动状况、



史波动率、


与 波动状况相关的技术指标、


波动率预测以及期权市场数据五大类数


据,共


48


个相关指标作为隐含波动率的影响因素。这些因子 基本覆盖了期权理


论因素点或各大历史文献研究的主要指标,具体如下表


1


所示。





1


期权隐含波动率的影响因子选择



实际波动状况



涨跌幅,振幅,成交量,前一日路径长度,


< br>5


日路径长度


EMA


值,



10


日路径长度


E MA


值,


30


日路径长度


EMA


值。


前一日极差,



10


日极差


EMA

值,


30


日极差


EMA

< p>
值。



10


日收盘价波动 率,


30


日收盘价波动率,


60


日收盘价波动率,


10


Parkinson


波动率,


30



Parkinson


波动率,


60< /p>



Parkinson


波动


率,


10


日比值,


30


日比值,


60


日比值。


MTM



RSI



VSTD



VOSC



WV


AD



SI



SOBV


,< /p>


VR



3



A


TR



7



A


TR



14



ATR




GRACH


预测:


10


日波动率,


30


日波动率,


60


日波动率。



CARR


预测:


10


日波动率,


30


日波动率,< /p>


60


日波动率。



P/C


成交量,


P/C


持仓量,


P/C5


日成交量均值,


P/5

< p>


C


持仓量,



一日隐含波动率。



历史波动率类



与波动相关技术指




波动率预测



期权市场数据



由表可知,期权隐含波 动率的影响因子中,包括实际波动状况,其可以细分


为涨跌幅、成交量、振幅等指标,也 包括历史波动率指标,不同日期的收盘价波


动率或


Parkin son


指标,以及各类


call



put


的比值等。




(三)期权波动率机器学习算法模型



基于前述算法,本文开始通过数据对模型进行训练,优化模型参数。在训练


的过程中,依据较高的



精准率


,提升



召回率



逐步优化模型。机器学习的算法


5



中,考虑到,


xx

< br>首先是选择支持向量机,因为。但


SVM


还需要优化的是 ,不能


均衡地看待样本,从样本来看,根据波动率预测是否安全的预测,



风险类



共有


149


天,约占


23%


,< /p>



安全类



共有


506


天,约占


77%


。相比较而言,更重点目标


是对非安全类的预测。因此,采用

< br>KNN


对此,。但


SVM



KNN


都隐含的假设


前提是各自的权重相等 ,需要调整,因此在此基础上引入


RF


。在此基础上考虑


梯度的提升,因此用


GBT


。如果这样导致模 型过于聚焦于不安全,又要考虑最


低风险情况,因此使用集成或的方法。




1.


通过


SVM


进行分类



支持向量 机是一种监督学习方法,


主要用于分析数据、


识别模式,


对数据的


分类分析和回归分析


*


。由于支持向量机可以将分类问题转化为一个不等式约束


下的二次规划问题,


并用核函数代替了向高维空间的非线性映射,


较好地解决了


高维数问题,


成为现阶段统计理论发展最快的研究方向之一。


鉴于我们的数据样


本数量只有


655


份,属于小样本数据集,而


SVM


在小样本数据 上有较为优秀的


表现,因此先使用支持向量机对风险预警问题进行处理。



由于我们的数据维度较高,


因此需要用


RBF


核函数将样本映射到高维空间,


在参数的训练 过程中我们主要训练两个参数,一个是


gamma


,是


RBF


函数自带


的一个参数。

< br>gamma


越大,支持向量越少,


gamma

< p>
值越小,支持向量越多。我


们调整


gamma


的值在


0.01



1.5


的范围内,


其精确率,


召回率以 及


F1


值有如下


变化(图


2


)。





2 gamma


值变动时指标曲线图 图


3


惩罚系数


C


变动时指标曲线图



我们可以看到在


gamma



0.8


左右有着较好的性 能,且鲁棒性较好。另一


个是惩罚系数


C


,即对误差的宽容度。


C


越高,说明越不能容忍出现误差,容 易


过拟合。


C


越小,容易欠拟合。


C


过大或过小,泛化能力变差。我们调整惩罚系


C


的值在


1


5


的范围内,其精确率,召回率以及

F1


值变化如图


3




当惩罚系数


C


小于


1.5


时预测的精准度是很低的,在


1.5< /p>



2


之间有一个较


高值,之后逐渐衰减,综合考虑我们选择


C


的值为

< p>
1.8


。通过调参后,支持向量


机在测试集上的表 现如下(图


4


)。





4SVM


在测试集上的表现结果





*


原始的支持向量机算法由



Vladimir Vapnik


发明,而当前的标准化由



Corinna Cortes




Vladimir Vapnik



出。



6


-


-


-


-


-


-


-


-



本文更新与2021-02-11 09:01,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/635320.html

基于机器学习算法的期权波动率预测20180827的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文