-
基于机器学习算法的金融期权波动率预测
马天平
对外经济贸易大学
北京
100032
摘要:
期权波动率预测是期权风险预
警管理的关键问题,
传统方法采取
GARCH
< br>等时间
序列模型。
与传统方法不同,
本文创建了基于机器学习算法的新预警体系,
体系
以中国波
指为对象,
采取
48
个相关指标作为对
中国波指预测的特征
(
Feature
)
,
依次引入
SVM
< br>机器学习、
KNN
样本不平衡机器学习、
RF
划分、
GBDT
优化完<
/p>
成机器学习建模过程,
并对这几种方法进行比较。
测试样本显示,
基于机器学习
的预测效果好于传统的<
/p>
GARCH
模型。
本文理论价值在于丰富
了期权随机波动率
预测领域的相关文献。
应用价值在于为波动率
的预测进而期权风险预警提供了新
的方法。
关键词
:
机器学习;期权交易;波动率预测
A
Forecast
Method
about
Option
Volatility
based
on
Machine
Learning
MA
Tianping
Ma Tianping University of
International Business and Economics Beijing
100032
Abstract
:
The
prediction of option volatility is an important
issue in the early warning
management
of
option
risk,
and
the
traditional
method
takes
time
series
model.
Different
from
traditional
methods,
this
paper
proposes
an
early
warning
method
based on machine
learning algorithm. Specifically, we propose an
analysis framework
of machine learning,
and then make China V
olatility Index as
testing object, taking 48
related
indicators as the characteristics (Feature) of
China V
olatility Index, introduce
the
SVM
machine
learning,
KNN,
RF,
GBDT
optimization
respectively,
and
then
make
a
comparison
between
these
methods.
The
testing
sample
shows
that
the
prediction
effect
based
on
machine
learning
is
better
than
the
traditional
GARCH
model. The theoretical value of this
paper lies in that we enrich the relevant
literature
in
the
field
of
stochastic
volatility
prediction.
The
application
value
lies
in
that
we
provide a new method for
the prediction of volatility and the early warning
of option
1
risk.
Key words:
Machine Learning, Option Trading, Risk Warning,
China V
olatility Index
一、引言
金融工程中,
期权是重要的衍生品工具。
作为机构交易者,
在设计
交易期权
的策略中,
突出的交易策略是卖出类。
但单向卖出期权与单项买入期权一样,
存
在巨大的交易
风险。为获取稳健的卖出类期权策略收益,需要动态对冲。
如
何考虑对冲的动态连续性和前瞻性,
成为风险管理的焦点。
市场
波动率是
决定期权价格的重要变量,
然而事实和研究表明,
p>
期权波动率并不是一成不变的,
而是具有随机性(
< br>Hull & White
,
1987
< br>;
Wigggins
,
1987
;
Heston
,
1993
;等)。
波动率的不可预测性意味着难以找到合适
的波动率对期权予以定价。
因而要把握
期权价格的变化趋势以及
对冲的动态性和前瞻性,
对波动率的预测就成为十分重
要的工作
。
比如,
在卖出期权的策略中风险很大一部分来自隐含波动率的
大幅度
上涨,
因此如果我们能够提前预测出隐含波动率的上涨,
便可以通过对冲仓位的
调整来削减或是规避掉波动率上涨带来的
风险
波动率预测急需使用新的方法体系模型,近年来,随着大
数据、人工智能、
机器学习技术的日趋成熟,
可以利用新技术实
现波动率的预测。
大数据是新技术
处理模式中,
具有更强的决策力、
洞察力和流程优化能力的海量、
高
增长率和多
样化的信息资产(迈尔
-
舍
恩伯格和库克耶,
2013
)
T+0<
/p>
交易的期权在年度、月
度、
周度、
日度、
秒度的不同层次、
不同深度数据,
p>
可以满足数据
“大”
的标准。
而
“
人工智能
”
从
1956
年
Dartmouth
学会上提出至今已经满了一个
60
年,其研
究、开发用于模拟、延伸和扩展人的智能的理
论、方法、技术及应用系统的技术
科学,
具体研究包括机器人、
语言识别、
图像识别、
自然语言处理和
专家系统等,
其中的核心是机器学习。
机器学习设计和分析这些
让计算机可以自动
“
学习
”
的算
法,正是期权策略中,对波动率预测可以使用的新方法。
因此,
利用交易数据和算法人工智能,
将机器学习技术应用于期权金融市场,
提高期权风险管理水平和投资决策效
率,
是本文尝试的一个方向。
本文主要目的
是探索机器学习在期权波动预测中的应用,主要创新是提出波动率预测“
SKRG<
/p>
递进集成”
法,
较高质量预测了隐含波动
率,
该机器学习有利于提高波动率预测
的精度。
具体而言,
SKRG
递进集成法,
是基于中国波指预测的特征
(
Feature
)
,
分别运用随机森林、
G
BM
及
K
临近等算法,搭建了层层递进
的
48
个指标,并
在逻辑上做集成处理
,得到最优化成果。
文章后续内容安排如下:
第二部分文献综述,
第三部分提出一个基于机器学
习算
法的风险预警模型,
第四部分与传统波动率预测结果进行比较,
最后是本文
的结论。
二、文献综述
对收益波动率的建模和
预测是金融市场研究的一个重要议题。
主流的方法是
通过历史数
据即时间序列模型。
Engle
等较
早提出
ARCH
类模型,
之后学者提出
GARCH
等一系列修正模型。
黄海南
等(
2007
)运用
GARCH
模型对上证指数收益率进行估计及样本外预测,
然后以已实现波动率作
为波动率预测的评价标准,通过
M-Z
回归和损失函数来
评价
GARCH
类模型的波动率预测表现。结
果表明,无论是样本内还是样本外,
2
GARCH
类模型能够较好的预测上证指数的收益波动率。
其中
,
偏斜
t-
分布假设下
的
GJR(1,1)
模型
的预测能力最强。
赵华等
(
2011<
/p>
)
分别基于误差项服从正态分布、
t
p>
分布、
广义误差分布的
GARCH
族模型和
MRS-GARCH
模型对中国股市波
动的
结构变化特征进行实证研究。结果表明
,
< br>中国股市存在显著的高、低波动状态,
MRS-GARCH
模型预测效果总体上优于
GARCH
族模型。李汉东等(
p>
2003
)讨
论了在金融时间序列中广泛应
用的两类波动性模型,即自回归条件异方差
(ARCH)
模型和
随机波动
(SV)
模型的关系问题,认为一个离散的
EGARCH(1,1)
模
型在弱
GARCH
过程的条件下与一个离散的
SV
模型是一一对应的。
在此基础上
进一步讨论了
p>
EGARCH(1,1)
模型和
SV
模型的单位根问题,
结果表明:
两类模型
p>
的单位根存在对应的关系,即二者的持续性能够通过随机微分方程的形式来传
递。
但
GARCH
模型的缺点
在于,
无法考虑期权波动率二阶的复杂性和非线性特
征。
部分学者利用贝叶斯原理对随机波动率模型进行研究。
Jacquieret al.
(
2002
)
利用股票的收益率和换手率的日数据和周数据,
通过抽样实验来比较贝叶斯估计
法、矩量法和拟极大似然法。实验结果表明:在参数估
计,贝叶斯估计法要优于
另外两种方法。蒋祥林等(
2005<
/p>
)基于贝叶斯原理对随机波动性模型进行研究,
并将随机波动率模
型应用股市风险价值的估计与预测。
针对中国股市数据进行的
实
证结果表明:
与
GARCH
模型相比,
随机波动率模型能更好地描述股票市场回
报的异方差和波动率的
序列相关性,基于随机波动率的
VaR
较
GARCH
模型的
VaR
具有更高的
精度。类似地,罗嘉雯等(
2017
)通过构建包含时变系数和
动态
方差的贝叶斯
HAR
潜在因子模型
( DMA(
DMS) -FAHAR)
,
对我国金融期货的高
频已实现波动率进行预测。
结果表明,
时变贝叶斯潜
在因子模型在所有参与比较
的预测模型当中具有最优的短期、
中
期和长期预测效果。
同时,
在股指期货和国
债期货的预测模型中加入投机活动变量可以获得更好的预测效果。
但贝叶斯估计
p>
法难以处理期权的不同执行价、
不同到期日、
不同执行权的欧式或美式等多维度
特征,常常依赖于单因素的分布条件。
陈蓉等(
2010
)利用
香港恒生指数期权的数据
,
对隐含波动率曲面动态过程
进行建模和估计,
建立了一个五因子随机隐含波动率模型。
在模型的估计方法上,
首次引入了基于小样本面板数据的扩展的卡尔曼滤波法
。
结果显示,
在香港市场
上,
扩展的卡尔曼滤波法比传统的两步法可以得到更好的估计结果,
五因子随
机
隐含波动率模型能很好地刻画恒指期权隐含波动率曲面的变动规律,
< br>效果明显优
于静态隐含波动率模型。
但中国市场的期权交
易在交易量尚不充分活跃下,
部分
非主力合约的波动率曲面建立
容易失真。
除了传统的波动率预测模型之外,
部分学者不断提出新的预测模型。
魏宇等
(
2015
)
在已有的多分形波动率
( multifractal volatility)
测度方法的基础上
提出新
的波动率测度方法及模型。
基于上证综指的
5 min
高频数据,
发现不论是短记忆
模型还是长记忆模型,
多分形波动率模型的预测精度明显优于
GARCH
族模型,
且长记忆模型的预测能力要好于短记忆模型。
郑振龙等
(
2017
)
根据新的隐含波
< br>动率半参数模型,利用
MATLAB
编程,选择香港小型
恒生指数期权
2013
年
1
月到
2015
年
3
月的日交易数据,分别实现了滚动加权平均法与
BP
< br>神经网络法
对参数的周期性时间序列进行外推预测,发现
BP
神经网络法明显优于滚动加权
平均法。
这些尝试是机器学习在期权波动率预测的尝试,
尽管主要局限于上证股
票指数或香港期权市场。
近年来机器学习在金融市
场预测中得到越来越多的应用。
Rose
(
2013
)
将机
3
器学习用于流行病学研究中,
结果发
现超级学习者在预测死亡率方面比单一算法
具有优势。李光明(
2013
)基于粗糙集的神经网络模型,针对国有企业目前的经
营绩效进行分类,
实验结果显示约简后的国有资产指标集可以很好地反映国有企
业的财务风险情况。彭岩等(
2017
)讨论了
基于案例的推理
(CBR,Case
based
Reasoning)
、
支
持
向
量
p>
机
(SVM,SupportVectot
Machine)
以
及
人
工
神
经
网
络
(ANN,Artificial
Neural
Network)
等机器学习方法在风险预测中的作用。曹正凤
(
2014
)
通过比较分析价值策略和成长策略,
提出以价值成长投资策略
(
GARP)
理念为基础的选股模型指标体系,
< br>通过样本数据发现,
使用随机森林算法可以更
好完成股票
分类,实现更好收益。辛治运和顾明(
2008
)基于最小二乘
支持向量
机的对复杂金融时间序列进行预测,吴微等(
2001
)运用
BP
神经网络预测股票
市场涨跌,张炜等(
2015
)基于自适应遗传
算法对股票未来走势进行预测,苏治
等(
2013
)通过核主成分遗传算法对
SVR
选股模型进行改进
,王梦雪(
2016
)
利用拍拍贷平台
的借贷数据,
通过各种机器学习的算法选择风控模型的因子,
并
对约定的违约进行预测,
得到比较满意的结果。
整体的这些研究标的物多为股票
或借贷,在国内的金融期权上尚属于空白市场。
通过上述文献可以看出,
尽管机器学
习正越来越多的用于金融预测与风险管
理中,但用于期权风险预警、预测波动率的文献还
较少。同时,如何在期权隐含
波动率预测上建立一个机器学习应用模型,
这一空白需要填补。
因此,
本文运用
< br>机器算法机制,
综合随机森林、
GBM
< br>及
K
临近等算法,
提出
“
SKRG
递进集成”
法模型,用于期权风险预警,并通过实盘数据进行了有效检验。
三、基于机器学习算法的期权波动率预测
(一)机器学习在期权波动率预测上的评价标准
能否高质量地评价机器学习方法对波动的预测,需要建立科学的评价指标。
根
据机器学习的实际应用情况,机器学习一般分为三类:监督学习(
Supervised
Learning
,
SL
),非监督学习(
Unsupervised
le
arning
,
UL
),和强化学习<
/p>
(
Reinforcement
Learning
,
RL
)。本文应用监督学习可判别预测的效果,监督
学习是在给定训练样本,<
/p>
该样本既有数据,
又有数据对应结果,
利
用该样本进行
训练得到模型,
然后利用该模型,
将所有的输入映射为相应的输出,
之后对输出
进行简单
的判断,
从而达到了分类或回归的过程。
因而监督学习是原始数
据中既
有特征值,也有标签值的机器学习。
< br>因此,
本文机器学习的主要评价指标包括四个方面,
如下
图
1
所示:
①准确
率(
Accuracy
),指对于给定的测试数据集,分类
器正确分类的样本数和总样本
数之比;②精确率(
Precis
ion
),每次预测成功的概率;③召回率(
Recall
p>
)反
应的是能够识别风险的概率;④
F1-
Score
,指精确率和召回率的调和均值。
评价指标
机器学习
特征和标签选择
准确率
精确率
模型参数
召回率
机器学习算法选择
F1-Score
4
图
1
期权波动率预测的机器学习评价指标
由图可知,
本文在机器学习模型效果上,
注重四个指标,
分别是预测的准确
率、精确率、召回率和二者的调和均值。通过四方面
的对比,寻找较优的预测模
型。
<
/p>
(二)期权波动率预测特征(
Feature
)与标签(
Label
)选择
在卖出类期权类策略中,期权的价值表示为:
由于
Vega
为负,
如果隐含波动率大幅上涨,
势必带来较大的投资损失。
因此,
我们把波动率变化幅度予以分类,根据
< br>Scott
Mixon
(
20
07
)的分类法,本文把
波动幅度在
2
%
以内定义为安全类,把超过
2%
定义
为风险类。
对于隐含波动率的标的选择,
本文选择中国波指,
,
其特点是构
造
较公允、
波动价格的跟踪误差较小、
能够较好反应期权的隐含波动状况,
反映市
场情绪。
对于训练和测试的时间段的选择,
依据交易量较
大的
2015
年
2
月
9
日至
2017
年
10
月
18
日,共
655
个交易日。
<
/p>
在隐含波动率的因子选择,由于隐含波动率的上涨下跌与标的资产实际的波
动状况以及市场的情绪有关,
考虑到数据的可得性,
本
文选取实际波动状况、
历
史波动率、
与
波动状况相关的技术指标、
波动率预测以及期权市场数据五大类数
据,共
48
个相关指标作为隐含波动率的影响因素。这些因子
基本覆盖了期权理
论因素点或各大历史文献研究的主要指标,具体如下表
1
所示。
表
1
期权隐含波动率的影响因子选择
实际波动状况
涨跌幅,振幅,成交量,前一日路径长度,
< br>5
日路径长度
EMA
值,
10
日路径长度
E
MA
值,
30
日路径长度
EMA
值。
前一日极差,
10
日极差
EMA
值,
30
日极差
EMA
值。
10
日收盘价波动
率,
30
日收盘价波动率,
60
日收盘价波动率,
10
日
Parkinson
波动率,
30
日
Parkinson
波动率,
60<
/p>
日
Parkinson
波动
率,
10
日比值,
30
p>
日比值,
60
日比值。
MTM
,
RSI
,
VSTD
,
VOSC
,
WV
AD
,
SI
,
SOBV
,<
/p>
VR
,
3
日
p>
A
TR
,
7
日
A
TR
,
14
日
ATR
。
GRACH
预测:
10
日波动率,
30
日波动率,
60
日波动率。
CARR
预测:
10
日波动率,
30
日波动率,<
/p>
60
日波动率。
P/C
成交量,
P/C
持仓量,
p>
P/C5
日成交量均值,
P/5
日
C
持仓量,
前
一日隐含波动率。
历史波动率类
与波动相关技术指
标
波动率预测
期权市场数据
由表可知,期权隐含波
动率的影响因子中,包括实际波动状况,其可以细分
为涨跌幅、成交量、振幅等指标,也
包括历史波动率指标,不同日期的收盘价波
动率或
Parkin
son
指标,以及各类
call
与
p>
put
的比值等。
(三)期权波动率机器学习算法模型
基于前述算法,本文开始通过数据对模型进行训练,优化模型参数。在训练
的过程中,依据较高的
“
精准率
”
,提升
“
召回率
”
逐步优化模型。机器学习的算法
5
中,考虑到,
xx
< br>首先是选择支持向量机,因为。但
SVM
还需要优化的是
,不能
均衡地看待样本,从样本来看,根据波动率预测是否安全的预测,
“
风险类
”
共有
149
天,约占
23%
,<
/p>
“
安全类
”
共有
506
天,约占
77%
。相比较而言,更重点目标
是对非安全类的预测。因此,采用
< br>KNN
对此,。但
SVM
和
p>
KNN
都隐含的假设
前提是各自的权重相等
,需要调整,因此在此基础上引入
RF
。在此基础上考虑
梯度的提升,因此用
GBT
。如果这样导致模
型过于聚焦于不安全,又要考虑最
低风险情况,因此使用集成或的方法。
1.
通过
SVM
进行分类
支持向量
机是一种监督学习方法,
主要用于分析数据、
识别模式,
对数据的
分类分析和回归分析
*
。由于支持向量机可以将分类问题转化为一个不等式约束
下的二次规划问题,
并用核函数代替了向高维空间的非线性映射,
较好地解决了
p>
高维数问题,
成为现阶段统计理论发展最快的研究方向之一。
鉴于我们的数据样
本数量只有
655
份,属于小样本数据集,而
SVM
在小样本数据
上有较为优秀的
表现,因此先使用支持向量机对风险预警问题进行处理。
由于我们的数据维度较高,
因此需要用
RBF
核函数将样本映射到高维空间,
在参数的训练
过程中我们主要训练两个参数,一个是
gamma
,是
RBF
函数自带
的一个参数。
< br>gamma
越大,支持向量越少,
gamma
值越小,支持向量越多。我
们调整
gamma
p>
的值在
0.01
至
1.5
的范围内,
其精确率,
召回率以
及
F1
值有如下
变化(图
2
)。
图
2 gamma
值变动时指标曲线图
图
3
惩罚系数
C
变动时指标曲线图
我们可以看到在
gamma
在
0.8
左右有着较好的性
能,且鲁棒性较好。另一
个是惩罚系数
C
,即对误差的宽容度。
C
越高,说明越不能容忍出现误差,容
易
过拟合。
C
越小,容易欠拟合。
p>
C
过大或过小,泛化能力变差。我们调整惩罚系
数
C
的值在
1
至
5
的范围内,其精确率,召回率以及
F1
值变化如图
3
。
当惩罚系数
C
小于
1.5
时预测的精准度是很低的,在
1.5<
/p>
到
2
之间有一个较
高值,之后逐渐衰减,综合考虑我们选择
C
的值为
1.8
。通过调参后,支持向量
机在测试集上的表
现如下(图
4
)。
图
4SVM
在测试集上的表现结果
*
原始的支持向量机算法由
Vladimir
Vapnik
发明,而当前的标准化由
Corinna Cortes
和
Vladimir
Vapnik
提
出。
6
-
-
-
-
-
-
-
-
-
上一篇:学士学位英语考前必过重点复习讲义
下一篇:江苏专转本英语真题和答案解析