-
模式识别与人工智能
测控技术
2018
< br>年第
37
卷第
10
期
?
3
?
极限学习机综述
陆思源,陆志海,王水花,张煜东
(
南京帅范大学计算机科学与技术学院,江苏南京
210023)
摘要
:
极限
学习机是一种单隐层前向网络的训练算法,主要特点是训练速度极快,而且可以达到很高的
泛化性能。回
顾了极限学习机的发展历程,
分析了极限学习机的数学模型,
详细介绍了极限学习机的各
种改进算法,
并列举了极限
学习
机在识别、预测和医学诊断领域的应用。最后总结预测了极限学习机的
改进方向。
关键词:极限学习机
p>
;
机器学习;人工神经网络;综述
中图分类号
:
TP181
文献标识码:
A
文章编号:
1000 -8829(2018)10
-0003 -07
doi
:
10.
19708/. 2018.10.001
Review of Extreme
Learning Machine
LU Si-yuan, LU Zhi-
hai, WANG Shui-hua, ZHANG Yu-dong
(School of Conipuler Science and
Technology, Nanjing Normal University, Nanjing
210023
、
China)
Abstract
:
Extreme
learning
machine
(
ELM)
is
a
novel
training
algorithm
of
single-hidden
layer
feedforward
network
(SLFN).
The
training
of
ELM
is
extremely
fast
while
obtaining
good
generalization
ability.
The
development
of
ELM
is
reviewed^ the mathematical model of ELM
is analyzed, the different improvements of ELM are
introduced, and the applications
of ELM
in pattern recognition, forecasting and medical
diagnosis are listed
?
Finally, scvcml ways for improving ELM arc
sumrnarizt^l
?
Key words:
extreme learning
machine( ELM); machine learning; artificial neural
network; review
近年来,机器学习成为研究的热点主题。机器学
习小
最著名的传统学习算法主要冇
:
支持向量机
(
Support
Vector
Machine,
SVM
)
、决策树
< br>(
Decision
Tree,
DT)
、
K
近邻
(
K-
Nearest
Neighbors,
KNN
)<
/p>
和
反
向
传
播
神
经
网
络
(
Back
Propagation Neural Network, BPNN )
o
SVM
的思想是寻找最
大分类间隔,
把分类问题转化为
凸二次规划问题解决。
SVM
适合解决小样本分类问<
/p>
题。
DT
算法
的核心是通过信息爛等
度量方法对数据
集进行分析
,
来构建树状决策结构,
每个内
部节点表示
一个属性上的测试
,
每个分支代表一个测试输
岀,每个<
/p>
叶节点代表一种类别。常用的训练算法为
1D3
和
C4. 5
。
KNN
是一种典型的非参数分类方法,它把数据<
/p>
集分
为训练集和测试集;对于每个测试
集的样本
,
KNN
先找到
距离该样本最近的
K
个训练样本,然后
把这
K
个样本标签
p>
屮占比最多的标签作为该样本的
标签
o
BP
NN
是一种前向
神经网络,在训练时,反向
传播误差,利用梯度下降法迭
代更新网络参数,直到
p>
收敛。
极限学习机
(
Extreme
Learning Machine, ELM)
是
由新
加坡南洋理工大学的
Hiumg
等人⑴提出的一种
单隐层前向
< br>神经网络
(
Single-Hidden
Layer
Feedfbnvard
Network,SLFN)
的训练算法。不同于传统的训练算法
(
如
BP
算法等
)
,ELM
算法对输入层的权
值和偏置进
行随机赋值,然后用求
Moore-
Penrose
广义逆矩阵的方
法直
接解出隐层到输出层的
权值。
ELM
的
优势有
:
需
要手动设置的参数只有隐含层结
点个数,
算法执行过
程屮不需要人工调整参数
;
避免了传统
训练算法反复
迭代的
过程,快速收敛,极大地减少了训练
时间;所得
解是唯一最优解,保证了网络的泛化性能。冃
前
EL
M
已经广泛应用到各种回归和分类问题屮,也出现了
许
多
ELM
的改进算
法
2
一工来应对具体的问题°
收稿日期
:
20i7-10-05 <
/p>
基金项目:国家自然科学基金项目
(
61
602250)
;
江苏省自然科学
<
/p>
基金
(BK20150983)
;
国家重点研发计划
(
2017YFB1103
200/02)
作者简介:陆
思源
(
1991
—
),
男,硕士,主要研究方向为模式识
别;陆志海
(
1969
—
),
男,硕士,高级工程师,主要研究方向为图
像处理;王水花
(
1985
—
),
女,博士,讲师,主要研究方向为医学
<
/p>
图像处理;张煜东
(
1985-),
p>
男,
博士,
教授,
博士生导师,
主要
研究方向为人工智能与医学图像处理。
?
4
?
1
理论基础
1. 1 SLFN
结构
一个典型的
SLFN
是山输入层、
隐含层和输出层
构成,
如
图
1
所示。其屮输入层和输出层的结点数是
由具体问题
确定的
,
网络中的待定参数有
:
隐含层结点
数、输入层到隐
禽层权值、隐含层到输出层的权值和
隐
含层的偏置。
1.2
问题描述
SLFN
的一般学习模式可以描述为
:
对于任意的
N
个不
同的样本(斗
,
?
),七
=
[知,旳
2,
…竝卩
< br>e R =
[石,
如,…,几]丁
e R ,g
(兀)为激活函数,标准的有
A
个
隐含结点的
SLFNs
可以表示为
N
N
工必
(<
/p>
?
)
=
工阳
p>
(
i=l
i=l
式中,叱
=
叱?巧
+
?
)
=
o’
;,
j =
,
…
、
N
(
1
)
p>
和输入层的
权值向量;
[
< br>?5,
%
,
???
,
%
「为连接第
i
个隐含结点
仅
=
p>
[禺
,
伐
2,
p>
…,血
r
为连接
第
/
个隐含结点和输出层的
权值向量
;
心为第
i
p>
个隐含
结点的偏置
;
叱
?
形为叱和
Xj
的
内积。
< br>这样的一个
SLFN
可以无限逼近这
N
个样本:
X W - Ml
=0
,
也就是说,存在
佚、
w.b
使得
:
工
p>
”忆(比
?
无
+<
/p>
心)
=
t^j
= 1
,
?
--,A
< br>f
i
?
l
(2)
这儿个等式可以写成
Hp = T
(3)
其中
,
HW
,…,
b
9 …
,X|
,
…
,Xjy
)=
…
g
(
和
F
和
,
+%)
T
「
gW
-Xj
+
力)
Lg
(巧?心
+
们)
「尿
1
(5)
《测控技术
)
2018
年第
37
卷第
10
期
式屮
,
H
为神经网络隐禽层的输出矩阵
,
H
的第
i
列为
神经
网络隐含层的第
/
个结点的输出。
1.3
理论证明
接着
,
Cuang-Bin
Huang
⑹
严格证明了如下的结
论。
①
如果激活函数
g
(
< br>咒)
是无限可微的,
那么可以
随
机
地
选
p>
择
输
入
层
到
隐
含
层
的
权
值
叱
< br>和
隐
禽
层
的
偏
置
力
,
SLFN
就町以被当成一个线性系统
,只需要通过
解析求
出隐含层到输出
层的权值
就町以确定整个
网络。
Hp =
T,H
是一个
N
x
A
的矩阵,
如果
N
=
那
么<
/p>
H
是可逆的;
如果
N^N,
那么求
H
的
Moo
心
Pem rose
广
义逆矩阵°这样得到的网络
不仅具有最小的训
练误差
,
而且权值的范数也最小。
根据
Barllell
定律,<
/p>
神经网络的训练误差越小,
权
值的
范数越小,那么它的泛化性能就越好
②
对于给定的
SL
FN,
有
W
个隐含结点,
激活函数
g
:
R-R
是无限可微的。对于任意的
N
个不同的样本
(
X
i
9^i
)
9
X
i
=
[
X
i ?
X
i2
?
…
,
X
in<
/p>
]
丘
R , ?
=
[
如
,
*2
,
…
,
如]
JR
任意随机
的叱和
< br>L
不论它们服从什么样
的连续
分布,以下公式成立
的概率为
100%
o
II
砂
-
口
=0
(
6
)
③
给定一个任意小的正数
?
>0,
无限可微的激活
函数
g
:
R
-R
,
存在
A W
N
,
使得对于任意的
N
个不同的
样本(
X
i 9
h
)
9
X
i
=
[曲
I
,
曲
2 ,in
]
e
R
, ?
=
[
Si
,
址,
…,如]
丫丘
R
任意随机的叱和%
,
不论它们服从什
么样的连续分
布,以下公式成立的概率为
100%
o
HP-T ||
<
?
(
7
)
1.4 ELM
基本算法
基于以上的
3
个结论
,<
/p>
Cuang-Bin
Huang?
提出了
ELM
基本算法
:
给定一个训练集
S
二
{
(斗比)比
e R ,
张
R
心
1,…,
M
,
激活函
数
g
(勿和隐含层结点个
数
A
。算法实现步
骤如下
:
①
对输入层到隐含层的权值叱和隐含层的偏置
< br>卩随
机赋值
,
心
1,
???
川;
②
计算隐含层的输出矩阵
H
;
③
计算隐含层到输出层的权值
;
HT
其屮
是矩阵
H
的
Moor
e
?
Pemose
广义逆矩阵。
通过
ELM
所得的
解为唯一最优解
,
保证了网络的
泛化
性能。
2
改进算法
但是
EIM
也存在着一些问题,
例如:
由于隐含层
参数
是随机生成的,会导致使用不同初始化参数训练
出的
p>
ELM
泛化性能有差异,影响
ELM
的稳定性和鲁
棒性
,
所以有学
者对
ELM
进行分析并提岀各种改进算
法。
极限学习机综述
Guang-Bin
Huang
6
提出了在线增量极限学习机
(Online
Sequential Extreme
Learning Machine, OS- ELM),
可以学习不
断增长数据集。
Guang-Bin
等人⑺
提出了凸增量极限学习机
(
Convex
Incremental Extreme Learning Machine,CI-
ELM)
,可
以解决增量模型中新增
结点的训练问题。
Hiumg
等人°分
析比较了
ELM
和
S
VM,
得出以下结论:①
SVM
的最大
I
、
可隔特性与前向
< br>
神经网络的权重范数最小化理论是一致
的;②从标准<
/p>
的优化算法角度來看
,
SVM
和
ELM
是等价的
p>
,
但定由
于
p>
ELM
具有特殊的可分离特性,所以
ELM
的优化
限
制
条件更少;③经过理论分析和模拟实验
,
ELM
比传
统
的
< br>SVM
具有更好的泛化性能
由于
ETAI
的输入层
< br>权值和
偏置是随机生成的,这样可能导致隐含层的输
<
/p>
出矩阵不是
列满秩矩阵
,
会降低
ELM
的性能。
针对这
一问题,
Wang
< br>等
人
&
提出了有效极限学习机<
/p>
(
tive Extreme Learning
Machine,
EELM)
,在计算输出层
权值之前,调整输入层的权值和偏
置,使得隐含层的输
< br>
出矩阵满足列满秩条件,改进后的
EELM
算法可以减
少训练时间
,
提高网络的分类准确率和网
络的鲁棒性。
Cao
等人⑶提出基于投票的极限学习机
(
Voting based Extreme Learning Mach
ine,V-ELM)
来避免随机
生成的
隐含层权值和偏置对分类结果造成的不稳定性。
V-
p>
EI
制训练多个独立的具有相同结构和激活函数的
< br>
ELM,
然
后利用投票法来整
合各
ELM
的结果。
为了解
决非均衡分布
数据的分类问题
< br>,
Zong
等人
Z
提出了加
权极限学习机
(
Weighted
Extreme Learning Machine, Weighted ELM)
,该算
法可以直接用于多分类问题,并
且可以推广到代价敏感学
习。
Rong
等人
〔°提出并应
用模块化的极限
学习机
(
Modular
Extreme Learning Machine, M-ELM)
来识别图像中的飞行器
o
Bai
等人
M
把
ELM
应用到对象通用类识别问题中
,
提出了
一种基
于局部感知域的极限学习机
(
Local
Receptive
Fields
Based Extreme
L
(
^arning Machine, ELM-LRF)
o
Lili
等
人
e-<
/p>
提出一种通用的学习框架——多核极限学习机
(Multiple
Kernel Extreme
Learning Machine, MK-ELM)
来解决
ELM
核
函数的选择和优化。
Wa<
/p>
隔等人[⑵尝
试给出了
ELM
泛化
能力的振荡范围,并分析了
ELM
对隐含层结点个数不敏感
的原
因;
实验结果表明,
当隐
含层结点数接近无穷吋
,
ELM
< br>的核函数与激活函数对
参数是不敏感的,它的泛化性能
与
原始的
ELM
相当
< br>,
可以避免过拟合。
Deng
等人⑴为解决高
维数据分类
问题对<
/p>
ELM
进行了改进
,
把奇异值分解的隐层
结点嵌
入极
限学习机,提出了基于快速奇异值分解隐层结
点
的极限学习机
(
Fasl
Singular
Value
Decomposition-Hid-
clen-
Nodes
Based
Extreme
Learning
Machine,
FSVD-H-
ELM)
O
Xu
等人[吨深入研究了误差最小化极限学习
机
(
Enor Minimized
Extreme Learning Machine, EM- ELM)
,并
对其进行改进,提出了增量正则化极限学习
M(Incremental
Regularized
Extreme Learning Machine, IR-ELM)
和它的增强<
/p>
版
(
Enhancement of
IR-ELM, EIR- ELM)
O
每当加入一个新的
p>
?
5
?
隐含层结点
,
IR-
ELM
可以
快速地递归求解输出权值
c
实验
证明
J
R-ELM
比
ELM
的泛化性能更优。
WS
培等人
「使用
灰狼优化算
法
(
Grey Wolf Optim
ization,GWO)
训练核极限学
习机
< br>,
寻找最优的
ELM
参数,提
出了灰狼优化的核极限学
习
机
(
GWO-KELM)
o
Wang
等人①运用核融合方法来
降
低
选择不同核函数对
ELM
分类性能的
彫响,并
.
且使
用削减
核降低计算开销,在此基础上提出了混合迁移
学习和削减
核的极限学习
tIL
(
Transfer
Learning
Mixed
and
Reduced
Kernel Extreme Learning Machine,TransM-
RKELM)
。为了解
决流数据的学习问题
,
Xu
等人⑴
1
基于在线学习的方法训练
FXM,
在训练过程屮动态地
添加隐含层结点,提出了动态极
限学
习机
(
Dynamic Extreme Learning
Machine,DELM)
o
Zeng
等
人
采
用
一
种
新
颖
的
延
时
转<
/p>
换
的
粒
子
群
优
化
算
法
(
Switching Delayed
Particle Swarm Optimization,
SDPSO)
来训
练
ELM,
把
ELM
的输入权值
和隐含层偏置作为粒子的参
数
,
p>
用延时的局部最优解和全局最优解来更新粒子的
位置和移
动速度。
< br>表
1
对上述改进算法进行了分析和总结,从屮可
以看
出
ELM
的改进算法主要有以下
3
个方面
:
ELM
与
在线学习
结合、
ELM
隐含
层结点结构的改造和
ELM
的网络参数优化。
3
应用
3.1
识别领域
Yang
等人“提出基于面部图像的性别识别系
统,
采用
局部三元模式
(
LTP)
提取图像特征。
LTP
p>
是
局部二元模式的
一种推广,对面部光照差异具有更好
的识别力并且对噪声<
/p>
有一定的容忍度。他们使用
ELM
p>
作为分类器来识别图像屮
人物的性别。在实验
屮
,
使用公开数据集测试系统的性
能。
ELM
达到
87. 13%
的识别准确率,
并且运
行总时间仅为
1.87
s,
性能明
显优于
BP
网络和
SVM
O
Weimin
Huang
20
提出一种基于视频信息的人类
<
/p>
动作
识别算法。首先从视频屮找到感兴趣的时间空间
信息,再
提取出局部形状和运动信息作为动作的描
述特征。然后,
提出一种新的最小类
别变换的极限
学习
t/L(
Minimum
Class Variance Extreme Learning Machine
,MCVELM)
作为分
类器来识别动作。
MCVELM
在
4
个公开数据集
上都取得了
较先进的识别准确
率。
-
-
-
-
-
-
-
-
-
上一篇:GSM-R技术及应用发展
下一篇:世界各国家和地区表