-
充分降维理论和方法的拓展研究
【摘要】
:这篇论文致力于对充分降维领域中一些理论的深入研究以
及方法上的延伸。
在充分降维领域中有两个重要的话题。
第一个是估
计中心
(
均值<
/p>
)
降维空间的基方向。而经典降维方法基方向样本估计的
大样本性质至今仍不明了。
为了进一步了解这些常用降维方法特别是
p>
其方向估计的理论性质
,
在这篇论文中我们
首先研究了这些方法的核
矩阵以及基方向样本估计的二阶渐近性质。
我们推导了四种常见的降
维方法
,
包括切片逆回归
(SlicedInverseRegression,SIR,Li,
1991),
切片平
均方差估计
(Sl
icedAverageVarianceEstimation,CookandWeisberg,1991
),
海
赛
主
方
向
(PrincipalHessianDirection,
Li,1992)
和
方
向
回
归
(DirectionalRegressio
n,LiandWang,2007),
它们样本估计的二阶渐近展
开式。利用这些降维方法的二阶渐近展式
,
我们可以进一步
考虑纠正
其
O(n-1)
偏差以提高估
计的精度。从已经得到的二阶渐近展式中
,
我
< br>们可以求出降维方法方向估计二阶偏差的显示表达式
,
继
而可以很容
易得到二阶偏差的相合样本估计。
我们随后提出一种
一般的降维方法
的偏差纠正策略
,
其思
想很简单:即是将某一种降维方法基方向的样
本估计减去其二阶偏差的样本估计。
并且我们证明了经过偏差纠正后
,
这些降维方
法方向估计的偏差被缩小到
O(n-2)
。
充分降维领域中的另
一个重要的问题是决定中心
(
均值
)
降维子空间的结构维数。常用的选
取结构维数的方法都有其局限性。
序贯检验法依赖于检验的显著性水<
/p>
平。重抽样方法的运算量过大。
Zhu,MiaoandPeng
(2006)
提出的
BIC
准则虽然可以相合的估计结构维数
,
但如何基于
数据选取最优的惩罚
函数是一个难题。更重要的是
,
一般充分降维的过程分为两步
,
首先是
决定维数
,
然后再选取相应的基方向。论文的第二
部分基于对降维方
法核矩阵样本特征值的压缩估计提出一种稀疏谱分解方法用以决定
p>
结构维数。
该方法的主要思路是通过建立矩阵谱分解与最小二乘之间
的联系
,
然后利用
Zou(2006)
所提出的自适应性最小绝对缩减和变量选
择算子得到样本特征值的稀疏估计。
和以往降维方法的两步估计不同
< br>,
稀疏谱分解方法可以同时估计结构维数和中心
(
均值
)
降维子空间的
基方向。同时我们还证明了稀疏谱分解方法具有
Oracle
性
质。本文
的第三部分是将非参数方法
B
样条用以估计降维方法
SIR
和
SA<
/p>
VE
的核矩阵。和已有的切片方法以及核估计方法相比
,B
样条方法估计
精
度<
/p>
更
高
并
且
也
同
样
计
算
简
单
。
另
外
我
们
修
正
了
Zhu,MiaoandP
eng(2006)
所提出的
BIC
准
则。修正的目的是为了平衡
BIC
准则中的主项与惩罚项
,
使得其数量级大致相仿。
这种修正的
BIC
准则在估计结构维数方面的精度较之传统方法也有所提高。
p>
对于半参
数模型的降维一般有两个出发点:
一是找出模型中可能存在的变量的
线性组合
,
< br>二是选择模型中的重要变量。其中第一点就是充分降维的
概念。而第二点是当前统
计学界非常热门的话题:变量选择。本文的
第四部分提出一种同时进行充分降维和变量选
择的新方法。受到
CandesandTao(2007)
一文
的启发
,
我们借鉴
DantzigSe
lector
对
SIR
方法
进行了
e1
规范化。这种新方法的本质是在从
p>
SIR
的谱分解形式中求
解基方向与极小化
基方向
e1
模长之间的一种折中方案。我们所提出