-
第一节
投影寻踪回归
我们先介绍一下
Peter
Hall
提出的投影寻踪回归
(Projection
Pursuit
Regression)
的思想,它
一点也不神秘。
我们
手中的资料是
{
x
k
< br>,
Y
k
}
n
k
?
1
,
x
k
是
p
p>
元,
Y
k
是一元。
非参数回归模型是
Y
k
?
G
(
x
< br>k
)
?
?
k
,
1
?
k
?
n
< br>(
10.1.0
)
我们的任务是估计
p
元函数
G
,当然
G
(
x
)
?
E
{
Y
k
|
x
p>
k
?
x
}
。
G
是将
p
元变量映像成一元变
量,那么何不先将
p
元变量投影成一元变量,即取
u
?
?
?
x
k
< br>,再将这个一元实数
u
送进一元函
数
G
作映像呢
?
由于要选择投影方向
?
?
(
?
1
,
?
,
?
p
)
,
使估计误差平方和最小,
就是要寻踪了。
所以取名为投影寻踪回归。
具体操作如何选方向
θ
,
如何定函数
G
,
如何证明收敛性,
下面将逐步讲
述。需要指出的
是,
投影寻踪回归与单指针半参数回归模型的思
想基本上一样,
基本算法也差不多,
差别大的
< br>方面是收敛结果及证明。若论出现时间,投影寻踪回归较早,在
1989
年,单指针模型较晚,
在
1993
年。
一、投影寻踪回归算法
假设解释变量集合
{
x
k
,
1
?
k
p>
?
n
}
是来自密度
函数为
f
的
p
元随机样本,对每一个
p
元样
本
x
k
,
有一元观察<
/p>
Y
k
与之对应,并且
E
(
Y
k
|
x
k
?<
/p>
x
)
?
G
(
x
)
p>
(
10.1.1
)
这里
G
是回归函数,也是目标函数。令
Ω
为所有
p
维
单位向量的集合,
θ
,
θ
1
,
θ
2
< br>,…是
Ω
中
的元素。如果
H
是一个
p
元函数,
比如
f
或
G
,
则
H
沿方向
θ
的方向导数记作
H
(
?
)
(
x
)
?
lim
{
H
(
x
?
u
?
)
?
H<
/p>
(
x
)}
/
p>
u
n
?
0
(
10.1.2
)
假如这个极限存在的话。高阶导数则记作
H
(
?
1
< br>?
?
2
)
?
(
H
(
?
1
)
)
(
p>
?
2
)
,
等等。
x
∈
R
p
的第
i
个分量记作<
/p>
x
(
i
)
,
点积
x
?
y
?
?
x
y
(
i
)
< br>(
i
)
,
模长
x
?
(
x
?
x
)
。符
号
A
表示
R
p
的子集,通常是指凸集。
I
(
·
∈
1
2
A)
表示
A
的示性函数,<
/p>
I
(
x
∈
A
)=1,
I
(
p>
x
?
A
)
?
0
。
u
一般代表实数。
我们的任务是从观察
{
x
k
,
< br>y
k
}
n
遇到的问题是
p
太大,
维
k
?
1
?
1
作出
p
元函数
G
(
x
)
< br>的估计,
数太高,解决的办法是作投影寻踪回归。
p>
作沿着
θ
方向的一元函数
< br>
g
?
(
u
)
?
E
{
G
(
x
)
p>
|
?
?
X
?
u
},
?
?
?
在区域
A
?
R
内对
G
的第
一次投影逼近是函数
p
(
10.1.3
)
G
1
(
x
)
?
g<
/p>
?
1
(
?
1
?
x
)
这里
θ
1
是极小化下式
(
p>
10.1.4
)
S
(
?
)
?<
/p>
E
{[
G
(
p>
x
)
?
g
?
(
?
?
X
)]
2
I
(
X
?
A
)}
(
10.1.5
)
的结果。
当然这里
G
是未知的
,
所以我们要作出
S
(
θ
)
与
g
θ
(
u
)
的估计,
才能得到
G
1
(
x
)
的估计。
下面构造它们的估计。
设
θ
·
x
的密度为
f
θ
,称作沿方向
θ
的
X
的边沿密度,利用样本
x
j
但不包括
x
k
构造
f
θ
的
核估计为
?
(
u
)
?
f<
/p>
?
(
k
)
?
u
?
?
?
x
j
1
?
K
?
j
(
n
?
1
)
h
?
k
?<
/p>
h
?
?
?
?
?
(
10.
1.6
)
这里
K
是核函数,
h
是窗宽。排除
x
k
在外的
g
θ
的估计为
?
p>
1
?
u
?
?
?
x
j
?
?
(
k
< br>)
(
u
)
?
?
g
?
Y
j
K
?
?
p>
h
?
(
n
?
1
)
h
j
?
k
?
< br>?
借助于交叉核实的思想,作下式
?
?
?
?
?
?
/
f
?<
/p>
(
k
)
(
u
)
?
?
?
(
10.1.7
)
1
n
?
?
?
(
k<
/p>
)
(
?
?
x
k
)]
2
I
(
x
k
?
A
)
< br>S
(
?
)
?
?
[
Y
k
?
g
n
k
p>
?
1
的极小化,其解
?
?
1
就作为
θ
的估计。于是
(
10.
1.8
)
?
(
x
)
?
g<
/p>
?
?
x
)
?
?
?
(
k
)
(
?
G
1
(
k
)
1
1
(
p>
10.1.9
)
就可以作为回归函数
G
在区域
A
的第一次投影逼近。
将估计限制在区域
p>
A
的理由在于,用来估计
G
1
的统计量在分母中有密度的核估计。这个
核估计在<
/p>
f
的边界取值接近于
0
< br>,再作分母就有问题了。所以我们要对分母接近于
0
的区
域加
以限制。
刚才构造统计量时将<
/p>
x
k
排除在外的目的是为了使交叉核实统
计量获得的参数估计
?
?
1
不致
有额外偏差。一旦
?
?
1
确定下来,就可以在统计量中将
x
k
放回去,不再排除在外:
u
?
?
?
x
j
1
n
< br>?
f
?
(
u
)
?
?
K
(
)
j
p>
?
1
nh
h
?
1
n
?
u
?
?
?
x
j
?
?
(
u
)
?
?
?
Y
j
K<
/p>
?
g
?
h
?
?
?
nh
j
?
1
(
10.1.10
< br>)
?
?
?
?
?
?
/
f
?
(
u
p>
)
?
?
?
(
p>
10.1.11
)
?
?
x
?
1
n
?
u
?
p>
?
1
j
?
?
G
1
(
u
)
?
?
< br>?
Y
j
K
?
nh
j
?
1
h
?
?
?<
/p>
?
?
?
(
u
)
?
?
/
f
?
?
?
?
1
?
?
(
10.1.12
< br>)
?
(
u
)
才真正是在区域
A
内与
f
有关的
G
的第一次投影逼近。
我们称
G
1
?
,
G
?
分别是
θ
1
与
G
的一致估计还是比较容易的。我
们还可以证明它们一致收敛
要证明
?
1
1
的收敛速度。
下面我们给出核函数
K
与窗宽
h<
/p>
的构造选择细节。我们使用的核函数是一元的,满足
f
与
G
的一维投影的平滑条件。假定
f
(
x
)
与
G
(
x
)
沿一切方向的前
r
阶方向导数存在,
定义
A
?
?
{
x
?
R
p>
p
:
对于
y
?
A
,
x
?
y
?
?
}
?
j
不为
0
,进一步假定
为了
g
f
(
x
)
在一个闭集外为
p>
0
,而在
A
上不为
0
ε
(
p>
10.1.13
)
(
10.1.14
< br>)
为了保证集合
{
?
?
x
:
x
?
A
}
是合适的区间,对于每一
θ
∈
Ω<
/p>
,我们假定
A
非空,是一
p
维开
凸集。
?
,
g
?
< br>?
对于固定的
θ
,估计量如
p>
f
?
(
k
)
?
?
(
k
)
,
f
< br>?
和
g
?
是经典的一元核估计,使用的是一元样本
{
θ
·
x
k
,1
< br>≤
k
≤
n
}
,为了得到较高的收敛速度,可以使用
r
< br>阶正交核函数
K
,它满足
p>
?
?
?
?
?
?
1
j
?
0
<
/p>
u
K
(
u
)
du
?
?
1
?
j
?
r
?
1
?
< br>0
j
p>
(
10.1.15
)
?
lder
连续的。所谓
H
?
?
lder
连续,即存在
ε
>0,
c
>0,
对一切实数
u
,
ν
,
有
< br>
o
o
并且
K
是
H
?
|
K
(
u
)<
/p>
?
K
(
v
)
|
?
c
|
u
?
v
|
?
现在我们确定窗宽。考虑模型
(
10.1.16
< br>)
Y
k
?
G
(
x
k
)
?
?
k
p>
,
1
?
k
?
n
(
10.
1.17
)
这里
?
k
,
k
?
1
,
?
,<
/p>
n
是独立同分布的,其均值为
0
,方差为
σ
2
,与
p>
x
k
,
k
?
1
,
?
,
n
相互独立。
假定
h
=
h
(
n
)
→
0
,且
nh
→
∞
。对于固定的
θ
∈
Ω
,假定
f
θ
(
u
)>0,
且