-
第
1
章
多元正态分布
1
、在数据处理时,为什么通常要进行标准化处理?
数据的标准化是将数据按比例缩放,
使之落入一个小的特定区间
。
在某些比
较和评价的指标处理中经常会用到,
去除数据的单位限制,
将其转化为无量纲的
纯数值,便
于不同单位或量级的指标能够进行比较和加权。其中最典型的就是
0-1
标准化和
Z
标准化。
2
、欧氏距离与马氏距离的优缺点是
什么?
欧氏距离也称欧几里
得度量、欧几里得度量,是一个通常采用的距离定义,
它是在
m
维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距
离的就
是两点之间的距离。
缺点:
就大部分统计问题而言,
欧氏距
离是不能令人满意的。
每个坐标对欧
氏距离的贡献是同等的。<
/p>
当坐标表示测量值时,
它们往往带有大小不等的随机波
动,
在这种情况下,
合理的方法是对坐标加权,<
/p>
使变化较大的坐标比变化较小的
坐标有较小的权系数,
这就产生了各种距离。
当各个分量为不同性质的量时,
“距
离”
的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,
这一
点有时不能满
足实际要求。没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协
方差矩阵为
Σ的随机变量与的差异程度
:
如果协方差矩阵为单位矩阵
,
那么马氏距离就简化
为欧氏距离
,
如果协方差矩阵为对角阵
,
则其也可称为正规化的欧氏距离。
优点:
它不受量纲的影响,<
/p>
两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和
中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以
排除变量之间的相关性的干扰。
缺点:
夸大了变化微小的变量的作用。
受协方差矩阵不稳定
的影响,
马氏距
离并不总是能顺利计算出。
3
、当变量
< br>X1
和
X2
方向上的变差相等,
且与互相独立时,采用欧氏距离与统计
距离是否一致?
统计距离区别于欧式距离,
此距离要依赖样本的方差和协方差,
能够体现各
变量在变差大小上的不同,
以及优
势存在的相关性,
还要求距离与各变量所用的
单位无关。如果各
变量之间相互独立
,
即观测变量的协方差矩阵是对角矩阵
,
则
马氏距离就退化为用各个观测指标的标
准差的倒数作为权数的加权欧氏距离。
4
、如果正态随机向量
X
?
(
X
1
,
X
2
,
L
X
p
)
?
的协方差阵
?
为对角阵,证明
X<
/p>
的分量
是相互独立的随机变量。
解:
因为
X
?
(
X
1
p>
,
X
2
,
L
X
p
)
?
的密度函数为
?
1
?
?
1/2
?
1
?
?
1
?
f
(
x
1
,...,
x
p
)
?
?
Σ
exp
?
(
x
?
μ
)
Σ
(
x
?
μ
)
?
?
<
/p>
?
?
2
?
?
2
?
?
p
?
?
1
2
?
2
?
2
?
又由于
Σ
?
?
O
?
?
?
2
2
<
/p>
Σ
?
?
1
2
?
2
L
?
p
?
?
?
?
?
2
?
?
p
?
?
1
?
?<
/p>
2
?
1
?
?
Σ
?
1
?
?
?
?
?
?
?
1
2
?
2
O
?
?
?
?
?<
/p>
?
?
?
1
?
2
?
?
p
?
则
f
(
x
1
,...,
x
p
)
?
?
1
?
?
?
2
?
?
1
?
?<
/p>
p
?
1
?
1
?
?
2
2
2
?
1/2
?
1
?
?
?
Σ
?
?
?
L
?
exp
?
(
x
?
μ
)
Σ
?
?<
/p>
1
2
p
?
?
?
2
?
?
?
2
?
?
?
?
?
?
?
?
?
?
?
?
?
?<
/p>
?
?
?
?
?
(
x
?
μ
)
?
?
?
?
?
?
1
?
?
2
?
?
?
p
?<
/p>
?
1
2
?
2
O
p
2
2
2
?
?
1
1
(
x
p
?
?
p
)
?
?
1<
/p>
?
?
1
(
x
1
?
?
1
)
1
(
x
2
?
?
3
)
?
?
?
?
?
L
?<
/p>
exp
?
?
?<
/p>
...
?
?
?<
/p>
?
?
1
2
p
?
2
2
2
?
1
2
?
2
2
?
p
?
2
?
?
?
2
?<
/p>
?
?
?
(
x
i
?
?
i
)
2
?
1
?
?
exp
?
?
?
?
f
(
x
1
)...
f
(
x
p
)
2
2
?
i
?
1
p>
?
i
2
?
i
?
?
p
则其分量是相互独立。
1
)
4
)
5.
y
1
和
y
2
p>
是相互独立的随机变量,且
y
1
~
N
(
0
,
,
y
2
~
N
(
3
,
。
(
a<
/p>
)求
y
1
2
p>
的分布。
?
?<
/p>
y
1
(
b
)如果
y
?
?
?
,写出
y
?
y
关于
y
1
与
y
2
的表达式,并写
出
y
?
y
的分
?
(
y
2
p>
?
3
)
/
2
?
布。
?
y
?
?
1
?
(
c
)如果
y
?
?
1
?
且
y
~
N
(
?
,<
/p>
,写出
y
y
关于
y
1
与
y
p>
2
的表达式,并
)
?
?
?
y
2<
/p>
?
写出
y
?
p>
?
?
1
y
的分布。
解:
(
p>
a
)由于
y
1
p>
~
N
(
0
,
1
)
,所以
y
2
1
~
?
(
1
)
< br>。
(
< br>b
)由于
y
1
< br>~
N
(
0
,
1
)
,
y
2
~
N
(
p>
3
,
4
)
;
所以
y
2
?
3
2
~
N
(
p>
0
,
1
)
;
故
y
?
y
?<
/p>
y
2
3
1
?
(
y
2
?
)
2
,且
y
?
y
~
< br>?
(
2
2
2
)
第
2
章
均值向量和协方差阵的检验
1
、略
<
/p>
2
、试谈
Wilks
统计量在多元方差分析中的重要意义。
3
、题目此略
多元均值检验
,
从题意知道,容量为
9
的样本
,总体协方差未知
假设
H0
:
?
?
?
0
,
p>
H1
:
?
?
?
0
(n=9
p=5)
检验统计量
T
2
?
n
(
X
?
?
0
)
p>
?
S
?
1
(
X
?
?
0
)
服从
P
,
n-1
的
T
2
分布
/(n-1)
p>
统计量
T
2
实际上
是样本均值与已知总体均值之间的马氏距离再乘以
n*
(
n-1
)
,
这个值越
大,相等的可能性越小,备择假设成立时,
T
2
有变大的趋势,所以拒
绝域选择
T
2
值较大的右侧部分,也可以转变为
F
统计量
零假设的拒绝区域
p>
{
(
n-p
)
p>
/[(n-1)*p]}*
T
2
>
F
p
,
n
?
p
(
?
)
1/10*
T
2
>F5,4(5)
μ
0=
(
6212.01 32.87 2972 9.5
样本均值(
4208.78
35.12
15.78
)
’
1965.89 12.21
27.79
)
’
12.01)
(样本均值
-
μ
0
)
’
=
(-2003.23
2.25
-1006.11
2.71
协方差矩阵
(
降维——因子分析——抽取
)
Inter-Item Covariance
Matrix
人均
GDP(
元)
三产比重(<
/p>
%
)
人均消费
(
元)
人口增长
(%)
文盲半文盲(
%)
人均
GDP(
元)
1020190.840
582.460
331693.531
-599.784
-6356.325
三产比重(
%<
/p>
)
582.460
19.480
-105.464
6.625
43.697
人均消费
(
元)
331693.531
-105.464
125364.321
-213.634
-3130.038
人口增长
(%)
-599.784
6.625
-213.634
6.099
25.410
文盲半文盲(
%)
-6356.325
43.697
-3130.038
25.410
196.884
协方差的逆矩阵
1.88034E-05
-0.000440368
-6.09781E-05
0.00279921
-0.000625893
-0.00044037
0.207023949
-0.000210374
-0.0237044
-0.06044981
-6.0978E-05
-0.000210374
0.00022733
-0.0105019
0.002799208
-0.023704352
-0.010501881
0.85288927
-0.00062589
-0.06044981
0.003047474
-0.1813998
计算:
边远及少数民族聚居区社会经
济发展水平的指标数据
.xls
T<
/p>
2
=
9*
(-2003.23
2.25
0.003047474
-0.18139981
0.070148804
-1006.11
2.71
12.01)*s^-1* (-2003.23
2.25
-1006.11
2.71
12.01)
’
=9*50.11793817=451,0
6144353
F
统计量
=45.2>6.2
拒绝零假设,
边缘及少数民族聚居区
的社会经济发展水平与
全国平均水平有显著差异。
4
、略
第
3
章
聚类分析
1.
、聚类分析的基本思想和功能是什么?
聚类分析的基本思想是研究的样品或指标之间存着程度不同的
相似性,
于是
根据一批样品的多个观测指标,
< br>具体找出一些能够度量样品或指标之间的相似程
度的统计量,
以这些统计量作为划分类型的依据,
把一些相似程度较大的样品聚
< br>合为一类,
把另外一些彼此之间相似程度较大的样品又聚合为另外一类,
直到把
所有的样品聚合完毕,
形成一个有小到大
的分类系统,
最后再把整个分类系统画
成一张分群图,
用它把所有样品间的亲疏关系表示出来。
功能是把相似的研究对
象归类。
2
、试述系统聚类法的原理和具体步骤。
系统
聚类是将每个样品分成若干类的方法,
其基本思想是先将各个样品各看
< br>成一类,
然后规定类与类之间的距离,
选择距离最小的一
对合并成新的一类,
计
算新类与其他类之间的距离,
再将距离最近的两类合并,
这样每次减少一类,
直
至所有的样品合为一类为止。
具体步骤:
1
、
对数据进行变换处理;
(不是必须的,
当数量级相差很大或指标变量具有不同
单位时是必要的)
2
、构造
n
个类,每个类只包含一个样本;
3<
/p>
、计算
n
个样本两两间的距离
ijd
;
4
、合并距离最近的两类为一新类;
5
、计算新类与当前各类的距离,若
类的个数等于
1
,转到
6
;否则回
4
;
6
、画聚类图;
7
、决定类的个数,从而得出分类结
果。
3
、
试述
K-
均值聚类的方法原理。
p>
K-
均值法是一种非谱系聚类法,
把每个样
品聚集到其最近形心
(均值)
类中,
它
是把样品聚集成
K
个类的集合,类的个数
k
可以预先给定或者在聚类过程中
确定,该方法应用于比系统
聚类法大得多的数据组。步骤是把样品分为
K
个初
始类,
进行修改,
逐个分派样品到期最近均值的类中
(通常采用标准化数据或非