-
试验一:聚类分析实验
班级:
信息
1311
班
姓名:田圆圆
课程:多元统计与数理分析
任课老师:廖伟凡
分组:个人一组
一
.
实验题目:
5.9
下表是
2010
年我国部分省会城市和计划单列市的一
些主要经济指标:
人均地区生产
总值
X
1
(元)
,客运量
X2
(万人)
,货运量
X3
(万吨
)
,地方财政预算内收入
X4
(亿
p>
元)
,固定资产投资总额
X5
(亿元)
,城乡居民储蓄年末余额
X6
(亿元)
,在岗职工平
均工资
X7
(元)
,社会商品零售总额
X8
(亿元)
,货物进出口总额
X9
(亿美元)
。试利
用一种聚类方法对城市进行
聚类分析。
实验数据如下:
城市
x1
x2
x3
x4
x5
x6
x7
x8
x9
北京
112208
140663
21886
2354
5494
16874
65682
6229
3016.22
天津
93664
24873
40368
1069
6511
5634
52964
2903
822.01
石家庄
34383
12401
19689
164
2958
2920
31459
1410
109.74
太原
48647
4800
13851
138
899
2387
38839
826
79.13
沈阳
69727
30658
17348
465
4139
3338
41900
2066
78.56
大连
87957
17805
31073
501
4048
3375
44615
1640
519.82
长春
43867
12796
10863
181
2638
2063
35721
1287
132.24
哈尔滨
36943
13068
10129
238
2652
2580
32411
1770
43.73
上海
121545
17434
80835
2874
5318
16249
71875
6071
3688.69
南京
81127
39688
30592
519
3306
3512
48782
2289
435.18
杭州
86330
33772
25915
671
2753
4991
48772
2146
523.55
宁波
89935
34905
31337
531
2193
3312
43476
1704
829.04
合肥
54583
19805
18873
259
3067
1234
39291
839
99.58
福州
48357
18916
14911
248
2317
2329
34804
1624
246
厦门
114315
12375
10086
289
1010
1385
40283
685
570.36
南昌
43805
10684
8326
146
1952
1418
35038
765
53.04
济南
64735
16478
23146
266
1987
2188
37854
1802
74.11
青岛
74200
23805
26971
453
3022
2912
37803
1961
570.6
郑州
41962
30121
20599
387
2757
2911
32778
1678
51.57
武汉
66520
22896
40288
390
3753
3591
39302
2570
180.55
长沙
69697
33984
22817
314
3193
2172
38338
1865
60.89
广州
133330
62596
56644
873
3264
9302
54494
4476
1037.68
深圳
368704
156407
26174
1107
1945
6717
50455
3001
3467.49
南宁
25450
10153
19171
156
1483
1376
37040
906
22.13
海口
37097
31503
8003
50
353
772
34192
327
39.45
重庆
23992
126804
81385
1018
6935
5840
35367
2878
124.26
成都
贵阳
昆明
西安
兰州
西宁
银川
乌鲁木齐
48312
33273
36308
41413
34011
28446
48452
55076
100998
30348
11627
31118
3798
4868
4378
3820
44087
10397
14906
34332
8032
2978
10547
15192
527
136
254
242
73
35
64
148
4255
1019
2161
3251
661
403
649
500
5071
1089
2342
3678
1296
576
634
1243
38603
31128
32022
37872
33964
32220
39816
40649
2418
224.5
485
22.75
956
101.09
1637
103.93
545
10.6
232
6.67
225
9.98
564
59.85
二,实验内容;
< br>1
)
,根据
SPSS
中利用系统聚类的方法进行聚类分析
CLUSTER
x1 x2 x3 x4 x5 x6 x7 x8 x9
/METHOD
BA
VERAGE
/MEASURE=SEUCLID
/PRINT SCHEDULE
/PLOT DENDROGRAM
/SA
VE CLUSTER(2,4).
聚类
附注
创建的输出
注释
输入
活动的数据集
过滤器
权重
拆分文件
工作数据文件中的
N
行
缺失值处理
对缺失的定义
使用的案例
数据集
0
34
用户定义的缺失值作为缺失数据对待。
统计是在所使用的变量不带有缺失值的
案例基础上进行的。
语法
CLUSTER
x1 x2 x3 x4 x5
x6 x7 x8 x9
/METHOD BA
VERAGE
/MEASURE=SEUCLID
/PRINT SCHEDULE
/PLOT
DENDROGRAM
/SA
VE CLUSTER(2,4).
资源
处理器时间
已用时间
创建或修改的变量
群集成员
00
00:00:00.234
00 00:00:00.438
CLU4_1
Average Linkage (Between Groups)
CLU3_1
Average Linkage (Between Groups)
CLU2_1
Average Linkage (Between Groups)
20-10
月
-2015 19
时
29
分
53
秒
[
数据集
0]
案例处理汇总
a,b
案例
有效
N
34
百分比
100.0
N
0
缺失
百分比
.0
N
34
总计
百分比
100.0
a.
平方
Euclidean
距离
已使用
b.
平均联结(组之间)
平均联结(组之间)
聚类表
群集组合
阶
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
群集
1
7
4
8
25
5
4
31
3
11
13
10
3
17
19
3
5
2
3
4
群集
2
16
33
29
28
21
34
32
8
12
14
11
7
18
25
31
17
6
24
13
系数
12533848.640
15594021.723
26414623.170
31653016.890
55978967.229
57940037.368
61382969.445
64164702.571
75166343.140
77783319.816
1.087E8
1.249E8
1.598E8
1.944E8
2.332E8
2.338E8
2.518E8
2.834E8
2.862E8
首次出现阶群集
群集
1
0
0
0
0
0
2
0
0
0
0
0
8
0
0
12
5
0
15
6
群集
2
0
0
0
0
0
0
0
3
0
0
9
1
0
4
7
13
0
0
10
下一阶
12
6
8
14
16
19
15
12
11
19
20
15
16
23
18
21
20
22
22