-
.-
实验三
美国
50
个州七种犯罪比率的数据分析
【实验目的】
1.
通过使用
SAS
软件对实验数据进行主成分分析和因子分析,
熟
悉数据分析方法,培养学生分析处理实际数据的综合能力。
【实验内容】表
3
给出的是美国
50
个州每
100000
个人中七种犯罪的比率数据。
这七种犯罪是:
Murder
(杀人罪)
,
Rape
(强奸罪)
,
Robbery
(抢劫罪)
,
Assault
(斗殴罪
)
,
Burglary
(夜盗罪)
p>
,
Larceny
(偷盗罪)
,
Auto
(汽车犯罪)
。
表
3
<
/p>
美国
50
个州七种犯罪的比率数据
State
Alabama
Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana
Iowa
Kansas
Kentucky
Louisiana
Maine
Maryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
Nevada
New
Hampshire
New
Jersey
New Mexico
New York
North
Carolina
Ohio
North Dakota
Oklahoma
Oregon
Pennsylvania
Rhode Island
South Carolina
South Dakota
Tennessee
Texas
Utah
Murder
14.2
10.8
9.5
8.8
11.5
6.3
4.2
6.0
10.2
11.7
7.2
5.5
9.9
7.4
2.3
6.6
10.1
15.5
2.4
8.0
3.1
9.3
2.7
14.3
9.6
5.4
3.9
15.8
3.2
5.6
8.8
10.7
10.6
7.8
0.9
8.6
4.9
5.6
3.6
11.9
2.0
10.1
13.3
3.5
Rape
25.2
51.6
34.2
27.6
49.4
42.0
16.8
24.9
39.6
31.1
25.5
19.4
21.8
26.5
10.6
22.0
19.1
30.9
13.5
34.8
20.8
38.9
19.5
19.6
28.3
16.7
18.1
49.1
10.7
21.0
39.1
29.4
17.0
27.3
9.0
29.2
39.9
19.0
10.5
33.0
13.5
29.7
33.8
20.3
Robbery
96.8
96.8
138.2
83.2
287.0
170.7
129.5
157.0
187.9
140.5
128.0
39.6
211.3
123.2
41.2
100.7
81.1
142.9
38.7
292.1
169.1
261.9
85.9
65.7
189.0
39.2
64.7
323.1
23.2
180.4
109.6
472.6
61.3
190.5
13.3
73.8
124.1
130.3
86.5
105.9
17.9
145.8
152.4
68.8
Assault
278.3
284.0
312.3
203.4
358.0
292.9
131.8
194.2
449.1
256.5
64.1
172.5
209.0
153.5
89.8
180.5
123.3
335.5
170.0
358.9
231.6
274.6
85.8
189.1
233.5
156.8
112.7
355.0
76.0
185.1
343.4
319.1
318.3
181.1
43.8
205.0
286.9
128.0
201.0
485.3
155.7
203.9
208.2
147.3
Burglary
1135.5
1331.7
2346.1
972.6
2139.4
1935.2
1346.0
1682.6
1859.9
1351.1
1911.5
1050.8
1085.0
1086.2
812.5
1270.4
872.2
1165.5
1253.1
1400.0
1532.2
1522.7
1134.7
915.6
1318.3
804.9
760.0
2453.1
1041.7
1435.8
1418.7
1728.0
1154.1
1216.0
446.1
1288.2
1636.4
877.5
1489.5
1613.6
570.5
1259.7
1603.1
1171.6
Larceny
1881.9
3369.8
4467.4
1862.1
3499.8
3903.2
2620.7
3678.4
3840.5
2170.2
3920.4
2599.6
2828.5
2498.7
2685.1
2739.3
1662.1
2469.9
2350.7
3177.7
2311.3
3159.0
2559.3
1239.9
2424.2
2773.2
2316.1
4212.6
2343.9
2774.5
3008.6
2782.0
2037.8
2696.8
1843.0
2228.1
35061
1624.1
2844.1
2342.4
1704.4
1776.5
2988.7
3004.6
Auto
280.7
753.3
439.5
183.4
663.5
477.1
593.2
467.0
351.4
297.9
489.4
237.6
528.6
377.4
219.9
244.3
245.4
337.7
246.9
428.5
1140.1
545.5
343.1
144.4
378.4
309.2
249.1
559.2
293.4
511.5
259.5
745.8
192.1
400.4
144.7
326.8
388.9
333.2
791.4
245.1
147.5
314.0
397.6
334.5
.-
Vermont
Virginia
Washington
West
Virginia
Wisconsin
Wyoming
1.4
9.0
4.3
6.0
2.8
5.4
15.9
23.3
39.6
13.2
12.9
21.9
30.8
92.1
106.2
42.2
52.2
39.7
101.2
165.7
224.8
90.9
63.7
173.9
1348.2
986.2
1605.6
597.4
846.9
811.6
2201.0
2521.2
3386.9
1341.7
2614.2
2772.2
265.2
226.7
360.3
163.3
220.7
282.0
1
、
1
)
分别用样本协方差矩阵和样本
相关矩阵作主成分分析,
二者的结果有何差
异?
2
)
原始数据的变化可否由三个或者更少的主成分反映,<
/p>
对所选取的主成分给
出合理的解释。
3
p>
)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序
.
2
、从样本相关矩阵出发,做因子
分析。
【实验所使用的仪器设备与软件平台】
计算机、
SAS
9.4(
简体中文
)
【实验方法或步骤】
1.
先将数据输入到
Excel
中,再通过
SAS
系统导入数据。
程序代码:
proc
princomp
data
=
covariance
;
run
;
proc
princomp
data
=
out
=defen;
run
;
proc
sort
data
=defen;
by
prin1;
run
;
proc
print
data
=defen;
run
;
proc
factor
data
=
simple
corr
;
run
;
proc
factor
data
=
priors
=smc
msa
scree
residual
preplot
rotate
=promax
reorder
plot
outstat
=fact_all;
run
;
【实验原理】
因子分析与主成分分析
有区别:
主成分分析只是简单的变量代换,
而因子分
析要构造因子模型;
主成分分析时将一组具有相关关系的变量变换为一组互
不相
关的变量,
而因子分析的目的是要用尽可能少的因子构造一
个结构简单的因子模
型,
主成分分析是将主成分表示成原始变量
的线性组合,
而因子分析时将原始变
量表示成公共因子和特殊因
子的线性组合。
【实验结果】
.-
1
、<
/p>
1
)
分别用样本协方差矩阵和样本相关矩
阵作主成分分析,
二者的结果有何差
异?
1
样本协方差矩阵:
○
均值和标准差:
协方差矩阵和总方差:
协方差矩阵的特征值:特征值、差分、比例、累积:
可以得出主成分为
Murder
(杀人罪)
p>
。
特征向量:
Larceny(
偷盗罪
)
与
Murder(<
/p>
杀人罪
)
高度相关;
Burglary(
夜盗罪
)
与<
/p>
Rape (
强
奸罪
)
高度相关;
Robbery(
抢
劫罪
)
与
Auto(
< br>汽车犯罪
)
高度相关;
Robb
ery(
抢劫罪
)
.-
与
Larceny(
偷盗罪
)
高度相关;
Murder(
杀人罪
)
与
Auto(
汽车犯罪
)
高度相关。
陡坡图和已解释方差:
2
样本相关矩阵:
○
均值和标准差:
相关矩阵:
相关矩阵的特征值:特征值、差分、比例、累积:
可以看出主成分为
Murder(<
/p>
杀人罪
)
,
Ra
pe(
强奸罪
)
,
Robbory(
抢劫罪
)
。
p>
.-
特征向量:
由上图可知,各成分间没有很高的相关性,没有两个成分的相关度达到
0.9
以上。
Robbo
ry(
抢劫罪
)
与
Larceny
(偷盗罪)的相关系数为
0.736050
;
Rape(
强奸
罪
)
与
Auto
< br>(汽车犯罪)的相关系数为
0.750208
。
样本协方差矩阵和样本相关矩阵的差别:
1.
主成分发生了变化。用样本协方差矩阵求得主成分为
p>
Murder
(杀人罪)
;用
样本相关矩阵求得主成分为
Murder(
杀人罪<
/p>
)
,
Rape(
强奸罪
)
,
Robbory(
抢劫
罪
)
。
2.
各成分间的相关系数不不相同。
所以
由样本协方差矩阵,样本相关矩阵求得的主成分一般是不同的。
陡坡图和已解释方差:
2
p>
)
原始数据的变化可否由三个或者更少的主成分反映,
对所选取的主成分给
出合理的解释。
1
用样本协方差矩阵求出的主成分
Murder
p>
(杀人罪)
○
,它的贡献率为
98.94%
可
以用它来代替其他六个变量,其信息
损失量是很小的。
2
用样本相关矩阵
求出的主成分为
Murder(
杀人罪
)
,
○
Rape(
强奸罪
)
,
Robbory(
p>
抢
劫罪
)
。
Murder(
杀人罪
)
的贡献率为
52.96%
,
Mur
der(
杀人罪
)
和
< br>Rape(
强奸罪
)
的累计贡献
率为
69.31%
,
Murder(<
/p>
杀人罪
)
,
Ra
pe(
强奸罪
)
,
Robbory(
抢劫罪
)
-
-
-
-
-
-
-
-
-
上一篇:世界免费文档下载地址
下一篇:最新九年级选词填空专题训练及答案