-
线性相关和回归
赵耐青
在
实际研究中,经常要考察两个指标之间的关系,即:相关
性。现以体重与身高的关系为例
,分析两个变量之间的相关性。
要求身高和体重呈双正态分布,
既:
在身高和体重平均数的附近
的频数较多,远离身高和体重平
均数的频数较少。
样本相关系数计算公式
(
称为
Pearson
相关系数<
/p>
)
:
r
?
?
(
X
?
?
X
)(
Y
?
Y
)
< br>2
(
X
?
X
)
?
(
Y
?
Y
)
2
p>
?
L
XY
L
XX
L
YY
(1)
1.
考察随机模拟相关的情况。
显示两个
变量相关的散点图程序
(本教材配套程序
,
使用见
前言)
。命令为
simur
样本量
总体相关系数
如显示样本量为
100
,
?
=0
的散点图
本例命令为
simur
100
0
2
1
y<
/p>
1
0
-1
-2<
/p>
-4
-2
y2
0
2
如显示样本量为
< br>200
,
?
=0.8
的散点图
本例命令为
simur
200
0.8
2
0
p>
y
1
-2
-4
p>
-4
-2
0
y2<
/p>
2
4
如显示样
本量为
200
,
?
=0.99
的散点图
本例命令为
simur
200
0.99
4
2
y
1
0
-2
-4
-4
< br>-2
0
y2
2
< br>4
如显示样本量为
200
p>
,
?
=-0.99
的散点图
本例命令为
simur
200
-0.99
4
2
y
1
0
-2
-4
-4
-2
0
y2
2
4
例
1.
测得某地
15
名正常成年男子的身高
x
(
cm
p>
)
、体重
y
(
p>
kg
)如
试计算
x
和
y
之间的相关系数
< br>r
并检验
H
0
< br>:
?
=
0 vs
H
1
:
??
0
。
?
=0.05
数据格式为
X
171.0
176.0
175.0
172.0
170.0
173.0
168.0
172.0
170.0
172.0
173.0
168.0
171.0
172.0
173.0
Y
58.0
69.0
74.0
68.0
64.0
68.5
56.0
54.0
62.0
63.0
67.0
60.0
68.0
76.0
65.0
Stata
命令
pwcorr
变量
1
变量
2
…
变量
m
,<
/p>
sig
本例命令
pwcorr
x
y,sig
pwcorr x y,sig
| x y
-------------+------------------
x | 1.0000
|
|
y | 0.5994 1.0000
|
0.0182
|
Pearson
相关系数
=0.5994
,
P
值
=0.0182<
0.05
,
因此可以认为身高与体
重呈
正线性相关。
注意:
Pearson
相关系数又称为线性相关系数并且要求
X
和
Y
双正态
分布,通常在检查中要求
X
服从正态分布并且
Y
服从正态分布。
如果不满足双正态分布时,可以计算
Spearman
相关系数又称为非参
数相关系数。
Spearman
相关
系数的计算基本思想为:用
X
和
Y
p>
的秩代替它们的原
始数据,然后代入
Pea
rson
相关系数的计算公式并且检验与
Pearson
相关系数类同。
Stata
实现
spearman x y
Number of obs =
15
Spearman's
rho =
0.6552
Test of Ho: x and y
are independent
Prob > |t| =
0.0080
< br>stata
计算结果与手算的结果一致。
结论为身高与体
重呈正相关,
并且
有统计学意义。
直线回归
例
2
为了研究
3
岁至
8
岁男孩身高与年龄的规律,
在某地区在
3
岁
至
8
岁男孩中随机抽样,共分
6
个年
龄层抽样:
3
岁,
4
< br>岁,…,
8
岁,每个层抽
10<
/p>
个男孩,共抽
60
个男孩。资料如下:<
/p>
60
个男孩的身高资料如下
年龄
身
高
3
岁
92.5
97.0
96.0
4
岁
96.5
101.0
105.5
5
岁
106.0
104.0
107.0
6
岁
115.5
115.5
111.5
7
岁
125.5
117.5
118.0
8
岁
121.5
128.5
124.0
-
-
-
-
-
-
-
-
-
上一篇:可靠性专业术语集
下一篇:可靠性术语中英文对照