SAS学习系列26 Logistic回归_高中生题库网|高考真题|高考试题-「密云二中」

-

2021年2月6日发(作者：肃静的意思)

26. Logistic

回归

（一）

Logistic

回归

一、原理

二元或多元线性回归的因变量都是连续型变量，

若因变量是分类

变量（例如：患病与不患病；不重要、重要、非常重要）

，就需要用

Logistic

回归。

Logistic

回归分析可以从统计意义上估计出在其它自变量固定不

变的情况下，每个自变量对因变量取某个值的概率的数值影响大小。

Logistic

回归模型有“条件”与“非条件”之分，前者适用于配

对病例对照资料的分析，后者适用于队列研究或非配对的病例

-

对照

研究成组资料的分析。

对于二分类因变量，

表示事件发生；

表示事件不发生。

事件发生的条件概率

=1 |

}

与

之间是非线性关系，通常是

单调的，即随着

的增加

减少，

=1 |

}

也增加

减少。

Logistic

函数

，图形如下图所示：

该函数值域在

(0,1)

之间，

趋于

∞时，

)

趋于

；

趋于

∞时，

)

趋于

正好适合描述概率

=1 |

例如，某因素

导致患病与

否：

在某一水平段内变化时，对患病概率的影响较大；而在

较低

或较高时对患病概率影响都不大。

记事件发生的条件概率

=1 |

} =

，则

记事件不发生的条件概率为

则在条件

下，事件发生概率与事件不发生概率之比为

称为事件的发生比，简记为

odds.

对

odds

取自然对数得到

上式左边（对数发生比）记为

Logit(y),

称为

的

Logit

变换。可见变

换之后的

Logit(y)

就可以用线性回归，计算出回归系数

和

值。

若分类因变量

与多个自变量

有关，则变换后

Logit(y)

可由多

元线性回归：

logit(

)

ln(

)

x

k

或

(

二、回归参数的解释

三个名词

)

 ?

(

k

)

发生比（

odds

）

=

=

例如，事件发生概率为

0.6

，不发生概率为

0.4

，则发生比为

1.5

（发

生比

>1

，表示事件更可能发生）

。

发生比率（

OR

）

=

=

=

=

即主对角线乘积

/

副对角线乘积，也称为交叉积比率，优势比。例如，

说明：大于

1

（小于

1

）的发生比率，表明事件发生的可能性会提高

（降低）

，或自变量对事件概率有正（负）的作用；发生比率为

1

表

示变量对事件概率无作用。

3

/

32

相对风险（

RR

）

=

=

用来进行两组概率之间的比较。当

p

1

=

p

2

时，相对风险为
 1

，表明两

组在事件发生方面没有差别。

2.

连续型自变量回归参数的解释

截距

α

：

基准发生比的对数，即当

Logistic

回归模型中没有任

何自变量时（除常量外，所有自变量都取

0

值）所产生的发生比。

由于理解发生比，比理解对数发生比更容易，故将
Logistic

回归

模型改写为：

odds =

=

>1

（

<1

）

,

即

x

k

每增加一个单位值时发生比

=1,

那么

x

k

不论怎样变化发生比

若

β

k

>0

（

β
 k

<0

）

，则
 会相应增加（减少）

；若

β

k

=0

，则

都不会变化。
 

反映了自变量

x

k

增加一个单位时发生比所变化的倍数，即

(

x

k

+1)

时的发生比与原发生比

【

(

x

k

)

时】

之比。

自变量

x

k

每变化一个单

位，发生比率的变化率为

注：由于

β

k

是自变量

x

k

的偏系数估计，故

称为调整发生比率

（

AOR

）的估计。实际中，往往更关心的不是自变量变化

1

个单位，

而是变化一段水平

b-a

个单位，例如年龄每增加

5

岁，此时调整发生

比率为

4

/

32

AOR =

3.

二分类自变量回归参数的解释

二分类变量，例如性别，取值可以用

0

或

1

编码，也称为标志变

量或虚拟变量。

若

x

k

为取值

0

或

1

的二分类变量，则有

p
i

ln(

)

x
k

?

1

?

?

?

?

1

x

1

?

1

?

p

i

ln(

p

i

)

x

k

?

0

?

?

?

?

1

x
1

?

1

?

p

i

?

?

k

?

1

?

?

k

?

0


两式作差得

p

i

p

i

?

k

?

ln(

)

x

k

?

1

?

ln(

)

x

k

?

0

?
ln(odds)

x

k

?

1

vs

x

k

?

0

1

?

p

i
 1

?

p

i

可见

β

k

就是在控制其它变量条件下，

x

k

=1

与

x

k

=0

的对数发生比的差；

也即是发生比率的对数，即调整发生比率的估计可表示为

=

(odds)

x

k

?

1

vs

x

k

?

0

注意，发生比率是

，而不是两者概率比

4.

多分类变量的处理与回归参数的解释

当分类自变量多于两个类别时，

需要建立一组虚拟变量来代表类

型的归属性质。若一个分类变量包括

m

个类别，则可以产生

m

个相

应的虚拟变量，但建模需要的虚拟变量的数目为

m-1.

省略的那个类

别作为参照类。

5

/

32

例如，

年龄是有序变量，

按年龄段分为四个类别：

x

<40

，

40

≤

x

<50

，

50

≤

x

<60, x

≥

60.

设置
3

个虚拟变量

Age1

表示

40

≤

x

<50

（属于该年龄段则

Age1=1

，否则

Age1=0

）

；

Age2

表示

50

≤
 x

<60

（属于该年龄段则

Ag e2=1

，

否则

Age2=0

）

；

Age3

表示

x

≥

60

（属于该年龄段则

Age3=1

，

否则

Age3=0

）

；另一个不指定虚拟变量的

x

<40

作为参照类（
 Age1

，

Age2

，

Age3

都为

0

；哪一类作为参照类是随意的，取决于偏好或解

释的方便）

。

则模型为

p

ln(

)

?

?

?

?

1

Age

1

?

?

2

Age

2

?

?

3

Age

3


1

?

p

同二分类变量时一样，

β

1

代表

40

≤

x

< 50

与参照类（

Age0:

x

<40

）在

因变量上的差别，故

β

1

= ln(odds)

Age1 vs Age0

且

40

≤

x
 <50

对

x
 <40

的发生比率为

.

注：

（

1

）

名义变量直接就是分类变量；

连续变量也可以改为分类

变量，例如考试成绩按分数段分为高、中、低三档。

（

2

）

另外，

也可采用效应变量编码，

三种取值：

-1, 0(

参照类

), 1.


（

3

）用

SAS

中

CLASS

语句指定分类变量，可以自动进行效应

6

/

32
 编码，作为一组变量纳入模型，并对每一类别单独做显著性检验。

5.

用概率解释自变量的作用

(1) 

对事件发生概率的偏作用，可用

Logit

函数求该自变量的偏

导数来刻画：

?

P

{

y

?

1|

x

k

}

?

?

k

p

(

p

?

1)


?

x

k

其中

p

为事件发生概率。对于二元
Logistic

回归，

p

=0. 5

时，斜率最

陡，此时

x=-

α/β

,

称为中位有效水平。

(2)

利用得到的

Logistic

回归方程，可以预测概率：

?

x
?

?

k

k

k

e

odds

?

?

p

?

?

x

?

?

?

?

?

k

k

k

1

?

odds

1

?

e

?

?

?

有预测概率就可以计算某自变量值发生离散变化时，

预测概率的离散

变化：

P

{

y

?

1|

x

,

x

k

?

x

k
 }

?

P

{

y

?

1|

x

,

x

k

}

三、标准化系数

通常在线性回归模型中的连续型自变量是以不同尺度度量的，

这

就使得某自变量中一个单位的变化并不等价于另一自变量上一个单

位的变化。

因此，

要使用标准化系数

（使得因变量的作用具有可比性）

。

标准化系数表示自变量的一个标准差的变化所导致的因变量上

以其标准差为单位度量的变化。有两种标准化的方法：
 

（

1

）先回归再标准化；

（

2

）先标准化

x

，

y

再回归；

7

/

32

注：对于分类变量，例如性别、民族等，变量的标准化是没有意义

的。但其尺度标准要一致，比如
0,1,2,3

都变成

1,2,3,4.

四、偏相关

偏相关，用来刻画在控制其他变量下，某自变量对

Logistic
 回归

的贡献（依赖于其它变量）

。偏相关系数计算公式如下：

Wald

?
2

?

2d.f.

r

?

?

?
2LL

0

其中，

d.f.

为自由度，分母为

-2

倍的截距模型（只有截距）的对数似

然值。

五、回归参数的估计

Logistic

回归参数的估计通常采用最大似然法，

其基本思想是先

建立似然函数与对数似然函数，

再通过使对数似然函数最大求解相应

的参数值，所得到的估计值称为参数的最大似然估计值。

假设有

N

个案例构成的总体，

Y

1

,

…

,

Y

N

.

从中随机抽取

n

个案

例作为样本，观测值标注为

y

1

,

…

, y

n

.

设

p

i

=P(

y

i

=1 |

x

i

)

为给定

x

i

的条

件下得到结果

y

i

=1

的条件概率，而在同样条件下得到结果为

y

i

=0

的

条件概率为

P(

y

i

=0 |

x

i

)=1-

p

i
.

于是，得到一个观测值的概率为

P

(

y

i

)

?

p

i

y

i

(1

?

p

i

)

1

?

y

i

其中，

y

i

=1

或

y

i

=0.

当

y

i

=1

时，

P(

y

i

)=

p

i

= P(

y

i

=1 |

x

i

).

由于各项观测相互独立，

故它们的联合分布可表示为各边际分布

的乘积：

8

/

32

L

(

?

)

?

?

p

i

y

i

(1

?

p

i

)

1

?

y

i

i

?
 1

n

称为

n
个观测的似然函数。

对于

Logistic

回归，

p

i

?

e

?

?

?
x

i

/

(1

?

e

?

?

?

x

i

)

. 

根据最大似然原理，估计参数

α

和

β

使得似然函数

L(

θ

)

最大，令

ln[

L

(

?

)]

?

?

[

y

i

(

?

?

?

x

i

)

?

ln(1

?

e

?

?

?

x

i

)]

i

?

1

n

称为对数似然函数，也即让

ln[L(

θ

)]

最大。令

?

ln[

L

(

?

)]

n

e

?

?

?

x

i

?

?

[

y

i
?

]

?

0

?

?

?

x

i

?

?

1

?

e

i

?

1

?

ln[

L

(

?

)]

n

e

?

?

?
x

i

?

?

[

y

i

?

]

x

i

?

0

?

?

?

x

i

?

?

1

?

e

i
?

1

采用牛顿迭代法解出

α

和

β

的估计值。

六、假设检验

1.

似然比检验

 H

0

：

β

1

=

β

2

=

…

=

β

p

=0

统计量

2

?

LR

?

?

2(ln

L

0

?

ln

L

1

)

?

?

2ln

L

0

?

(

?

2ln

L

1

)

服从自由度为变量个数该变量

（从

L

0

到

L

1

）

的卡方分布。

若

P

值

<0.05,

则拒绝原假设。

2.

比分检验

以未包含某个或几个变量的模型为基础，

保留模型中参数的估计

值，

并假设新增加的参数为零，

计算似然函数的一价偏导数

（也称

“有

效比分”

）

及信息距阵，

两者相乘便得比分检验的统计量

S.

样本量较

9

/

32

大时，

S

近似服从自由度为待检验因素个数的

?

2
分布。

3. Wald

检验

即广义的

T

检验，统计量为

?

/

SE

]

2

W

?

Z

2

?

[

?

?

k

?

k
?

的标准误。

H

0

：

β

k

=0
 为真时，

Z

为标准正态分布，

W

其中

SE

?

?

为

?

k

k

服从自由度为

1

的渐近
?

2

分布。

?

?

Z

?

SE

?

?

?

?

1.96SE

.

β
 k

的

95%

置信区间估计为：

?

?

?

k

?

k

?

?

k

k

发生比率的

1-

α

置信区间为：

e

?

?

Z

?

SE

?

?

k

?

/2

?

k

.

注：上述三种方法中，似然比检验最可靠，比分检验一般与它相

一致，但两者均要求较大的计算量；而

Wald
检验未考虑各因素间的

综合作用，

在因素间有共线性时结果不如其它两者可靠。

为计算方便，

通常向前选取变量用似然比或比分检验，而向后剔除变量常用

Wald

检验。

七、模型的评价——拟合优度检验

检查模型估计与实际数据的符合情况。

检验统计量：

1.

剩余差

D;

2.

皮尔逊

χ

2

若统计量的

P

值＞
0.05

，则认为模型拟合较好。

（二）

PROC LOGISTIC

过程步

10

/

32

基本语法：

PROC LOGISTIC data =

数据集

<

可选项

>

;

CLASS

分类变量

;

FREQ

频数变量

;

权重变量

;>

效应名

=

效应类型

(

变量列表

可选项

>);>

MODEL

因变量

< (

变量选项

) >

=

自变量列表

 可选项

>;

变量列表

;>

’label’

分类变量名

线性组合系数表

;>

<

’label’

> variable < / options >

;>

OUT=

输出数据集

可选项

>;>

<

’label’

> <

变量

> < /

可选项

>;

>

OUT=

输出数据集

<

可选项

>;

>

<

TEST

系数关系式

;>

注：

CLASS, EFFECT

语句必须在

MODEL

语句之前；

CONTRAST, EXACT, ROC

语句必须在

MODEL

语句之后。

说明：

（

1

）输入数据集可选项

DESCENDING

——

指定因变量按降序排序

（

“
 y=1

”

放前面）

；


ORDER=

——

指定因变量的排序顺序；

PLOT

——

绘图选项；

（

2

）

EFFECT

语句

11

/

32

用原变量数据创建某种效应设计矩阵做对比用，

例如
 LAG

效应

等。

（

3

）

CLASS

语句

对分类变量进行

0-1

化处理，变成虚拟变量；

（

4

）

MODEL

语句

是必不可少的，用来指定因变量和自变量。可以用可选项指定

“

y=1

”

，例如：

model


remiss(

event

=
'1'

)

=

cell

smear

infil

li

blast

temp;

可选项：

selection=stepwise /forward/ backward 

sle

或

sls

——指定变量进入或剔除出模型的显著水平；

Aggregate

和

scale=n|p|d

计算偏差和

pearson

卡方拟和优度统计量，

n
表示对离差参数不

进行校正；

p

规定离差参数的估计为

pearson

卡方统计量除以自由度；

d

规定离差参数的估计为偏差除以自由度；

alpha=

——设置置信限；

cl/clpar m=W

ALD

——估计所有参数

/W

ALD

参数的置信区间；

plrl

——对自变量估计比数比的置信区间；

influence

——做回归诊断；

RSQUARE

——输出拟合的调整的

R

2

；

EF FECTPLOT

——输出模型拟合统计量；

（

5

）

ESTIMATE

语句——用来估计效应变量的线性组合的值；

（

6

）

EXACT

语句

12

/

32

用其它变量的充分统计量对变量的充分统计量做精确检验；



（

7

）

CONT RAST

语句

用来检验均值的线性组合关系的原假设。

有三个基本参数，

一是

标签，二是分类变量名，三是效应均值线性组合的系数表（系数的次

序是匹配分类变量按字母数字次序的水平值）

。示例：

contrast

'US vs NON-U.S.'

brand

1

1

-

2

;

检验

H

0

：

β

1

+

β

2

-2

β

3

=0

（

8

）

ROC

语句——绘制

ROC

曲线；

（

9

）

SCORE

语句——输出若干结果到数据集。

（

10

）
 TEST

语句

对系数关系式做检验，示例：

（

ai

为自变量名）

test1:

test

intercept +

.5

* a2 =

0

;

test2:

test

intercept +

.5

* a2;

test3:

test

a1=a2=a3;

test4:

test

a1=a2, a2=a3;

例

1

不同治疗方法对某病疗效的影响研究：

用

Logistic

回归模型

P{effect=1 | treat} =

拟合，即

Logit(p) = ln(

) =

13

/

32

代码：

data

effects;

input

treat effect count;

cards

;

1 1 16

1 0 48

2 1 40

2 0 20

;

proc

logistic

data

= effects

DESCENDING

;

freq

count;

model

effect=treat;

/*

或者用

model effect(event='1') =

treat;

前面就可以不用

DESCENDING

选项了
*/

run

;

运行结果及说明：

响应概况

有序

effect

总频数

值

1

1

2

0

56

68

建模的概率为

effect=1

。

模型收敛状态

满足收敛准则

(GCONV=1E-8)

。

模型拟合统计量

准则

仅截距

截距和协变量

AIC

172.737

SC

检验全局零假设

: BETA=0

检验

卡方

自由度

Pr

>

卡方

175.558

152.361

158.001

148.361

-2 L

170.737

14

/

32

检验全局零假设

: BETA=0

检验

卡方

自由度

Pr

>

卡方

1

1

1

<.0001

<.0001

<.0001

似然比

22.3768

评分

21.7087

Wald

20.2762

假设检验

H

0

：

β

1

=…=β

k

=0.

似然比检验的卡方值

=-2ln

L

0

–

(-2ln

L

k

) =

170.737

–

148.361 =22.3768.

自由度为

1-0=1
（只有截距

0

个变量，

到

1

个变量），

P

值

<0.0001 <

α

=0.05.

故拒绝

H

0

.

最大似然估计值分析

参数

Intercept

treat

自由度

估计值

标准

Wald

卡方

Pr

>

卡方

误差

1 -2.8904 0.6390

1

1.7918 0.3979

20.4594

20.2762

<.0001

<.0001

回归方程为：

Logit(p)= -2.8904+1.7918*treat

优比估计值

效应

点估计值

95% Wald

置信限

treat

6.000 2.751 13.087


发生比率（

OR

）

=6. 000

.

预测概率和观测响应的关联

一致部分所占百分比

50.4

Somers D

0.420

0.714

0.210

0.710

不一致部分所占百分比

8.4

Gamma

结值百分比

对

41.2

Tau-a

3808

c

例

2

研究性别、疾病的严重程度对疾病疗效的影响，得数据如下：

15

/

32

拟合回归方程为

Logit(p) =

α

+

β

1

Sex +

β

2

Degree.

代码：

data

effects2;

input

sex degree effect count @@;

cards

;

0 0 1 21 0 0 0 6 0 1 1 9 0 1 0 9

1 0 1 8 1 0 0 10 1 1 1 4 1 1 0 11

;

run

;

proc

logistic

data

= effects2

DESCENDING

;

freq

count;

model

effect = sex degree /

scale

=none

aggregate

;

*

模

型的拟合优度检验

;

output

out

=predict

pred

=prob;

*outpu t

语句设置输出结果

,

这

里结果存在

predict

数据中，预测值为

prob;

run

;

proc

print

data

=predict;

run

;

*

考虑两个自变量的交互作用

;

proc

logistic

data

= effects2

DESCENDING

;

freq

count;

model

effect = sex degree sex*degree;

run

;

运行结果：

响应概况

有序

effect

总频数

值

1

1

42

16

/

32

-

-

-

-

-

-

-

-

本文更新与2021-02-06 01:11，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/604367.html

返回列表：英语

上一篇：Genesis术语
下一篇：PCB专业术语

当前您在：主页 > 英语 >

SAS学习系列26 Logistic回归

-

-

-

-

-

-

-

-

-

返回列表：英语

SAS学习系列26 Logistic回归的相关文章

余华爱情经典语录,余华爱情句子

心情低落的图片压抑,心情低落的图片发朋友圈

经典古训100句图片大全,古训名言警句

关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

三国群英单机版手游礼包码,三国群英手机单机版攻略

不收费的情感挽回专家电话,情感挽回免费咨询

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

SAS学习系列26 Logistic回归的相关文章

当前您在：主页 > 英语 >