-
二分类模型性能评价(
R
语言,
logistic
回归,
R
O
C
曲线,
lift
曲线,
lorenz
曲线)
解决分类问题有多种思路,
包括应用支持向量机、
决策树等算法。
还有一种较常
规的做法是采用广义线
性回归中的
logistic
回归或
p
robit
回归。广义线性回归是
探索
“
响应变量的期望
”
与
“
自变量
”
的关系,以实现对
非线性关系的某种拟合。这
里面涉及到一个
“
< br>连接函数
”
和一个
“
误差函数
”
,
“
响应变量的期望
”
经过连接函数作
用后,
与
“
自变量
”
存在线性关系。
选取不同的
< br>“
连接函数
”
与
“
误差函数
”
可以构造不
p>
同的广义回归模型。当误差函数取
“
二项分
布
”
而连接函数取
“logit
函数
”
时,就是
常见
的
“logistic
回归模型
”
p>
,在
0-1
响应的问题中得到了大量的应用
。
logistic
回归的公式可以
表示为:
其中
P
是响应变量取
1
的概率,在
0-1
变量的情形中,这个概率就等于响
应变
量的期望。
这个公式也可以写成:
可以看出,
logistic
回归是对
0-1
响应变量的期望做
logit
变换,
然后与自变量做
线性回归。参数估计采用极大似然估计,显著性检验采用似然比检验。
建立模型并根据
AIC
准则选择模型后,可以
对未知数据集进行预测,从而实现
分类。
模型预测的结果是得到
每一个样本的响应变量取
1
的概率,
为
了得到分类
结果,需要设定一个阈值
p0
——
当
p
大于
p0
时,认为该样本的响应变量为
1
,
否则为
0
。阈值大小对模型的预测效
果有较大影响,需要进一步考虑。首先必须
明确模型预测效果的评价指标。
对于
0-1
变量的二分类
问题,分类的最终结果可以用表格表示为:
其中,
d
是
“
实际为
1
而
预测为
1”
的样本个数,
c
是
“
实际为
1
而预测为
0”
的样本
个数
,其余依此类推。
显然地,
主对角线
所占的比重越大,
则预测效果越佳,
这也是一个基本的评价指<
/p>
标
——
总体准确率
(a+d)/(a+b+c+d)
。
通常将上述矩阵称为
“
分类矩阵
”<
/p>
。一般情况下,我们比较关注响应变量取
1
的情
形,
将其称为
Positive
(正例)
,
而将响应变量取
0
的情形称为
Negative
< br>(负例)
。
常见的例子包括生物实验的响应、营销推广的
响应以及信用评分中的违约等等。
针对不同的问题与目的,
我们
通常采用
ROC
曲线与
lift
曲线作为评价
logistic
回
归模型的指标。
一
、
ROC
曲线
正因为我们比较关注正例的情形,所以设置了两个相应的指标:
TPR
与
FPR
。
TPR
:
True Positive
Rate
,将实际的
1
正确地预测为<
/p>
1
的概率,
d/(c+d)
。
FPR
:
False
Positive Rate
,将实际的
0
错误地预测为
1
的概率,
b/(a
+b)
。
TPR
也称为
Sensitivity
(即生物统计学中的敏感度
),在这里也可以称为
“
正例
的覆盖率
”——
将实际为
1
的样本数找出来的概率。覆盖率是重要的指标,例如
若分类的目标是找出潜在的劣质
客户(响应变量取值为
1
),则覆盖率越大表示
越多的劣质客户被找出。
类似地,
< br>1-FPR
其实就是
“
负例的覆
盖率
”
,也就是把负例正确地识别为负例的概
< br>率。
TPR
与
FPR
相互影响,而我们希望能够使
TPR
尽量地大,而
FPR
尽量地小。
< br>影响
TPR
与
FPR
的重要因素就是上文提到的
“
阈值
”
。当阈值为
0
时,所有的样
本都被预测为正例,因此
TPR=1
,
而
FPR=1
。此时的
FPR
过大,无法实现分
类的效果。随着阈值逐渐增大,被预测为正例的样本数
逐渐减少,
TPR
和
FPR
各自减小,
当阈值增大至
1
时,
没有样本被预测为正例,
此时
T
PR=0
,
FPR=0
。
-
-
-
-
-
-
-
-
-
上一篇:提升小波及其算法-基本程序-有说明
下一篇:日立通力蒂森克虏伯电梯对比解读