关键词不能为空

当前您在: 主页 > 英语 >

二分类模型性能评价

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-28 18:26
tags:

-

2021年2月28日发(作者:accomplished)


二分类模型性能评价(


R


语言,


logistic


回归,


R


O C


曲线,


lift


曲线,


lorenz


曲线)




解决分类问题有多种思路,


包括应用支持向量机、


决策树等算法。


还有一种较常


规的做法是采用广义线 性回归中的


logistic


回归或


p robit


回归。广义线性回归是


探索



响应变量的期望





自变量



的关系,以实现对 非线性关系的某种拟合。这


里面涉及到一个


< br>连接函数



和一个


< p>
误差函数





响应变量的期望



经过连接函数作


用后,




自变量



存在线性关系。


选取不同的

< br>“


连接函数





误差函数



可以构造不


同的广义回归模型。当误差函数取



二项分 布



而连接函数取


“logit


函数



时,就是


常见 的


“logistic


回归模型



,在


0-1


响应的问题中得到了大量的应用 。



logistic


回归的公式可以 表示为:





其中


P


是响应变量取


1


的概率,在


0-1


变量的情形中,这个概率就等于响 应变


量的期望。



这个公式也可以写成:





可以看出,


logistic


回归是对


0-1


响应变量的期望做

< p>
logit


变换,


然后与自变量做


线性回归。参数估计采用极大似然估计,显著性检验采用似然比检验。



建立模型并根据


AIC


准则选择模型后,可以 对未知数据集进行预测,从而实现


分类。


模型预测的结果是得到 每一个样本的响应变量取


1


的概率,


为 了得到分类


结果,需要设定一个阈值


p0


——



p


大于


p0


时,认为该样本的响应变量为


1



否则为


0


。阈值大小对模型的预测效 果有较大影响,需要进一步考虑。首先必须


明确模型预测效果的评价指标。



对于


0-1


变量的二分类 问题,分类的最终结果可以用表格表示为:





其中,


d




实际为


1


而 预测为


1”


的样本个数,


c

< p>



实际为


1

< p>
而预测为


0”


的样本


个数 ,其余依此类推。



显然地,


主对角线 所占的比重越大,


则预测效果越佳,


这也是一个基本的评价指< /p>



——


总体准确率


(a+d)/(a+b+c+d)




通常将上述矩阵称为



分类矩阵


”< /p>


。一般情况下,我们比较关注响应变量取


1


的情


形,


将其称为


Positive


(正例)



而将响应变量取

< p>
0


的情形称为


Negative

< br>(负例)



常见的例子包括生物实验的响应、营销推广的 响应以及信用评分中的违约等等。


针对不同的问题与目的,


我们 通常采用


ROC


曲线与


lift


曲线作为评价


logistic


< p>
归模型的指标。




一 、


ROC


曲线



正因为我们比较关注正例的情形,所以设置了两个相应的指标:


TPR



FPR




TPR



True Positive Rate


,将实际的


1


正确地预测为< /p>


1


的概率,


d/(c+d)




FPR



False Positive Rate


,将实际的


0

错误地预测为


1


的概率,


b/(a +b)




TPR

也称为


Sensitivity


(即生物统计学中的敏感度 ),在这里也可以称为



正例


的覆盖率


”——


将实际为


1

的样本数找出来的概率。覆盖率是重要的指标,例如


若分类的目标是找出潜在的劣质 客户(响应变量取值为


1


),则覆盖率越大表示


越多的劣质客户被找出。



类似地,

< br>1-FPR


其实就是



负例的覆 盖率



,也就是把负例正确地识别为负例的概

< br>率。



TPR



FPR


相互影响,而我们希望能够使


TPR

< p>
尽量地大,而


FPR


尽量地小。

< br>影响


TPR



FPR

< p>
的重要因素就是上文提到的



阈值



。当阈值为


0


时,所有的样


本都被预测为正例,因此


TPR=1


, 而


FPR=1


。此时的


FPR


过大,无法实现分


类的效果。随着阈值逐渐增大,被预测为正例的样本数 逐渐减少,


TPR



FPR

< p>
各自减小,


当阈值增大至


1


时,


没有样本被预测为正例,


此时


T PR=0



FPR=0



-


-


-


-


-


-


-


-



本文更新与2021-02-28 18:26,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/682963.html

二分类模型性能评价的相关文章