关键词不能为空

当前您在: 主页 > 英语 >

随机森林评价指标precision,recall,F1-score,macro-F1

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-11 08:29
tags:

-

2021年2月11日发(作者:大堂)



随机森林二分类评价指标




1


、真实标签


-


预测标签的混淆矩阵




样本被预测为正



样本被预测为负



FN


实际样本为正



TP



true positive




negative




TN


实际样本为负



FP



false positive




negative






TP


:这里的


T


表示


true

< p>
,样本被正确的预测了,


p


positive


,表


示样本被预测为正样本。

< p>




TN


:正确的预测了该样本,且样本预测值是负样本





FP


:错位的预测了该样本,且样本被预测成了正样本,说明样本本


身是负样本

< p>




FN



错位的预测了该样本,


且样本被预测成了负 样本,


说明样本本


身是正样本






以 上的四个值,是样本的真实标签和预测标签之间会发生的所有关


联情况,也是分类指标计 算的基础






false



true


2



accuracy


(准确率)






accuracy


,后面简称


acc


, 是分类中非常常见的一种评价指标,


也是非常好理解的一种评价指标,即所有被预测的样 本,预测正确的




概率时多少,这个 是其实是比较直观的,就是正确预测样本的占比,


计算公式如下:













































acc


指标存在一个问题,只要样本的标签预测正确了,


acc


就会


上升。


如果一个数据集中,正负样 本严重失衡,所有的正样本能检测


出来,所有的负样本检测不出来,最后的


acc


还是会很高,但是这样


也没有意义。


比如在癌症检测里面,不患病的正样本很多,患病的负


样本很少,如果只 是检测出那些没有患病的人,而患病的样本都没有


检测出来,计算


acc


的时候还是很高,但是实际上


acc

< br>就不是很适用


这种场景,因为如果换了癌症而系统检测检测不出来,那这个检测系


统根本就没有意义。



3



precision



r ecall



F1-score





precision



recall


经常一起出现,它们都是只关 心预测正确的正


样本占的比例,只是分母不一样。


precis ion


即准确度,也是衡量分类


器能正确识别样本的能力,它表 示的是,在被识别成正样本的样本


中,正确预测的样本占的比例,通常叫做


查准率



recall


即召 回率,它


表示的是,被预测的所有正样本,能够被正确预测的占比,通常叫



全率


。计算公式分别如下:












对于


F1-score


,更一般的有:








可以看出,


F1-score


是一个 综合的评价指标。对于


precision


< br>recall


的选择,个人认为应该根据实际的应用场景来,最后想要的是更


多的检测出想要的样本,还是尽量少出错。



4


、指标的选择问题







例如,在一个癌症病人的检测系统里,我们更希望的是,尽可


能 多的检测出癌症病人,因为希望它们能得到及时的治疗,那么这个


时候就应该用


recall


,也就是查全率,尽可能将所有的癌症样本识别出


来。







如果是在一个垃圾邮件检测系 统中,我们当然也很希望尽量检


测出垃圾邮件,但是如果把一封正常邮件识别为垃圾邮件 ,可能会带


来很严重的后果。所以,在这种情况下,我们要保证的是系统对邮件


的判断的正确性,那么就要用


precision


,也就是查准率,保证定性为


垃圾邮件的样本不出错。



-


-


-


-


-


-


-


-



本文更新与2021-02-11 08:29,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/635156.html

随机森林评价指标precision,recall,F1-score,macro-F1的相关文章