-
随机森林二分类评价指标
1
、真实标签
-
预测标签的混淆矩阵
样本被预测为正
样本被预测为负
FN
实际样本为正
TP
(
true
positive
)
negative
)
TN
实际样本为负
FP
(
false
positive
)
negative
)
TP
:这里的
T
表示
true
,样本被正确的预测了,
p
即
positive
,表
示样本被预测为正样本。
TN
:正确的预测了该样本,且样本预测值是负样本
FP
:错位的预测了该样本,且样本被预测成了正样本,说明样本本
身是负样本
FN
:
错位的预测了该样本,
且样本被预测成了负
样本,
说明样本本
身是正样本
以
上的四个值,是样本的真实标签和预测标签之间会发生的所有关
联情况,也是分类指标计
算的基础
(
false
(
true
2
、
accuracy
(准确率)
accuracy
,后面简称
acc
,
是分类中非常常见的一种评价指标,
也是非常好理解的一种评价指标,即所有被预测的样
本,预测正确的
概率时多少,这个
是其实是比较直观的,就是正确预测样本的占比,
计算公式如下:
acc
指标存在一个问题,只要样本的标签预测正确了,
acc
就会
上升。
如果一个数据集中,正负样
本严重失衡,所有的正样本能检测
出来,所有的负样本检测不出来,最后的
acc
还是会很高,但是这样
也没有意义。
比如在癌症检测里面,不患病的正样本很多,患病的负
样本很少,如果只
是检测出那些没有患病的人,而患病的样本都没有
检测出来,计算
acc
的时候还是很高,但是实际上
acc
< br>就不是很适用
这种场景,因为如果换了癌症而系统检测检测不出来,那这个检测系
统根本就没有意义。
3
、
precision
、
r
ecall
和
F1-score
precision
和
recall
经常一起出现,它们都是只关
心预测正确的正
样本占的比例,只是分母不一样。
precis
ion
即准确度,也是衡量分类
器能正确识别样本的能力,它表
示的是,在被识别成正样本的样本
中,正确预测的样本占的比例,通常叫做
查准率
。
recall
即召
回率,它
表示的是,被预测的所有正样本,能够被正确预测的占比,通常叫
查
全率
。计算公式分别如下:
对于
F1-score
,更一般的有:
可以看出,
F1-score
是一个
综合的评价指标。对于
precision
和
< br>recall
的选择,个人认为应该根据实际的应用场景来,最后想要的是更
p>
多的检测出想要的样本,还是尽量少出错。
4
、指标的选择问题
例如,在一个癌症病人的检测系统里,我们更希望的是,尽可
能
多的检测出癌症病人,因为希望它们能得到及时的治疗,那么这个
时候就应该用
recall
,也就是查全率,尽可能将所有的癌症样本识别出
来。
如果是在一个垃圾邮件检测系
统中,我们当然也很希望尽量检
测出垃圾邮件,但是如果把一封正常邮件识别为垃圾邮件
,可能会带
来很严重的后果。所以,在这种情况下,我们要保证的是系统对邮件
的判断的正确性,那么就要用
precision
,也就是查准率,保证定性为
垃圾邮件的样本不出错。