在这里,我们将讨论两个重要的度量标准,即精度和召回率,它们用于衡量分类模型(即分类器)的性能。特别是,我们将讨论如何使用这两个指标来评估决策树模型。
一般来说,精度测量是针对问题有多少选定的项目是相关的?"召回率测量是针对问题选择了多少个相关项目?"
精确率和召回率的定义
在定义精度和召回率之前,我们需要先澄清几个概念。
假设我们有一个分类器来判断一张图片是否包含猫,目标标签(类)有两个值:[猫,非猫]]。分类器还将输出两个可能的值。例如,给定一组带标签的图片,我们应用分类器来预测每张图片的标签。如下表所示,根据图片的实际标签和预测标签,有四种可能的情况。在许多文献中,这个表也被称为混淆矩阵。
由于分类器的目的是预测图片中是否有猫,当分类器以猫,我们称预测结果为正非猫预测结果为阴性。我们对上表中的四种情况详细解释如下:
真阳性(Tp)
对于一个图,如果预测的范畴是正的(例如cat),而图的实际范畴恰好是正的,那么我们称这种情况为真。
真阴性(Tn)
对于一个图片,如果预测类为负(即非猫),而实际类恰好为负,那么我们称这种情况为真负。
假阳性
对于一个图,如果预测的类是正的(即cat),但图的实际类是负的(非cat),那么我们把这种情况称为假正。
假阴性(Fn)
对于一张图片,如果预测的类别为负(即非猫),但图片的实际类别为正(即猫),那么我们称此为假阴性。
根据上面的定义,我们现在可以定义准确率和召回率的测量。
准确度(p)定义为真值(Tp)与所有正预测值(Tp Fp)的比值,即真值与假正数的比值。
当分类器声称样本为正时,我们可以将准确性度量解释为确定性。例如,对于一个标识符,如果Tp=Fp=50,那么它的精度P=50/(50 50)=0.5,也就是说,我们可以说,只要分类器声称结果是正的,只有50%的概率认为分类器实际上是正确的。
如果我们认为实际阳性项目(样本)是相关而声称的阳性项目是选定的,那么精度度量回答了有多少选择的项目是相关的问题,如本文开头所述。
召回率(R)定义为真实性(Tp)与所有阳性样本(Tp Fn)的比值,即真数与假负数之和。
我们可以将召回率解释为由分类器识别的实际阳性案例的百分比。比如一个识别器,如果Tp=Fn=50,那么召回率R=50/(50 50)=0.5,也就是说,我们只能说分类器只得到50%实际正例中的50%,而误分类了另外50%实际正例。
例如
使用上面的公式,我们可以得到每个标签的精度和召回率如下:
解释:让让我们看看这个标签setosa 举个例子来说明细节。对于setosa 标签,从第0行到第3行有4个实际正样本,模型给出3个正预测(即在第2、5、9行)。对于setosa 标签,只有一个真阳性,位于第2行。Setosa 的错误位置在第5行和第9行。最后还有3个setosa的漏报,分别位于0,1、3行。
什么是准确性?
除了查准率和查全率之外,还有一个众所周知的指标叫做准确率,用来衡量分类模型的性能。
准确度(a)定义为所有预测(Tp Tn Fp Fn)的真结果(包括真(Tp)和真阴性(Tn))的比例。
与精确召回率相比,准确率似乎是一个更平衡的衡量标准,因为它既考虑了真正的积极因素,也考虑了真正的消极因素。然而,事实证明,准确性实际上是一种误导性的衡量标准,尤其是对于不平衡的数据集。例如,对于包含5封垃圾邮件(正面样本)和95封普通邮件(负面样本)的数据集,简单地将所有样本预测为负面(非垃圾邮件)的低级垃圾邮件分类器将达到95%的高准确率。当垃圾邮件分类器使用准确率和召回率度量时,其准确率和召回率为零,更准确地反映了分类器的实际预测能力。因此,在实践中,人们更愿意用查准率和查全率来衡量,而不是准确率来作为分类器的基准。
标签:分类器召回率精度