ROC曲线与AUC值

2019/01/06

混淆矩阵 - confusion matrix

机器学习分类问题中，混淆矩阵(非监督学习中称匹配矩阵match matrix)用于表征算法的性能。如下表所示

		True condition
	Total population	Condition positive	Condition negative
Predicted condition	Predicted condition positive	True positive (TP) Power	False positive (FP) Type I error
Predicted condition	Predicted condition negative	False negative (FN) Type II error	True negative (TN)

由此可得出：

真阳性率(True positive rate): $T P R = \frac{T P}{C o n d i t i o n p o s i t i v e} = \frac{T P}{T P + F N}$
假阳性率(False positive rate): $F P R = \frac{F P}{C o n d i t i o n n e g a t i v e} = \frac{F P}{F P + T N}$
真阴性率(True negative rate): $T N R = \frac{T N}{C o n d i t i o n n e g a t i v e} = \frac{T N}{F P + T N}$
假阴性率(False negative rate): $F N R = \frac{F N}{C o n d i t i o n p o s i t i v e} = \frac{F N}{T P + F N}$

ROC曲线

二分类通常是通过选定阈值对结果进行分类。比如概率选取阈值为0.5，大于0.5的为正样本，小于则为负样本。如果阈值增大，那么假阳性率降低，同时真阳性也会降低；反之阈值减小，虽然真阳性率为增加，但是假阳性率也会增加。阈值的选取在一定程度上反应了分类器的分类能力。

ROC曲线用于衡量二分类模型的性能，横坐标表示假阳性率(FPR)，纵坐标表示真阳性率(TPR)。显然ROC的横纵坐标都在 $[0, 1]$ 之间。

ROC Curve

理想目标是TPR为1，FPR为0，也就是ROC曲线中的 $(0, 1)$ 点。因此，ROC曲线越偏离45度对角线靠近左上角，分类性能越好。

AUC

为了更直观的反应分类性能，定义ROC曲线下的面积AUC评估分类效果。AUC直观的反应了ROC曲线表达分类的能力。显然最理想情况AUC为1，AUC为0.5时表征只能50%的可能区分正类和负类，对应于随机分类，也就是说该模型没有任何区分正负类的能力。AUC为0时，表示正类预测为负类，负类预测为正类，分类完全错误。

对于多分类问题( $n$ 大于2)，通过画 $n$ 个AUC-ROC曲线(每一个AUC-ROC曲线表示一个分类与其他所有分类的比较)。

ROC曲线与AUC值

2019/01/06

混淆矩阵 - confusion matrix

ROC曲线

AUC

一路嘿嘿

Tags