发起人:郭岳 初入职场

回复 ( 1 )

  1. 汪嘉旻
    理由
    举报 取消

    混淆矩阵是数据科学、数据分析和机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。

    以二元分类问题为例,数据集存在肯定类别和否定类别两类记录,而分类模型对记录分类可能作出阳性判断(判断记录属于肯定类别)或阴性判断(判断记录属于否定类别)两种判断。

    混淆矩阵是一个2 × 2的情形分析表,显示以下四组记录的数目:作出正确判断的肯定记录(真阳性)、作出错误判断的肯定记录(假阴性)、作出正确判断的否定记录(真阴性)以及作出错误判断的否定记录(假阳性)。表1给出了混淆矩阵的结构。

    以筛检化验为例,真阳性和假阳性分别是病人和健康人的结果阳性,而真阴性和假阴性分别是健康人和病人的结果阴形。显然,分类模型对在混淆矩阵对角线上的真阳性和真阴性记录组作出了正确的分类,而对反对角线上的假阳性和假阴性记录组发生了误判。

    根据以上的混淆矩阵可以推导出以下信息。

    1.
    数据集中的记录总数=TP+FP+FN+TN

    2.
    数据集中肯定记录数=TP+FN

    3.
    数据集中否定记录数=FP+TN

    4.
    分类模型作出阳性判断的记录数=TP+FP

    5.
    分类模型作出阴性判断的记录数=FN+TN

    6.
    分类模型作出正确分类的记录数=TP+TN

    7.
    分类模型作出错误分类的记录数=FP+FN

    混淆矩阵是对分类模型进行性能评价的重要工具。由混淆矩阵可以计算真阳性率、假阳性率、真阴性率、假阴性率、准确率、精确率和F指标等各种评价指标。特别是混淆矩阵区分了假阳性和假阴性两种不同性质的误判,可以用来估计分类模型误判造成的期望损失。当分类模型返回各记录属于肯定类别的概率或评分时,指定阈值,对所有概率或评分在阈值以上的记录作阳性判断,可以得到一个混淆矩阵。通过连续改变阈值,可以得到不同的混淆矩阵,从而绘制ROC曲线、期望利润曲线和提升系数曲线,更全面地评价和比较分类模型的性能。

    表1中给出的二元分类问题混淆矩阵结构可以很容易地推广到多元分类问题。对于存在n 个类别的分类问题,混淆矩阵是个n ×n的情形分析表,每一列对应一个真实的类别,而每一行对应分类模型判断的一个类别 (混淆矩阵的行和列互换没有实质影响)。

我来回答

Captcha 点击图片更换验证码