分类问题1 1
分类问题1 1
Outline ·4.1分类与回归问题概述 ·4.2分类性能度量方法 2
Outline • 4.1 分类与回归问题概述 • 4.2 分类性能度量⽅法 2
分类与回归问题概述 ·分类问题:预测有限个值(离散) ·回归问题:预测连续的值 ·算法转化:算法输出连续值离散化符号化;利用 离散输出算法内部的连续值 ·两分类和多分类的转化 哈尔滨工业大学计算机学院刘远超 3
分类与回归问题概述 • 分类问题:预测有限个值(离散) • 回归问题:预测连续的值 • 算法转化:算法输出连续值离散化符号化;利⽤ 离散输出算法内部的连续值 • 两分类和多分类的转化 哈尔滨工业大学计算机学院 刘远超 3
Outline ·4.1分类与回归问题概述 ·4.2分类性能度量方法 ·4.3支持向量机 ·4.4朴素贝叶斯分类器 哈尔滨工业大学计算机学院刘远超 4
Outline • 4.1 分类与回归问题概述 • 4.2 分类性能度量⽅法 • 4.3 ⽀持向量机 • 4.4 朴素⻉叶斯分类器 哈尔滨工业大学计算机学院 刘远超 4
分类问题 ●分类问题是有监督学习的一个核心问题。分类解决的是要预测样本属于哪 个或者哪些预定义的类别。此时输出变量通常取有限个离散值。 ·分类的机器学习的两大阶段:1)从训练数据中学习得到一个分类决策函数 或分类模型,称为分类器(classifier);2)利用学习得到的分类器对新的 输入样本进行类别预测。 。两类分类问题与多类分类问题。多类分类问题也可以转化为两类分类问题 解决,如采用一对其余(One-vs-Rest)的方法:将其中一个类标记为正类, 然后将剩余的其它类都标记成负类。 XX + 哈尔滨工业大学计算机学院刘远超 5
分类问题 l 分类问题是有监督学习的⼀个核⼼问题。分类解决的是要预测样本属于哪 个或者哪些预定义的类别。此时输出变量通常取有限个离散值。 l 分类的机器学习的两⼤阶段:1)从训练数据中学习得到⼀个分类决策函数 或分类模型,称为分类器(classifier);2)利⽤学习得到的分类器对新的 输⼊样本进⾏类别预测。 l 两类分类问题与多类分类问题。多类分类问题也可以转化为两类分类问题 解决,如采⽤⼀对其余(One-vs-Rest)的⽅法:将其中⼀个类标记为正类, 然后将剩余的其它类都标记成负类。 哈尔滨工业大学计算机学院 刘远超 5
分类性能度量一准确率 ●假设只有两类样本,即正例(positive)和负例(negative)。通常以关注 的类为正类,其他类为负类。 预测类别 际 正 负 总计 正 TP FN P(实际为正) 别 负 FP TN N(实际为负) 表中AB模式:第二个符号表示预测的类别,第一个表示预测结果对了(Irue)还 是错了(False)) ●分类准确率(accuracy):分类器正确分类的样本数与总样本数之比: TP+TN accuracy P+N 思考:假设共有100个短信,其实际情况为,其中有1个是垃圾短信,99个是非垃圾短 信。某分类模型将这100个短信都分为非垃圾短信,则准确率(accuracy)为? 哈尔滨工业大学计算机学院刘远超 6
分类性能度量—准确率 l假设只有两类样本,即正例(positive)和负例(negative)。通常以关注 的类为正类,其他类为负类。 实 际 类 别 预测类别 正 负 总计 正 TP FN P(实际为正) 负 FP TN N(实际为负) 表中AB模式:第二个符号表示预测的类别,第一个表示预测结果对了(True)还 是错了(False) l分类准确率(accuracy):分类器正确分类的样本数与总样本数之比: �������� = !"#!$ "#$ 哈尔滨工业大学计算机学院 刘远超 6 思考:假设共有100个短信,其实际情况为,其中有1个是垃圾短信,99个是非垃圾短 信。某分类模型将这100个短信都分为非垃圾短信,则准确率(accuracy)为?
分类性能度量一精确率和召回率 实 预测类别 正例 负例 总计 类 正例 TP FN P(实际为正例) 负例 FP TN N(实际为负例) 精确率(precision)和召回率(recall: 是二类分类问题常用的评价指标。 TP TP precision TP+FP recall = ●精确率反映了模型判定的正例中真正正例的比重。在垃圾短信分类器 中,是指预测出的垃圾短信中真正垃圾短信的比例。 ●召回率反映了总正例中被模型正确判定正例的比重。医学领域也叫做 灵敏度(sensitivity)。在垃圾短信分类器中,指所有真的垃圾短信被 分类器正确找出来的比例。 哈尔滨工业大学计算机学院刘远超
分类性能度量—精确率和召回率 l 精确率(precision)和召回率(recall): 是二类分类问题常用的评价指标。 precision = !" !"#%" recall = !" " l精确率反映了模型判定的正例中真正正例的⽐重。在垃圾短信分类器 中,是指预测出的垃圾短信中真正垃圾短信的⽐例。 l召回率反映了总正例中被模型正确判定正例的⽐重。医学领域也叫做 灵敏度(sensitivity)。在垃圾短信分类器中,指所有真的垃圾短信被 分类器正确找出来的⽐例。 实 际 类 别 预测类别 正例 负例 总计 正例 TP FN P(实际为正例) 负例 FP TN N(实际为负例) 哈尔滨工业大学计算机学院 刘远超 7
分类性能度量一P-R曲线 Precision-Recall example:AUC=0.79 Extension of Precision-Recall curve to multi-class 10 0.8 60.6 04 micro-average Precision-recall curve (area 0.58) Precision-recall curve of class 0(area 0.79) Precision-recall curve of class 1(area 0.39) Precision-Recall curve Precision-recall curve of class 2 (area=0.60) 0.2 0.4 0.6 0.6 02 0.4 0.6 0.8 Recall Recall ●Area(Area Under Curve,或者简称AUC) ■Area的定义(p-r曲线下的面积)如下: Area=p(r)dr ■Area有助于弥补P、R的单点值局限性,可以反映全局性能。 哈尔滨工业大学计算机学院刘远超
分类性能度量—P-R曲线 l Area (Area Under Curve, 或者简称AUC) n Area的定义(p-r曲线下的⾯积)如下: ���� = ∫& ' � � �� n Area有助于弥补P、R的单点值局限性,可以反映全局性能。 哈尔滨工业大学计算机学院 刘远超 8
如何绘制P-R曲线 ●要得到P-R曲线,需要一系列Precision和Recall的值。这些系列值是通 过阈值来形成的。对于每个测试样本,分类器一般都会给了“Score” 值,表示该样本多大概率上属于正例。 ●步骤: 1.从高到低将“Score"值排序并依此作为阈值threshold; 2.对于每个阈值,“Score”值大于或等于这个threshold的测试样 本被认为正例,其它为负例。从而形成一组预测数据。 实 预测类别 样本#实际类别 预测分值 正例负例 总计 P 0.9 类 正例TP FN P(实际为正例) 2 N 0.8 负例FP TN N(实际为负例) 3 P 0.75 N 0 4 N 0.7 TP (precision TP+EP recall = 5 P 0.65
如何绘制P-R曲线 l要得到P-R曲线,需要一系列Precision和Recall的值。这些系列值是通 过阈值来形成的。对于每个测试样本,分类器一般都会给了“Score” 值,表示该样本多大概率上属于正例。 l步骤: 1. 从高到低将“Score”值排序并依此作为阈值threshold; 2. 对于每个阈值,“Score”值大于或等于这个threshold的测试样 本被认为正例,其它为负例。从而形成一组预测数据。 实 际 类 别 预测类别 正例 负例 总计 正例 TP FN P(实际为正例) 负例 FP TN N(实际为负例) 样本# 实际类别 预测分值 1 P 0.9 2 N 0.8 3 P 0.75 4 N 0.7 5 P 0.65 (precision = !" !"#$", recall = !" " ) P N P N P N 9
分类性能度量-F值 ●F值(FB-score)是精确率和召回率的调和平均: FB-score =(1+B2)-precision-recall (B2*precision+recall) ●B一般大于0。当B=1时,退化为F1: F1-score 2*precision*recall (precision+recall) ●比较常用的是F1,即表示二者同等重要 哈尔滨工业大学计算机学院刘远超 10
分类性能度量--F值 l F值(��−�����)是精确率和召回率的调和平均: �)−����� = '#)! ∗+,-./0/12∗,-.344 )!∗+,-./0/12#,-.344 l �一般大于0。当�=1时,退化为F1: �'−����� = 5∗+,-./0/12∗,-.344 +,-./0/12#,-.344 l 比较常用的是F1 , 即表示二者同等重要 哈尔滨工业大学计算机学院 刘远超 10