
期中考试 15062数在挖相 问愿一(25分) 对下面的月题,请给出真或假的判断,并月两句话给出判断理中。 11用训练数据集可以确定一个线性可归视型将被。增加模型的变量会减少在业证数据集 中的残差子方和。 1.2尽管前向选屏和后向刷除是线性回归中子朱选择最快的方法,们只有遂步回归能保证找 到最作子处。 1.3一个分析者用判别分析法计算有三个类C1,C2.C3的数据集的分类函效。越假设在应 用中所有的类出现的概率相同。后米她知道了C1类的概率是C2.C3的两倍。C2.C3的概率 是相问的。如果地利用这个信息重新计算这个分类函数,么对所有的数#点用C1的分类 函数的值都会地加。 14在对分类模型在新数据上预测能力的衡量上,在业迁数据集上的误分*好于该模压在 河练致据货上的误分率 1.5一个有两个类的神经网络分发墨,向建了类间的分高边界关于靠入值的如权和是线格 的。 问题二(10分) 个名有1000个例了的数按集核划分为0个同的l练集和400个例广的登证集。 K一1的k最近邻模型在验证效据上灵分率为8%。后发现敏出的划分不正确,有10个训 练集中的例子被意外地重复,并爱盖了在业证量据集中的1国个例子。对真正是垫证数据的 300个例子的误分率是多少? 问题三(10分) 有一个由10个变量构成朴素贝叶斯分类器。一个需要划分的特妹例子,只有其中的8 个发量的信息。你如何用这个分类器确定这个创子的白属? 间愿四(15分) 一个信用卡公可钩建了一个用于信用卡保段促审的分类树,知下图所示。类1与对促销 侬出回应的顾客相关,龚0包含果些不回应的期客。该公可将川这个树发送促销告给些 从木收到该公司促第广告的客户,米对说他们开始使用信用卡。训练数据包含对促销敏出同 应的个人。年龄、性别和收入被作为这些项客的输入变量
期中考试 15.062 数据挖掘 问题一(25 分) 对下面的问题,请给出真或假的判断,并用一两句话给出判断理由。 1.1 用训练数据集可以确定一个线性回归模型将被。增加模型的变量会减少在验证数据集 中的残差平方和。 1.2 尽管前向选择和后向删除是线性回归中子集选择最快的方法,但只有逐步回归能保证找 到最佳子集。 1.3 一个分析者用判别分析法计算有三个类 C1,C2,C3 的数据集的分类函数。她假设在应 用中所有的类出现的概率相同。后来她知道了 C1 类的概率是 C2,C3 的两倍。C2,C3 的概率 是相同的。如果她利用这个信息重新计算这个分类函数,那么对所有的数据点用 C1 的分类 函数的值都会增加。 1.4 在对分类模型在新数据上预测能力的衡量上,在验证数据集上的误分率好于该模型在 训练数据集上的误分率。 1.5 一个有两个类的神经网络分类器,构建了类间的分离边界关于输入值的加权和是线性 的。 问题二(10 分) 一个含有 1000 个例子的数据集被划分为 600 个例子的训练集和 400 个例子的验证集。 K=1 的 k 最近邻模型在验证数据上误分率为 8%。随后发现做出的划分不正确,有 100 个训 练集中的例子被意外地重复,并覆盖了在验证数据集中的 100 个例子。对真正是验证数据的 300 个例子的误分率是多少? 问题三(10 分) 有一个由 10 个变量构成朴素贝叶斯分类器。一个需要划分的特殊例子,只有其中的 8 个变量的信息。你如何用这个分类器确定这个例子的归属? 问题四(15 分) 一个信用卡公司构建了一个用于信用卡保险促销的分类树,如下图所示。类 1 与对促销 做出回应的顾客相关,类 0 包含那些不回应的顾客。该公司将用这个树发送促销广告给一些 从未收到该公司促销广告的客户,来劝说他们开始使用信用卡。训练数据包含对促销做出回 应的个人。年龄、性别和收入被作为这些顾客的输入变量。 1

415 年龄 年 年龄 2300 05 年龄 性别 纪板 年龄 03 该公可将使用少量的、简单的、用英语表达的能够代表上述决策树的规则。简洁地写出 你所建议的规则, 间题五(20分) 当在同一个数据集上使用一个前馈的神经网络和Lgc耳归时,我们得到如下的误分: 数据集A 参数 训练集误楚 验证集误差 神经网路 XLMiner默认的 6667% 75.00% Logistic回归 去掉50% 623% 7.04% a你认为神经网络出了什么月题?给出际的解释 6你将改变哪些参数?在哪个方向上改变?给出你的解释 在另一个数据集,我们得到如下结果: 数据集B 参数 训练果误差 验证集误差 神经网络 XL.Miner默认的 2.11% 45.24% Logistic回归 去掉50% 1623% 12.02% C你认为神经网络出了什么月题?给出你的解释 你将改变哪些参数?在哪个方向上改变?给出你的解释 问题6(20分) 2
该公司将使用少量的、简单的、用英语表达的能够代表上述决策树的规则。简洁地写出 你所建议的规则。 问题五(20 分) 当在同一个数据集上使用一个前馈的神经网络和Logistic回归时,我们得到如下的误分: 数据集 A 参数 训练集误差 验证集误差 神经网络 XLMiner 默认的 66.67% 75.00% Logistic 回归 去掉 50% 6.23% 7.04% a.你认为神经网络出了什么问题?给出你的解释 b.你将改变哪些参数?在哪个方向上改变?给出你的解释 在另一个数据集,我们得到如下结果: 数据集 B 参数 训练集误差 验证集误差 神经网络 XLMiner 默认的 2.11% 45.24% Logistic 回归 去掉 50% 16.23% 12.02% c.你认为神经网络出了什么问题?给出你的解释 d.你将改变哪些参数?在哪个方向上改变?给出你的解释 问题 6(20 分) 2

一个保险公可从随机地袖取的190个关于机动车事故的理暗声明的样本中检查存在的 欺诈问题。用一个【©gste国归校醒来拟和这些数据,因变量被编码为是欺市的情况置为1, 其它情况下为0。模型包含的五个自变量如下: LCyC0d=1知果理赌声明是在一个大的戴市,=0其它: i.SexCode:-l对男人,-0对女人: i.Age年龄 rv.FaulCode-】如果事放中的过失在理赌人一方,=0其它: ¥Deductible Amou可扣除的数量《用美元表示) 斯诈的儿率用Logistic模型表示如下: 53.1I9-0.081×CityCode+0.367×SexCode+0.060×Age-1.738×FaulrCode-0.142×Deductibleimount 《a》用语言描述在理略声明的例子中,诈的概率是的例子 (6)事放中责任人是理略声明者和非理略声明者相对比的欺诈几率是多少,假设其它变量 取它们在基础〔事故理赔》例子库中的值? (》敷诈的几率随着年龄是增大还是减小? ()在理声明中理赔人如果男的、30岁、居住在大城市、可扣除的数量是400美元、而 且不是事故的过失人。那么欺诈的概率是多少?
一个保险公司从随机地抽取的 190 个关于机动车事故的理赔声明的样本中检查存在的 欺诈问题。用一个 Logistic 回归模型来拟和这些数据,因变量被编码为是欺诈的情况置为 1, 其它情况下为 0。模型包含的五个自变量如下: i. CityCode:=1 如果理赔声明是在一个大的城市,=0 其它; ii. SexCode:=1 对男人,=0 对女人; iii. Age 年龄 iv.FaultCode:=1 如果事故中的过失在理赔人一方,=0 其它; v.Deductible Amount 可扣除的数量(用美元表示) 欺诈的几率用 Logistic 模型表示如下: 081.0119.53 CityCode 367.0 ×+×− SexCode+ 060.0 × Age− 738.1 ×FaultCode 142.0 ×− DeductibleAmount (a) 用语言描述在理赔声明的例子中欺诈的概率是 的例子; 119.53 e (b) 事故中责任人是理赔声明者和非理赔声明者相对比的欺诈几率是多少,假设其它变量 取它们在基础(事故理赔)例子库中的值? (c) 欺诈的几率随着年龄是增大还是减小? (d) 在理赔声明中理赔人如果男的、30 岁、居住在大城市、可扣除的数量是 400 美元、而 且不是事故的过失人,那么欺诈的概率是多少? 3