麻省理工学院试卷习题期中考试_Data Mining（数据挖掘）

团购合买资源类别：文库，文档格式：PDF，文档页数：3，文件大小：99.47KB

期中考试 15062数在挖相问愿一(25分) 对下面的月题，请给出真或假的判断，并月两句话给出判断理中。 11用训练数据集可以确定一个线性可归视型将被。增加模型的变量会减少在业证数据集中的残差子方和。 1.2尽管前向选屏和后向刷除是线性回归中子朱选择最快的方法，们只有遂步回归能保证找到最作子处。 1.3一个分析者用判别分析法计算有三个类C1,C2.C3的数据集的分类函效。越假设在应用中所有的类出现的概率相同。后米她知道了C1类的概率是C2.C3的两倍。C2.C3的概率是相问的。如果地利用这个信息重新计算这个分类函数，么对所有的数#点用C1的分类函数的值都会地加。 14在对分类模型在新数据上预测能力的衡量上，在业迁数据集上的误分*好于该模压在河练致据货上的误分率 1.5一个有两个类的神经网络分发墨，向建了类间的分高边界关于靠入值的如权和是线格的。问题二(10分) 个名有1000个例了的数按集核划分为0个同的l练集和400个例广的登证集。 K一1的k最近邻模型在验证效据上灵分率为8%。后发现敏出的划分不正确，有10个训练集中的例子被意外地重复，并爱盖了在业证量据集中的1国个例子。对真正是垫证数据的 300个例子的误分率是多少？问题三(10分) 有一个由10个变量构成朴素贝叶斯分类器。一个需要划分的特妹例子，只有其中的8 个发量的信息。你如何用这个分类器确定这个创子的白属？间愿四(15分) 一个信用卡公可钩建了一个用于信用卡保段促审的分类树，知下图所示。类1与对促销侬出回应的顾客相关，龚0包含果些不回应的期客。该公可将川这个树发送促销告给些从木收到该公司促第广告的客户，米对说他们开始使用信用卡。训练数据包含对促销敏出同应的个人。年龄、性别和收入被作为这些项客的输入变量

期中考试 15.062 数据挖掘问题一（25 分）对下面的问题，请给出真或假的判断，并用一两句话给出判断理由。 1.1 用训练数据集可以确定一个线性回归模型将被。增加模型的变量会减少在验证数据集中的残差平方和。 1.2 尽管前向选择和后向删除是线性回归中子集选择最快的方法，但只有逐步回归能保证找到最佳子集。 1.3 一个分析者用判别分析法计算有三个类 C1,C2,C3 的数据集的分类函数。她假设在应用中所有的类出现的概率相同。后来她知道了 C1 类的概率是 C2,C3 的两倍。C2,C3 的概率是相同的。如果她利用这个信息重新计算这个分类函数，那么对所有的数据点用 C1 的分类函数的值都会增加。 1.4 在对分类模型在新数据上预测能力的衡量上，在验证数据集上的误分率好于该模型在训练数据集上的误分率。 1.5 一个有两个类的神经网络分类器，构建了类间的分离边界关于输入值的加权和是线性的。问题二（10 分）一个含有 1000 个例子的数据集被划分为 600 个例子的训练集和 400 个例子的验证集。 K=1 的 k 最近邻模型在验证数据上误分率为 8％。随后发现做出的划分不正确，有 100 个训练集中的例子被意外地重复，并覆盖了在验证数据集中的 100 个例子。对真正是验证数据的 300 个例子的误分率是多少？问题三（10 分）有一个由 10 个变量构成朴素贝叶斯分类器。一个需要划分的特殊例子，只有其中的 8 个变量的信息。你如何用这个分类器确定这个例子的归属？问题四（15 分）一个信用卡公司构建了一个用于信用卡保险促销的分类树，如下图所示。类 1 与对促销做出回应的顾客相关，类 0 包含那些不回应的顾客。该公司将用这个树发送促销广告给一些从未收到该公司促销广告的客户，来劝说他们开始使用信用卡。训练数据包含对促销做出回应的个人。年龄、性别和收入被作为这些顾客的输入变量。 1

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

麻省理工学院试卷习题期中考试_Data Mining（数据挖掘）

麻省理工学院 试卷习题 期中考试_Data Mining（数据挖掘）

麻省理工学院试卷习题期中考试_Data Mining（数据挖掘）