第9讲降维分析与分类分析 (归因分析) 2015年12月
2015年12月 第9讲 降维分析与分类分析 (归因分析) 2
降维分析与分类分析的概念 >1、统计学中的降维分析简介 ◆(1)什么是降维分析? 在数据统计分析过程中,常常从多个视角制作调查或评价指 标,从而能够全面地反应调查对象的属性和特点。 然而,在调查完成后,常常发现以下问题: 多个指标项的语义有重叠; 需要获得凝练的分析结论。 。为此,需要对调硏指标进行凝练,减少评价指标的维数,使 结论变得更加易于表述和理解。 ◆(2)降维分析的前提条件 部分变量之间存在着高度的相关性(同类变量); 部分变量之间存在着显著差异性(不同类变量)
一、降维分析与分类分析的概念 ➢ 1、统计学中的降维分析简介 ◆(1)什么是降维分析? 在数据统计分析过程中,常常从多个视角制作调查或评价指 标,从而能够全面地反应调查对象的属性和特点。 然而,在调查完成后,常常发现以下问题: 多个指标项的语义有重叠; 需要获得凝练的分析结论。 为此,需要对调研指标进行凝练,减少评价指标的维数,使 结论变得更加易于表述和理解。 ◆(2)降维分析的前提条件 部分变量之间存在着高度的相关性(同类变量); 部分变量之间存在着显著差异性(不同类变量)。 3
降维分析与分类分析的概念 1、统计学中的降维分析简介 ◆(3)降维分析的常见手段 主成分分析 因子分析中的一种,寻求影响多个指标项的一个或多个主 成份(这些主成分的特征根在1以上 面向变量的聚类分析 对于调研数据,针对变量进行聚类,把多个变量分为若干 小组,形成几个聚结的变量集; 分析每个变量集的语义,形成凝结的维度。 对应分析 。对于调研数据来讲,综合性的结论通常与全体变量的取值 有关系。但是,某些情况下,某一特定变量的取值可能直 接影响最终结果。 。对应分析就是找出相关的两个变量之间取值对应关系的操 作
一、降维分析与分类分析的概念 ➢ 1、统计学中的降维分析简介 ◆(3)降维分析的常见手段 主成分分析 因子分析中的一种,寻求影响多个指标项的一个或多个主 成份(这些主成分的特征根在1以上) 面向变量的聚类分析 对于调研数据,针对变量进行聚类,把多个变量分为若干 小组,形成几个聚结的变量集; 分析每个变量集的语义,形成凝结的维度。 对应分析 对于调研数据来讲,综合性的结论通常与全体变量的取值 有关系。但是,某些情况下,某一特定变量的取值可能直 接影响最终结果。 对应分析就是找出相关的两个变量之间取值对应关系的操 作。 4
降维分析与分类分析的概念 >2、统计学中的分类分析简介 ◆(1)什么是分类分析 在数据统计与分析过程中,常常需要把成千上万的个案分成 若干类,以便于操作。例如,可以把学生分为男生、女生, 还可以把学生按照综合表现分为优等生、良好生、普通生和 差生。 。依据某些因素,对个案分类的过程就是分类 ◆(2)数据分类的基本条件 不同个案的属性取值离散化程度较高,存在着比较明显的差 别 。依据某几个属性,具备把个案分成几类的可能性
一、降维分析与分类分析的概念 ➢ 2、统计学中的分类分析简介 ◆(1)什么是分类分析 在数据统计与分析过程中,常常需要把成千上万的个案分成 若干类,以便于操作。例如,可以把学生分为男生、女生, 还可以把学生按照综合表现分为优等生、良好生、普通生和 差生。 依据某些因素,对个案分类的过程就是分类。 ◆(2)数据分类的基本条件 不同个案的属性取值离散化程度较高,存在着比较明显的差 别; 依据某几个属性,具备把个案分成几类的可能性。 5
降维分析与分类分析的概念 >2、实现分类分析的主要技术 ◆(1)聚类分析—面向个案 面向个案的聚类分析就是分类。 其目标是把众多个案聚结为较少的几个类别,以便总结规 律或者实施数据管理 (面向变量的系统聚类是降维分析,称为R聚类) °面向个案的聚类分析有两种技术 面向个案的系统聚类(也叫层次聚类),被称为Q聚类。 自动分层聚类, 从与个案数相同的类别数逐步聚结为1类,构成树状结构 K-Means聚类技术 √指定类别数的聚类 √基于用户指定的聚类类别数、类别中心点,开始聚类
一、降维分析与分类分析的概念 ➢ 2、实现分类分析的主要技术 ◆(1)聚类分析——面向个案 面向个案的聚类分析就是分类。 其目标是把众多个案聚结为较少的几个类别,以便总结规 律或者实施数据管理。 (面向变量的系统聚类是降维分析,称为R聚类) 面向个案的聚类分析有两种技术: 面向个案的系统聚类(也叫层次聚类),被称为Q聚类。 ✓自动分层聚类, ✓从与个案数相同的类别数逐步聚结为1类,构成树状结构 K-Means聚类技术 ✓指定类别数的聚类 ✓基于用户指定的聚类类别数、类别中心点,开始聚类。 6
降维分析与分类分析的概念 >2、实现分类分析的三种技术 ◆(2)判别分析 判别分析的概念 判别分析的过程是基于已有数据集制作分类规则的过程。 即系统接受用户提供的已有类别(基于某一变量取值分类, 内部包含若干样本),然后寻找基于其他变量的判别规则, 构造判定函数,以便基于判定函数对未来个案自动分类的 过程。 判别分析过程实际上是系统主动探索与学习的过程(类似 于多元回归分析),然后依据已经习得的规则,对其他个 案进行判定其归属类别
一、降维分析与分类分析的概念 ➢ 2、实现分类分析的三种技术 ◆(2)判别分析 判别分析的概念 判别分析的过程是基于已有数据集制作分类规则的过程。 即系统接受用户提供的已有类别(基于某一变量取值分类, 内部包含若干样本),然后寻找基于其他变量的判别规则, 构造判定函数,以便基于判定函数对未来个案自动分类的 过程。 判别分析过程实际上是系统主动探索与学习的过程(类似 于多元回归分析),然后依据已经习得的规则,对其他个 案进行判定其归属类别。 7
降维分析与分类分析的概念 >2、实现分类分析的三种技术 判别分析的示例 基本要求 ˇ某校收集了学生的很多项信息。其中有一条是“是否三 好学生”。现在需要找到一个判别函数,能够从学习成 绩、承担班级事务、参与社会活动、热心帮助其他同学 等维度来实现为尚未分类的学生自动分类的过程 基本思路 先根据已有的个案,把“是否三好学生”作为因变量 把“学习成绩、承担班级事务、参与社会活动、热心帮 助其他同学”作为自变量,让系统根据这些数据进行归 纳,最终构造出判定函数。 对于新同学,只需输入作为自变量的几个属性值,由系 统根据判定函数做出判定,找出检验概率值最大的类别, 作为最终类别
一、降维分析与分类分析的概念 8 ➢ 2、实现分类分析的三种技术 判别分析的示例 基本要求 ✓某校收集了学生的很多项信息。其中有一条是“是否三 好学生”。现在需要找到一个判别函数,能够从学习成 绩、承担班级事务、参与社会活动、热心帮助其他同学 等维度来实现为尚未分类的学生自动分类的过程。 基本思路 ✓先根据已有的个案,把“是否三好学生”作为因变量, 把“学习成绩、承担班级事务、参与社会活动、热心帮 助其他同学”作为自变量,让系统根据这些数据进行归 纳,最终构造出判定函数。 ✓对于新同学,只需输入作为自变量的几个属性值,由系 统根据判定函数做出判定,找出检验概率值最大的类别, 作为最终类别
、层次聚类分析 >1、层次聚类分析的概念 ◆(1)什么是层次聚类? SPS中的系统聚类,也叫层次聚类、分层聚类 。采用逐层、逐级聚类模式 。先把距离最近的若干元素归类,形成新元素点 再从新元素点中挑选距离最近的元素进一步聚类 直到所有元素都被聚集为同一类。 ◆(2)层次聚类的特点 是一种没有预设条件的聚类模式, 逐层、逐级聚类 最终所有元素聚集为一类
二、层次聚类分析 ➢ 1、层次聚类分析的概念 ◆(1)什么是层次聚类? SPSS中的系统聚类,也叫层次聚类、分层聚类。 采用逐层、逐级聚类模式 先把距离最近的若干元素归类,形成新元素点 再从新元素点中挑选距离最近的元素进一步聚类 直到所有元素都被聚集为同一类。 ◆(2)层次聚类的特点 是一种没有预设条件的聚类模式, 逐层、逐级聚类 最终所有元素聚集为一类。 9
、层次聚类分析 >2、层次聚类分析的类型 ◆Q聚类 是针对个案的聚类,目的是把个案按照距离关系逐级聚类 与生活中的分类思想完全一致 本质上是一种行聚类,把每行的数据作为一个处理元素 基本思路: 先计算不同元素(行数据)之间的距离, 每次选择距离最近的元素,把它们聚为一类
二、层次聚类分析 ➢ 2、层次聚类分析的类型 ◆Q聚类 是针对个案的聚类,目的是把个案按照距离关系逐级聚类。 与生活中的分类思想完全一致。 本质上是一种行聚类,把每行的数据作为一个处理元素。 基本思路: 先计算不同元素(行数据)之间的距离, 每次选择距离最近的元素,把它们聚为一类。 10
、层次聚类分析 ◆R聚类 。是针对变量的聚类,目的是把变量按照距离关系逐级聚类。 减少变量的数量,实现降维的目标 本质上是一种列聚类,把每列的数据作为一个处理元素 基本思路: 先计算不同元素(列数据)之间的距离, 每次选择距离最近的元素,把它们聚为一类。 最终,通过观察聚类结果,体会各个变量之间的逻辑关系
二、层次聚类分析 11 ◆R聚类 是针对变量的聚类,目的是把变量按照距离关系逐级聚类。 减少变量的数量,实现降维的目标。 本质上是一种列聚类,把每列的数据作为一个处理元素。 基本思路: 先计算不同元素(列数据)之间的距离, 每次选择距离最近的元素,把它们聚为一类。 最终,通过观察聚类结果,体会各个变量之间的逻辑关系