《数学建模》算法全收录（算法大全）：第29章多元分析 multivariate analyses

多元分析（multivariate analyses）是多变量的统计分析方法，是数理统计中应用广泛的一个重要分支，其内容庞杂，视角独特，方法多样，深受工程技术人员的青睐和广泛使用，并在使用中不断完善和创新。由于变量的相关性，不能简单地把每个变量的结果进行汇总，这是多变量统计分析的基本出发点。 §1 聚类分析 §2 聚类分析案例—我国各地区普通高等教育发展状况分析 §3 主成分分析 §4 主成分分析案例－我国各地区普通高等教育发展水平综合评价 §5 因子分析 §6 因子分析案例 §7 判别分析 §8 典型相关分析（Canonical correlation analysis）

团购合买资源类别：文库，文档格式：PDF，文档页数：88，文件大小：575.8KB

第二十九章多元分析多元分析( multivariate analyses)是多变量的统计分析方法,是数理统计中应用广泛的一个重要分支,其内容庞杂,视角独特,方法多样,深受工程技术人员的青睐和广泛使用,并在使用中不断完善和创新。由于变量的相关性,不能简单地把每个变量的结果进行汇总,这是多变量统计分析的基本出发点。 §1聚类分析将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程的研究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物学中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将它们归属于不同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分, 可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点开发目标通常,人们可以凭经验和专业知识来实现分类。而聚类分析( cluster analyses)作为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。 1.1相似性度量 1.1样本的相似性度量要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用P个变量描述,则每个样本点可以看成是RP空间中的一个点。因此,很自然地想到可以用距离来度量样本点间的相似程度记Ω是样本点集,距离d(;)是Ω×Ω→R的一个函数,满足条件 1)d(x,y)≥0,x,y∈Ω; 2)d(x,y)=0当且仅当x= 3)d(,y)=d(, x), x,yEQ 4)d(x,y)≤d(x,)+d(x,y),x,y,z∈Ω。这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类分析中,对于定量变量,最常用的是 Minkowski距离 443

-443- 第二十九章多元分析多元分析（multivariate analyses）是多变量的统计分析方法，是数理统计中应用广泛的一个重要分支，其内容庞杂，视角独特，方法多样，深受工程技术人员的青睐和广泛使用，并在使用中不断完善和创新。由于变量的相关性，不能简单地把每个变量的结果进行汇总，这是多变量统计分析的基本出发点。 §1 聚类分析将认识对象进行分类是人类认识世界的一种重要方法，比如有关世界的时间进程的研究，就形成了历史学，也有关世界空间地域的研究，则形成了地理学。又如在生物学中，为了研究生物的演变，需要对生物进行分类，生物学家根据各种生物的特征，将它们归属于不同的界、门、纲、目、科、属、种之中。事实上，分门别类地对事物进行研究，要远比在一个混杂多变的集合中更清晰、明了和细致，这是因为同一类事物会具有更多的近似特性。在企业的经营管理中，为了确定其目标市场，首先要进行市场细分。因为无论一个企业多么庞大和成功，它也无法满足整个市场的各种需求。而市场细分，可以帮助企业找到适合自己特色，并使企业具有竞争力的分市场，将其作为自己的重点开发目标。通常，人们可以凭经验和专业知识来实现分类。而聚类分析（cluster analyses）作为一种定量方法，将从数据分析的角度，给出一个更准确、细致的分类工具。 1.1 相似性度量 1.1.1 样本的相似性度量要用数量化的方法对事物进行分类，就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用 p 个变量描述，则每个样本点可以看成是 p R 空间中的一个点。因此，很自然地想到可以用距离来度量样本点间的相似程度。记Ω 是样本点集，距离 d(⋅,⋅) 是 → + Ω×Ω R 的一个函数，满足条件： 1）d(x, y) ≥ 0 ， x, y ∈Ω； 2）d(x, y) = 0当且仅当 x = y ； 3）d(x, y) = d( y, x) ， x, y ∈Ω； 4）d(x, y) ≤ d(x,z) + d(x, y) ， x, y,z ∈Ω 。这一距离的定义是我们所熟知的，它满足正定性，对称性和三角不等式。在聚类分析中，对于定量变量，最常用的是 Minkowski 距离

-451- 第1列和第2列，即Z(i,1:2)包含了被两两连接生成一个新类的所有对象的索引。生成的新类索引为 m + j 。共有 m −1个级别更高的类，它们对应于聚类树中的内部节点。第三列，Z(i,3)包含了相应的在类中的两两对象间的连接距离。 3）cluster T=cluster(Z,cutoff)从连接输出（linkage）中创建聚类。cutoff为定义cluster 函数如何生成聚类的阈值，其不同的值含义如表4所示。表4 cutoff取值及含义 cutoff取值含义 0<cutoff<2 cutoff作为不一致系数的阈值。不一致系数对聚类树中对象间的差异进行了量化。如果一个连接的不一致系数大于阈值，则cluster 函数将其作为聚类分组的边界。 2<=cutoff cutoff作为包含在聚类树中的最大分类数 T=cluster(Z,cutoff,depth,flag)从连接输出(linkage)中创建聚类。参数depth 指定了聚类数中的层数，进行不一致系数计算时要用到。不一致系数将聚类树中两对象的连接与相邻的连接进行比较。详细说明见函数inconsistent。当参数depth被指定时， cutoff通常作为不一致系数阈值。参数flag重载参数cutoff的缺省含义。如flag为’inconsistent’，则cutoff作为不一致系数的阈值。如flag为’cluster’，则cutoff作为分类的最大数目。输出T为大小为 m 的向量，它用数字对每个对象所属的类进行标识。为了找到包含在类i中的来自原始数据集的对象，可用find(T==i)。 4）zsore(X) 对数据矩阵进行标准化处理，处理方式为 j ij j ij s x x x − = ~ 其中矩阵 ij m n X x = × ( ) 看作是 m 个大小为n 的向量， j j x ,s 是每一列的均值和标准差。 5）H＝dendrogram(Z,P) 由linkage产生的数据矩阵Z画聚类树状图。P是结点数，默认值是30。 6）T=clusterdata(X,cutoff) 将矩阵X的数据分类。X为 m× n 矩阵，被看作 m 个大小为n 的向量。它与以下几个命令等价： Y=pdist(X,’euclid’) Z=linkage(Y,’single’) T=cluster(Z,cutoff) 7)squareform 将pdist的输出转换为方阵

-452- 8）cophenet c=cophenet(Z,Y) 计算相干系数，它是将Z中的距离信息（由linkage()函数产生）和Y中的距离信息（由pdist()）函数产生进行比较。Z为(m −1)×3矩阵，距离信息包含在第三列。Y是(m −1)⋅ m / 2维的行向量。例如，给定距离为Y的一组对象{1,2,",m}，函数linkage()生成聚类树。cophenet() 函数用来度量这种分类的失真程度，即由分类所确定的结构与数据间的拟合程度。输出值c为相干系数。对于要求很高的解，该值的幅度应非常接近1。它也可用来比较两种由不同算法所生成的分类解。 Z(:,3)和Y之间的相干系数定义为 ∑ ∑ ∑ < < < − − − − = i j ij i j ij i j ij ij y y z z y y z z c 2 2 ( ) ( ) ( )( ) 其中 ij y 为Y中对象i 和 j 间的距离； ij z 为Z(:,3)中对象i 和 j 间的距离；y 和 z 分别为Y 和Z(:,3)的平均距离。 1.3 变量聚类法在实际工作中，变量聚类法的应用也是十分重要的。在系统分析或评估过程中，为避免遗漏某些重要因素，往往在一开始选取指标时，尽可能多地考虑所有的相关因素。而这样做的结果，则是变量过多，变量间的相关度高，给系统分析与建模带来很大的不便。因此，人们常常希望能研究变量间的相似关系，按照变量的相似关系把它们聚合成若干类，进而找出影响系统的主要因素。 1.3.1 变量相似性度量在对变量进行聚类分析时，首先要确定变量的相似性度量，常用的变量相似性度量有两种。 1）相关系数记变量 j x 的取值( , , , ) ( 1,2, , ) x1 x2 x R j m T n j j " nj ∈ = " 。则可以用两变量 j x 与 k x 的样本相关系数作为它们的相似性度量 2 1 1 1 2 2 1 ( ) ( ) ( )( ) ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − − − − = ∑ ∑ ∑ = = = n i n i ij j ik k n i ij j ik k jk x x x x x x x x r ，（10）在对变量进行聚类分析时，利用相关系数矩阵是最多的

点击进入文档下载页（PDF格式）

共88页，可试读20页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录

《数学建模》算法全收录（算法大全）：第29章多元分析 multivariate analyses

《数学建模》算法全收录（算法大全）：第29章 多元分析 multivariate analyses

《数学建模》算法全收录（算法大全）：第29章多元分析 multivariate analyses