《数学模型与数学实验》课程书籍文献（数学建模算法大全）第29章多元分析.pdf_大学文库

第二十九章多元分析多元分析()是多变量的统计分析方法，是数理统计中应用泛的一个重要分支，其内容庞杂，视角独特，方法多样，深受工程技术人员的青睐和泛使用，并在使用中不断完善和创新。由于变量的相关性，不能简单地把每个变量的结果进行汇总，这是多变量统计分析的基本出发点， S1聚类分析将认识对象进行分类是人类认识世界的一种重要方法，比如有关世界的时间进程的研究，就形成了历史学，也有关世界空间地域的研究，则形成了地理学。又如在生物学中，为了研究生物的演变，需要对生物进行分类，生物学家根据各种生物的特征，将它们归属于不同的界、门、纲、目、科、属、种之中。事实上，分门别类地对事物进有研究，要远比在一个混杂多变的集中更清、明了和细致，这是因为同一类事物会有更多的近似特性。在企业的经营管理中，为了确定其目标市场 ,首先要进行市场细分因为无论一个企业多么庞大和成功，它也无法满足整个市场的各种需求。而市场细分可以帮助企业找到适合自己特色，并使企业具有竞争力的分市场，将其作为自己的重点开发目标。通常，人1可以任经验和专业知识来实现分类。而聚类分析(cser analyses)作为一种定量方法将从数据分析的角度，给出个更准确、细致的分类工 1.1相似性度量 L.1.1样本的相似性度量要用数量化的方法对事物进行分类，就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用P个变量描述，则每个样本点可以看成是R空间中的一个点。因此，很自然地想到可以用距离来度量样本点间的相似程度。记Q是样本点集，距离d(,)是2×Q→R*的一个函数，满足条件： 1)dx,y)20,x,ye2 2)d(x,y)=0当且仅当x=y: 3)d(x.y)=d(y,x),x,yeQ: 4)d(x,y)sd(x,)+d(x,y).x,y,EQ. 这一距离的定义是我们所熟知的，它满足正定性，对称性和三角不等式。在聚类分析中，对于定量变量，最常用的是Minkowski距离 -443

-443- 第二十九章多元分析多元分析（multivariate analyses）是多变量的统计分析方法，是数理统计中应用广泛的一个重要分支，其内容庞杂，视角独特，方法多样，深受工程技术人员的青睐和广泛使用，并在使用中不断完善和创新。由于变量的相关性，不能简单地把每个变量的结果进行汇总，这是多变量统计分析的基本出发点。 §1 聚类分析将认识对象进行分类是人类认识世界的一种重要方法，比如有关世界的时间进程的研究，就形成了历史学，也有关世界空间地域的研究，则形成了地理学。又如在生物学中，为了研究生物的演变，需要对生物进行分类，生物学家根据各种生物的特征，将它们归属于不同的界、门、纲、目、科、属、种之中。事实上，分门别类地对事物进行研究，要远比在一个混杂多变的集合中更清晰、明了和细致，这是因为同一类事物会具有更多的近似特性。在企业的经营管理中，为了确定其目标市场，首先要进行市场细分。因为无论一个企业多么庞大和成功，它也无法满足整个市场的各种需求。而市场细分，可以帮助企业找到适合自己特色，并使企业具有竞争力的分市场，将其作为自己的重点开发目标。通常，人们可以凭经验和专业知识来实现分类。而聚类分析（cluster analyses）作为一种定量方法，将从数据分析的角度，给出一个更准确、细致的分类工具。 1.1 相似性度量 1.1.1 样本的相似性度量要用数量化的方法对事物进行分类，就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用 p 个变量描述，则每个样本点可以看成是 p R 空间中的一个点。因此，很自然地想到可以用距离来度量样本点间的相似程度。记Ω 是样本点集，距离 d(⋅,⋅) 是 → + Ω×Ω R 的一个函数，满足条件： 1）d(x, y) ≥ 0 ， x, y ∈Ω； 2）d(x, y) = 0当且仅当 x = y ； 3）d(x, y) = d( y, x) ， x, y ∈Ω； 4）d(x, y) ≤ d(x,z) + d(x, y) ， x, y,z ∈Ω 。这一距离的定义是我们所熟知的，它满足正定性，对称性和三角不等式。在聚类分析中，对于定量变量，最常用的是 Minkowski 距离

第1列和第2列，即2（住，1：2）包含了被两两连接生成一个新类的所有对象的索引。生成的新类索引为m+了。共有m-1个级别更高的类，它们对应于聚类树中的内部节点。第三列，Z(1,3)包含了相应的在类中的两两对象间的连接距离 3)cluster T=cluster(亿，cutoff)从连接输出(linkage)中创建聚类。cutoff为定义cluster 函数如何生成聚类的阀值，其不同的值含义如表4所示。表4 cutoff取值及含义 cutoff取值义 cutoff作为不一一致系数的阀值.不一致系数对聚类树中对象间的差 (cutoff<2 异进行了量化。如果一个连接的不一致系数大于阔值，则cluster 函数将其作为聚类分组的边界。 2-cutoff cutoff作为包含在聚类树中的最大分类数 T=cluster(亿，cutoff,depth,flag)从连接输出(1 inkage)中创建聚类。参数depth 指定了聚类数中的层数，进行不一致系数计算时要用到。不一致系数将聚类树中两对象的连接与相邻的连接讲行比较。详细说明见函救inconsistent。当参数depth被指定时 cutoffi通常作为不致系数胡值参数flag重载参数cutofff的缺省含义。如flag为' inconsistent ,则cutoff作为不一致系数的阙值。如flag为'cluster',则cutoff作为分类的最大数目。输出T为大小为m的向量，它用数字对每个对象所属的类进行标识。为了找到包含在类i中的来自原始数据集的对象，可用find(T=i)。 4)2s0re(X0 对数据矩阵进行标准化处理，处理方式为元=专~术其中矩阵X=(xy)m看作是m个大小为n的向量，元，S,是每一列的均值和标准差。 5)H=dendrogram(亿，P) 由1 inkager产生的数据矩阵Z画聚类树状图。P是结点数，默认值是30。 6)T=clusterdata(优，cutoff) 将矩阵X的数据分类。X为m×n矩阵，被看作m个大小为n的向量。它与以下几个命令等价： Y=pdist(X.'euclid') 2=linkage (Y,'single') T=cluster(亿，cutoff) 7)squareform 将pdist的输出转换为方阵 451

-451- 第1列和第2列，即Z(i,1:2)包含了被两两连接生成一个新类的所有对象的索引。生成的新类索引为 m + j 。共有 m −1个级别更高的类，它们对应于聚类树中的内部节点。第三列，Z(i,3)包含了相应的在类中的两两对象间的连接距离。 3）cluster T=cluster(Z,cutoff)从连接输出（linkage）中创建聚类。cutoff为定义cluster 函数如何生成聚类的阈值，其不同的值含义如表4所示。表4 cutoff取值及含义 cutoff取值含义 0<cutoff<2 cutoff作为不一致系数的阈值。不一致系数对聚类树中对象间的差异进行了量化。如果一个连接的不一致系数大于阈值，则cluster 函数将其作为聚类分组的边界。 2<=cutoff cutoff作为包含在聚类树中的最大分类数 T=cluster(Z,cutoff,depth,flag)从连接输出(linkage)中创建聚类。参数depth 指定了聚类数中的层数，进行不一致系数计算时要用到。不一致系数将聚类树中两对象的连接与相邻的连接进行比较。详细说明见函数inconsistent。当参数depth被指定时， cutoff通常作为不一致系数阈值。参数flag重载参数cutoff的缺省含义。如flag为’inconsistent’，则cutoff作为不一致系数的阈值。如flag为’cluster’，则cutoff作为分类的最大数目。输出T为大小为 m 的向量，它用数字对每个对象所属的类进行标识。为了找到包含在类i中的来自原始数据集的对象，可用find(T==i)。 4）zsore(X) 对数据矩阵进行标准化处理，处理方式为 j ij j ij s x x x − = ~ 其中矩阵 ij m n X x = × ( ) 看作是 m 个大小为n 的向量， j j x ,s 是每一列的均值和标准差。 5）H＝dendrogram(Z,P) 由linkage产生的数据矩阵Z画聚类树状图。P是结点数，默认值是30。 6）T=clusterdata(X,cutoff) 将矩阵X的数据分类。X为 m× n 矩阵，被看作 m 个大小为n 的向量。它与以下几个命令等价： Y=pdist(X,’euclid’) Z=linkage(Y,’single’) T=cluster(Z,cutoff) 7)squareform 将pdist的输出转换为方阵

-452- 8）cophenet c=cophenet(Z,Y) 计算相干系数，它是将Z中的距离信息（由linkage()函数产生）和Y中的距离信息（由pdist()）函数产生进行比较。Z为(m −1)×3矩阵，距离信息包含在第三列。Y是(m −1)⋅ m / 2维的行向量。例如，给定距离为Y的一组对象{1,2,",m}，函数linkage()生成聚类树。cophenet() 函数用来度量这种分类的失真程度，即由分类所确定的结构与数据间的拟合程度。输出值c为相干系数。对于要求很高的解，该值的幅度应非常接近1。它也可用来比较两种由不同算法所生成的分类解。 Z(:,3)和Y之间的相干系数定义为 ∑ ∑ ∑ < < < − − − − = i j ij i j ij i j ij ij y y z z y y z z c 2 2 ( ) ( ) ( )( ) 其中 ij y 为Y中对象i 和 j 间的距离； ij z 为Z(:,3)中对象i 和 j 间的距离；y 和 z 分别为Y 和Z(:,3)的平均距离。 1.3 变量聚类法在实际工作中，变量聚类法的应用也是十分重要的。在系统分析或评估过程中，为避免遗漏某些重要因素，往往在一开始选取指标时，尽可能多地考虑所有的相关因素。而这样做的结果，则是变量过多，变量间的相关度高，给系统分析与建模带来很大的不便。因此，人们常常希望能研究变量间的相似关系，按照变量的相似关系把它们聚合成若干类，进而找出影响系统的主要因素。 1.3.1 变量相似性度量在对变量进行聚类分析时，首先要确定变量的相似性度量，常用的变量相似性度量有两种。 1）相关系数记变量 j x 的取值( , , , ) ( 1,2, , ) x1 x2 x R j m T n j j " nj ∈ = " 。则可以用两变量 j x 与 k x 的样本相关系数作为它们的相似性度量 2 1 1 1 2 2 1 ( ) ( ) ( )( ) ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − − − − = ∑ ∑ ∑ = = = n i n i ij j ik k n i ij j ik k jk x x x x x x x x r ，（10）在对变量进行聚类分析时，利用相关系数矩阵是最多的

《数学模型与数学实验》课程书籍文献（数学建模算法大全）第29章 多元分析

《数学模型与数学实验》课程书籍文献（数学建模算法大全）第29章多元分析