《数据把掘概念与技术》第六章(6-3) 凝聚层次聚类

一、在层次聚类分析中,输入中不指定要分成的类的个数。系统的输入为(X,s),系统的输出是类的层次。二、大多数层次聚类过程不是基于最优的思想, 而是通过反复的分区直至收敛,找出一些近似的、未达最优标准的解决方案。三、层次聚类算法分为:分裂算法和凝聚算法。

团购合买资源类别：文库，文档格式：PPT，文档页数：27，文件大小：168KB

6.3凝聚层次聚类在层次聚类分析中,输入中不指定要分成的类的个数。系统的输入为(,s),系统的输出是类的层次 >大多数层次聚类过程不是基于最优的思想而是通过反复的分区直至收敛,找出一些近似的、未达最优标准的解决方案。层次聚类算法分为:分裂算法和凝聚算法

6.3 凝聚层次聚类 ➢ 在层次聚类分析中，输入中不指定要分成的类的个数。系统的输入为(X,s)，系统的输出是类的层次。 ➢ 大多数层次聚类过程不是基于最优的思想，而是通过反复的分区直至收敛，找出一些近似的、未达最优标准的解决方案。 ➢ 层次聚类算法分为：分裂算法和凝聚算法

分区算法从整个样本集开始,将它分成几个子集,然后把每个子集分成更小的集合,依次下去,最终,生成—个由粗略到精细的分区序列。 >凝聚算法首先把每一个对象当作一个初始类, 然后将这些类合并一个更粗略的分区,反复合并直至得到比较精细的分区,其过程是自底向上的过程,分区从精细到粗糙。 >凝聚算法又分为单链接和全链接算法,两者不同之处仅在于它们描述一对类的相似度的方法

➢ 分区算法从整个样本集开始，将它分成几个子集，然后把每个子集分成更小的集合，依次下去，最终，生成一个由粗略到精细的分区序列。 ➢ 凝聚算法首先把每一个对象当作一个初始类，然后将这些类合并一个更粗略的分区，反复合并直至得到比较精细的分区，其过程是自底向上的过程，分区从精细到粗糙。 ➢ 凝聚算法又分为单链接和全链接算法，两者不同之处仅在于它们描述一对类的相似度的方法

>单链接算法基于两类之间的距离是从两个类中抽取的两对样本(一个取自第一类,另个取自第二个)的距离中最小值。 >全链接算法基于两类间的距离是每对样本的距离中的最大值。 >下图为两种算法的图解说明。 + 类类2 类1 a)单链接距离 b)全链接距离图6-5对于单链接和全链接聚类算法的距离

➢ 单链接算法基于两类之间的距离是从两个类中抽取的两对样本(一个取自第一类，另一个取自第二个)的距离中最小值。 ➢ 全链接算法基于两类间的距离是每对样本的距离中的最大值。 ➢ 下图为两种算法的图解说明

凝聚聚类算法的基本步骤 1把每一个样本作为一个类,为所有不同的无序样本对的类间距离构造一个序列,然后按升序对这个序列进行排序。 2通过已排序的距离序列,对于每一个不同的阈值d形成一个样本图,图中将距离比dk 更近的各对样本合并成一个新的类。如果所有的样本都是这个图的元素则停止,否则,重复该步骤。 3这个算法的输出是一个嵌套层次图,可以用希望的相似水平去截取,在相应的子图中生成一个由简单联合标识的分区(类聚)

➢ 凝聚聚类算法的基本步骤： 1.把每一个样本作为一个类，为所有不同的无序样本对的类间距离构造一个序列，然后按升序对这个序列进行排序。 2.通过已排序的距离序列，对于每一个不同的阈值dk形成一个样本图，图中将距离比dk 更近的各对样本合并成一个新的类。如果所有的样本都是这个图的元素则停止，否则，重复该步骤。 3.这个算法的输出是一个嵌套层次图，可以用希望的相似水平去截取，在相应的子图中生成一个由简单联合标识的分区(类聚)

>例如:二维样本集共5个点X1,×2X32×4X5} 1=(0,2),x2=(0,0),x3=(1.5,0)x4=(5.0),×5=(5,2) 其图形化表示如下图图6-6聚类分析的5个二维样本

➢ 例如：二维样本集共5个点{x1 ,x2 ,x3 ,x4 ,x5 } x1=(0,2),x2=(0,0),x3=(1.5,0),x4=(5.0),x5=(5,2) 其图形化表示如下图：

第一步:计算欧氏距离。 0(X1,X2)=2,d(x1,X3)=250(×1,X4)=54d(×1,x5)=5 d(X2,X3)=1.5,d(X2,X4)=5,(X2X5)=529 d(X3X4)=3.5,d(X3,X5)=4.03 d(X4,X5)=2 按升序排列 d(X2,X3)=1.5,0(×1,X2)=2,d(X4xX5)=2,o(x1,X3)=25, d(X3,X4)=35,0(×3,X5)=4.03,0(X2,X4)=5,0(X1,X5)=5, d(X2X5)=529,0(X1,X4)=539

➢ 第一步：计算欧氏距离。 d(x1 ,x2 )=2, d(x1 ,x3 )=2.5 d(x1 ,x4 )=5.4 d(x1 ,x5 )=5 d(x2 ,x3 )=1.5, d(x2 ,x4 )=5, d(x2 ,x5 )=5.29 d(x3 ,x4 )=3.5, d(x3 ,x5 )=4.03 d(x4 ,x5 )=2 按升序排列： d(x2 ,x3 )=1.5,d(x1 ,x2 )=2, d(x4 ,x5 )=2, d(x1 ,x3 )=2.5, d(x3 ,x4 )=3.5,d(x3 ,x5 )=4.03,d(x2 ,x4 )=5,d(x1 ,x5 )=5, d(x2 ,x5 )=5.29, d(x1 ,x4 )=5.39

第二步:单链接算法。按最小距离合并×2和x3,生成新类 ×2X3}其距离为15。X4和x合并成新类{4,×5},其距离为2。同时, 类伙2X3}和区1间的最小距离也是2.0 将其合并成一个新类1X2Xx3},其距离为2。最后,两个类1x2x3和{x4,X5} 可以以更高的级别进行合并,其最小单链接距离为3.5。树状图如下

➢第二步：单链接算法。按最小距离合并x2和x3，生成新类 {x2 ,x3 }，其距离为1.5。 x4和x5合并成一个新类{x4 ,x5 }，其距离为2。同时，类{x2 ,x3 }和{x1 }间的最小距离也是2.0，将其合并成一个新类{x1,x2 ,x3 } ，其距离为2。最后，两个类{x1,x2 ,x3 }和{x4 ,x5 } 可以以更高的级别进行合并，其最小单链接距离为3.5。树状图如下：

1.5202.2. 3.5 x4 图67用单链接方法对图6-6中的数据集聚类后的树状图第三步:选择相似度阈值s=2.2,从图可以出单链接算法最终生成类:{1,X2.X3}和

➢ 第三步：选择相似度阈值s=2.2，从图可以得出单链接算法最终生成类： {x1 ,x2 ,x3 }和 {x4 ,x5 }

第二步:全链接算法。按最小距离合并×2和x3,生成新类 x2Xx3},其距离为1.5。X4和x合并成新类{X4,X5},其距离为2。而类 ×2X3和{x间的最大距离是25,将其合并成一个新类x1X2.x3}。最后,两个类1x2x3和4,X5可以以更高的级别进行合并,其最大单链接距离为5.4。树状图如下

➢第二步：全链接算法。按最小距离合并x2和x3，生成新类 {x2 ,x3 }，其距离为1.5。 x4和x5合并成一个新类{x4 ,x5 }，其距离为2。而类 {x2 ,x3 }和{x1 }间的最大距离是2.5，将其合并成一个新类{x1,x2 ,x3 } 。最后，两个类{x1,x2 ,x3 }和{x4 ,x5 }可以以更高的级别进行合并，其最大单链接距离为5.4。树状图如下：

1.5_2.0—2.22.5 54 图6-8用全链接方法对图6-6中的数据集聚类的树状图第三步:选择相似度阈值s=22,从图可以得出全链接算法最终生成类:{1}{×2X3} 和区x 45

➢ 第三步：选择相似度阈值s=2.2，从图可以得出全链接算法最终生成类： {x1 },{x2 ,x3 } 和{x4 ,x5 }

点击下载完整版文档（PPT格式）

共27页，试读已结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录