聚类文库下载_中国高校课件下载中心

文档格式：PDF　文档大小：449.4KB　文档页数：6

针对密度聚类算法对邻域参数设置敏感的问题，提出一种基于密度的模糊自适应聚类算法.算法在无需预先设置聚类数以及邻域参数的情况下，可以自适应地根据样本间距离关系确定邻域半径得到样本密度，并根据样本密度逐渐增加聚类中心.为了保障聚类结果的正确性，同时提出一种新的模糊聚类有效性指标以判断最佳聚类数，消除了密度聚类算法对参数的敏感性.用UCI基准数据集进行实验，发现本文算法在对数据进行聚类时，聚类质量较原始密度聚类算法在准确性和自适应性方面均有显著提高

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第11章文本聚类

文档格式：PDF　文档大小：3.13MB　文档页数：77

• 聚类概述 • 什么是聚类？在IR中如何用聚类？聚类的几个术语 • K-均值聚类算法 • K-均值聚类中的基本准则 • K-均值算法中簇的个数 • 聚类评价 • purity、NMI（Normalized Mutual Information，)、RI（Rand Index)、F measure • 基于模型的聚类 • 层次聚类简介 • 层次聚类的簇相似度计算 • 四种HAC算法：单连接、全连接、组平均、质心法

北京大学：《大数据分析与挖掘》课程教学资源（讲义）第四章聚类分析

文档格式：PDF　文档大小：809.62KB　文档页数：12

4.1 概述. 1 4.1.1 什么是聚类分析.1 4.1.2 基本聚类方法概述.2 4.1.3 文本聚类.3 4.2 数据间的相似性度量. 4 4.2.1 数据对象间的距离.4 4.2.2 数据对象间的相似系数.5 4.2.3 数据类间的距离.5 4.2.4 数据标准化.7 4.3 基本聚类方法. 7 4.3.1 k-均值聚类方法 .7 4.3.2 层次聚类方法.8 4.3.3 聚类要注意的问题.10 4.4 基于密度的聚类（待更新）. 10 4.5 聚类结果的评估. 10 4.5.1 基于用户验证的评估方法.11 4.5.2 基于真实数据的聚类结果评估.11 4.6 聚类分析的案例与软件操作. 11 4.6.1 K-MEANS 聚类案例(SPSS Modeler).11 4.6.2 K-MEANS 聚类案例(R 语言) .15 4.6.3 层次聚类案例（SPSS）.20 4.6.4 层次聚类案例（R 语言）.23

中国人民大学：《统计学》课程PPT教学课件（第三版）第12章聚类分析

文档格式：PPT　文档大小：401.5KB　文档页数：61

12.1 聚类分析的基本原理 12.1.1 什么是聚类分析? 12.1.2 相似性的度量 12.2 层次聚类 12.2.1 层次聚类的两种方式 12.2.2 类间距离的计算方法 12.2.3 层次聚类的应用 12.3 K-均值聚类 12.3.1 K-均值聚类的基本过程 12.3.2 K-均值聚类的应用 12.3.3 使用聚类方法的注意事项

《工程科学学报》：基于近邻的不均衡数据聚类算法

文档格式：PDF　文档大小：1.37MB　文档页数：11

针对经典K–means算法对不均衡数据进行聚类时产生的“均匀效应”问题，提出一种基于近邻的不均衡数据聚类算法（Clustering algorithm for imbalanced data based on nearest neighbor，CABON）。CABON算法首先对数据对象进行初始聚类，通过定义的类别待定集来确定初始聚类结果中类别归属有待进一步核定的数据对象集合；并给出一种类别待定集的动态调整机制，利用近邻思想实现此集合中数据对象所属类别的重新划分，按照从集合边缘到中心的顺序将类别待定集中的数据对象依次归入其最近邻居所在的类别中，得到最终的聚类结果，以避免“均匀效应”对聚类结果的影响。将该算法与K–means、多中心的非平衡K_均值聚类方法（Imbalanced K–means clustering method with multiple centers，MC_IK）和非均匀数据的变异系数聚类算法（Coefficient of variation clustering for non-uniform data，CVCN）在人工数据集和真实数据集上分别进行实验对比，结果表明CABON算法能够有效消减K–means算法对不均衡数据聚类时所产生的“均匀效应”，聚类效果明显优于K–means、MC_IK和CVCN算法

西安电子科技大学：《信息检索》课程教学资源（课件讲稿）文本聚类（Text Clustering）

文档格式：PDF　文档大小：2.3MB　文档页数：46

文本聚类（Text Clustering）  一般性聚类任务聚类任务引出；应用背景；相似性度量；学科栈  文本聚类任务聚类对象与文本特征基于划分的方法（e.g., K-Means）基于层次的方法基于密度的方法（e.g., DBScan）  聚类效果评估

基于属性值集中度的分类数据聚类有效性内部评价指标

文档格式：PDF　文档大小：1.21MB　文档页数：13

针对分类数据, 通过数据对象在属性值上的集中程度定义了新的基于属性值集中度的类内相似度(similarity based on concentration of attribute values, CONC), 用于衡量聚类结果中类内各数据对象之间的相似度; 通过不同类的特征属性值的差异程度定义了基于强度向量差异的类间差异度(dissimilarity based on discrepancy of SVs, DCRP), 用于衡量两个类之间的差异度.基于CONC和DCRP提出了新的分类数据聚类有效性内部评价指标(clustering validation based on concentration of attribute values, CVC), 它具有以下3个特点: (1)在评价每个类内相似度时, 不仅依靠类内各数据对象的特征, 还考虑了整个数据集的信息; (2)采用几个特征属性值的差异评价两个类的差异度, 确保评价过程不丢失有效的聚类信息, 同时可以消除噪音的影响; (3)在评价类内相似度及类间差异度时, 消除了数据对象个数对评价过程的影响.采用加州大学欧文分校提出的用于机器学习的数据库(UCI)进行实验, 将CVC与类别效用(category utility, CU)指标、基于主观因素的分类数据指标(categorical data clustering with subjective factors, CDCS)指标和基于信息熵的内部评价指标(information entropy, IE)等内部评价指标进行对比, 通过外部评价指标标准交互信息(normalized mutual information, NMI)验证内部评价效果.实验表明相对其他内部评价指标, CVC指标可以更有效地评价聚类结果.此外, CVC指标相对于NMI指标, 不需要数据集以外的信息, 更具实用性

南京大学：《灰色系统理论及其应用》课程教学资源（PPT课件讲稿）第七章灰色聚类评估

文档格式：PPT　文档大小：241.5KB　文档页数：15

1:灰关联聚类:用于同类因素的归并,减少指标个数。 2:灰色白化权函数聚类:检查观测对象属于何类。灰色白化权函数聚类又可分为 (1)变权聚类; (2)定权聚类

基于MapReduce的大规模文本聚类并行化

文档格式：PDF　文档大小：458.36KB　文档页数：9

建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率，提出基于\互为最小相似度文本对\搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法；其次，基于\互为最小相似度文本对\搜索选择二分簇中心，提出通过一次划分实现簇质心寻优的二分K-means聚类算法；最后，基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明：提出的聚类算法与原始二分K-means相比，在获得相当聚类效果的同时，具有明显效率优势；并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性

分类属性数据聚类算法HABOS

文档格式：PDF　文档大小：358.08KB　文档页数：8

CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩.该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导.针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法(heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标(clustering validation index based on sparse feature dissimilarity,CVISFD)进行启发式度量,从而实现对聚类层次的自动选取.UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性