uci文库下载_中国高校课件下载中心

文档格式：PDF　文档大小：358.08KB　文档页数：8

CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩.该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导.针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法(heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标(clustering validation index based on sparse feature dissimilarity,CVISFD)进行启发式度量,从而实现对聚类层次的自动选取.UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性

考虑加权排序的分类数据聚类算法

文档格式：PDF　文档大小：431.73KB　文档页数：6

针对部分聚类算法对数据输入顺序敏感的问题,定义了不干涉序列指数,提出了应用不干涉序列指数对分类数据进行加权排序的方法,并基于该方法对受数据输入顺序影响的CABOSFV_C分类数据高效聚类算法进行改进,提出了考虑加权排序的聚类算法(CABOSFV_CSW),消除了算法对数据输入顺序的敏感性.采用UCI基准数据集进行实验,发现应用加权升序排序的CABOSFV_CSW算法在处理分类数据时,聚类质量较原始CABOSFV_C算法和其他受数据输入顺序影响的算法在准确性上有改善,在稳定性上有显著提高

一种基于密度的模糊自适应聚类算法

文档格式：PDF　文档大小：449.4KB　文档页数：6

针对密度聚类算法对邻域参数设置敏感的问题，提出一种基于密度的模糊自适应聚类算法.算法在无需预先设置聚类数以及邻域参数的情况下，可以自适应地根据样本间距离关系确定邻域半径得到样本密度，并根据样本密度逐渐增加聚类中心.为了保障聚类结果的正确性，同时提出一种新的模糊聚类有效性指标以判断最佳聚类数，消除了密度聚类算法对参数的敏感性.用UCI基准数据集进行实验，发现本文算法在对数据进行聚类时，聚类质量较原始密度聚类算法在准确性和自适应性方面均有显著提高

基于属性值集中度的分类数据聚类有效性内部评价指标

文档格式：PDF　文档大小：1.21MB　文档页数：13

针对分类数据, 通过数据对象在属性值上的集中程度定义了新的基于属性值集中度的类内相似度(similarity based on concentration of attribute values, CONC), 用于衡量聚类结果中类内各数据对象之间的相似度; 通过不同类的特征属性值的差异程度定义了基于强度向量差异的类间差异度(dissimilarity based on discrepancy of SVs, DCRP), 用于衡量两个类之间的差异度.基于CONC和DCRP提出了新的分类数据聚类有效性内部评价指标(clustering validation based on concentration of attribute values, CVC), 它具有以下3个特点: (1)在评价每个类内相似度时, 不仅依靠类内各数据对象的特征, 还考虑了整个数据集的信息; (2)采用几个特征属性值的差异评价两个类的差异度, 确保评价过程不丢失有效的聚类信息, 同时可以消除噪音的影响; (3)在评价类内相似度及类间差异度时, 消除了数据对象个数对评价过程的影响.采用加州大学欧文分校提出的用于机器学习的数据库(UCI)进行实验, 将CVC与类别效用(category utility, CU)指标、基于主观因素的分类数据指标(categorical data clustering with subjective factors, CDCS)指标和基于信息熵的内部评价指标(information entropy, IE)等内部评价指标进行对比, 通过外部评价指标标准交互信息(normalized mutual information, NMI)验证内部评价效果.实验表明相对其他内部评价指标, CVC指标可以更有效地评价聚类结果.此外, CVC指标相对于NMI指标, 不需要数据集以外的信息, 更具实用性

基于空间近邻关系的非平衡数据重采样算法

文档格式：PDF　文档大小：992.33KB　文档页数：9

为了提高非平衡数据集的分类精度，提出了一种基于样本空间近邻关系的重采样算法。该方法首先根据数据集中少数类样本的空间近邻关系进行安全级别评估，根据安全级别有指导的采用合成少数类过采样技术（Synthetic minority oversampling technique，SMOTE）进行升采样；然后对多数类样本依据其空间近邻关系计算局部密度，从而对多数类样本密集区域进行降采样处理。通过以上两种手段可以均衡测试数据集，并控制数据规模防止过拟合，实现对两类样本分类的均衡化。采用十折交叉验证的方式产生训练集和测试集，在对训练集重采样之后，以核超限学习机作为分类器进行训练，并在测试集上进行验证。在UCI非平衡数据集和电路故障诊断实测数据上的实验结果表明，所提方法在整体上优于其他重采样算法