好等问题；Ｈ．Ｆ．Ｚｈｏｕ、Ｓ．Ｈ．Ｙｕｅ、Ｙ．Ｍａ、

正在加载图片...

·94. 智能系统学报第11卷好等问题；H.F.Zhou、S.H.Yue、Y.Ma、S.JA- 题。实际上，对于密度聚类，在核心对象邻域内相当 HIRABAPKAR和Z.Y.Xiong等s-]基于数据的数一部分种子对象可以被忽略，选择核心对象边界的学统计特性，确定全局参数：B.Lim)提出一种基于部分代表对象进行类的扩展，从而达到减少区域查密度的快速聚类方法，按照特定维的坐标排序，选择询频度的目的。有序的未被标记的在核心对象邻域以外的点作为种为了自适应确定合适的全局参数MinPts和子扩展簇。综上所述，基于密度聚类算法的改进点 Eps,减少内存占用量和I/O消耗，提高DBSCAN的主要集中在全局参数的选择以及提高密度聚类效率计算效率，基于这些分析，本文提出一种改进的自等。DBSCAN全局参数选择根据k-dist曲线人工确适应快速算法(adaptive and fast density-based spatial 定，过程繁琐，实用性不高。其他基于统计分析的方 clustering of applications with noise,AF-DBSCAN), 法，部分以特定数据分布确定全局参数，而数据分布在以自适应方式确定合理的全局参数MinPts和存在不确定性，以特定分布规定不能准确反映数据 E即s,以及区域查询时选择部分具有代表性的对象作的分布特性，使计算出的全局参数不准确：提高密度为种子对象进行类扩展。改进算法描述如下：1)自聚类效率主要集中在区域查询中的代表对象的选适应确定全局参数Eps和MinPts;2)将所有点分类，择，但是选择的代表对象进行区域查询时存在丢失分别标记为核心点、边界点和噪声点；3)删除标记对象现象，对丢失对象进行查漏操作，一定程度上增处的噪声点：4)连接距离在Eps距离内的所有核心加了区域查询的复杂度。点，并归入到同一簇中：5)各个簇中的核心点对应种子代表对象的选择：6)遍历数据集，根据选择的 DBSCAN算法及改进算法代表对象进行区域查询，将边界点分入与之对应核 DBSCAN是一种经典的基于密度聚类算法[8]」心点的簇中。如果数据集中所有点都被处理，算法可以自动确定簇的数量，并能够发现任意形状的簇。结束。 Eps近邻表示一个给定对象的Eps半径内的近邻称 2AF-DBSCAN聚类算法为该对象的Eps近邻，表示为NEps(p): NEps(p)={q∈DI dist(p,q)≤Eps}(1) 2.1参数Eps与参数MinPts的确定直接密度可达是指对于给定的MinPts和Eps, 由于密度衡量指标单一，本文算法数据集主要从对象q可以直接密度可达P,需要满足的条件为针对簇密度差异不明显的数据。根据输入数据集D p∈NEps(q),I NEps(q)I≥MinPts(2) 计算出距离分布矩阵DIST,如式(3)所示： DBSCAN算法的全局参数MinPts和Eps的选 DIST={dist(i,ji)I1≤i≤n,1≤j≤n}(3) 取依赖于人工干预，对密度分布均匀的数据根据k 式中：n为数据集D的对象数目；DIST.xm是一个n dist曲线升序排列后，人为选择曲线变化幅度开始行和n列的实对称矩阵，其中每个元素表示数据集陡升的点作为Eps参数，并且确定MinPts参数为固 D中对象i和对象j之间的距离。计算DIST中定常量4，实施过程繁琐，依赖于人工干预。本文提的每个元素的值，然后逐行按照升序排列。用出一种全局参数自适应选择的方法，根据数据距离 DIST:表示DIST中第i列的的值，对DIST:中空间的统计分布特性，统计出k-dst值的分布情况. 每一列进行升序排列得到KNN分布，如图1所示。曲线拟合出分布曲线，通过计算拟合曲线拐点处对 3.0f 应的值，自适应确定出Es参数，并根据数据中每个 2.5 点Eps领域内点数的分布情况，计算出参数MinPts.。 DBSCAN以核心对象P来拓展一个簇，通过对 2.0 包含在P邻域内的点进行区域查询扩展簇。包含 1 在P邻域的对象相互交叉，Q是P的邻域内的一个 1.0 对象，如果它的邻域被P中其他对象的邻域所覆盖，那么Q的区域查询操作就可以省略，Q不需要 0.5 作为种子对象用于类的扩展。因此，用于Q的区域查询时间和Q作为核心对象的内存占用都可以被 0 20 406080100120140160 省去。而一个核心对象边界的对象更有利于作为候按k-dist距离升序排列数据点个数选对象被选为种子，因为内部对象邻域往往会被外图1KNN分布部对象的邻域覆盖。因此，抽样种子实际上是选择 Fig.1 KNN distribution 的代表对象能够准确描绘出核心对象邻域形状的问好等问题；Ｈ．Ｆ．Ｚｈｏｕ、Ｓ．Ｈ．Ｙｕｅ、Ｙ．Ｍａ、Ｓ．ＪＡ⁃ ＨＩＲＡＢＡＰＫＡＲ和Ｚ．Ｙ．Ｘｉｏｎｇ等［８⁃１２］基于数据的数学统计特性，确定全局参数；Ｂ．Ｌｉｕ［１３］提出一种基于密度的快速聚类方法，按照特定维的坐标排序，选择有序的未被标记的在核心对象邻域以外的点作为种子扩展簇。综上所述，基于密度聚类算法的改进点主要集中在全局参数的选择以及提高密度聚类效率等。ＤＢＳＣＡＮ全局参数选择根据ｋ⁃ｄｉｓｔ曲线人工确定，过程繁琐，实用性不高。其他基于统计分析的方法，部分以特定数据分布确定全局参数，而数据分布存在不确定性，以特定分布规定不能准确反映数据的分布特性，使计算出的全局参数不准确；提高密度聚类效率主要集中在区域查询中的代表对象的选择，但是选择的代表对象进行区域查询时存在丢失对象现象，对丢失对象进行查漏操作，一定程度上增加了区域查询的复杂度。１ＤＢＳＣＡＮ算法及改进算法ＤＢＳＣＡＮ是一种经典的基于密度聚类算法［８］，可以自动确定簇的数量，并能够发现任意形状的簇。Ｅｐｓ近邻表示一个给定对象的Ｅｐｓ半径内的近邻称为该对象的Ｅｐｓ近邻，表示为ＮＥｐｓ（ｐ）：ＮＥｐｓ（ｐ）＝｛ｑ ∈ Ｄ｜ｄｉｓｔ（ｐ，ｑ） ≤ Ｅｐｓ｝（１）直接密度可达是指对于给定的ＭｉｎＰｔｓ和Ｅｐｓ，从对象ｑ可以直接密度可达ｐ，需要满足的条件为ｐ ∈ ＮＥｐｓ（ｑ），｜ＮＥｐｓ（ｑ）｜ ≥ ＭｉｎＰｔｓ（２）ＤＢＳＣＡＮ算法的全局参数ＭｉｎＰｔｓ和Ｅｐｓ的选取依赖于人工干预，对密度分布均匀的数据根据ｋ⁃ ｄｉｓｔ曲线升序排列后，人为选择曲线变化幅度开始陡升的点作为Ｅｐｓ参数，并且确定ＭｉｎＰｔｓ参数为固定常量４，实施过程繁琐，依赖于人工干预。本文提出一种全局参数自适应选择的方法，根据数据距离空间的统计分布特性，统计出ｋ⁃ｄｉｓｔ值的分布情况，曲线拟合出分布曲线，通过计算拟合曲线拐点处对应的值，自适应确定出Ｅｐｓ参数，并根据数据中每个点Ｅｐｓ领域内点数的分布情况，计算出参数ＭｉｎＰｔｓ。ＤＢＳＣＡＮ以核心对象Ｐ来拓展一个簇，通过对包含在Ｐ邻域内的点进行区域查询扩展簇。包含在Ｐ邻域的对象相互交叉，Ｑ是Ｐ的邻域内的一个对象，如果它的邻域被Ｐ中其他对象的邻域所覆盖，那么Ｑ的区域查询操作就可以省略，Ｑ不需要作为种子对象用于类的扩展。因此，用于Ｑ的区域查询时间和Ｑ作为核心对象的内存占用都可以被省去。而一个核心对象边界的对象更有利于作为候选对象被选为种子，因为内部对象邻域往往会被外部对象的邻域覆盖。因此，抽样种子实际上是选择的代表对象能够准确描绘出核心对象邻域形状的问题。实际上，对于密度聚类，在核心对象邻域内相当一部分种子对象可以被忽略，选择核心对象边界的部分代表对象进行类的扩展，从而达到减少区域查询频度的目的。为了自适应确定合适的全局参数ＭｉｎＰｔｓ和Ｅｐｓ，减少内存占用量和Ｉ／Ｏ消耗，提高ＤＢＳＣＡＮ的计算效率，基于这些分析，本文提出一种改进的自适应快速算法（ａｄａｐｔｉｖｅａｎｄｆａｓｔｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｐａｔｉａｌｃｌｕｓｔｅｒｉｎｇｏｆａｐｐｌｉｃａｔｉｏｎｓｗｉｔｈｎｏｉｓｅ，ＡＦ⁃ＤＢＳＣＡＮ），旨在以自适应方式确定合理的全局参数ＭｉｎＰｔｓ和Ｅｐｓ，以及区域查询时选择部分具有代表性的对象作为种子对象进行类扩展。改进算法描述如下：１）自适应确定全局参数Ｅｐｓ和ＭｉｎＰｔｓ；２）将所有点分类，分别标记为核心点、边界点和噪声点；３）删除标记处的噪声点；４）连接距离在Ｅｐｓ距离内的所有核心点，并归入到同一簇中；５）各个簇中的核心点对应种子代表对象的选择；６）遍历数据集，根据选择的代表对象进行区域查询，将边界点分入与之对应核心点的簇中。如果数据集中所有点都被处理，算法结束。２ＡＦ⁃ＤＢＳＣＡＮ聚类算法２．１参数Ｅｐｓ与参数ＭｉｎＰｔｓ的确定由于密度衡量指标单一，本文算法数据集主要针对簇密度差异不明显的数据。根据输入数据集Ｄ计算出距离分布矩阵ＤＩＳＴｎ × ｎ，如式（３）所示：ＤＩＳＴｎ×ｎ＝｛ｄｉｓｔ（ｉ，ｊ）｜１ ≤ ｉ ≤ ｎ，１ ≤ ｊ ≤ ｎ｝（３）式中：ｎ为数据集Ｄ的对象数目；ＤＩＳＴｎ × ｎ是一个ｎ行和ｎ列的实对称矩阵，其中每个元素表示数据集Ｄ中对象ｉ和对象ｊ之间的距离。计算ＤＩＳＴｎ × ｎ中的每个元素的值，然后逐行按照升序排列。用ＤＩＳＴｎ × ｉ表示ＤＩＳＴｎ × ｎ中第ｉ列的的值，对ＤＩＳＴｎ × ｉ中每一列进行升序排列得到ＫＮＮ分布，如图１所示。图１ＫＮＮ分布Ｆｉｇ．１ＫＮＮｄｉｓｔｒｉｂｕｔｉｏｎ ·９４· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】一种改进的自适应快速AF-DBSCAN聚类算法编辑部