正在加载图片...
第1期 周治平,等:一种改进的自适应快速AF-DBSCAN聚类算法 ·95· 图1中,k=1,2,…,45,根据k-dist分布曲线可 其中,高斯曲线拟合方法的效果最佳,但是由 以看出,k=4的dist,曲线可以反映出其他dist曲线 于概率分布的拟合精度过低,不可用于全局参数 的形状。本文选择k=4的dist(k-最近邻距离)的 Eps的估计。拟合结果为SSE:312.7,R-square: 数据进行统计分析,dist,的概率分布图2所示。 0.6755,调整R-square:0.6514,RMSE:3.403,参数 SSE和RMSE越接近0拟合越准确;R-square和调 0.20 整后的R-square越接近于1越准确;高斯拟合曲线 0.18 0.16 如式(4)所示: 0.14 f(x)=a x exp(-((x-b)/c)2) (4) 0.12 0.10 根据KNN升序排列曲线确定Eps,对dist,曲线 0.08 进行拟合。对于升序排列得到KNN分布数据,采用 0.06 0.04 3种拟合方法进行曲线拟合。实验发现高斯拟合精 0.02 02030405000700 度高,但拟合阶数高,计算复杂度高:傅里叶拟合精 0.1 度不高:而多项式拟合不仅拟合阶数低,而且拟合精 归一化k-dist值 度高,计算复杂度低,拟合结果为SSE:0.04636,R 图2dist,(k=4)概率分布 square:0.9883,调整R-square:0.988,RMSE: Fig.2 Probability distribution of dist (k=4) 从图1可以看出,任何一条曲线都是在平缓变 0.01788,如图4所示。多项式曲线拟合如式(5) 化后急剧上升,dist中大部分值落在一个比较密集 所示。 f(x)=ax bx cx2+dx +e (5) 的区域内,因此可以判断ds,中大部分值应落在一 个比较密集的区域内(曲线平缓段)。如果可以通 1.0 ·isk升序排列数据点· 0.9 一多项式拟合 过数学方法找出dist,中平缓变化到急剧上升处的 0.8 点,或者dist概率分布最为密集的区域,则可确定扫 描半径参数Eps,所以本文选择图1中dist拐点处 的值为Eps。由图2可以得到dist的概率分布情 单0.5 况,假如能够通过数学方法找到分布曲线的峰值,也 04 可以用峰值点所对应的k-最近邻距离值(横坐标刻 0.3 度)作为Eps。 0.2 对于概率分布数据,通过分析数据集的统计特 0.1 50 100 150 性,建立统计模型对数据集进行曲线拟合[4。本文 升序排列数据点个数 通过实验对概率分布使用傅里叶、高斯和多项式3 图4多项式拟合曲线 种典型曲线拟合方法,如图3所示。 Fig.4 Polynomial fitting curves 25 归一化KNN距离分布 根据多项式拟合曲线,求解曲线的拐点,对y 多项式拟合 20 傅里叶拟合 求二次导可得f(x)”=12ax2+6bx+2c,求解二次导方 高斯拟合 15 程得x的解为,=-6±V36-96a 。由于较小的 24a 10 值为靠近边界的点,取x解中较大的值,舍去较小的 值,将其带入式(5),可以得到Eps=f八xo)。Eps确 定后,需要确定MinPts的值。根据每个点邻域数据 点的统计分布特性,依次计算出每个点的Es邻域 的对象数量:计算数据对象的数学期望,即MinPts, 0.2 0.40.6 0.8 1.0 如式(6)所示: 归一化k-dist值 (6) 图3归一化KNN分布拟合曲线 n i=1 Fig.3 Fitting curves of normalized KNN distribution 式中:P,表示在点i的Eps邻域的点数。图 1 中,k = 1,2,…,45,根据 k⁃dist 分布曲线可 以看出,k = 4 的 dist 4曲线可以反映出其他 dist k曲线 的形状。 本文选择 k = 4 的 dist k( k⁃最近邻距离) 的 数据进行统计分析,dist 4 的概率分布图 2 所示。 图 2 distk(k= 4)概率分布 Fig.2 Probability distribution of distk(k= 4) 从图 1 可以看出,任何一条曲线都是在平缓变 化后急剧上升,dist k中大部分值落在一个比较密集 的区域内,因此可以判断 dist k中大部分值应落在一 个比较密集的区域内(曲线平缓段)。 如果可以通 过数学方法找出 dist k中平缓变化到急剧上升处的 点,或者 dist k概率分布最为密集的区域,则可确定扫 描半径参数 Eps,所以本文选择图 1 中 dist k拐点处 的值为 Eps。 由图 2 可以得到 dist k 的概率分布情 况,假如能够通过数学方法找到分布曲线的峰值,也 可以用峰值点所对应的 k⁃最近邻距离值(横坐标刻 度)作为 Eps。 对于概率分布数据,通过分析数据集的统计特 性,建立统计模型对数据集进行曲线拟合[14] 。 本文 通过实验对概率分布使用傅里叶、高斯和多项式 3 种典型曲线拟合方法,如图 3 所示。 图 3 归一化 KNN 分布拟合曲线 Fig.3 Fitting curves of normalized KNN distribution 其中,高斯曲线拟合方法的效果最佳,但是由 于概率分布的拟合精度过低,不可用于全局参数 Eps 的 估 计。 拟 合 结 果 为 SSE: 312. 7, R⁃square: 0.675 5,调整 R⁃square:0.651 4,RMSE:3.403,参数 SSE 和 RMSE 越接近 0 拟合越准确;R⁃square 和调 整后的 R⁃square 越接近于 1 越准确;高斯拟合曲线 如式(4)所示: f(x) = a × exp( - ((x - b) / c) 2 ) (4) 根据 KNN 升序排列曲线确定 Eps,对 dist 4 曲线 进行拟合。 对于升序排列得到 KNN 分布数据,采用 3 种拟合方法进行曲线拟合。 实验发现高斯拟合精 度高,但拟合阶数高,计算复杂度高;傅里叶拟合精 度不高;而多项式拟合不仅拟合阶数低,而且拟合精 度高,计算复杂度低,拟合结果为 SSE:0.046 36,R⁃ square: 0.988 3, 调 整 R⁃square: 0.988, RMSE: 0.017 88,如图 4 所示。 多项式曲线拟合如式( 5) 所示。 f(x) = ax 4 + bx 3 + cx 2 + dx + e (5) 图 4 多项式拟合曲线 Fig.4 Polynomial fitting curves 根据多项式拟合曲线,求解曲线的拐点,对 y 求二次导可得 f(x)″= 12ax 2+6bx+2c,求解二次导方 程得 x 的解为 x0 = -6b± 36b 2-96ac 24a 。 由于较小的 值为靠近边界的点,取 x 解中较大的值,舍去较小的 值,将其带入式(5),可以得到 Eps = f( x0 )。 Eps 确 定后,需要确定 MinPts 的值。 根据每个点邻域数据 点的统计分布特性,依次计算出每个点的 Eps 邻域 的对象数量;计算数据对象的数学期望,即 MinPts, 如式(6)所示: MinPts = 1 n ∑ n i = 1 Pi (6) 式中:Pi 表示在点 i 的 Eps 邻域的点数。 第 1 期 周治平,等:一种改进的自适应快速 AF⁃DBSCAN 聚类算法 ·95·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有