正在加载图片...
·900· 智能系统学报 第14卷 本集,则式(7)所定义的隶属函数等于式(8)所定 义的隶属函数。 4(X)= {k∈x (14) 根据以上可知,在E中模糊概念的隶属函数 可以由P,(x)和A:≥(x)来确定,这既考虑了模糊 式中:4m(X)表示数据样本模糊项m:的X,的模 性又考虑了随机性。根据文献[17],对于任意模 糊隶属度;m表示模糊项集合x中的每个模糊 糊概念专=∑Ⅱm∈E,对于任意x∈X,专的隶属 项;(巛)表示模糊项集合x的数据样本X的 函数被定义为 平均隶属度。 在AFS理论的基础上,为了更好地提取数据 Ha(x)=sup A:≥(x (9) 结构,在AFS空间中建立了距离测量,公式为 yeXx≥ay,YmeA u(x)=sup (10) (15) iel X 式中D,为式(13)所示基于公理化模糊集理论的 式中Pm是一个权重函数。 距离定义。 接着设样本集为X={m,,,xSR,X上的 2.2所提算法 一个特征集合F={f,f五,…,f,M={ml1≤i≤l,1≤ 在2.1小节中虽然利用AFS理论在谱聚类算法 j≤k}表示一组相对于特征的选择的k个模糊 中构建了新的距离度量,即A(x,x)=exp(-D/2r2) 概念的集合,m,m2,…,m是其中与特征f相对 但是高斯核函数中σ是一个人工指定的参数,为 应的一组简单模糊概念。在新的测度空间中,对 每个数据集指定一个合适的参数σ是一件很复 于每一个样本x,发现一个显著的模糊子集 杂的事,需要花费大量的时间和精力。本文将数 g=nm,以便g.有效地表示x,而不是整个模糊 据点的领域信息加入相似度的计算中,并结合共 集。这里,如果x属于m的隶属度大于某一阈 享近邻的思想,在AFS理论距离测量的基础上定 值,则模糊隶属函数用作特征的度量,m足够好 义了一个能够自适应得到尺度参数σ的高斯核 地将与其他值区分开。在这里定义: 函数一一基于AFS理论的共享近邻自适应高斯 B5={m∈Mlum(x)≥max{μm(c)}-e} (11) 核函数,其定义为 式中:s表示误差阈值20,在这里设s=0.3,通过 D i≠j 设定误差阈值避免了使用模糊隶属函数的不明显 A(xi,xi) exp ,(SNN(x,x)+1) 0,i=j 特征,使样本的表示方法能够更好地表达数据中 (16) 的底层语义结构,排除了噪声对数据样本特征的 式中σ:的取值由数据点:的K个最近邻确定, 干扰,若对误差阈值运用自适应策略,将明显增 通常为K=7。根据文献[22]可知,K的选择与 加算法的计算复杂度。考虑本文算法的总体性能 尺度参数无关,并且是嵌入空间数据维数的函 表现,实验中参考文献[20]中的经验数值进行设 数,通过K共享近邻的方法能够根据数据样本本 定。B表示关于数据样本x的全部的模糊项的 身之间的关系自适应的获得更加适合的尺度参 集合。然后将5描述为 数,避免了选取尺度参数给算法带来的不确定 .=tem (12) 性。其计算方法为 式中∧是AFS代数中的模糊隶属关系运算。通 0i= d(x,xm) (17) 过这样表示,所有理想的模糊项都结合在一起作 为样本表示。然后,通过AFS代数和AFS理论中 式中:σ:表示样本点x:和其K个最近邻距离的平 的模糊运算,结合模糊隶属度的关系,通过逻辑 均值;同理σ,表示样本点x和其K个最近邻距 运算的数据距离推理,将模糊集表示的另一个 离的平均值。SNN(x,x)表示样本点:和x在K 邻域内所共有的邻居个数。SNN(x,x)反映了x 描述样本的隶属度用作距离度量。根据AFS聚 类92训,对于两个数据样本X和X,它们之间的距 和x点的局部密度,可以用来提高数据点间的相 似性,有助于样本点正确的划分。 离定义为: 2.3所提算法流程 Dij=1-min Fx (X ),Fcs (Xj) (13) 算法公理化模糊共享近邻自适应谱聚类算本集,则式 (7) 所定义的隶属函数等于式 (8) 所定 义的隶属函数。 ργ (x) Ai ⩾ (x) ξ = ∑ i∈I ( Π γ∈Ai m ) ∈ E x ∈ X ξ 根据以上可知,在 E 中模糊概念的隶属函数 可以由 和 来确定,这既考虑了模糊 性又考虑了随机性。根据文献 [17],对于任意模 糊概念 ,对于任意 , 的隶属 函数被定义为 µξ (x) = sup i∈I { |Ai ⩾ (x)| |X| } (9) µξ (x)= sup i∈I    y ∈ X x⩾ρm y,∀m ∈ Ai |X|    (10) 式中 ρm 是一个权重函数。 X = {x1, x2,· · ·, xn} ⊆ R X F = {f1, f2,· · ·, fl} M = {mi, j |1 ⩽ i ⩽ l, 1 ⩽ j ⩽ ki} fi ki mi,1,mi,2,· · ·,mi,ki fi x ζx = Π m∈M m ζx x xk mi, j mi, j xk 接着设样本集为 , 上的 一个特征集合 , 表示一组相对于特征 的选择的 个模糊 概念的集合, 是其中与特征 相对 应的一组简单模糊概念。在新的测度空间中,对 于每一个样本 ,发现一个显著的模糊子集 ,以便 有效地表示 ,而不是整个模糊 集。这里,如果 属于 的隶属度大于某一阈 值,则模糊隶属函数用作特征的度量, 足够好 地将 与其他值区分开。在这里定义: B ε x = {m ∈ M |µm (x) ⩾ max{µm (x)}−ε} (11) ε ε = 0.3 B ε x x ζx 式中: 表示误差阈值[20] ,在这里设 ,通过 设定误差阈值避免了使用模糊隶属函数的不明显 特征,使样本的表示方法能够更好地表达数据中 的底层语义结构,排除了噪声对数据样本特征的 干扰,若对误差阈值运用自适应策略,将明显增 加算法的计算复杂度。考虑本文算法的总体性能 表现,实验中参考文献 [20] 中的经验数值进行设 定。 表示关于数据样本 的全部的模糊项的 集合。然后将 描述为 ζx = ∧ m∈Bε x m (12) ∧ Xi Xj 式中 是 AFS 代数中的模糊隶属关系运算。通 过这样表示,所有理想的模糊项都结合在一起作 为样本表示。然后,通过 AFS 代数和 AFS 理论中 的模糊运算,结合模糊隶属度的关系,通过逻辑 运算的数据距离推理,将模糊集表示的另一个 描述样本的隶属度用作距离度量。根据 AFS 聚 类 [19-21] ,对于两个数据样本 和 ,它们之间的距 离定义为: Di j = 1−min{ µ¯ ζXi (Xi),µ¯ ζXj ( Xj ) } (13) µ¯ ζXi ( Xj ) =    mk ∈ ζXi ∑N k=1 µmk ( Xj ) N    (14) µmk ( Xj ) mk Xj mk ζXi µ¯ ζXi ( Xj ) ζXi Xj 式中: 表示数据样本模糊项 的 的模 糊隶属度; 表示模糊项集合 中的每个模糊 项; 表示模糊项集合 的数据样本 的 平均隶属度。 在 AFS 理论的基础上,为了更好地提取数据 结构,在 AFS 空间中建立了距离测量,公式为 A ( xi , xj ) = exp( − Di j 2 2σ2 ) (15) 式中 Di j 为式 (13) 所示基于公理化模糊集理论的 距离定义。 2.2 所提算法 A ( xi , xj ) = exp( −Di j 2 /2σ 2 ) σ σ σ 在 2.1 小节中虽然利用 AFS 理论在谱聚类算法 中构建了新的距离度量,即 , 但是高斯核函数中 是一个人工指定的参数,为 每个数据集指定一个合适的参数 是一件很复 杂的事,需要花费大量的时间和精力。本文将数 据点的领域信息加入相似度的计算中,并结合共 享近邻的思想,在 AFS 理论距离测量的基础上定 义了一个能够自适应得到尺度参数 的高斯核 函数——基于 AFS 理论的共享近邻自适应高斯 核函数,其定义为 A ( xi , xj ) =    exp( − Di j 2 σiσj ( SNN( xi , xj ) +1 ) ) , i , j 0, i = j (16) σi xi K = 7 K K 式中 的取值由数据点 的 K 个最近邻确定, 通常为 [22]。根据文献 [22] 可知, 的选择与 尺度参数无关,并且是嵌入空间数据维数的函 数,通过 共享近邻的方法能够根据数据样本本 身之间的关系自适应的获得更加适合的尺度参 数,避免了选取尺度参数给算法带来的不确定 性。其计算方法为 σi = 1 K ∑K m=1 d (xi , xm) (17) σi xi K σj xj SNN( xi , xj ) xi xj K SNN( xi , xj ) xi xj 式中: 表示样本点 和其 个最近邻距离的平 均值;同理 表示样本点 和其 K 个最近邻距 离的平均值。 表示样本点 和 在 邻域内所共有的邻居个数。 反映了 和 点的局部密度,可以用来提高数据点间的相 似性,有助于样本点正确的划分。 2.3 所提算法流程 算法 公理化模糊共享近邻自适应谱聚类算 ·900· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有