【知识工程】基于对象变化的邻域决策粗糙集动态更新算法

团购合买资源类别：文库，文档格式：PDF，文档页数：11，文件大小：2.98MB

第16卷第4期智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202010028 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20210409.1403.008.html 基于对象变化的邻域决策粗糙集动态更新算法孙海霞 (安徽三联学院计算机工程学院，安徽合肥230601) 摘要：针对现实环境下数据集不断动态变化的特性，提出一种邻域决策粗糙集模型的增量式更新算法。采用由简单到复杂的研究思路，分析了邻域型信息系统论域增加和减少单个对象时，目标近似集与邻域类之间概率的变化规律，进一步地利用这种规律来构造单个对象变化时邻域决策粗糙集模型上下近似集的增量式更新，在单个对象变化的基础上，通过逐步迭代的方式设计了对象批量变化时的增量式更新算法。实验分析表明，所提出的算法具有较高的增量式更新性能，适用于动态数据环境下邻域决策粗糙集模型的动态更新。关键词：粗糙集：决策粗糙集：邻域：增量式学习：近似集：对象：迭代：动态中图分类号：TP18 文献标志码：A 文章编号：1673-4785(2021)04-0746-11 中文引用格式：孙海霞.基于对象变化的邻域决策粗糙集动态更新算法J机.智能系统学报，2021,16(4)：746-756. 英文引用格式：SUN Haixia.Dynamic updating algorithm of neighborhood decision-theoretic rough set model based on object change[J].CAAI transactions on intelligent systems,2021,16(4):746-756. Dynamic updating algorithm of neighborhood decision-theoretic rough set model based on object change SUN Haixia (College of Computer Engineering,Anhui Sanlian University,Hefei 230601,China) Abstract:In accordance with the dynamic characteristics of a dataset in a real environment,an incremental updating al- gorithm of the neighborhood decision-theoretic rough set model is proposed after conducting simple to complex re- search.In this paper,the change law of the probability between the target approximation set and the neighborhood class is first analyzed in the context of the domain of the neighborhood information system increasing or decreasing individu- al objects,which is then adopted to construct the incremental updating of the upper and lower approximation sets of the neighborhood decision-theoretic rough set model.On the basis of the change of a single object and given the variety of multiple objects,an incremental updating algorithm is designed through step-by-step iteration.Experimental results show that the proposed algorithm has a high incremental updating performance,thereby making it suitable for the dy- namic updating of the neighborhood decision-theoretic rough set model in a dynamic data environment. Keywords:rough set;decision-theoretic rough set;neighborhood,incremental learning;approximation set,object;itera- tion:dynamic 粗糙集理论是当今知识发现领域的一个研究早期的决策粗糙集建立在完备离散型的信热点，决策粗糙集模型是粗糙集理论的重要研息系统上，在其基础上，学者们进一步地提出了究分支，由于决策粗糙集在处理噪声数据方面具有多种扩展的粗糙集模型，例如Lu等m将决策粗较好的泛化性能，因此目前已广泛应用于机器糙集推广至不完备信息系统，提出一种改进的不学习、图像处理和数据挖掘等诸多领域。完备决策粗糙集模型；Sun等8)在粗糙模糊集下收稿日期：2020-10-26.网络出版日期：2021-04-09. 提出了相应的决策粗糙集模型；Dou等)基于多基金项目：安徽省质量工程项目(2020ZYRC063,2020XSKT151): 省教育厅高校自然科学重点项目(KJ2019A0891). 个代价的策略，提出了多代价的决策粗糙集模通信作者：孙海霞.E-mail:wangbol9855@163.com. 型；在数值型的数据集方面，Li等0将邻域关系

DOI: 10.11992/tis.202010028 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210409.1403.008.html 基于对象变化的邻域决策粗糙集动态更新算法孙海霞（安徽三联学院计算机工程学院，安徽合肥 230601）摘要：针对现实环境下数据集不断动态变化的特性，提出一种邻域决策粗糙集模型的增量式更新算法。采用由简单到复杂的研究思路，分析了邻域型信息系统论域增加和减少单个对象时，目标近似集与邻域类之间概率的变化规律，进一步地利用这种规律来构造单个对象变化时邻域决策粗糙集模型上下近似集的增量式更新，在单个对象变化的基础上，通过逐步迭代的方式设计了对象批量变化时的增量式更新算法。实验分析表明，所提出的算法具有较高的增量式更新性能，适用于动态数据环境下邻域决策粗糙集模型的动态更新。关键词：粗糙集；决策粗糙集；邻域；增量式学习；近似集；对象；迭代；动态中图分类号：TP18 文献标志码：A 文章编号：1673−4785(2021)04−0746−11 中文引用格式：孙海霞. 基于对象变化的邻域决策粗糙集动态更新算法 [J]. 智能系统学报, 2021, 16(4): 746–756. 英文引用格式：SUN Haixia. Dynamic updating algorithm of neighborhood decision-theoretic rough set model based on object change[J]. CAAI transactions on intelligent systems, 2021, 16(4): 746–756. Dynamic updating algorithm of neighborhood decision-theoretic rough set model based on object change SUN Haixia (College of Computer Engineering, Anhui Sanlian University, Hefei 230601, China) Abstract: In accordance with the dynamic characteristics of a dataset in a real environment, an incremental updating algorithm of the neighborhood decision-theoretic rough set model is proposed after conducting simple to complex research. In this paper, the change law of the probability between the target approximation set and the neighborhood class is first analyzed in the context of the domain of the neighborhood information system increasing or decreasing individual objects, which is then adopted to construct the incremental updating of the upper and lower approximation sets of the neighborhood decision-theoretic rough set model. On the basis of the change of a single object and given the variety of multiple objects, an incremental updating algorithm is designed through step-by-step iteration. Experimental results show that the proposed algorithm has a high incremental updating performance, thereby making it suitable for the dynamic updating of the neighborhood decision-theoretic rough set model in a dynamic data environment. Keywords: rough set; decision-theoretic rough set; neighborhood; incremental learning; approximation set; object; iteration; dynamic 粗糙集理论是当今知识发现领域的一个研究热点，决策粗糙集模型[1-2] 是粗糙集理论的重要研究分支，由于决策粗糙集在处理噪声数据方面具有较好的泛化性能[2] ，因此目前已广泛应用于机器学习[3-4] 、图像处理[5] 和数据挖掘[6] 等诸多领域。早期的决策粗糙集建立在完备离散型的信息系统上，在其基础上，学者们进一步地提出了多种扩展的粗糙集模型，例如 Liu 等 [7] 将决策粗糙集推广至不完备信息系统，提出一种改进的不完备决策粗糙集模型；Sun 等 [8] 在粗糙模糊集下提出了相应的决策粗糙集模型；Dou 等 [9] 基于多个代价的策略，提出了多代价的决策粗糙集模型；在数值型的数据集方面，Li 等 [10] 将邻域关系收稿日期：2020−10−26. 网络出版日期：2021−04−09. 基金项目：安徽省质量工程项目 (2020ZYRC063，2020XSKT151)；省教育厅高校自然科学重点项目 (KJ2019A0891). 通信作者：孙海霞. E-mail：wangbo19855@163.com. 第 16 卷第 4 期智能系统学报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021

第4期孙海霞：基于对象变化的邻域决策粗糙集动态更新算法 ·747· 融入决策粗糙集模型中，提出了邻域决策粗糙 1邻域决策粗糙集模型集模型，该模型进一步提升了决策粗糙集的适用范围。粗糙集理论中，数据集表示为信息系统然而现实环境下的数据不总是静止不变的， IS=(U,AT)的形式，其中U为信息系统的对象集，而是时刻处于动态更新之中，为了提高粗糙集模称为论域。AT称为信息系统的属性集，若属性集型在动态数据下的处理效率，学者们对其提出了 AT可分为条件属性集C和决策属性集D,即多种增量式的模型和算法。在决策粗糙集等 AT=CUD,那么该信息系统又称为决策信息系统。对于x∈U和Ya∈AT,a(x)表示对象x在属模型中，学者们同样提出了多种增量式更新算性a下的属性值。当条件属性集C中的每个属性法。例如，Zhang等针对属性值动态变化情形都为数值型属性时，此信息系统又称之为邻域型提出了相应的增量式更新算法；针对流计算环信息系统。境，Xu等提出了对象在线增加和减少时的增 Yao等2】提出的决策粗糙集仅应用于离量式更新算法；Chen等a利用集合更新的方法设散型的信息系统，L等将邻域关系引人传统的决计出了决策粗糙集的增量式更新算法；赵小龙策粗糙集模型中，提出了邻域决策粗糙集。等针对数值型信息系统，研究了邻域粒化条件定义10设邻域型信息系统IS=(U,AT),对嫡随对象增加和减少时的增量式更新，并进一步于属性集A二AT确定的邻域关系定义为地提出了对应的增量式属性约简算法：杨臻等⑧研 Ng={(x,y)∈U×Ul△a(x,y)≤6} 究了混合型信息系统下对象变化时概率的增量式式中：6称为邻域半径，是一个非负常数；△(x,y) 更新，并进一步地提出了变精度粗糙集模型的增表示对象x与对象y之间的闵可夫斯基距离，定量式更新；Luo等9通过矩阵方法构造出了决策义为粗糙集的增量式更新算法。然而所提出的这些增 1/ 量式更新算法仅局限于离散数据环境下的决策粗 △A(,y a(x)-a(y) 糙集模型，针对邻域型的决策粗糙集还未有相关给定邻域信息系统的邻域关系，可以进一步研究。得到每个对象在该邻域关系下的邻域类。论域中对象的增加和减少是信息系统最为常定义20设邻域型信息系统IS=(U,AT),属见的一种变化形式，本文将针对这类问题进行邻性集ACAT确定的邻域关系为N,邻域半径为域决策粗糙集的增量式更新研究。邻域决策粗糙 6。那么对于x∈U在邻域关系W下的邻域类定集通过邻域关系来对数值型数据进行信息粒化，义为而对其进行增量式计算时必然涉及邻域类的更新 6a(x)={y∈UI(x,y)∈N} 计算，邻域关系不同于传统的等价关系和容差关可以看出，对象x的邻域类表示与x相近对系，其增量式计算的复杂程度要更高。在文献[18] 象的集合，其中6体现了相近的程度。基于邻域中，杨臻等通过单个对象逐步迭代的方式去处理的思想，Li等0提出了邻域决策粗糙集。混合型信息系统变精度粗糙集模型的增量式更在邻域决策粗糙集中，给定状态集2={XX, 新，使得问题的处理方式简便高效。由于决策粗其中X和X分别表示对象x隶属于X和X的两糙集与变精度粗糙集有一定的相似性，因此本文种情形，那么对象x隶属于X的程度可通过概率将借鉴文献[18]中关于变精度粗糙集模型的增量 PX》=Kn6来表示，则对象x隶属于x的式更新研究思路与方法，构造出邻域决策粗糙集 6(x)1 程度可表示为PX6(x)=1-PXI6(x)。给定对象的增量式更新模型。文中首先分别研究论域中增 x划分入X和X时的3种动作T={ap,a,aw,其加和减少一个对象时，近似集与邻域类之间概率中ap、as和aw分别表示划分入类别的正区域、边的变化规律，然后根据这种规律来构造单个对象界域和负区域。这里令AP(∈{P,B,W)分别表示变化时模型上下近似集的增量式更新，最后在单对象x实际属于X时采取ap、as和aw动作时所个对象变化的基础上，通过逐步迭代的方式设计产生的决策代价，w(*∈(PB,W)分别表示对象x 了对象批量变化时的增量式更新算法。实验分析实际属于X时采取ap、as和aw动作时所产生的表明，所提出的算法具有较高的增量式更新性决策代价。因此对于对象x进行不同决策动作时能，适用于动态数据环境下邻域决策粗糙集模型所产生的的代价为：的动态更新。 1)Rp=R(apl6(x)=App·P(XI6x)+APw·PXox)

融入决策粗糙集模型中，提出了邻域决策粗糙集模型，该模型进一步提升了决策粗糙集的适用范围。然而现实环境下的数据不总是静止不变的，而是时刻处于动态更新之中，为了提高粗糙集模型在动态数据下的处理效率，学者们对其提出了多种增量式的模型和算法[11-13]。在决策粗糙集等模型中，学者们同样提出了多种增量式更新算法。例如，Zhang 等 [14] 针对属性值动态变化情形提出了相应的增量式更新算法；针对流计算环境，Xu 等 [15] 提出了对象在线增加和减少时的增量式更新算法；Chen 等 [16] 利用集合更新的方法设计出了决策粗糙集的增量式更新算法；赵小龙等 [17] 针对数值型信息系统，研究了邻域粒化条件熵随对象增加和减少时的增量式更新，并进一步地提出了对应的增量式属性约简算法；杨臻等[18] 研究了混合型信息系统下对象变化时概率的增量式更新，并进一步地提出了变精度粗糙集模型的增量式更新；Luo 等 [19] 通过矩阵方法构造出了决策粗糙集的增量式更新算法。然而所提出的这些增量式更新算法仅局限于离散数据环境下的决策粗糙集模型，针对邻域型的决策粗糙集还未有相关研究。论域中对象的增加和减少是信息系统最为常见的一种变化形式，本文将针对这类问题进行邻域决策粗糙集的增量式更新研究。邻域决策粗糙集通过邻域关系来对数值型数据进行信息粒化[10] ，而对其进行增量式计算时必然涉及邻域类的更新计算，邻域关系不同于传统的等价关系和容差关系，其增量式计算的复杂程度要更高。在文献 [18] 中，杨臻等通过单个对象逐步迭代的方式去处理混合型信息系统变精度粗糙集模型的增量式更新，使得问题的处理方式简便高效。由于决策粗糙集与变精度粗糙集有一定的相似性，因此本文将借鉴文献 [18] 中关于变精度粗糙集模型的增量式更新研究思路与方法，构造出邻域决策粗糙集的增量式更新模型。文中首先分别研究论域中增加和减少一个对象时，近似集与邻域类之间概率的变化规律，然后根据这种规律来构造单个对象变化时模型上下近似集的增量式更新，最后在单个对象变化的基础上，通过逐步迭代的方式设计了对象批量变化时的增量式更新算法。实验分析表明，所提出的算法具有较高的增量式更新性能，适用于动态数据环境下邻域决策粗糙集模型的动态更新。 1 邻域决策粗糙集模型 IS = (U,AT) U AT AT C D AT = C ∪ D ∀x ∈ U ∀a ∈ AT a(x) x a C 粗糙集理论中，数据集表示为信息系统的形式，其中为信息系统的对象集，称为论域。称为信息系统的属性集，若属性集可分为条件属性集和决策属性集，即，那么该信息系统又称为决策信息系统。对于和，表示对象在属性下的属性值。当条件属性集中的每个属性都为数值型属性时，此信息系统又称之为邻域型信息系统。 Yao 等 [ 1 - 2 ] 提出的决策粗糙集仅应用于离散型的信息系统，Li 等将邻域关系引入传统的决策粗糙集模型中，提出了邻域决策粗糙集[10]。 IS = (U,AT) A ⊆ AT N δ A 定义 1 [10] 设邻域型信息系统，对于属性集确定的邻域关系定义为 N δ A = {(x, y) ∈ U ×U |∆A(x, y) ⩽ δ } δ ∆A(x, y) x y 式中：称为邻域半径，是一个非负常数；表示对象与对象之间的闵可夫斯基距离，定义为 ∆A(x, y) =   ∑ ∀a∈A |a(x)−a(y)| k   1/k 给定邻域信息系统的邻域关系，可以进一步得到每个对象在该邻域关系下的邻域类。 IS = (U,AT) A ⊆ AT N δ A δ ∀x ∈ U N δ A 定义 2 [10] 设邻域型信息系统，属性集确定的邻域关系为，邻域半径为。那么对于在邻域关系下的邻域类定义为 δA(x) = {y ∈ U|(x, y) ∈ N δ A } x x δ 可以看出，对象的邻域类表示与相近对象的集合，其中体现了相近的程度。基于邻域的思想，Li 等 [10] 提出了邻域决策粗糙集。 Ω = {X,X c } X X c x X X c x X P(X|δ(x)) = |X ∩δ(x)| |δ(x)| x X c P(X c |δ(x)) = 1− P(X|δ(x)) x X X c Γ = {aP,aB,aN} aP aB aN λ∗P(∗ ∈ {P,B,N}) x X aP aB aN λ∗N(∗ ∈ {P,B,N}) x X c aP aB aN x 在邻域决策粗糙集中，给定状态集，其中和分别表示对象隶属于和的两种情形，那么对象隶属于的程度可通过概率来表示，则对象隶属于的程度可表示为。给定对象划分入和时的 3 种动作，其中、和分别表示划分入类别的正区域、边界域和负区域。这里令分别表示对象实际属于时采取、和动作时所产生的决策代价，分别表示对象实际属于时采取、和动作时所产生的决策代价。因此对于对象进行不同决策动作时所产生的的代价为： RP = R(aP|δ(x))= λPP · P(X|δ(x))+λPN · P(X c 1) |δ(x)) ; 第 4 期孙海霞：基于对象变化的邻域决策粗糙集动态更新算法 ·747·

第4期孙海霞：基于对象变化的邻域决策粗糙集动态更新算法 ·749· 由定理1可以得到示的下近似集增量式更新具有较高的计算效率。 P(X*1 (x))=P(X16(x))>a 类似于定理2的研究方法，接下来可以进一同样有x∈Nm(X)。所以对于Yx∈N(X) 步得到上近似集的增量式更新。都有x∈V(X),即Va(X)SN(X)。定理3设邻域型信息系统IS=(U,AT),邻域对于Hx∈U-Na(),若x∈U-6(x),由定半径为6。对于XYSU关于属性集ASAT的邻理1可得PX6(x)=P(X6(x)≤a。那么此时域决策粗糙上近似分别为N(X)和N(Y。当 xEN(X+)。信息系统论域U增加对象x*,新的邻域型信息系若x∈6(x)-{x,根据定理1可得统表示为IS*=(U=UU{x*h,AT)。若X,YSU P(X6W(x)≥P(X6(x) 且X=XU},Y=Y,那么X,Y+关于属性集而P(X6以(x)≤a,因此P(X69(x)与a的大 A二AT的邻域决策粗糙上近似增量式更新为小无法确定，只有当P(X6(x》>a时 1)N”(X)=N(XU x∈N(X+)。也就是说，只需对x∈(x)-Wa(X) 中的对象进行具体的计算便可以完成最终的下近 {xe6)-N(XPX*6》≥B卧似更新，因此 2N”(Y=(N(Y- N(X)=N(X)U xEN()o(P(Y()a] {x∈{x*HPY6g(x)≥B\ 即1)成立。证明证明过程同定理2。 2)对于Yx∈U-N(),都有P(YI6(x》≤ 定理3类似于定理2，更新上近似集时也只需 a。那么根据定理1，当x∈(x)-{x}时，有要针对部分对象集进行计算便可完成，例如从 P(Y6g(x)a。根据加一个对象时，邻域决策粗糙上下近似的增量式定理1，当xe(x)-{x时，有更新问题，当信息系统通过增加多个对象，可以 P(Y+l6g(x)a。根据定理2和定理3逐步进行迭代，直至完成最因此PY6(x)与α的大小无法确定。终的更新。当x∈U-g(x)时，有 2.2论域中对象减少时模型的增量式更新 P(Y(x))=P(Y164(x))>a 类似于第2.1节中研究方法，本节将进一步即x∈Nm(Y),则需要对x∈(x)-{x*}中提出论域中对象减少时模型的增量式更新，首先的对象计算P(Yg(x)可得到新的下近似结分析对象减少时概率的变化关系。果，即定理48I设邻域型信息系统IS=(U,AT),邻 N(Y+)=(W(Y)- 域半径为6且属性集ASAT。当信息系统论域U {x∈Na(Y)ng(x*)P(Y*l6g(x)≤aU 移除对象x,x∈U,新的邻域型信息系统表示为 {x∈{x*IP(Y*16g(x》>a IS=(U=U-{xh,AT)。令以(x)表示对象Yx∈U 定理2证明完毕。在论域U下的邻域类，令(x)表示对象Hx∈U 定理2表明，当信息系统增加一个对象后，新在论域U下的邻域类。对于XYsU,若的邻域决策粗糙下近似集变化呈现一定的规律， X,Y-≤U-且X=X-{x},Y-=Y。那么满足例如从N(X)更新至N(X),其近似集是增大 1)Yx∈6(x)-{x1,有的，并且增加的对象集只来源于对象集(x)- P(X16g(x)≤PX(x) (X),因此只需对这里面的对象进行概率 P(Y16(x)>P(Y16(x) P(Xl6(x)计算，便可得到最终的更新结果，这样 2)x∈U-6(x),有大幅度减小了计算量。同样地对于()更新 P(X-1 (x))=P(X18(x)) 至Y(Y),只需对Yam(Y)ng(r)中的对象进 P(Y-1(x))=P(Y14(x)) 行相关计算便可以完成最终更新，所以定理2所定理4给出信息系统论域U移除一个对象

由定理 1 可以得到 P(X + |δ U + A (x)) = P(X|δ U A (x)) > α x ∈ N (α,β) A (X + ) ∀x ∈ N (α,β) A (X) x ∈ N (α,β) A (X + ) N (α,β) A (X) ⊆ N (α,β) A (X + ) 同样有。所以对于都有，即。 ∀x ∈ U −N (α,β) A (X) x ∈ U + −δ U + A (x + ) P(X + |δ U + A (x)) = P(X|δ U A (x)) ⩽ α x α x ∈ N (α,β) A (X + ) x ∈ δ U + A (x + )−N (α,β) A (X) 而，因此与的大小无法确定，只有当时。也就是说，只需对中的对象进行具体的计算便可以完成最终的下近似更新，因此 N (α,β) A (X + ) = N (α,β) A (X)∪ {x ∈ δ U + A (x + )−N (α,β) A (X)|P(X + |δ U + A (x)) > α} 即 1) 成立。 ∀x ∈ U −N (α,β) A (Y) P(Y|δ U A (x)) ⩽ α x ∈ δ U + A (x + )− {x + } 2 ) 对于，都有。那么根据定理 1，当时，有 P(Y + |δ U + A (x)) α x ∈ δ U + A (x + )− {x + } 对于，都有。根据定理 1，当时，有 P(Y + |δ U + A (x)) α。 P(Y + |δ U + A 因此 (x)) 与 α 的大小无法确定。 x ∈ U + −δ U + A (x + 当 ) 时，有 P(Y + |δ U + A (x)) = P(Y|δ U A (x)) > α x ∈ N (α,β) A (Y + ) x ∈ δ U + A (x + )− {x + } P(Y + |δ U + A (x)) 即，则需要对中的对象计算可得到新的下近似结果，即 N (α,β) A (Y + ) = (N (α,β) A (Y)− {x ∈ N (α,β) A (Y)∩δ U + A (x + )|P(Y + |δ U + A (x)) ⩽ α})∪ {x ∈ {x + }|P(Y + |δ U + A (x)) > α} 定理 2 证明完毕。 N (α,β) A (X) N (α,β) A (X + ) δ U + A (x + )− N (α,β) A (X) P(X + |δ U + A (x)) N (α,β) A (Y) N (α,β) A (Y + ) N (α,β) A (Y)∩δ U + A (x + ) 定理 2 表明，当信息系统增加一个对象后，新的邻域决策粗糙下近似集变化呈现一定的规律，例如从更新至，其近似集是增大的，并且增加的对象集只来源于对象集，因此只需对这里面的对象进行概率计算，便可得到最终的更新结果，这样大幅度减小了计算量。同样地对于更新至，只需对中的对象进行相关计算便可以完成最终更新，所以定理 2 所示的下近似集增量式更新具有较高的计算效率。类似于定理 2 的研究方法，接下来可以进一步得到上近似集的增量式更新。 IS = (U,AT) δ X,Y ⊆ U A ⊆ AT N (α,β) A (X) N (α,β) A (Y) U x + IS+ = (U + = U ∪ {x + },AT) X + ,Y + ⊆ U + X + = X ∪ {x + } Y + = Y X + ,Y + A ⊆ AT 定理 3 设邻域型信息系统，邻域半径为。对于关于属性集的邻域决策粗糙上近似分别为和。当信息系统论域增加对象，新的邻域型信息系统表示为。若且，，那么关于属性集的邻域决策粗糙上近似增量式更新为 1)N (α,β) A (X + ) = N (α,β) A (X)∪ {x ∈ δ U + A (x + )−N (α,β) A (X)|P(X + |δ U + A (x)) ⩾ β} 2)N (α,β) A (Y + ) = (N (α,β) A (Y)− {x ∈ N (α,β) A (Y)∩δ U + A (x + )|P(Y + |δ U + A (x)) P(Y|δ U A (x)) ∀x ∈ U −δ U A (x − 2) ),有 P(X − |δ U − A (x)) = P(X|δ U A (x)) P(Y − |δ U − A (x)) = P(Y|δ U A (x)) 定理 4 给出信息系统论域 U 移除一个对象第 4 期孙海霞：基于对象变化的邻域决策粗糙集动态更新算法 ·749·

·750· 智能系统学报第16卷后，近似集在不同对象下的概率变化关系，有了若对象x∈U-(x),那么由定理4可得到这种变化作为基础，接下来可以很容易得到邻域 P(Y-16 (x))=P(Yl64(x))a) 同样地对于Y(Y)更新至N(Y),也只需对一证明1)对于Yx∈N(X),要么x∈(x), 小部分对象进行相关计算便可以完成最终更新。要么xeU-(xr)。若对象满足x∈以(xr)-{x, 所以定理5所示的下近似集增量式更新方法具有那么由定理4可以得到较高的计算效率。类似于定理5的研究方法，接 P(X16(x)≤PX6(x) 下来可以进一步得到上近似集的增量式更新。由于P(X6(x)>a,则无法直接确定PX-6(x) 定理6设邻域型信息系统IS=(U,AT),邻域与a的关系。即x∈a(X)且x∈6(x)-{x, 半径为6。对于XYSU关于属性集ASAT的邻需要计算PX6g(x)的值。域决策粗糙上近似分别为N(X和N”(Y).当若对象满足x∈U-(x),那么由定理4可以信息系统论域U移除一个对象x,x∈U,新的邻得到P(X6g(x)=PX6(x)>a,因此x∈Na() 域型信息系统表示为S=(U=U-{x,AT)。若且x∈U-(x)都有x∈(X) X,Y∈U且X=X-{x1,Y=Y,那么X、Y关于对于Yx∈U-N(X),若对象满足x∈6(x)- 属性集A二AT的邻域决策粗糙上近似增量式更 {x1,那么由定理4可以得到新为 P(X16(x)≤P(X6(x)≤a. 1N)=NX)-xEN 因此Yx∈U-Na(X)且x∈(x)-x}都有 (6(x)-x川P(X-6(x)P(Y164(x))>a 与之间的大小关系不能直接确定，因此定理若对象满足x∈U-(x),那么由定理4可以 6中的1)得到证明。得到 2)根据定理5的证明结果，对于VxeN(Y) P(Y-1(x))=P(Y1(x))>a 都有xeN(Y)。对于xEU-N(Y)且因此x∈(Y)都有x∈N(Y-)。 xEU-以)时，都有xEN(Y),只有当对于Yx∈U-(Y),若对象满足x∈(x)- rxeU-N()且xe6x)-{1时，不能直接确 {x},那么由定理4可以得到定P(Y(x)与a之间的大小关系，因此定理 P(Y16g(x)>P(Y16(x),P(Y16以(x)≤a 6中的2)得到证明。此时不能直接确定P(Yg(x)与α之间的定理6与定理5类似，只需要在原先上近似关系。集NX)和N(的结果上，进一步对)

后，近似集在不同对象下的概率变化关系，有了这种变化作为基础，接下来可以很容易得到邻域决策粗糙集上下近似的增量式更新。 IS = (U,AT) δ X,Y ⊆ U A ⊆ AT N (α,β) A (X) N (α,β) A (Y) U x − x − ∈ U IS− = (U − = U − {x − },AT) X − ,Y − ⊆ U − X − = X − {x − } Y − = Y X − ,Y − A ⊆ AT 定理 5 设邻域型信息系统，邻域半径为。对于关于属性集的邻域决策粗糙下近似分别为和。当信息系统论域移除对象且，新的邻域型信息系统表示为。若且 , ，那么关于属性集的邻域决策粗糙下近似增量式更新为 1)N (α,β) A (X − ) = N (α,β) A (X)− {x ∈ N (α,β) A (X)∩ (δ U A (x − )− {x − })|P(X − |δ U − A (x)) ⩽ α} 2)N (α,β) A (Y − ) = N (α,β) A (Y)∪ {x ∈ δ U A (x − )− {x − } −N (α,β) A (Y)|P(Y − |δ U − A (x) > α} ∀x ∈ N (α,β) A (X) x ∈ δ U A (x − ) x ∈ U −δ U A (x − ) x ∈ δ U A (x − )− {x − } 证明 1) 对于，要么，要么。若对象满足，那么由定理 4 可以得到 P(X − |δ U − A (x)) ⩽ P(X|δ U A (x)) P(X|δ U A (x)) > α P(X − |δ U − A (x)) α ∀x ∈ N (α,β) A (X) x ∈ δ U A (x − )− {x − } P(X − |δ U − A (x)) 由于，则无法直接确定与的关系。即且，需要计算的值。 x ∈ U −δ U A (x − ) P(X − |δ U − A (x)) = P(X|δ U A (x)) > α ∀x ∈ N (α,β) A (X) x ∈ U −δ U A (x − ) x ∈ N (α,β) A (X − ) 若对象满足，那么由定理 4 可以得到，因此且都有。 ∀x ∈ U −N (α,β) A (X) x ∈ δ U A (x − )− {x − } 对于，若对象满足，那么由定理 4 可以得到 P(X − |δ U − A (x)) ⩽ P(X|δ U A (x)) ⩽ α. ∀x ∈ U −N (α,β) A (X) x ∈ δ U A (x − )− {x − } x P(Y|δ U A (x)) > α x ∈ U −δ U A (x − 若对象满足 ) ，那么由定理 4 可以得到 P(Y − |δ U − A (x)) = P(Y|δ U A (x)) > α ∀x ∈ N (α,β) A (Y) x ∈ N (α,β) A (Y − 因此都有 )。 ∀x ∈ U −N (α,β) A (Y) x ∈ δ U A (x − )− {x − } 对于，若对象满足，那么由定理 4 可以得到 P(Y − |δ U − A (x)) > P(Y|δ U A (x)),P(Y|δ U A (x)) ⩽ α P(Y − |δ U − A 此时不能直接确定 (x)) 与 α 之间的关系。 x ∈ U −δ U A (x − 若对象 ) ，那么由定理 4 可得到 P(Y − |δ U − A (x)) = P(Y|δ U A (x)) ⩽ α x < N (α,β) A (Y − 即 )。 (U −N (α,β) A (Y))∩ (δ U A (x − )− {x − }) x ∈ δ U A (x − )− {x − } −N (α,β) A (Y) 因此只需要计算对象集中的对象便可以完成近似集的增量式更新，即计算，因此 2) 成立。定理 5 证明完毕。 x − N (α,β) A (X) N (α,β) A (X − ) P(X − |δ U − A (x)) N (α,β) A (Y) N (α,β) A (Y − ) 定理 5 表明，当邻域型信息系统移除一个对象后，新的邻域决策粗糙下近似集变化也呈现一定的规律，例如从更新至，其近似集是减小的，并且减少的对象只来源于一小部分对象集，因此只需对这里面的对象进行概率的计算，便可得到最终的更新结果。同样地对于更新至，也只需对一小部分对象进行相关计算便可以完成最终更新。所以定理 5 所示的下近似集增量式更新方法具有较高的计算效率。类似于定理 5 的研究方法，接下来可以进一步得到上近似集的增量式更新。 IS = (U,AT) δ X,Y ⊆ U A ⊆ AT N (α,β) A (X) N (α,β) A (Y) U x − x − ∈ U IS− = (U − = U − {x − },AT) X − ,Y − ⊆ U − X − = X − {x − } Y − = Y X − Y − A ⊆ AT 定理 6 设邻域型信息系统，邻域半径为。对于关于属性集的邻域决策粗糙上近似分别为和 .当信息系统论域移除一个对象，，新的邻域型信息系统表示为。若且 , ，那么、关于属性集的邻域决策粗糙上近似增量式更新为 1)N (α,β) A (X − ) =N (α,β) A (X)− {x ∈ N (α,β) A (X)∩ (δ U A (x − )− {x − })|P(X − |δ U − A (x)) < β} 2)N (α,β) A (Y − ) = N (α,β) A (Y)∪ {x ∈ δ U A (x − )− {x − } −N (α,β) A (Y)|P(Y − |δ U − A (x) ⩾ β} ∀x ∈ U −N (α,β) A (X) x < N (α,β) A (X − ) ∀x ∈ N (α,β) A (X) x ∈ U −δ U A (x − ) x ∈ N (α,β) A (X − ) ∀x ∈ N (α,β) A (X) x ∈ δ U A (x − )− {x − } P(X − |δ U − A (x)) α 证明 1 ) 根据定理 5 的证明结果，对于都满足。而对于且都有，只有当且时，与之间的大小关系不能直接确定，因此定理 6 中的 1) 得到证明。 ∀x ∈ N (α,β) A (Y) x ∈ N (α,β) A (Y − ) ∀x ∈ U −N (α,β) A (Y) x ∈ U −δ U A (x − ) x < N (α,β) A (Y − ) ∀x ∈ U −N (α,β) A (Y) x ∈ δ U A (x − )− {x − } P(Y − |δ U − A (x)) α 2) 根据定理 5 的证明结果，对于都有。对于且时，都有，只有当且时，不能直接确定与之间的大小关系，因此定理 6 中的 2) 得到证明。 N (α,β) A (X) N (α,β) A (Y) δ U A (x − ) 定理 6 与定理 5 类似，只需要在原先上近似集和的结果上，进一步对 ·750· 智能系统学报第 16 卷

第4期孙海霞：基于对象变化的邻域决策粗糙集动态更新算法 ·751· 中的对象计算概率便可完成最终的更新，因此上 IS@=(U,AT),X记为Xo,近似集N(X)和近似集的增量式更新同样具有很高的计算效率。 N(分别记为N(X,)和N”(X)。定理5和定理6分别给出当邻域型信息系统 2)对于x∈△U(1≤i≤)，将x从邻域型信息移除一个对象时上下近似集的增量式更新问题，系统IS-=(U-),AT)中移除，新的信息系统表示当信息系统同时移除多个对象时，可以根据定理为IS0=(U%,AT),其中U0=U-)-{x,此时新的 5和定理6逐步进行迭代，直至完成最终的更新。近似对象集为X。 3邻域决策粗糙集更新算法 3)计算对象的邻域类6以(x),然后根据定理5和定理6在aX-)和(X-)的基础根据本文所提出的增量式更新方法，接下来上增量式计算a(X)和N”(XO)。将进一步提出对应的邻域决策粗糙集增量式更新 4)重复迭代计算步骤2)3) 算法，具体如算法1和算法2所示。 5)令算法1论域增加时邻域决策粗糙集的增量 Na(X)=Nam(X)方式更新算法 x)=x0. 输入1)邻域型信息系统IS=(U,AT),邻域返回(X)和N(X)。半径为6，阈值(@，)。近似对象集X关于属性子在算法1所示的增量式计算过程中，每次在集AcAT的近似集YPX和(X。更新前信息系统的上下近似基础上进一步计算新 2)信息系统增加对象集△U+={,对，…，x, 的上下近似集，并且定理2和定理3已经表明，只新的邻域型信息系统为IS*=(U=UU△U+,AT), 需要计算新增对象的邻域类，便可以完成最终的新的近似对象集为X。更新，而不必去计算其他对象的邻域类，这样大输出新的近似集Na(X)和N(X)。大减少了重复的计算量，提高了更新的效率，因 1)将初始时的信息系统IS=(U,AT)记为此整个算法1和算法2的时间复杂度可表示为 IS=(U0,AT),X记为Xo,近似集N(X)和 OA·l1·△U。 NX分别记为(X)和N(x)。 2)对于∈△U(1≤i≤)，将x对加人邻域型 4实验分析信息系统IS-)=(U-”,AT)中，新的信息系统表示为了验证所提出增量式更新算法的有效性，为IS0=(U,AT),其中U而=U-U{x1,此时新的将通过实验比较的方式进行验证。本实验主要将近似对象集为X。文中所提出的增量式更新算法与传统的非增量更 3)计算对象x的邻域类6(x),然后根据定新算法对同一组数据集进行动态更新计算，通过理2和定理3在N(X-)和(X-)的基础比较他们的动态更新效率来验证算法的有效性，上增量式计算(XO)和N(XO)。其中表1所示的是实验中所使用的数据集，这些 4)重复迭代计算步骤2)~3)。数据集均来源于UCI数据集库，其中数据集的各 5)令个属性均为数值类型。整个实验所运行的硬件环 Ne(X)=N(X)方境为Intel Core G45603.5GHz处理器和DDR4 NX)=NX). 8GB内存。返回X)和(X*)。表1所示的均为静态的数据集，为了模拟数算法2论域减少时邻域决策粗糙集的增量据集动态变化的情形，本实验采用其他学者常用式更新算法的处理方法21，即让数据集按照论域平均分输入1)邻域型信息系统IS=(U,AT),邻域成多个对象集，然后通过将这些对象集逐渐进行半径为6，阈值(a,B)。近似对象集X关于属性子合并，达到了数据集论域动态增加的效果，将原集ASAT的近似集N(X和N(X)。始论域逐渐对这些对象集进行移除，便达到了数 2)信息系统减少对象集△U={x,5,…,x, 据集论域动态的减少。本实验将论域平均分成新的邻域型信息系统为IS=(U~=U-△U,AT), 9个部分，这样可以构造出数据集的8次动态更新的近似对象集为X。新。实验中将数据集的决策类作为邻域决策粗糙输出新的近似集Y(X)和N(X)。集的近似对象集，即计算数据集每个决策类的上 1)将初始时的信息系统IS=(U,AT)记为下近似增量式更新。实验中每个数据集的属性值

中的对象计算概率便可完成最终的更新，因此上近似集的增量式更新同样具有很高的计算效率。定理 5 和定理 6 分别给出当邻域型信息系统移除一个对象时上下近似集的增量式更新问题，当信息系统同时移除多个对象时，可以根据定理 5 和定理 6 逐步进行迭代，直至完成最终的更新。 3 邻域决策粗糙集更新算法根据本文所提出的增量式更新方法，接下来将进一步提出对应的邻域决策粗糙集增量式更新算法，具体如算法 1 和算法 2 所示。算法 1 论域增加时邻域决策粗糙集的增量式更新算法 IS = (U,AT) δ (α, β) X A ⊆ AT N (α,β) A (X) N (α,β) A (X) 输入 1) 邻域型信息系统，邻域半径为，阈值。近似对象集关于属性子集的近似集和。 ∆U + = {x + 1 , x + 2 ,··· , x + s } IS+ = (U + = U ∪∆U + ,AT) X + 2) 信息系统增加对象集，新的邻域型信息系统为，新的近似对象集为。 N (α,β) A (X + ) N (α,β) A (X + 输出新的近似集和 )。 IS = (U,AT) IS(0) = (U (0) ,AT) X X (0) N (α,β) A (X) N (α,β) A (X) N (α,β) A (X (0)) N (α,β) A (X (0)) 1 ) 将初始时的信息系统记为，记为，近似集和分别记为和。 x + i ∈ ∆U + (1 ⩽ i ⩽ s) x + i IS(i−1) = (U (i−1) ,AT) IS(i) = (U (i) ,AT) U (i) = U (i−1) ∪ {x + i } X (i) 2) 对于，将加入邻域型信息系统中，新的信息系统表示为，其中，此时新的近似对象集为。 x + i δ U (i) A (x + i ) N (α,β) A (X (i−1)) N (α,β) A (X (i−1)) N (α,β) A (X (i) ) N (α,β) A (X (i) ) 3) 计算对象的邻域类，然后根据定理 2 和定理 3 在和的基础上增量式计算和。 4) 重复迭代计算步骤 2）~3）。 5) 令 N (α,β) A (X + ) = N (α,β) A (X (s) ); N (α,β) A (X + ) = N (α,β) A (X (s) ). N (α,β) A (X + ) N (α,β) A (X + 返回和 )。算法 2 论域减少时邻域决策粗糙集的增量式更新算法 IS = (U,AT) δ (α, β) X A ⊆ AT N (α,β) A (X) N (α,β) A (X) 输入 1) 邻域型信息系统，邻域半径为，阈值。近似对象集关于属性子集的近似集和。 ∆U − = {x − 1 , x − 2 ,··· , x − t } IS− = (U − = U −∆U − ,AT) X − 2) 信息系统减少对象集，新的邻域型信息系统为，新的近似对象集为。 N (α,β) A (X − ) N (α,β) A (X − 输出新的近似集和 )。 1 ) 将初始时的信息系统 IS = (U,AT) 记为 IS(0) = (U (0) ,AT) X X (0) N (α,β) A (X) N (α,β) A (X) N (α,β) A (X (0)) N (α,β) A (X (0)) ，记为，近似集和分别记为和。 x − i ∈ ∆U − (1 ⩽ i ⩽ t) x − i IS(i−1) = (U (i−1) ,AT) IS(i) = (U (i) ,AT) U (i) = U (i−1) − {x − i } X (i) 2) 对于，将从邻域型信息系统中移除，新的信息系统表示为，其中，此时新的近似对象集为。 x − i δ U (i) A (x − i ) N (α,β) A (X (i−1)) N (α,β) A (X (i−1)) N (α,β) A (X (i) ) N (α,β) A (X (i) ) 3) 计算对象的邻域类，然后根据定理 5 和定理 6 在和的基础上增量式计算和。 4) 重复迭代计算步骤 2)~3) 5) 令 N (α,β) A (X − ) = N (α,β) A (X (t) ); N (α,β) A (X − ) = N (α,β) A (X (t) ). N (α,β) A (X − ) N (α,β) A (X − 返回和 )。 O(|A| · |U| · |∆U|) 在算法 1 所示的增量式计算过程中，每次在更新前信息系统的上下近似基础上进一步计算新的上下近似集，并且定理 2 和定理 3 已经表明，只需要计算新增对象的邻域类，便可以完成最终的更新，而不必去计算其他对象的邻域类，这样大大减少了重复的计算量，提高了更新的效率，因此整个算法 1 和算法 2 的时间复杂度可表示为。 4 实验分析为了验证所提出增量式更新算法的有效性，将通过实验比较的方式进行验证。本实验主要将文中所提出的增量式更新算法与传统的非增量更新算法对同一组数据集进行动态更新计算，通过比较他们的动态更新效率来验证算法的有效性，其中表 1 所示的是实验中所使用的数据集，这些数据集均来源于 UCI 数据集库，其中数据集的各个属性均为数值类型。整个实验所运行的硬件环境为 Intel Core G4560 3.5 GHz 处理器和 DDR4 8 GB 内存。表 1 所示的均为静态的数据集，为了模拟数据集动态变化的情形，本实验采用其他学者常用的处理方法[11-12, 17-18] ，即让数据集按照论域平均分成多个对象集，然后通过将这些对象集逐渐进行合并，达到了数据集论域动态增加的效果，将原始论域逐渐对这些对象集进行移除，便达到了数据集论域动态的减少。本实验将论域平均分成 9 个部分，这样可以构造出数据集的 8 次动态更新。实验中将数据集的决策类作为邻域决策粗糙集的近似对象集，即计算数据集每个决策类的上下近似增量式更新。实验中每个数据集的属性值第 4 期孙海霞：基于对象变化的邻域决策粗糙集动态更新算法 ·751·

·752· 智能系统学报第16卷均进行归一化处理，并且统一设定邻域半径献[10]提出的算法。 6=0.15,阈值=0.75，B=0.55。在图1所示的实验结果中，增量式算法的更表1实验数据集新用时大幅度低于非增量式算法，并且随着数据 Table 1 Experimental data set 集更新次数的增多，两类算法的差距不断增大。序号数据集对象属性类别这主要是由于非增量式更新算法在进行模型的更 iono 351 34 新时，每次均基于完整的论域进行计算，产生的 2 pima 768 6 3 时间会越来越多。对于增量式更新算法，随着数 wdbc 569 以 2 据集论域的增大，更新所需的时间较少且增长的 biodeg 1055 4t 2 速率较为缓慢，这主要是由于增量式更新算法采 5 segment 2310 19 7 用增量式的方法进行更新计算，每次均在前一次 6 musk 6598 166 2 更新的结果上进行进一步更新，这样避免了原有 7 census income 48842 14 3 对象的重复计算，大幅度提高更新效率，因此增量式算法更加高效。 music 106574 518 图2展示的是各个数据集论域减少时，增量图1为各个数据集论域增加时增量式更新算式更新算法（算法2）与非增量式更新算法计算法（算法1）与非增量式更新算法计算邻域决策粗邻域决策粗糙集的时间比较结果，非增量式更新糙集的时间比较结果，非增量式更新算法采用文算法同样采用文献[I0]提出的算法。 0.06 0.14 ©非增量式算法 ◆非增量式算法 0.05 。增量式算法 0.12 。增量式算法 0.10 0.03 0.08 0.06 0.02 0.04 0.01 0.02 3 5 6 3 6 增量更新次数增量更新次数 (a)iono (b)pima 0.10 。非增量式算法 0.30 非增量式算法 0.08 。增量式算法 0.25 。增量式算法 0.06 0.15 0.04 0.10 0.02 0.05 45 6 7 3 d 78 增量更新次数增量更新次数 (c)wdbc (d)biodeg 0.6 2.0 。非增量式算法。非增量式算法 0.5 。增量式算法日增量式算法 1.5 0.4 0.3 1.0 0.2 0.5 3 6 78 3 6 增量更新次数增量更新次数 (e)segment (f)musk

δ = 0.15 α = 0.75 β = 0.55 均进行归一化处理，并且统一设定邻域半径，阈值，。表 1 实验数据集 Table 1 Experimental data set 序号数据集对象属性类别 1 iono 351 34 2 2 pima 768 8 3 3 wdbc 569 31 2 4 biodeg 1055 41 2 5 segment 2310 19 7 6 musk 6598 166 2 7 census income 48842 14 3 8 music 106574 518 4 图 1 为各个数据集论域增加时增量式更新算法 (算法 1) 与非增量式更新算法计算邻域决策粗糙集的时间比较结果，非增量式更新算法采用文献 [10] 提出的算法。在图 1 所示的实验结果中，增量式算法的更新用时大幅度低于非增量式算法，并且随着数据集更新次数的增多，两类算法的差距不断增大。这主要是由于非增量式更新算法在进行模型的更新时，每次均基于完整的论域进行计算，产生的时间会越来越多。对于增量式更新算法，随着数据集论域的增大，更新所需的时间较少且增长的速率较为缓慢，这主要是由于增量式更新算法采用增量式的方法进行更新计算，每次均在前一次更新的结果上进行进一步更新，这样避免了原有对象的重复计算，大幅度提高更新效率，因此增量式算法更加高效。图 2 展示的是各个数据集论域减少时，增量式更新算法 (算法 2) 与非增量式更新算法计算邻域决策粗糙集的时间比较结果，非增量式更新算法同样采用文献 [10] 提出的算法。非增量式算法增量式算法 0.06 0.05 0.04 0.03 0.02 0.01 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (a) iono 非增量式算法增量式算法更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0 (b) pima 非增量式算法增量式算法更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 0.10 0.08 0.06 0.04 0.02 0 (c) wdbc 非增量式算法增量式算法 1 2 3 4 5 6 7 8 增量更新次数更新用时/s 0.30 0.25 0.20 0.15 0.10 0.05 0 (d) biodeg 非增量式算法增量式算法 0.6 0.5 0.4 0.3 0.2 0.1 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (e) segment 非增量式算法增量式算法 2.0 1.5 1.0 0.5 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (f) musk ·752· 智能系统学报第 16 卷

在图 2 所示的实验结果中，可以发现增量式更新算法的更新用时同样大幅度低于非增量式更新算法，对于非增量式更新算法，随着数据集论域的逐渐减少，其更新模型的用时也是逐渐减小，这主要是由于非增量式更新算法在进行更新时，对完整论域进行计算，因此随着论域的减少，非增量式算法的计算量也大幅度减小，产生的时间会越来越少，但是整体还是高于增量式算法。对于增量式更新算法，随着数据集论域的减小，其整体更新用时始终处于一个较低的水平，并且随着更新次数增加，更新用时也是逐渐减小的。这主要是由于增量式更新算法采用增量式的方法进行更新计算，在前一次更新结果的基础上计算后一次结果，由于论域逐渐减少，则更新时间会更加的少，从而效率远高于非增量式算法。非增量式算法增量式算法 25 20 15 10 5 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (g) census income 非增量式算法增量式算法 120 100 80 60 40 20 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (h) music 图 1 论域增加时两类算法的更新用时比较 Fig. 1 Comparison of update time of two algorithms when universe is added 非增量式算法 0.06 增量式算法 0.07 0.05 0.04 0.03 0.02 0.01 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (a) iono 非增量式算法 0.12 增量式算法 0.14 0.10 0.08 0.06 0.04 0.02 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (b) pima 非增量式算法 0.10 增量式算法 0.12 0.08 0.06 0.04 0.02 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (c) wdbc 非增量式算法 0.25 增量式算法 0.30 0.20 0.15 0.10 0.05 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (d) biodeg 非增量式算法增量式算法 1.0 0.8 0.6 0.4 0.2 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (e) segment 非增量式算法增量式算法 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (f) musk 第 4 期孙海霞：基于对象变化的邻域决策粗糙集动态更新算法 ·753·

·754· 智能系统学报第16卷 120 。非增量式算法。非增量式算法 20 。增量式算法 100 。增量式算法 80 % 20 0 456 3 4 56 增量更新次数增量更新次数 (g)census income (h)music 图2论域减少时两类算法的更新用时比较 Fig.2 Comparison of update time of two algorithms when universe is reduced 综合图1和图2的实验结果，可以看出本文径6下增量式更新用时比较结果，其中包含了论所提出的增量式更新算法的更新效率均大幅度高域增加和论域减少的两种情形，这里设定邻域半于传统的非增量式算法，并且所提出的算法随数径6在0.1,0.28]内以0.02为间隔分别进行取值。据集论域变化的影响较小，这说明了本文所提出通过图3~6的结果可以看出，随着邻域半径的增量式更新算法具有很高的优越性。的逐渐增大，增量式更新算法的更新用时是逐渐另一方面，在本文所提出的邻域决策粗糙集增大的，这主要是由于本文所提出的增量更新算增量式更新算法中，有3个重要的参数，分别为邻法，计算新论域下的模型时，需要计算变化对象域半径6，和一对阈值(a,B)。由于阈值(@，)可以的邻域类，并基于这些邻域类进行更新计算，而通过不同的评价方式进行确定，因此阈值（α，）可邻域半径的增大无疑会增加邻域类中对象的数认定为是固定的值，那么接下来将直接探究邻域量，因此计算量会增加，从而展现出了图3~6 半径6对所提算法更新效率的影响。的结果，但是对比图1和图2，这种增量式算法的图3~6所示的是部分数据集在不用邻域半用时仍然大幅度小于非增量式算法。 0.018 0.020 0.016 0.03 0.025 0.014 0.012 0.02 0.020 0.010 0.010 0.005 0.008 0.01 0.015 0302 0.006 0.010 10 0.004 0.18 邻域半径 002￥68 0.30 0.002 0.26 2 1 10 .1 增量更新次数 00之46 0.005 邻域半径 .14 增量更新次数 (a)论域增加 (b)论域减少图3数据集pima在不同邻域半径下算法更新用时比较 Fig.3 Comparison of algorithm updating time of pima data set under different neighborhood radius 10.024 0.014 0.025 0.020 0.03 0.012 0.020 0.018 0.010 0.02 0.016 0.010 0.008 0.014 0.01 0.006 0.012 0.010 0.004 0.008 10 0.18 0.14 6 8 0.002 0.006 邻域半 00 增量更新次数 4 0.18 0.14 邻域半 002 468 增量更新次数 (a)论域增加 ()论域减少图4数据集wdbc在不同邻域半径下算法更新用时比较 Fig.4 Comparison of algorithm updating time of wdbe data set under different neighborhood radius

综合图 1 和图 2 的实验结果，可以看出本文所提出的增量式更新算法的更新效率均大幅度高于传统的非增量式算法，并且所提出的算法随数据集论域变化的影响较小，这说明了本文所提出的增量式更新算法具有很高的优越性。 δ (α, β) (α, β) (α, β) δ 另一方面，在本文所提出的邻域决策粗糙集增量式更新算法中，有 3 个重要的参数，分别为邻域半径，和一对阈值。由于阈值可以通过不同的评价方式进行确定，因此阈值可认定为是固定的值，那么接下来将直接探究邻域半径对所提算法更新效率的影响。图 3～6 所示的是部分数据集在不用邻域半 δ δ 径下增量式更新用时比较结果，其中包含了论域增加和论域减少的两种情形，这里设定邻域半径在 [0.1,0.28] 内以 0.02 为间隔分别进行取值。通过图 3~6 的结果可以看出，随着邻域半径的逐渐增大，增量式更新算法的更新用时是逐渐增大的，这主要是由于本文所提出的增量更新算法，计算新论域下的模型时，需要计算变化对象的邻域类，并基于这些邻域类进行更新计算，而邻域半径的增大无疑会增加邻域类中对象的数量，因此计算量会增加，从而展现出了图 3~6 的结果，但是对比图 1 和图 2，这种增量式算法的用时仍然大幅度小于非增量式算法。 (a) 论域增加 0.020 0.015 0.010 0.005 0 0 2 4 6 8 0.30 10 0.26 0.22 0.18 0.14 0.10 更新用时/s 更新用时/s 邻域半径 δ 增量更新次数 0 0 2 4 6 8 0.30 10 0.26 0.22 0.18 0.14 0.10 邻域半径 δ 增量更新次数 0.018 0.016 0.014 0.012 0.010 0.008 0.006 0.004 0.002 0.03 0.02 0.01 (b) 论域减少 0.025 0.020 0.015 0.010 0.005 图 3 数据集 pima 在不同邻域半径下算法更新用时比较 Fig. 3 Comparison of algorithm updating time of pima data set under different neighborhood radius (a) 论域增加 0.020 0.015 0.010 0.005 0 0 2 4 6 8 0.30 10 0.26 0.22 0.18 0.14 0.10 更新用时/s 更新用时/s 邻域半径 δ 增量更新次数 0 0 2 4 6 8 0.30 10 0.26 0.22 0.18 0.14 0.10 邻域半径 δ 增量更新次数 0.014 0.012 0.010 0.008 0.006 0.004 0.002 0.03 0.02 0.01 (b) 论域减少 0.024 0.025 0.020 0.018 0.016 0.014 0.012 0.010 0.008 0.006 图 4 数据集 wdbc 在不同邻域半径下算法更新用时比较 Fig. 4 Comparison of algorithm updating time of wdbc data set under different neighborhood radius 非增量式算法增量式算法 25 20 15 10 5 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (g) census income 非增量式算法增量式算法 120 100 80 60 40 20 0 更新用时/s 1 2 3 4 5 6 7 8 增量更新次数 (h) music 图 2 论域减少时两类算法的更新用时比较 Fig. 2 Comparison of update time of two algorithms when universe is reduced ·754· 智能系统学报第 16 卷

第4期孙海霞：基于对象变化的邻域决策粗糙集动态更新算法 ·755· 0.06 0.09 0.08 0.10 0.08 0.06 0.05 0.07 0.04 0.04 0.06 0.06 0.02 0.03 0.05 0.02 0.02 0.30 0.30 0.04 002468 0 0.01 0 0.03 邻域半径 .14 增量更新次数 000246 增量更新次数 (a)论域增加 (b)论域减少图5数据集biodeg在不同邻域半径下算法更新用时比较 Fig.5 Comparison of algorithm updating time of biodeg data set under different neighborhood radius 0.6 0.07 0.8 0.8 0.5 0.06 0.6 0.6 0.4 0.4 0.4 0.05 0.2 0.3 0.2 0.04 0.2 0.03 10 0.1 0.30 0. 10 8 0.02 邻域半径6 01002468 增量更新次数 00246 0.14 邻域半径增量更新次数 (a)论域增加 (b)论域减少图6数据集musk在不同邻域半径下算法更新用时比较 Fig.6 Comparison of algorithm updating time of musk data set under different neighborhood radius 5结束语 [3]陈家俊，徐华丽，魏赟.多重代价多粒度决策粗糙集模型研究.计算机科学与探索，2018.12(5：839-850 邻域决策粗糙集是传统决策粗糙集的重要拓 CHEN Jiajun,XU Huali,WEI Yun.Multi-cost based 展，针对现实环境下数据集的动态性，本文提出 multi-granulation decision-theoretic rough set model[J]. 一种论域动态变化时的邻域决策粗糙集增量式更 Journal of frontiers of computer science and technology, 新算法。本文首先研究了论域中单个对象变化 2018,12(5):839-850 时，模型的增量式更新问题，然后以单个对象变 [4]JIA Xiuyi,LI Weiwei,SHANG Lin.A multiphase cost- 化为基础，通过迭代方式完成对象批量变化时的 sensitive learning method based on the multiclass three- 增量式更新问题，实验分析表明，所提出的增量 way decision-theoretic rough set model[J].Information sci- 式算法在更新动态数据时，其效率大幅度高于非 ences,.2019,485:248-262 增量式算法，且增量式算法的更新时间受论域对 [5]张婷，张红云，王真.基于三支决策粗糙集的迭代量化的象变化的影响较小，因此说明了所提出的增量式图像检索算法[J].南京大学学报（自然科学版），2018 54(4):714724 更新算法具有很高的优越性，从而也进一步推动 ZHANG Ting,ZHANG Hongyun,WANG Zhen.image re- 了决策粗糙集在实际环境下的应用。在本文研究 trieval:Iterative quantization based on saliency detection 成果的基础上，接下来可以进一步在邻域决策粗 and three-way decision based rough sets[J].Journal of 糙集的增量式属性约简问题上进行探索。 Nanjing University(natural sciences edition),2018,54(4): 参考文献： 714724 [6]ZHAO Xuerong,HU Baoging.Three-way decisions with [1]YAO Yiyu.Three-way decisions with probabilistic rough decision-theoretic rough sets in multiset-valued informa sets[J].Information sciences,2010,180(3):341-353 tion tables[J].Information sciences,2020,507:684-699 [2]YAO Yiyu.The superiority of three-way decisions in prob- [7]LIU Dun,LIANG Decui,WANG Changchun.A novel abilistic rough set models[J].Information sciences,2011, three-way decision model based on incomplete informa- 181(6):1080-1096 tion system[J].Knowledge-based systems,2016,91:

(a) 论域增加 0.08 0.06 0.04 0.02 0 0 2 4 6 8 10 0.30 0.26 0.22 0.18 0.14 0.10 更新用时/s 更新用时/s 邻域半径 δ 增量更新次数 0 2 4 6 8 0.30 10 0.26 0.22 0.18 0.14 0.10 邻域半径 δ 增量更新次数 0.06 0.05 0.04 0.03 0.02 0.01 0.10 0.08 0.06 0.04 0.02 (b) 论域减少 0.09 0.08 0.07 0.06 0.05 0.04 0.03 图 5 数据集 biodeg 在不同邻域半径下算法更新用时比较 Fig. 5 Comparison of algorithm updating time of biodeg data set under different neighborhood radius (a) 论域增加 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10 0.30 0.26 0.22 0.18 0.14 0.10 更新用时/s 更新用时/s 邻域半径 δ 增量更新次数 0 2 4 6 8 0.30 10 0.26 0.22 0.18 0.14 0.10 邻域半径 δ 增量更新次数 0.6 0.5 0.4 0.3 0.2 0.1 0.8 0.6 0.4 0.2 0 (b) 论域减少 0.07 0.06 0.05 0.04 0.03 0.02 图 6 数据集 musk 在不同邻域半径下算法更新用时比较 Fig. 6 Comparison of algorithm updating time of musk data set under different neighborhood radius 5 结束语邻域决策粗糙集是传统决策粗糙集的重要拓展，针对现实环境下数据集的动态性，本文提出一种论域动态变化时的邻域决策粗糙集增量式更新算法。本文首先研究了论域中单个对象变化时，模型的增量式更新问题，然后以单个对象变化为基础，通过迭代方式完成对象批量变化时的增量式更新问题，实验分析表明，所提出的增量式算法在更新动态数据时，其效率大幅度高于非增量式算法，且增量式算法的更新时间受论域对象变化的影响较小，因此说明了所提出的增量式更新算法具有很高的优越性，从而也进一步推动了决策粗糙集在实际环境下的应用。在本文研究成果的基础上，接下来可以进一步在邻域决策粗糙集的增量式属性约简问题上进行探索。参考文献： YAO Yiyu. Three-way decisions with probabilistic rough sets[J]. Information sciences, 2010, 180(3): 341–353. [1] YAO Yiyu. The superiority of three-way decisions in probabilistic rough set models[J]. Information sciences, 2011, 181(6): 1080–1096. [2] 陈家俊, 徐华丽, 魏赟. 多重代价多粒度决策粗糙集模型研究 [J]. 计算机科学与探索, 2018, 12(5): 839–850. CHEN Jiajun, XU Huali, WEI Yun. Multi-cost based multi-granulation decision-theoretic rough set model[J]. Journal of frontiers of computer science and technology, 2018, 12(5): 839–850. [3] JIA Xiuyi, LI Weiwei, SHANG Lin. A multiphase costsensitive learning method based on the multiclass threeway decision-theoretic rough set model[J]. Information sciences, 2019, 485: 248–262. [4] 张婷, 张红云, 王真. 基于三支决策粗糙集的迭代量化的图像检索算法 [J]. 南京大学学报(自然科学版), 2018, 54(4): 714–724. ZHANG Ting, ZHANG Hongyun, WANG Zhen. image retrieval: Iterative quantization based on saliency detection and three-way decision based rough sets[J]. Journal of Nanjing University (natural sciences edition), 2018, 54(4): 714–724. [5] ZHAO Xuerong, HU Baoqing. Three-way decisions with decision-theoretic rough sets in multiset-valued information tables[J]. Information sciences, 2020, 507: 684–699. [6] LIU Dun, LIANG Decui, WANG Changchun. A novel three-way decision model based on incomplete information system[J]. Knowledge-based systems, 2016, 91: [7] 第 4 期孙海霞：基于对象变化的邻域决策粗糙集动态更新算法 ·755·

点击进入文档下载页（PDF格式）

共11页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录