∈[0. 2, 1. 2 ],其中 ωmax为最大惯性权重值 , ωm i

正在加载图片...

·230· 智能系统学报第3卷 ∈02,12)，其中om为最大惯性权重值，omn为最小惯性权重值，nun为当前迭代次数，nuna为算法迭代总次数，ā为控制速度的约束因子，G是认知系数，6是社会系数，G+9=4,在此对0、a、G、9统称为权重因子那么若抽取的MML文档知识库规模为k利用 P9O算法进行相似性测量过程如图3所示. 、初始化设置图4粒子相似性检测划分过程 Fig 4 The sm ilarity checking and pltting process 初始化种群 of particle 评价粒子的适应度 dex =1- min小al.1创) 选择PBi与GB d(a.b)+max(a l.b)-min(l al,Ib) 粒子状态更新 min(l al.I1) (9) 满足设定条件 N 计算距离，a、b,表示2个标识对应的字符，d(a,b) Y 表示对应字符间的距离，若a,=b,则d(a,b,)=1, (输出最优结果否则d(a,b,)=0max(|al,1b1)-mim(1al,|b1) 图3P9O操作过程表示多余的字符相应的距离 Fig 3 The operating process of PSO 字符串匹配问题字符串属于长信息字段，可再分解，然后根据标识的重要性分配权值，利用在此过程中，利用定义6将向量化的ML知识 ⊥a∩bL (10) 库投影为二维坐标平面上的样本点，同时将二维平 des =1-min(l al.Ibl) 面进行等间距网格划分，并将待检测己向量化的来计算标识距离，字段距离为标识距离的加权和，其 ML数据粒子随机分散于一个平面上，即随机赋中a、b都是标识，|a∩b标识a、b中相同的字符数：给每个粒子一对(x,y以坐标，同时以本粒子初始对 |a表示a的长度，Ib表示b的长度. 应坐标为中心，为观察半径，利用式(9)或(10)计由于粒子群算法的时间复杂度为O(cXn, 算此模式在观察半径范围内的粒子相似度，同时依对海量ML文档进行检测，其代价较高，因此需要次检测该网格周围的邻域网格是不是大于最少样本根据其量化过程对粒子群操作进行优化，并建立波函数的粒子群(WP9O)并行处理机制点数，若大于就将网格的坐标加入到邻域连接缓冲在量子时域空间的框架下，粒子的状态由一个列表的尾部，否则就将网格内的所有样本点丢弃，这波函数中(x,来描述，在三维空间中粒子的波函数样依次计算已形成的每一个文档类的检测中心描述为在运用P9O检测相似重复记录之前，需要先对 I中|2 dxdydx=Odxdyd:: (11) 数据进行一些处理，主要处理操作包括式中：「中2波函数的概率密度，并且满足 1)字段分裂.依据ML键组合的结构，利用多模板的隐马尔可夫模型抽取各个部分；了i电Pddd=了eddd:=l,那么粒子群算 2验证和改正.根据知识库及相关领域知识验法可优化成如下形式：证提取值的正确性，若发现错误，则加以改正； P (a pa +h pes)/(a+b). (12) 3)数据标准化.将同一类型的数据用统一的格 L=(1/g).abs(xa p). 13) 式来表示，比如日期、电话号码、性别等 xa=p出(ln(I/u. (14) 4)在计算过程中，可分别针对数字字符与字符式中：P是第个粒子在解空间的第d维所找到的串分别套用不同的公式计算相应的距离值，图4表最优解，x是第个粒子在解空间第d维的当前值，示其检测过程示意图」 P是所有粒子在解空间中第d维找到的最优解，a 数字匹配问题：可采用将全部的数字字符一一 6都是O,1)之间的随机数，而参数g的选取将直比较的方法来得到标识距离，用公式接影响到算法的性能，由文献16哈出的参数控制 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net∈[0. 2, 1. 2 ],其中 ωmax为最大惯性权重值 , ωm in为最小惯性权重值 , run为当前迭代次数 , runmax为算法迭代总次数 ,α为控制速度的约束因子 , c1 是认知系数 , c2 是社会系数 , c1 + c2 = 4,在此对 ω、α、c1、c2 统称为权重因子. 那么若抽取的 XML文档知识库规模为 k,利用 PSO算法进行相似性测量过程如图 3所示. 图 3 PSO操作过程 Fig. 3 The operating p rocess of PSO 在此过程中 ,利用定义 6将向量化的 XML知识库投影为二维坐标平面上的样本点 ,同时将二维平面进行等间距网格划分 , 并将待检测已向量化的 XML数据粒子随机分散于一个平面上 , 即随机赋给每个粒子一对 ( x, y)坐标 ,同时以本粒子初始对应坐标为中心 , r为观察半径 ,利用式 ( 9)或 ( 10)计算此模式在观察半径范围内的粒子相似度 ,同时依次检测该网格周围的邻域网格是不是大于最少样本点数 ,若大于就将网格的坐标加入到邻域连接缓冲列表的尾部 ,否则就将网格内的所有样本点丢弃 ,这样依次计算已形成的每一个文档类的检测中心. 在运用 PSO检测相似重复记录之前 ,需要先对数据进行一些处理 ,主要处理操作包括 : 1)字段分裂. 依据 XML键组合的结构 ,利用多模板的隐马尔可夫模型抽取各个部分; 2)验证和改正. 根据知识库及相关领域知识验证提取值的正确性 ,若发现错误 ,则加以改正; 3)数据标准化. 将同一类型的数据用统一的格式来表示 ,比如日期、电话号码、性别等. 4)在计算过程中 ,可分别针对数字字符与字符串分别套用不同的公式计算相应的距离值 ,图 4表示其检测过程示意图. 数字匹配问题 :可采用将全部的数字字符一一比较的方法来得到标识距离 ,用公式图 4 粒子相似性检测划分过程 Fig. 4 The sim ilarity checking and p lotting p rocess of particle dex = 1 - ∑ m in (| a| , | b| ) i =1 d ( ai , bi ) +max( | a | , | b | ) - m in ( | a | , | b | ) m in ( | a | , | b | ) (9) 计算距离 , ai、bi 表示 2个标识对应的字符 , d ( ai , bi ) 表示对应字符间的距离 ,若 ai = bi ,则 d ( ai , bi ) = 1, 否则 d ( ai , bi ) = 0; max ( | a | , | b | ) - m in ( | a | , | b | ) 表示多余的字符相应的距离. 字符串匹配问题 :字符串属于长信息字段 ,可再分解 ,然后根据标识的重要性分配权值 ,利用 des = 1 - | a ∩ b | m in ( | a | , | b | ) (10) 来计算标识距离 ,字段距离为标识距离的加权和 ,其中 a、b都是标识 , | a∩b |标识 a、b中相同的字符数 : | a |表示 a的长度 , | b |表示 b的长度. 由于粒子群算法的时间复杂度为 O ( nc ×n 3 ) , 对海量 XML文档进行检测 ,其代价较高 ,因此需要根据其量化过程对粒子群操作进行优化 ,并建立波函数的粒子群 (WPSO)并行处理机制. 在量子时域空间的框架下 ,粒子的状态由一个波函数 ψ( x, t)来描述 ,在三维空间中粒子的波函数描述为 | ψ | 2 dxdydx = Q dxdydz. (11) 式中 : | ψ | 2 波函数的概率密度 , 并且满足 ∫ +∞ - ∞ | ψ | 2 dxdydz = ∫ +∞ - ∞ Q dxdydz = 1,那么粒子群算法可优化成如下形式 : P = ( a. pid + b. pgd ) / ( a + b) , (12) L = (1 / g). abs( xid - p) , (13) xid = p ±L. ( ln (1 / u) ). (14) 式中 : pid是第 i个粒子在解空间的第 d维所找到的最优解 , xid是第 i个粒子在解空间第 d维的当前值 , pgd是所有粒子在解空间中第 d维找到的最优解 , a、 b、u都是 (0, 1)之间的随机数 ,而参数 g的选取将直接影响到算法的性能 ,由文献 [ 16 ]给出的参数控制 · 032 · 智能系统学报第 3卷

<<向上翻页向下翻页>>

点击下载：人工智能基础：融合粒子群算法改进XML数据智能清洗策略