·230· 智能系统学报 第3卷 ∈02,12),其中om为最大惯性权重值,omn为 最小惯性权重值,nun为当前迭代次数,nuna为算法 迭代总次数,ā为控制速度的约束因子,G是认知系 数,6是社会系数,G+9=4,在此对0、a、G、9统 称为权重因子 那么若抽取的MML文档知识库规模为k利用 P9O算法进行相似性测量过程如图3所示. 、初始化设置 图4粒子相似性检测划分过程 Fig 4 The sm ilarity checking and pltting process 初始化种群 of particle 评价粒子的适应度 dex =1- min小al.1创) 选择PBi与GB d(a.b)+max(a l.b)-min(l al,Ib) 粒子状态更新 min(l al.I1) (9) 满足设定条件 N 计算距离,a、b,表示2个标识对应的字符,d(a,b) Y 表示对应字符间的距离,若a,=b,则d(a,b,)=1, (输出最优结果 否则d(a,b,)=0max(|al,1b1)-mim(1al,|b1) 图3P9O操作过程 表示多余的字符相应的距离 Fig 3 The operating process of PSO 字符串匹配问题字符串属于长信息字段,可再 分解,然后根据标识的重要性分配权值,利用 在此过程中,利用定义6将向量化的ML知识 ⊥a∩bL (10) 库投影为二维坐标平面上的样本点,同时将二维平 des =1-min(l al.Ibl) 面进行等间距网格划分,并将待检测己向量化的 来计算标识距离,字段距离为标识距离的加权和,其 ML数据粒子随机分散于一个平面上,即随机赋 中a、b都是标识,|a∩b标识a、b中相同的字符数: 给每个粒子一对(x,y以坐标,同时以本粒子初始对 |a表示a的长度,Ib表示b的长度. 应坐标为中心,为观察半径,利用式(9)或(10)计 由于粒子群算法的时间复杂度为O(cXn, 算此模式在观察半径范围内的粒子相似度,同时依 对海量ML文档进行检测,其代价较高,因此需要 次检测该网格周围的邻域网格是不是大于最少样本 根据其量化过程对粒子群操作进行优化,并建立波 函数的粒子群(WP9O)并行处理机制 点数,若大于就将网格的坐标加入到邻域连接缓冲 在量子时域空间的框架下,粒子的状态由一个 列表的尾部,否则就将网格内的所有样本点丢弃,这 波函数中(x,来描述,在三维空间中粒子的波函数 样依次计算已形成的每一个文档类的检测中心 描述为 在运用P9O检测相似重复记录之前,需要先对 I中|2 dxdydx=Odxdyd:: (11) 数据进行一些处理,主要处理操作包括 式中:「中2波函数的概率密度,并且满足 1)字段分裂.依据ML键组合的结构,利用多 模板的隐马尔可夫模型抽取各个部分; 了i电Pddd=了eddd:=l,那么粒子群算 2验证和改正.根据知识库及相关领域知识验 法可优化成如下形式: 证提取值的正确性,若发现错误,则加以改正; P (a pa +h pes)/(a+b). (12) 3)数据标准化.将同一类型的数据用统一的格 L=(1/g).abs(xa p). 13) 式来表示,比如日期、电话号码、性别等 xa=p出(ln(I/u. (14) 4)在计算过程中,可分别针对数字字符与字符 式中:P是第个粒子在解空间的第d维所找到的 串分别套用不同的公式计算相应的距离值,图4表 最优解,x是第个粒子在解空间第d维的当前值, 示其检测过程示意图」 P是所有粒子在解空间中第d维找到的最优解,a 数字匹配问题:可采用将全部的数字字符一一 6都是O,1)之间的随机数,而参数g的选取将直 比较的方法来得到标识距离,用公式 接影响到算法的性能,由文献16哈出的参数控制 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net∈[0. 2, 1. 2 ],其中 ωmax为最大惯性权重值 , ωm in为 最小惯性权重值 , run为当前迭代次数 , runmax为算法 迭代总次数 ,α为控制速度的约束因子 , c1 是认知系 数 , c2 是社会系数 , c1 + c2 = 4,在此对 ω、α、c1、c2 统 称为权重因子. 那么若抽取的 XML文档知识库规模为 k,利用 PSO算法进行相似性测量过程如图 3所示. 图 3 PSO操作过程 Fig. 3 The operating p rocess of PSO 在此过程中 ,利用定义 6将向量化的 XML知识 库投影为二维坐标平面上的样本点 ,同时将二维平 面进行等间距网格划分 , 并将待检测已向量化的 XML数据粒子随机分散于一个平面上 , 即随机赋 给每个粒子一对 ( x, y)坐标 ,同时以本粒子初始对 应坐标为中心 , r为观察半径 ,利用式 ( 9)或 ( 10)计 算此模式在观察半径范围内的粒子相似度 ,同时依 次检测该网格周围的邻域网格是不是大于最少样本 点数 ,若大于就将网格的坐标加入到邻域连接缓冲 列表的尾部 ,否则就将网格内的所有样本点丢弃 ,这 样依次计算已形成的每一个文档类的检测中心. 在运用 PSO检测相似重复记录之前 ,需要先对 数据进行一些处理 ,主要处理操作包括 : 1)字段分裂. 依据 XML键组合的结构 ,利用多 模板的隐马尔可夫模型抽取各个部分; 2)验证和改正. 根据知识库及相关领域知识验 证提取值的正确性 ,若发现错误 ,则加以改正; 3)数据标准化. 将同一类型的数据用统一的格 式来表示 ,比如日期、电话号码、性别等. 4)在计算过程中 ,可分别针对数字字符与字符 串分别套用不同的公式计算相应的距离值 ,图 4表 示其检测过程示意图. 数字匹配问题 :可采用将全部的数字字符一一 比较的方法来得到标识距离 ,用公式 图 4 粒子相似性检测划分过程 Fig. 4 The sim ilarity checking and p lotting p rocess of particle dex = 1 - ∑ m in (| a| , | b| ) i =1 d ( ai , bi ) +max( | a | , | b | ) - m in ( | a | , | b | ) m in ( | a | , | b | ) (9) 计算距离 , ai、bi 表示 2个标识对应的字符 , d ( ai , bi ) 表示对应字符间的距离 ,若 ai = bi ,则 d ( ai , bi ) = 1, 否则 d ( ai , bi ) = 0; max ( | a | , | b | ) - m in ( | a | , | b | ) 表示多余的字符相应的距离. 字符串匹配问题 :字符串属于长信息字段 ,可再 分解 ,然后根据标识的重要性分配权值 ,利用 des = 1 - | a ∩ b | m in ( | a | , | b | ) (10) 来计算标识距离 ,字段距离为标识距离的加权和 ,其 中 a、b都是标识 , | a∩b |标识 a、b中相同的字符数 : | a |表示 a的长度 , | b |表示 b的长度. 由于粒子群算法的时间复杂度为 O ( nc ×n 3 ) , 对海量 XML文档进行检测 ,其代价较高 ,因此需要 根据其量化过程对粒子群操作进行优化 ,并建立波 函数的粒子群 (WPSO)并行处理机制. 在量子时域空间的框架下 ,粒子的状态由一个 波函数 ψ( x, t)来描述 ,在三维空间中粒子的波函数 描述为 | ψ | 2 dxdydx = Q dxdydz. (11) 式中 : | ψ | 2 波 函 数 的 概 率 密 度 , 并 且 满 足 ∫ +∞ - ∞ | ψ | 2 dxdydz = ∫ +∞ - ∞ Q dxdydz = 1,那么粒子群算 法可优化成如下形式 : P = ( a. pid + b. pgd ) / ( a + b) , (12) L = (1 / g). abs( xid - p) , (13) xid = p ±L. ( ln (1 / u) ). (14) 式中 : pid是第 i个粒子在解空间的第 d维所找到的 最优解 , xid是第 i个粒子在解空间第 d维的当前值 , pgd是所有粒子在解空间中第 d维找到的最优解 , a、 b、u都是 (0, 1)之间的随机数 ,而参数 g的选取将直 接影响到算法的性能 ,由文献 [ 16 ]给出的参数控制 · 032 · 智 能 系 统 学 报 第 3卷