正在加载图片...
·476 智能系统学报 第9卷 斜[o],类间、类内分布偏差)等。而单纯依靠复杂 TFIDF、关联度、位置和词性等启发式。 网络中词语之间关联度的特征提取方法,则忽略了 3)启发式融合。根据多启发式融合模型,对词 特征本身的频率,容易造成特征提取聚集到某些无 语的4个启发式进行融合,并计算得到综合得分。 意义的高频词,如“的”等,从而导致特征提取出现 4)输出结果。最后根据各特征得分的大小进 偏差。研究显示,融合频率和关联特征[)]能够有效 行排序,选择最优的特征并输出。 避免单一方法的缺陷,从而提高特征提取的效率。 2.3遗传算法优化权重参数 此外,仅仅依靠统计知识容易造成特征提取偏 本文方法中各启发式的参数权重选择是一个典型 差,特别是一些高频词如“是”、“和”等容易成为特 的组合优化问题。由于遗传算法简单、易理解、易实 征的候选。尽管这些词可以通过建立“停词表”对 现,且在解决组合优化问题有强大的优势),因此,论 其进行过滤,但是构建合适的词表非常困难,因此引 文采用遗传算法对式(6)中的参数权重进行优化,从而 入特征的词性以及位置对特征进行进一步选取。 得到一定范围的最佳组合参数权重。这里限定4个参 综合以上因素,论文采用特征的频率、关联度 数权重的取值范围为(0,1),并且满足α+B+y+8= 词性以及位置4个因素来衡量待选特征。对于文本 1。然后根据经验选取适当的初始值,并经过迭代计 中的每个特征,其权重计算公式为 算,得到每个启发式的参数权重。利用遗传算法获取 各特征参数权重具体过程描述如下: score(w)=a x WFre +B x WLe+ 1)依据经验,初始化各特征参数权重α=0.2, y×Wcs+8×Wos (6) 式中:Wm表示特征的TFIDF启发式,Wos表示特征 B=0.2,y=0.4,8=0.2; 2)采用十进制编码对染色体进行编码。首先 的词性启发式,W表示特征的关联度启发式,W 把各参数都乘以10或100使它们变成整数,然后再 表示特征的位置启发式。每个启发式的具体描述如 对它们进行编码,具体格式如下:L=ayδ。其中 表2所示。 各参数均用3位十进制数来表示,例如:α=0.2,B= 表2特征各启发式描述 0.2,y=0.4,8=0.2,则先把它们转化为a=020,B= Table 2 Description of feature heuristics 020,y=040,8=020,则相应染色体编码为:L= 类型 表示 描述 020020040020。 词性 POS 特征的词性信息,如名词、动词、形容词等 3)利用各参数权重计算相应召回率,以召回率 作为染色体的适应度函数,召回率计算公式为 位置 根据特征位置,分为标题、起始段和其他 Loc 3个部分: recall n/N 频率 Freq 采用TFDF值表示特征的频率信息: 式中:n代表同所标注的特征相符的特征的数目,N 关联度 CF 表征特征网络之间的链接关系: 代表文档集中所标注的特征总数目。 4)交叉和变异操作:遗传算法的收敛速度以及 2.2特征提取流程 解的质量在很大程度上取决于交叉概率和变异概 特征提取的基本流程如图1所示,其中虚线部 率。为了防止算法陷于局部最优以及加快算法搜索 分为训练模块。对于给定的输入本文,特征提取具 效率,仅让种群中较优个体参与交叉和变异,而当前 体过程如下。 种群最优个体则不参与。具体交叉概率和变异概率 、1片6. 计算公式如下: 经 上· P。 /,sin( 2 ),f≥fg =t.白 (8) 中小数专“ 后左午 分1·小 世心 T assin( 柱N出: P 2 f-),.≥fm(9) 图1 本文方法特征提取基本流程 Fig.1 Flow of feature extraction in this paper 式中:a1、a2、a3、a4为0~1的随机数,fm是当前群 1)预处理。将网络文本去除HTML格式,保留文 体中最优个体的适应度值,f是当前群体的平均 本词语的位置信息,并对文本进行分词和词性标注。 适应度值,∫是参加交叉操作的个体中较大的适应 2)各启发式计算。计算文本中每个词语的 度值,f是变异个体的适应度值。 5)终止条件:当代种群最佳染色体适应度值和前斜咱员园暂 袁类间尧类内分布偏差咱员员暂 等遥 而单纯依靠复杂 网络中词语之间关联度的特征提取方法袁则忽略了 特征本身的频率袁容易造成特征提取聚集到某些无 意义的高频词袁如野的冶等袁从而导致特征提取出现 偏差遥 研究显示袁融合频率和关联特征咱员圆暂 能够有效 避免单一方法的缺陷袁从而提高特征提取的效率遥 此外袁仅仅依靠统计知识容易造成特征提取偏 差袁特别是一些高频词如野是冶尧野和冶等容易成为特 征的候选遥 尽管这些词可以通过建立野停词表冶 对 其进行过滤袁但是构建合适的词表非常困难袁因此引 入特征的词性以及位置对特征进行进一步选取遥 综合以上因素袁论文采用特征的频率尧关联度尧 词性以及位置 源 个因素来衡量待选特征遥 对于文本 中的每个特征 憎袁其权重计算公式为 泽糟燥则藻渊憎冤 越 琢 伊 宰云则藻择 垣 茁 伊 宰蕴燥糟 垣 酌 伊 宰悦云 垣 啄 伊 宰孕韵杂 渊远冤 式中院宰云则藻择表示特征的 栽云陨阅云 启发式袁宰孕韵杂表示特征 的词性启发式袁宰悦云表示特征的关联度启发式袁宰蕴燥糟 表示特征的位置启发式遥 每个启发式的具体描述如 表 圆 所示遥 表 圆摇 特征各启发式描述 栽葬遭造藻 圆摇 阅藻泽糟则蚤责贼蚤燥灶 燥枣 枣藻葬贼怎则藻 澡藻怎则蚤泽贼蚤糟泽 类型 表示 描述 词性 孕韵杂 特征的词性信息袁如名词尧动词尧形容词等 位置 蕴燥糟 根据特征位置袁分为标题尧起始段和其他 猿 个部分曰 频率 云则藻择 采用 栽云陨阅云 值表示特征的频率信息曰 关联度 悦云 表征特征网络之间的链接关系曰 圆援圆摇 特征提取流程 特征提取的基本流程如图 员 所示袁其中虚线部 分为训练模块遥 对于给定的输入本文袁特征提取具 体过程如下遥 图 员摇 本文方法特征提取基本流程 云蚤早援员摇 云造燥憎 燥枣 枣藻葬贼怎则藻 藻曾贼则葬糟贼蚤燥灶 蚤灶 贼澡蚤泽 责葬责藻则 员冤预处理遥 将网络文本去除 匀栽酝蕴 格式袁保留文 本词语的位置信息袁并对文本进行分词和词性标注遥 圆冤 各启发式计算遥 计算文本中每个词语的 栽云陨阅云尧关联度尧位置和词性等启发式遥 猿冤启发式融合遥 根据多启发式融合模型袁对词 语的 源 个启发式进行融合袁并计算得到综合得分遥 源冤输出结果遥 最后根据各特征得分的大小进 行排序袁选择最优的特征并输出遥 圆援猿摇 遗传算法优化权重参数 本文方法中各启发式的参数权重选择是一个典型 的组合优化问题遥 由于遗传算法简单尧易理解尧易实 现袁且在解决组合优化问题有强大的优势咱员猿暂 袁因此袁论 文采用遗传算法对式渊远冤中的参数权重进行优化袁从而 得到一定范围的最佳组合参数权重遥 这里限定 源 个参 数权重的取值范围为渊园袁员冤袁并且满足 琢 垣 茁 垣酌 垣 啄 越 员遥 然后根据经验选取适当的初始值袁并经过迭代计 算袁得到每个启发式的参数权重遥 利用遗传算法获取 各特征参数权重具体过程描述如下院 员冤依据经验袁初始化各特征参数权重 琢 越 园援圆袁 茁 越园援圆袁酌 越 园援源袁啄 越 园援圆曰 圆冤采用十进制编码对染色体进行编码遥 首先 把各参数都乘以 员园 或 员园园 使它们变成整数袁然后再 对它们进行编码袁具体格式如下院 蕴 越 琢茁酌啄遥 其中 各参数均用 猿 位十进制数来表示袁例如院琢 越 园援圆袁茁 越 园援圆袁酌 越 园援源袁啄 越 园援圆袁则先把它们转化为 琢 越 园圆园袁茁 越 园圆园袁酌 越 园源园袁啄 越 园圆园袁 则相应染色体编码为院蕴 越 园圆园园圆园园源园园圆园遥 猿冤利用各参数权重计算相应召回率袁以召回率 作为染色体的适应度函数袁召回率计算公式为 则藻糟葬造造 越 灶辕晕 式中院灶 代表同所标注的特征相符的特征的数目袁晕 代表文档集中所标注的特征总数目遥 源冤交叉和变异操作院遗传算法的收敛速度以及 解的质量在很大程度上取决于交叉概率和变异概 率遥 为了防止算法陷于局部最优以及加快算法搜索 效率袁仅让种群中较优个体参与交叉和变异袁而当前 种群最优个体则不参与遥 具体交叉概率和变异概率 计算公式如下院 责糟 越 葬员 泽蚤灶渊 仔 圆 伊 枣皂葬曾 原 枣糟 枣皂葬曾 原 枣葬增早 冤袁摇 枣糟 逸 枣葬增早 葬圆 袁摇 枣糟 约 枣葬增早        渊愿冤 责皂 越 葬猿 泽蚤灶渊 仔 圆 伊 枣皂葬曾 原 枣皂 枣皂葬曾 原 枣葬增早 冤袁摇 枣皂 逸 枣葬增早 葬源 袁摇 枣皂 约 枣葬增早        渊怨冤 式中院 葬员 尧葬圆 尧葬猿 尧葬源 为 园耀员 的随机数袁 枣皂葬曾 是当前群 体中最优个体的适应度值袁 枣葬增早 是当前群体的平均 适应度值袁 枣糟 是参加交叉操作的个体中较大的适应 度值袁 枣皂 是变异个体的适应度值遥 缘冤终止条件院当代种群最佳染色体适应度值和前 窑源苑远窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 怨 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有