工程科学学报 Chinese Journal of Engineering 基于文本语料的涉恐事件实体属性抽取 曹文斌武卓峰杨涛凡友荣 Entity and attribute extraction of terrorism event based on text corpus CAO Wen-bin,WU Zhuo-feng.YANG Tao,FAN You-rong 引用本文: 曹文斌,武卓峰,杨涛,凡友荣.基于文本语料的涉恐事件实体属性抽取.工程科学学报,2020,42(4):500-508.di: 10.13374j.issn2095-9389.2019.09.13.003 CAO Wen-bin,WU Zhuo-feng,YANG Tao,FAN You-rong.Entity and attribute extraction of terrorism event based on text corpus[J].Chinese Journal of Engineering,2020,42(4):500-508.doi:10.13374/j.issn2095-9389.2019.09.13.003 在线阅读View online::htps:ldoi.org10.13374.issn2095-9389.2019.09.13.003 您可能感兴趣的其他文章 Articles you may be interested in 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报.2019,41(9y:1201 https::/doi.org10.13374.issn2095-9389.2019.09.012 基于领域词典与CRF双层标注的中文电子病历实体识别 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF 工程科学学报.2020.42(4:469 https:1doi.org10.13374.issn2095-9389.2019.09.04.004 基于PCA和MCMC的贝叶斯方法的海下矿山水害源识别分析 Application of PCA and Bayesian MCMC to discriminate between water sources in seabed gold mines 工程科学学报.2019,41(11:1412htps:/doi.org10.13374.issn2095-9389.2019.06.03.004 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报.2020,42(4:476 https:/1doi.org10.13374j.issn2095-9389.2019.09.17.002 一种面向网络长文本的话题检测方法 A topic detection method for network long text 工程科学学报.2019,41(9外1208 https:1doi.org10.13374.issn2095-9389.2019.09.013
基于文本语料的涉恐事件实体属性抽取 曹文斌 武卓峰 杨涛 凡友荣 Entity and attribute extraction of terrorism event based on text corpus CAO Wen-bin, WU Zhuo-feng, YANG Tao, FAN You-rong 引用本文: 曹文斌, 武卓峰, 杨涛, 凡友荣. 基于文本语料的涉恐事件实体属性抽取[J]. 工程科学学报, 2020, 42(4): 500-508. doi: 10.13374/j.issn2095-9389.2019.09.13.003 CAO Wen-bin, WU Zhuo-feng, YANG Tao, FAN You-rong. Entity and attribute extraction of terrorism event based on text corpus[J]. Chinese Journal of Engineering, 2020, 42(4): 500-508. doi: 10.13374/j.issn2095-9389.2019.09.13.003 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003 您可能感兴趣的其他文章 Articles you may be interested in 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报. 2019, 41(9): 1201 https://doi.org/10.13374/j.issn2095-9389.2019.09.012 基于领域词典与CRF双层标注的中文电子病历实体识别 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF 工程科学学报. 2020, 42(4): 469 https://doi.org/10.13374/j.issn2095-9389.2019.09.04.004 基于PCA和MCMC的贝叶斯方法的海下矿山水害源识别分析 Application of PCA and Bayesian MCMC to discriminate between water sources in seabed gold mines 工程科学学报. 2019, 41(11): 1412 https://doi.org/10.13374/j.issn2095-9389.2019.06.03.004 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报. 2020, 42(4): 476 https://doi.org/10.13374/j.issn2095-9389.2019.09.17.002 一种面向网络长文本的话题检测方法 A topic detection method for network long text 工程科学学报. 2019, 41(9): 1208 https://doi.org/10.13374/j.issn2095-9389.2019.09.013
工程科学学报.第42卷.第4期:500-508.2020年4月 Chinese Journal of Engineering,Vol.42,No.4:500-508,April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003;http://cje.ustb.edu.cn 基于文本语料的涉恐事件实体属性抽取 曹文斌)四,武卓峰,杨涛),凡友荣) 1)公安部第三研究所,上海2012042)上海市公安局.上海200042 通信作者.E-mail:490838330@qq.com 摘要基于语义角色分析,提出了一种三元组涉恐事件实体属性抽取方法,为网络空间涉恐活动的监测及预警提供技术支 持.首先,基于西北政法大学“反恐怖主义信息网”文本语料数据进行数据采集和清洗等预处理工作,采用朴素贝叶斯文本分 类算法识别涉恐事件文本,并采用关键词提取算法TF-lIDF(Term frequency-inverse document frequency,词频-逆文档频率)构建 涉恐专有词库,结合自然语言处理技术构建带词性的涉恐专有词库.然后通过语义角色分析、句法依存分析,提取了主语谓 语宾语关系、定语后置动宾关系、人名地名机构和介宾关系主谓动补4类涉恐三元组结构.最后,利用正则表达式及带词 性的涉恐专有名词分析,在4类三元组短文本中提取出恐怖事件发生时间、发生地点、伤亡情况、攻击方式、武器类型和恐 怖组织6类实体属性.对采集的4221篇文章数据进行实验分析,6类实体属性抽取的测评结果F1值均超过80%,对网络空 间的涉恐事件监测及预警,维护社会公共安全具有重要现实意义 关键词实体抽取:语义角色分析:三元组:朴素贝叶斯:文本分类 分类号TP301.6 Entity and attribute extraction of terrorism event based on text corpus CAO Wen-bin,WU Zhuo-feng.YANG Tao,FAN You-rong" 1)Third Research Institute of Ministry of Public Security,Shanghai 201204,China 2)Shanghai Municipal Bureau of Public Security,Shanghai 200042,China Corresponding author,E-mail:490838330@qq.com ABSTRACT Affected by complex international factors in recent years,terrorism events are increasingly rampant in many countries, thereby posing a great threat to the gloal community.In addition,with the widespread use of emerging technologies in military and commercial fields,terrorist organizations have begun to use emerging technologies to engage in destructive activities.As the Internet and information technology develop,terrorism has been rapidly spreading in cyberspace.Terrorist organizations have created terrorism websites,established multinational networks of terrorist organizations,released recruitment information and even conducted training activities through various mainstream websites with a worldwide reach.Compared with traditional terrorist activities,cyber terrorist activities have a greater degree of destructiveness.Cybercrime and cyber terrorism have become the most serious challenges for societies.Terrorist organizations take advantage of the Internet in rapid dissemination of extremism ideas,and develop a large number of terrorists and supporters around the world,especially in developed Western countries.Terrorist organizations even use the Internet and "dark net"networks to conduct terrorist training,and their activities are concealed.As a result,the "lone wolf"terrorist attacks in various countries have emerged in an endless stream,which is difficult to prevent.This study proposed a method of extracting entities and attributes of terrorist events based on semantic role analysis,and provided technical support for monitoring and predicting cyberspace terrorism activities.Firstly,a naive Bayesian text classification algorithm is used to identify terrorism events on the cleaned 收稿日期:2019-09-13 基金项目:国家重点研发计划资助项目(2018YFC0830401.2018YFC0806903):公安部第三研究所2019年基本科研业务费专项资金资助项 目(C19354)
基于文本语料的涉恐事件实体属性抽取 曹文斌1) 苣,武卓峰2),杨 涛1),凡友荣1) 1) 公安部第三研究所,上海 201204 2) 上海市公安局,上海 200042 苣通信作者,E-mail: 490838330@qq.com 摘 要 基于语义角色分析,提出了一种三元组涉恐事件实体属性抽取方法,为网络空间涉恐活动的监测及预警提供技术支 持. 首先,基于西北政法大学“反恐怖主义信息网”文本语料数据进行数据采集和清洗等预处理工作,采用朴素贝叶斯文本分 类算法识别涉恐事件文本,并采用关键词提取算法 TF-IDF(Term frequency-inverse document frequency,词频-逆文档频率)构建 涉恐专有词库,结合自然语言处理技术构建带词性的涉恐专有词库. 然后通过语义角色分析、句法依存分析,提取了主语谓 语宾语关系、定语后置动宾关系、人名//地名//机构和介宾关系主谓动补 4 类涉恐三元组结构. 最后,利用正则表达式及带词 性的涉恐专有名词分析,在 4 类三元组短文本中提取出恐怖事件发生时间、发生地点、伤亡情况、攻击方式、武器类型和恐 怖组织 6 类实体属性. 对采集的 4221 篇文章数据进行实验分析,6 类实体属性抽取的测评结果 F1 值均超过 80%,对网络空 间的涉恐事件监测及预警,维护社会公共安全具有重要现实意义. 关键词 实体抽取;语义角色分析;三元组;朴素贝叶斯;文本分类 分类号 TP301.6 Entity and attribute extraction of terrorism event based on text corpus CAO Wen-bin1) 苣 ,WU Zhuo-feng2) ,YANG Tao1) ,FAN You-rong1) 1) Third Research Institute of Ministry of Public Security, Shanghai 201204, China 2) Shanghai Municipal Bureau of Public Security, Shanghai 200042, China 苣 Corresponding author, E-mail: 490838330@qq.com ABSTRACT Affected by complex international factors in recent years, terrorism events are increasingly rampant in many countries, thereby posing a great threat to the gloal community. In addition, with the widespread use of emerging technologies in military and commercial fields, terrorist organizations have begun to use emerging technologies to engage in destructive activities. As the Internet and information technology develop, terrorism has been rapidly spreading in cyberspace. Terrorist organizations have created terrorism websites, established multinational networks of terrorist organizations, released recruitment information and even conducted training activities through various mainstream websites with a worldwide reach. Compared with traditional terrorist activities, cyber terrorist activities have a greater degree of destructiveness. Cybercrime and cyber terrorism have become the most serious challenges for societies. Terrorist organizations take advantage of the Internet in rapid dissemination of extremism ideas, and develop a large number of terrorists and supporters around the world, especially in developed Western countries. Terrorist organizations even use the Internet and “dark net” networks to conduct terrorist training, and their activities are concealed. As a result, the "lone wolf" terrorist attacks in various countries have emerged in an endless stream, which is difficult to prevent. This study proposed a method of extracting entities and attributes of terrorist events based on semantic role analysis, and provided technical support for monitoring and predicting cyberspace terrorism activities. Firstly, a naive Bayesian text classification algorithm is used to identify terrorism events on the cleaned 收稿日期: 2019−09−13 基金项目: 国家重点研发计划资助项目(2018YFC0830401,2018YFC0806903);公安部第三研究所 2019 年基本科研业务费专项资金资助项 目(C19354) 工程科学学报,第 42 卷,第 4 期:500−508,2020 年 4 月 Chinese Journal of Engineering, Vol. 42, No. 4: 500−508, April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003; http://cje.ustb.edu.cn
曹文斌等:基于文本语料的涉恐事件实体属性抽取 501· text corpus collected from the Anti-Terrorism Information Site of the Northwest University of Political Science and Law.The keyword extraction algorithm TF-IDF is adopted for constructing the terrorism vocabularies from the classified text corpus,combining natural language processing technology.Then,semantic role and syntactic dependency analyses are conducted to mine the attributive post- targeting relationship,the name//place name//organization,and the mediator-like relationship.Finally,regular expressions and constructed lexical terrorism-specific vocabularies are used to extract six entities and attributes (occurrence time,occurrence location, casualties,attack methods,weapon types and terrorist organizations)of terrorism event based on the four types of triad short texts.The F1 values of the six types of entity attribute extraction evaluation results exceeded 80%based on the experimental data of 4221 articles collected.Therefore,the method proposed has practical significance for maintaining social public safety because of the positive effect in monitoring and predicting cyberspace terrorism events. KEY WORDS entity extraction;semantic role analysis;triples;naive Bayes;text categorization 近年来,受国际各种复杂因素的影响,我国反 1技术路线 恐斗争进入更加严峻的新阶段,网络空间成为恐 本文的研究语料来源于西北政法大学“反恐 怖分子的重要活动平台.与此同时,每天有大量的 怖主义信息网”,该网站聚焦了全球涉恐新闻报道 涉恐事件新闻报道、涉恐学术文献等文本发布在 及反恐学术传播.网站内容包括:全球五大地区 互联网上,这为涉恐事件的分析及预警提供了丰 (欧美、亚太、中东、中亚南亚、西亚非洲)恐怖活 富语料来源.然而,这些文本语料稀疏分散在浩瀚 动报道、国际反恐行动以及涉恐学术研究动态和 的网络数据中,大多以非结构化的形式存在,这给 成果.本文研究了涉恐主题网站的数据采集程序, 涉恐事件实体属性抽取带来了挑战 在主题网络爬虫技术的基础上),采用最新的 近年来,随着机器学习、深度学习等人工智能 Java的HTML解析器jsoup工具解构网页l,.针对 技术的兴起,事件实体、属性抽取得到了学者们越 “反恐怖主义信息网”结构特点,编写了涉恐主题 来越多的关注.事件实体、属性抽取方法由触发 网站精准数据采集程序,实现了文章标题、文章正 词模式匹配的规则山,发展到条件随机场CRF等 文、文章链接、文章发表日期、文章作者等信息的 机器学习算法I,再到最新的双向LSTM神经网络 精准提取及有效分类,并按照全球五大地区分库 模型).如章顺瑞与骆陈用语义角色分析的方法 存储。 对动态新闻进行事件抽取研究.陈箫箫与刘波 网页采集的数据很杂乱,且网页文本既有涉 在开放域微博文本运用条件随机场模型和LDA 恐文本,也有非涉恐文本.因此,首先对采集下来 主题模型进行了命名实体识别和事件短语抽取 的数据进行数据清洗,去除杂乱数据和非涉恐文 秦兵等阿提出了面向大规模网络中文文本的无监督 本.对于非涉恐文本的清洗,根据“没有伤害就不 开放式实体关系抽取方法.侯伟涛与姬东鸿使 是恐怖事件报道”的涉恐事件文本特征,通过正则 用双向LSTM神经网络解决了传统方法通用性不 表达式区分 强以及无法捕捉前后文隐含信息的问题.李卫疆 清洗后的涉恐文本包含涉恐学术活动报道等 等考虑词汇、语义、句法及位置特征,提出了基 非事件类新闻报道,通过基于机器学习的朴素贝 于多特征自注意力的实体关系抽取方法 叶斯算法,对涉恐文本进行分类,区分出涉恐事件 本文以西北政法大学“反恐怖主义信息网”文 文本和非涉恐事件文本.首先对文本进行中文文 本语料为数据集,使用机器学习算法中的朴素贝 本处理(分词、去停词库),随机生成训练测试验 叶斯分类算法识别涉恐文本9,通过TF-DF算法 证集等数据预处理工作,在分类训练过程中运用 提取涉恐专有关键词,采用命名实体识别、语义 了朴素贝叶斯算法,训练之后进行交叉验证训 角色分析、依存句法分析等自然语言处理技术构 练好的模型即可用于对清洗后的其它数据进行文 建了主语谓语宾语关系、定语后置动宾关系、人 本分类 名地名机构和介宾关系主谓动补的三元组结构四 对包含涉恐事件文本进行结构分解,根据事 结合4类三元组词性结构和涉恐专有词库,提取 件类新闻传播学的理论,事件类新闻报道按事实 了涉恐事件的发生地点、发生时间、恐怖组织、攻 严重性呈现倒金字塔结构,通常最重要、最新鲜 击方式、攻击武器、伤亡情况6类实体属性,为涉 的事实描述放在文章前面,把所有涉恐新闻的标题 恐事件的深度挖掘提供了技术支持 汇集在一起,运用T℉-IDF算法抽取涉恐事件专有关
text corpus collected from the Anti-Terrorism Information Site of the Northwest University of Political Science and Law. The keyword extraction algorithm TF-IDF is adopted for constructing the terrorism vocabularies from the classified text corpus, combining natural language processing technology. Then, semantic role and syntactic dependency analyses are conducted to mine the attributive posttargeting relationship, the name//place name//organization, and the mediator-like relationship. Finally, regular expressions and constructed lexical terrorism-specific vocabularies are used to extract six entities and attributes (occurrence time, occurrence location, casualties, attack methods, weapon types and terrorist organizations) of terrorism event based on the four types of triad short texts. The F1 values of the six types of entity attribute extraction evaluation results exceeded 80% based on the experimental data of 4221 articles collected. Therefore, the method proposed has practical significance for maintaining social public safety because of the positive effect in monitoring and predicting cyberspace terrorism events. KEY WORDS entity extraction;semantic role analysis;triples;naive Bayes;text categorization 近年来,受国际各种复杂因素的影响,我国反 恐斗争进入更加严峻的新阶段,网络空间成为恐 怖分子的重要活动平台. 与此同时,每天有大量的 涉恐事件新闻报道、涉恐学术文献等文本发布在 互联网上,这为涉恐事件的分析及预警提供了丰 富语料来源. 然而,这些文本语料稀疏分散在浩瀚 的网络数据中,大多以非结构化的形式存在,这给 涉恐事件实体属性抽取带来了挑战. 近年来,随着机器学习、深度学习等人工智能 技术的兴起,事件实体、属性抽取得到了学者们越 来越多的关注. 事件实体、属性抽取方法由触发 词模式匹配的规则[1] ,发展到条件随机场 CRF 等 机器学习算法[2] ,再到最新的双向 LSTM 神经网络 模型[3] . 如章顺瑞与骆陈[4] 用语义角色分析的方法 对动态新闻进行事件抽取研究. 陈箫箫与刘波[5] 在开放域微博文本运用条件随机场模型和 LDA 主题模型进行了命名实体识别和事件短语抽取. 秦兵等[6] 提出了面向大规模网络中文文本的无监督 开放式实体关系抽取方法. 侯伟涛与姬东鸿[7] 使 用双向 LSTM 神经网络解决了传统方法通用性不 强以及无法捕捉前后文隐含信息的问题. 李卫疆 等[8] 考虑词汇、语义、句法及位置特征,提出了基 于多特征自注意力的实体关系抽取方法. 本文以西北政法大学“反恐怖主义信息网”文 本语料为数据集,使用机器学习算法中的朴素贝 叶斯分类算法识别涉恐文本[9] ,通过 TF-IDF 算法 提取涉恐专有关键词[10] ,采用命名实体识别、语义 角色分析、依存句法分析等自然语言处理技术构 建了主语谓语宾语关系、定语后置动宾关系、人 名//地名//机构和介宾关系主谓动补的三元组结构[11] . 结合 4 类三元组词性结构和涉恐专有词库,提取 了涉恐事件的发生地点、发生时间、恐怖组织、攻 击方式、攻击武器、伤亡情况 6 类实体属性,为涉 恐事件的深度挖掘提供了技术支持. 1 技术路线 本文的研究语料来源于西北政法大学“反恐 怖主义信息网”,该网站聚焦了全球涉恐新闻报道 及反恐学术传播. 网站内容包括:全球五大地区 (欧美、亚太、中东、中亚南亚、西亚非洲)恐怖活 动报道、国际反恐行动以及涉恐学术研究动态和 成果. 本文研究了涉恐主题网站的数据采集程序, 在主题网络爬虫技术的基础上[12] ,采用最新的 Java 的 HTML 解析器 jsoup 工具解构网页[13] . 针对 “反恐怖主义信息网”结构特点,编写了涉恐主题 网站精准数据采集程序,实现了文章标题、文章正 文、文章链接、文章发表日期、文章作者等信息的 精准提取及有效分类,并按照全球五大地区分库 存储. 网页采集的数据很杂乱,且网页文本既有涉 恐文本,也有非涉恐文本. 因此,首先对采集下来 的数据进行数据清洗,去除杂乱数据和非涉恐文 本. 对于非涉恐文本的清洗,根据“没有伤害就不 是恐怖事件报道”的涉恐事件文本特征,通过正则 表达式区分. 清洗后的涉恐文本包含涉恐学术活动报道等 非事件类新闻报道,通过基于机器学习的朴素贝 叶斯算法,对涉恐文本进行分类,区分出涉恐事件 文本和非涉恐事件文本. 首先对文本进行中文文 本处理(分词、去停词库)[14] ,随机生成训练测试验 证集等数据预处理工作,在分类训练过程中运用 了朴素贝叶斯算法,训练之后进行交叉验证[15] . 训 练好的模型即可用于对清洗后的其它数据进行文 本分类. 对包含涉恐事件文本进行结构分解,根据事 件类新闻传播学的理论,事件类新闻报道按事实 严重性呈现倒金字塔结构[16] ,通常最重要、最新鲜 的事实描述放在文章前面,把所有涉恐新闻的标题 汇集在一起,运用 TF-IDF 算法抽取涉恐事件专有关 曹文斌等: 基于文本语料的涉恐事件实体属性抽取 · 501 ·
502 工程科学学报,第42卷,第4期 键词,文章的发布信息位置处的新闻发布时间是事 P(Y X)=P(XY)P(Y)/P(X)=P(X,Y)/P(X) 件发生的基准时间,因此需要将每篇涉恐事件新 在本文涉恐文本分类中,把X理解成“具有某 闻文本分解成标题、发布信息、新闻主体三部分 特征”,把Y理解成“是否属于涉恐文本类别标 对新闻段落进一步分句,逐句进行正则表达 签”,定义文本类别变量={0,1},=1时表示文本 式解析、命名实体识别抽取和语义角色分析.正 属于涉恐文本;=0时表示文本不属于涉恐文本. 则表达式用于初步提取事件发生时间叨,命名实 对于涉恐文本二分类问题即可转化为判断 体识别技术用于初步提取恐怖组织、事件发生地点 P(Y=)是否大于0.5就够了.朴素贝叶斯方法把 等,语义角色分析技术则用于提取句子中的三元 计算“具有某特征的条件下属于涉恐文本”的概率 组)本文用了4种三元组解析方法,分别是主语谓 转换成需要计算“属于涉恐文本条件下是否具有 语宾语关系解析、定语后置动宾关系解析、人名∥ 某特征”的概率,从而把未知的概率预测问题转化 地名机构解析、介宾关系主谓动补解析(图1). 成了先验统计训练问题 2关键技术及算法 自然语言处理中,句子出现的联合概率分布 为计算分词序列条件概率链,对于以词序列 2.1朴素贝叶斯文本分类算法 Z1,Z2,…,Zn组成的句子出现概率P(Z1,Z2,…,乙n)根 贝叶斯公式20 据链式法则计算, 厂 Pages Text recognition based on naive Data collection bayes and cleaning Paragraphs Title,paragraph separation Key words extraction Text reference time determination Keywords library Classification by part of speech Sentenc Semantic role labeling and named entity recognition Parsing sentences with regular expressions Analysis of the triad relationship based on terrorist thesaurus Part-of-speech terrorism-specific thesaurus Triad The subject-predicate-object short texts relationship extraction Post-attributive extraction The name//place name//organization Events extration- extraction Subject-verb verb complement Terrorist knowledge base relationship extraction ) 图1技术路线 Fig.1 Technical route
键词,文章的发布信息位置处的新闻发布时间是事 件发生的基准时间,因此需要将每篇涉恐事件新 闻文本分解成标题、发布信息、新闻主体三部分. 对新闻段落进一步分句,逐句进行正则表达 式解析、命名实体识别抽取和语义角色分析. 正 则表达式用于初步提取事件发生时间[17] ,命名实 体识别技术用于初步提取恐怖组织、事件发生地点 等[18] ,语义角色分析技术则用于提取句子中的三元 组[19] . 本文用了 4 种三元组解析方法,分别是主语谓 语宾语关系解析、定语后置动宾关系解析、人名// 地名//机构解析、介宾关系主谓动补解析(图 1). 2 关键技术及算法 2.1 朴素贝叶斯文本分类算法 贝叶斯公式[20] P(Y|X) = P(X|Y)P(Y)/P(X) = P(X,Y)/P(X) 在本文涉恐文本分类中,把 X 理解成“具有某 特征” ,把 Y 理解成“是否属于涉恐文本类别标 签”,定义文本类别变量 Y={0, 1},Y=1 时表示文本 属于涉恐文本;Y=0 时表示文本不属于涉恐文本. 对于涉恐文本二分类问题即可转化为判断 P(Y=1|X) 是否大于 0.5 就够了. 朴素贝叶斯方法把 计算“具有某特征的条件下属于涉恐文本”的概率 转换成需要计算“属于涉恐文本条件下是否具有 某特征”的概率,从而把未知的概率预测问题转化 成了先验统计训练问题. Z1,Z2,··· ,Zn P(Z1,Z2,··· ,Zn) 自然语言处理中,句子出现的联合概率分布 为计算分词序列条件概率链 ,对于以词序列 组成的句子出现概率 根 据链式法则计算[21] . Sentences Pages Paragraphs Triad short texts Keywords library Part-of-speech terrorism-specific thesaurus Data collection and cleaning Key words extraction Classification by part of speech Terrorist knowledge base Events extration Text recognition based on naive bayes Title, paragraph separation Text reference time determination Semantic role labeling and named entity recognition Parsing sentences with regular expressions Analysis of the triad relationship based on terrorist thesaurus The subject-predicate-object relationship extraction Post-attributive extraction The name//place name//organization extraction Subject-verb verb complement relationship extraction 图 1 技术路线 Fig.1 Technical route · 502 · 工程科学学报,第 42 卷,第 4 期
曹文斌等:基于文本语料的涉恐事件实体属性抽取 503· P(Z1,Z2,…,Zn)=P(Z1)P(Z2Z1)…P(ZIZ,Z2,…,Zn-1) 4人死亡”为例,经过自然语言处理技术分词(Word 马尔可夫独立假设(Markov assumption)2四认 segmentation,.WS)、词性标注(Part-of-speech tagging, 为,自然语言句子中,当前词出现的概率仅依赖前 POS)、依存句法(Dependency parsing,.DP)和语义 面出现的N个词,N通常小于等于3.这就是N-gram 角色标注(SRL)处理分析后,得到如表1所示的 语言模型,当N=2时,P(Z1,Z2,…,Zn)=P(Z1)PZ2 结果 Z1)P(Z31Z1Z2)…P(Z,Z-2Z-1)…P(Zn1Zn-2Zn-1)以训 依存句法分析通过句子中的“主谓宾”、“定 练样本Z=“阿富汗首都爆炸袭击造成至少4人死 状补”等语法关系描述分词后的词与词之间的关 亡”为例, 联关系4在揭示句子语法结构的同时,分析各分 P(Z=P“阿富汗首都爆炸袭击造成至少4人死亡”) 词成分关系.中文依存句法包含15种关系结构, =P(“阿富汗首都”,“爆炸”,“袭击”,“造成” 如:主谓关系、定中关系、动宾关系等在表1分析 “至少”,“4”,“人”,“死亡” 结果的基础上,画出图2的句法依存弧形关联图. =P“阿富汗首都”)P(“爆炸”1“阿富汗首都)… 在依存句法分析的基础上,进一步分析句子 P“死亡”1“阿富汗首都”,“爆炸”,“袭击”, 的语义角色,以实验句子为例,核心谓词“造成” “造成”,“至少”,“4”,“人”,“死亡”) “阿富汗首都爆炸袭击”是核心谓词的动作的施事 =P(“阿富汗首都”)P(“爆炸”1“阿富汗首都”)… 者A0:(0,3),“至少4人死亡”是受核心谓词的动作 P“袭击”|“阿富汗首都”,“爆炸)… 影响 P人”1“至少”,“4”)P(“死亡”1“4”,“人) 2.2语义角色分析技术 3实验及结果分析 语义角色标注(Semantic role labeling.,SRL)旨 3.1实验数据与评价指标 在标记出句中给定谓词的相关语义角色短语,例 本文基于西北政法大学“反恐怖主义信息网”, 如给定谓词的施事、受事、时间和地点等.语义角 采集了全球五大地区(欧美、亚太、中东、中亚南亚、 色分析技术能够识别出给定句子中的每个谓词, 西亚非洲)的42221篇网页数据(表2).数据以文 并标记出与其相应带语义成分,识别出其在句中 本文件格式按地区分5个文件存储,每一行为一 的相应语义成分.其中,做某件事的人或物则是谓 篇文章,每篇文章先后按文章URL、文章标题、文 词的施事,接受某事物的人、物即为谓词的受事, 章信息、段落用TAB分割. 其他的附加语(如地点、时间、方式)则是谓词的 根据抽取文章速度衡量模型的复杂度;根据 修饰成分 准确率(Precision)、召回率(Recall)、Fl值(F-Measure) 以实验句子“阿富汗首都爆炸袭击造成至少 考核算法的抽取效果 表1语义角色分析实例 Table 1 Semantic role analysis example Techniques 0 1 6 1 8 ws 阿富汗 首都 爆炸 袭击 造成 至少 4 人 死亡 POS ns n d m n DP 2:ATT 4:ATT 4:ATT 5:SBV 0:HED 8:ATT 8:ATT 9:SBV 5:VOB 4A0:0,3)A1(5,8) SRL 8A1:(5,7 -Head WP. VOB A ATT-ATT SBV A -SVB 阿富汗 首者 爆炸 击 造成 至少 ns d WD 图2依存句法分析 Fig.2 Dependency parsing analysis
P(Z1,Z2,··· ,Zn) = P(Z1)P(Z2|Z1)···P(Zn|Z1,Z2,··· ,Zn−1) P(Z1,Z2,··· ,Zn) = P(Z1)P(Z2 |Z1)P(Z3|Z1Z2)···P(Zt |Zt −2Zt −1)···P(Zn|Zn−2Zn−1) 马尔可夫独立假设(Markov assumption) [22] 认 为,自然语言句子中,当前词出现的概率仅依赖前 面出现的 N 个词,N 通常小于等于 3. 这就是 N-gram 语言模型[23] ,当 N=2 时 , 以训 练样本 Z=“阿富汗首都爆炸袭击造成至少 4 人死 亡”为例, P(Z)=P ( “阿富汗首都爆炸袭击造成至少4人死亡”) = P ( “阿富汗首都”,“爆炸”,“袭击”,“造成”, “至少”,“4”,“人”,“死亡”) =P ( “阿富汗首都”) P ( “爆炸”“阿富汗首都” | ) ··· P ( “死亡”|“阿富汗首都”,“爆炸”,“袭击”, “造成”,“至少”,“4”,“人”,“死亡”) =P ( “阿富汗首都”) P ( “爆炸”“阿富汗首都” | ) ··· P ( “袭击”|“阿富汗首都”,“爆炸”) ··· P ( “人”|“至少”,“4” ) P ( “死亡”|“4”,“人”) 2.2 语义角色分析技术 语义角色标注(Semantic role labeling, SRL)旨 在标记出句中给定谓词的相关语义角色短语,例 如给定谓词的施事、受事、时间和地点等. 语义角 色分析技术能够识别出给定句子中的每个谓词, 并标记出与其相应带语义成分,识别出其在句中 的相应语义成分. 其中,做某件事的人或物则是谓 词的施事,接受某事物的人、物即为谓词的受事, 其他的附加语 (如地点、时间、方式) 则是谓词的 修饰成分[4] . 以实验句子“阿富汗首都爆炸袭击造成至少 4 人死亡”为例,经过自然语言处理技术分词(Word segmentation, WS)、词性标注(Part-of-speech tagging, POS)、依存句法(Dependency parsing, DP)和语义 角色标注(SRL)处理分析后,得到如表 1 所示的 结果. 依存句法分析通过句子中的“主谓宾”、“定 状补”等语法关系描述分词后的词与词之间的关 联关系[24] . 在揭示句子语法结构的同时,分析各分 词成分关系. 中文依存句法包含 15 种关系结构, 如:主谓关系、定中关系、动宾关系等. 在表 1 分析 结果的基础上,画出图 2 的句法依存弧形关联图. 在依存句法分析的基础上,进一步分析句子 的语义角色,以实验句子为例,核心谓词“造成”, “阿富汗首都爆炸袭击”是核心谓词的动作的施事 者 A0:(0,3),“至少 4 人死亡”是受核心谓词的动作 影响. 3 实验及结果分析 3.1 实验数据与评价指标 本文基于西北政法大学“反恐怖主义信息网”, 采集了全球五大地区(欧美、亚太、中东、中亚南亚、 西亚非洲)的 42221 篇网页数据(表 2). 数据以文 本文件格式按地区分 5 个文件存储,每一行为一 篇文章,每篇文章先后按文章 URL、文章标题、文 章信息、段落用 TAB 分割. 根据抽取文章速度衡量模型的复杂度;根据 准确率(Precision)、召回率(Recall)、F1 值(F-Measure) 考核算法的抽取效果. 表 1 语义角色分析实例 Table 1 Semantic role analysis example Techniques 0 1 2 3 4 5 6 7 8 WS 阿富汗 首都 爆炸 袭击 造成 至少 4 人 死亡 POS ns n v v v d m n v DP 2:ATT 4:ATT 4:ATT 5:SBV 0:HED 8:ATT 8:ATT 9:SBV 5:VOB SRL 4 A0:(0,3)A1:(5,8) 8 A1:(5,7) 阿富汗 首都 爆炸 袭击 造成 至少 4 人 死亡 。 ns n v v v d m n v wp Root ATT ATT SBV ATT ATT SVB VOB WP ATT Head 图 2 依存句法分析 Fig.2 Dependency parsing analysis 曹文斌等: 基于文本语料的涉恐事件实体属性抽取 · 503 ·
504 工程科学学报,第42卷,第4期 表2训练测试数据概览 Table 2 Training test data overview Area US and Europe Asia-Pacific Middle East Central and South Asia West Asia and Africa Number of texts in corpus 14110 3513 11169 3178 10251 准确率计算公式为:P-抽取结果正确的实体 事件发生的基准时间.根据基准时间采用正则表 属性抽取出的实体属性数量 达式提取事件发生的时间,如“昨天”、“上月 召回率计算公式为:R=抽取结果正确的实体 15日14时”等具体事件发生时间转换成统一的时 属性/实际有的总实体属性数量 间格式”yyyy-MM-ddHH:mm:ss” F1值计算公式为:F1=2PR/(P+R) 表3事件发生基准时间样例 3.2实验分析 32.1正则挖掘涉恐实体属性 Table 3 Sample time base for event occurrence (1)伤亡人数属性提取 Type Sample 本文根据中文语境下事件新闻描述伤亡的语 Post time“作者:来源:新华社发布时间:2019年02月14日点击数:1”; 法规律,编写了对于涉恐事件伤亡描述的正则表 Report “新华社内罗毕2月13日电…司令部13日下午证实… time 美军11日在” 达式,范式如下: (0d+)多?(人位名))u4e00-u9fa5]*(死亡丧生| 3.2.2三元组挖掘涉恐实体属性 丧命受伤身亡)pP)?①u4e00-lu9fa5]*(d+)多?(人 在词性标注、依存句法分析、语义角色分析的 位名)u4e00-lu9fa5]*(受伤)? 基础上,开展三元组提取,三元组的精准切割,能 该正则表达式提取伤亡事件描述的准确率为 够抽取出涉恐事件发生的地点、恐怖组织、攻击 100%.在本本研究语料中,召回率为91.2%,召回 武器、攻击方式等.在本课题中从4个维度抽取三 率未能到100%,主要是由于对非阿拉伯数量词难 元组关系,分别是主语谓语宾语关系三元组、定语 以提取.例如:“一名袭击者身亡,另有7人受伤”, 后置动宾关系三元组、人名地名机构三元组、 受伤属性7人能正常提取,对于事件造成死亡人 介宾关系主谓动补关系三元组和定语后置动宾关 数“一名”需要根据文本语种调整正则表达式. 系三元组 (2)事件发生时间提取 谓语宾语关系三元组提取示例如表4所示,在 事件发生事件的基准参考时间有文章发布时 第3列显示了需要提取的实体属性,并且是一个 间或首行报道时间,如表3所示.首行报道时间的 个原子属性或实体.如,通过第1行实例,“塔吉克 确定要参考文章发布时间,如在表3第2行例子 斯坦南部”的词性和专有词“发生”能够提取出事 2中,“新华社内罗毕2月13日电”年份需参考文 件发生的地点是在“塔吉克斯坦南部”,第3行 章发布时间,推出基准时间为2019年2月13日. “炮弹”和“发射”可以提取攻击方式为“炮弹”,进 若没有首行报道时间,则采用文章发布时间作为 一步分析“也门胡塞武装分子”词性即可确定恐怖 表4主语谓语宾语关系三元组提取示例 Table 4 Example of subject predicate object relation triplet extraction Sentence Triples 巴基斯坦卡拉奇南部发生一起恐怖袭击 巴基斯坦卡拉奇南部,发生,一起恐怖袭击 美国驻塔吉克斯坦领事馆遭多名武装分子袭击 美国驻塔吉克斯坦领事馆,遭,袭击 也门胡塞武装分子当天凌晨向沙特吉赞省发射炮弹 也门胡塞武装分子,发射,炮弹 4 巴加索拉镇一个市场当天遭极端组织“博科圣地”爆炸袭击 巴加索拉镇一个市场,遭,极端组织博科圣地 北约车队当天在阿东部遭遇自杀式爆炸袭击 北约车队.遭遇,自杀式爆炸 6 埃及西奈半岛北部城市阿里什一酒店24日遭自杀式炸弹袭击 埃及西奈半岛北部城市阿里什一酒店,遭,自杀式炸弹袭击 > 塔利班6日晚在阿富汗西部巴德吉斯省再次发动袭击 塔利班,发动.袭击 8 也门南部一警察基地15日发生自杀式恐怖袭击事件 也门南部一警察基地.发生,自杀式恐怖袭击事件 9 两名女性自杀式袭击者客在尼日利亚东北部一处拥挤的市集引爆炸弹 两名女性自杀式袭击者客,引爆,炸弹 10 黎巴嫩首都贝鲁特南郊的一处繁华区域发生自杀式炸弹袭击 黎巴嫩首都贝鲁特南郊一处繁华区域,发生,自杀式炸弹袭击
准确率计算公式为:P=抽取结果正确的实体 属性/抽取出的实体属性数量 召回率计算公式为:R=抽取结果正确的实体 属性/实际有的总实体属性数量 F1 值计算公式为: F1 = 2PR/(P+R) 3.2 实验分析 3.2.1 正则挖掘涉恐实体属性 (1)伤亡人数属性提取. 本文根据中文语境下事件新闻描述伤亡的语 法规律,编写了对于涉恐事件伤亡描述的正则表 达式,范式如下: ((\\d+) 多?(人|位|名))[\u4e00-\u9fa5]*(死亡|丧生| 丧命|受伤|身亡)(\\pP)?([\u4e00-\u9fa5]*((\\d+) 多?(人| 位|名))[\u4e00-\u9fa5]*(受伤))? 该正则表达式提取伤亡事件描述的准确率为 100%. 在本本研究语料中,召回率为 91.2%,召回 率未能到 100%,主要是由于对非阿拉伯数量词难 以提取. 例如:“一名袭击者身亡,另有 7 人受伤”, 受伤属性 7 人能正常提取,对于事件造成死亡人 数“一名”需要根据文本语种调整正则表达式. (2)事件发生时间提取. 事件发生事件的基准参考时间有文章发布时 间或首行报道时间,如表 3 所示. 首行报道时间的 确定要参考文章发布时间,如在表 3 第 2 行例子 2 中,“新华社内罗毕 2 月 13 日电”年份需参考文 章发布时间,推出基准时间为 2019 年 2 月 13 日. 若没有首行报道时间,则采用文章发布时间作为 事件发生的基准时间. 根据基准时间采用正则表 达式提取事件发生的时间 ,如 “ 昨 天 ” 、 “ 上 月 15 日 14 时”等具体事件发生时间转换成统一的时 间格式” yyyy-MM-dd HH: mm: ss”. 3.2.2 三元组挖掘涉恐实体属性 在词性标注、依存句法分析、语义角色分析的 基础上,开展三元组提取,三元组的精准切割,能 够抽取出涉恐事件发生的地点、恐怖组织、攻击 武器、攻击方式等. 在本课题中从 4 个维度抽取三 元组关系,分别是主语谓语宾语关系三元组、定语 后置动宾关系三元组、人名//地名//机构三元组、 介宾关系主谓动补关系三元组和定语后置动宾关 系三元组. 谓语宾语关系三元组提取示例如表 4 所示,在 第 3 列显示了需要提取的实体属性,并且是一个 个原子属性或实体. 如,通过第 1 行实例,“塔吉克 斯坦南部”的词性和专有词“发生”能够提取出事 件发生的地点是在“塔吉克斯坦南部” . 第 3 行 “炮弹”和“发射”可以提取攻击方式为“炮弹”,进 一步分析“也门胡塞武装分子”词性即可确定恐怖 表 2 训练测试数据概览 Table 2 Training test data overview Area US and Europe Asia-Pacific Middle East Central and South Asia West Asia and Africa Number of texts in corpus 14110 3513 11169 3178 10251 表 3 事件发生基准时间样例 Table 3 Sample time base for event occurrence Type Sample Post time“作者:来源:新华社 发布时间:2019年02月14日 点击数:1”; Report time 电······ 实······ 在······ “新华社内罗毕2月13日 司令部13日下午证 美军11日 ” 表 4 主语谓语宾语关系三元组提取示例 Table 4 Example of subject predicate object relation triplet extraction No. Sentence Triples 1 巴基斯坦卡拉奇南部发生一起恐怖袭击 巴基斯坦卡拉奇南部,发生,一起恐怖袭击 2 美国驻塔吉克斯坦领事馆遭多名武装分子袭击 美国驻塔吉克斯坦领事馆,遭,袭击 3 也门胡塞武装分子当天凌晨向沙特吉赞省发射炮弹 也门胡塞武装分子,发射,炮弹 4 巴加索拉镇一个市场当天遭极端组织“博科圣地”爆炸袭击 巴加索拉镇一个市场,遭,极端组织博科圣地 5 北约车队当天在阿东部遭遇自杀式爆炸袭击 北约车队,遭遇,自杀式爆炸 6 埃及西奈半岛北部城市阿里什一酒店24日遭自杀式炸弹袭击 埃及西奈半岛北部城市阿里什一酒店,遭,自杀式炸弹袭击 7 塔利班6日晚在阿富汗西部巴德吉斯省再次发动袭击 塔利班,发动,袭击 8 也门南部一警察基地15日发生自杀式恐怖袭击事件 也门南部一警察基地,发生,自杀式恐怖袭击事件 9 两名女性自杀式袭击者客在尼日利亚东北部一处拥挤的巿集引爆炸弹 两名女性自杀式袭击者客,引爆,炸弹 10 黎巴嫩首都贝鲁特南郊的一处繁华区域发生自杀式炸弹袭击 黎巴嫩首都贝鲁特南郊一处繁华区域,发生,自杀式炸弹袭击 · 504 · 工程科学学报,第 42 卷,第 4 期
曹文斌等:基于文本语料的涉恐事件实体属性抽取 505· 组织是“也门胡塞武装分子” 只知道是个名词,还不确定是人名或地名,若提取 定语后置动宾关系三元组提取示例如表5所 出“阿富汗副总统杜斯塔姆”则可确定是个人名, 示,定语后置动宾关系能够更细致精确地描述词 并且提取了角色 与词之间的关联关系.如对第1行例句的简单提 介宾关系主谓动补关系三元组提取示例如表7 取不能确定空袭对象是“难民营”还是“土耳其”, 所示,同“主语谓语宾语关系”三元组分析一样,通 通过三元组分析即可提取出空袭对象是“靠近土 过涉恐专有词库及三元组切割后的词性组合分 耳其边境一个难民营”,并且解构了两个地点名词 析,可提取涉恐实体属性.如通过“发生在”和三元 之间的关联关系.对第3行例句进行简单提取不 组的首词,可分析提取出第2行涉恐事件的发生 能区分攻击武器是“炸弹”还是“有毒物质”,经过 地点是“巴格达西部一个什叶派聚居区”,第10行 定语后置动宾关系三元组分析提取出的攻击武器 涉恐事件的发生地点是“极北大区靠近尼日利亚 是“装有有毒物质的炸弹” 边境科拉瓦镇” 人名地名∥机构三元组提取示例如表6所 33实验结果 示,对于多个地名同时出现时能够理清地名之间 根据技术路线挖掘分析,编写代码程序,对实 的关联关系.如第1行例句中,萨拉赫丁省、提克 验数据逐篇进行实体属性挖掘提取.图3是提取 里特市都是地名,通过地名三元组分析,可提取事 事件实体属性的一个具体实例,中间事件名称 件发生地时在提克里特市,提克里特市是萨拉赫 “:211'阿富汗自杀式袭击事件”是根据属性实体 丁省的首府.第6行例句中若单纯提取杜斯塔姆, 自动生成的.每个事件分别从发生时间、发生地 表5定语后置动宾关系三元组提取示例 Table 5 Example of attributive post-action binary triad extraction No. Sentence Triples 靠近土耳其边境的一个难民营进行了空袭 一个难民营,靠近,土耳其边境 2 位于埃及北部城市坦塔的一所教堂9日发生爆炸 所教堂.位于,埃及北部城市坦塔 3 恐怖分子在叙利亚古城阿勒颇发射了装有有毒物质的炸弹 炸弹,装有,有毒物质 4 来自浙江的游客陈云华在泰国警察总医院里见到新华社记者时仍惊魂未定 游客,来自,浙江 5 警方称此次事件为“严重的恐怖主义”事件 事件,为,严重恐怖主义 6 德国北部城市吕贝克一辆公交车上发生持刀行凶案件 行凶案件持.刀 7 自2015年11月来自比利时布鲁塞尔莫伦贝克区的恐怖分子在法国巴黎制造血腥恐袭 恐怖分子,来自,比利时布鲁塞尔莫伦贝克区 8 在马里东北部遭遇“伊斯兰支持者”组织的埋伏 埋伏.遭遇.伊斯兰支持者组织 9 袭击目标是驻阿外国军队车辆 外国军队车辆,驻,阿 10 造成包括6名美军士兵在内的13人丧生 13人,包括,6名美军士兵 表6人名地名机构三元组提取示例 Table 6 Name//place name//organization triplet extraction example Sentence Triples 伊北部萨拉赫丁省首府提克里特市一街区4日晚遭武装分子袭击 萨拉赫丁省,首府,提克里特市 2 伊拉克首都巴格达24日发生一起自杀式爆炸袭击事件 伊拉克,首都.巴格达 伊中部费卢杰市17日晚发生自杀式爆炸袭击 伊,中部费,卢杰市 4 叙利亚城市哈德尔发生自杀式爆炸袭击 叙利亚,城市,哈德尔 叙利亚沿海城市塔尔图斯和杰卜莱23日遭到多起爆炸袭击 叙利亚,沿海城市,塔尔图斯 6 喀布尔机场附近在阿富汗副总统杜斯塔姆抵达后不久发生爆炸 阿富汗,副总统.杜斯塔姆 7 联合国秘书长潘基文发表声明严辞迹责 联合国,秘书长,潘基文 尼日利亚国家紧急事务管理局官员萨托米,艾哈迈德10日对媒体说 尼日利亚国家紧急事务管理局,官员,萨托米,艾哈迈德 9 土耳其舍尔纳克省国会议员费萨尔萨雷伊德斯发表声明称 土耳其舍尔纳克省国会,议员,费萨尔萨雷伊德斯 10 伸路支省内政部长萨尔夫拉兹·布格蒂告诉记者 俾路支省,内政部长,萨尔夫拉兹布格蒂
组织是“也门胡塞武装分子”. 定语后置动宾关系三元组提取示例如表 5 所 示,定语后置动宾关系能够更细致精确地描述词 与词之间的关联关系. 如对第 1 行例句的简单提 取不能确定空袭对象是“难民营”还是“土耳其”, 通过三元组分析即可提取出空袭对象是“靠近土 耳其边境一个难民营”,并且解构了两个地点名词 之间的关联关系. 对第 3 行例句进行简单提取不 能区分攻击武器是“炸弹”还是“有毒物质”,经过 定语后置动宾关系三元组分析提取出的攻击武器 是“装有有毒物质的炸弹”. 人名//地名//机构三元组提取示例如表 6 所 示,对于多个地名同时出现时能够理清地名之间 的关联关系. 如第 1 行例句中,萨拉赫丁省、提克 里特市都是地名,通过地名三元组分析,可提取事 件发生地时在提克里特市,提克里特市是萨拉赫 丁省的首府. 第 6 行例句中若单纯提取杜斯塔姆, 只知道是个名词,还不确定是人名或地名,若提取 出“阿富汗副总统杜斯塔姆”则可确定是个人名, 并且提取了角色. 介宾关系主谓动补关系三元组提取示例如表 7 所示,同“主语谓语宾语关系”三元组分析一样,通 过涉恐专有词库及三元组切割后的词性组合分 析,可提取涉恐实体属性. 如通过“发生在”和三元 组的首词,可分析提取出第 2 行涉恐事件的发生 地点是“巴格达西部一个什叶派聚居区”,第 10 行 涉恐事件的发生地点是“极北大区靠近尼日利亚 边境科拉瓦镇”. 3.3 实验结果 根据技术路线挖掘分析,编写代码程序,对实 验数据逐篇进行实体属性挖掘提取. 图 3 是提取 事件实体属性的一个具体实例,中间事件名称 “‘211’阿富汗自杀式袭击事件”是根据属性实体 自动生成的. 每个事件分别从发生时间、发生地 表 5 定语后置动宾关系三元组提取示例 Table 5 Example of attributive post-action binary triad extraction No. Sentence Triples 1 靠近土耳其边境的一个难民营进行了空袭 一个难民营,靠近,土耳其边境 2 位于埃及北部城市坦塔的一所教堂9日发生爆炸 一所教堂,位于,埃及北部城市坦塔 3 恐怖分子在叙利亚古城阿勒颇发射了装有有毒物质的炸弹 炸弹,装有,有毒物质 4 来自浙江的游客陈云华在泰国警察总医院里见到新华社记者时仍惊魂未定 游客,来自,浙江 5 警方称此次事件为“严重的恐怖主义”事件 事件,为,严重恐怖主义 6 德国北部城市吕贝克一辆公交车上发生持刀行凶案件 行凶案件,持,刀 7 自2015年11月来自比利时布鲁塞尔莫伦贝克区的恐怖分子在法国巴黎制造血腥恐袭 恐怖分子,来自,比利时布鲁塞尔莫伦贝克区 8 在马里东北部遭遇“伊斯兰支持者”组织的埋伏 埋伏,遭遇,伊斯兰支持者组织 9 袭击目标是驻阿外国军队车辆 外国军队车辆,驻,阿 10 造成包括6名美军士兵在内的13人丧生 13人,包括,6名美军士兵 表 6 人名//地名//机构三元组提取示例 Table 6 Name / / place name / / organization triplet extraction example No. Sentence Triples 1 伊北部萨拉赫丁省首府提克里特市一街区4日晚遭武装分子袭击 萨拉赫丁省,首府,提克里特市 2 伊拉克首都巴格达24日发生一起自杀式爆炸袭击事件 伊拉克,首都,巴格达 3 伊中部费卢杰市17日晚发生自杀式爆炸袭击 伊,中部费,卢杰市 4 叙利亚城市哈德尔发生自杀式爆炸袭击 叙利亚,城市,哈德尔 5 叙利亚沿海城市塔尔图斯和杰卜莱23日遭到多起爆炸袭击 叙利亚,沿海城市,塔尔图斯 6 喀布尔机场附近在阿富汗副总统杜斯塔姆抵达后不久发生爆炸 阿富汗,副总统,杜斯塔姆 7 联合国秘书长潘基文发表声明严辞谴责 联合国,秘书长,潘基文 8 尼日利亚国家紧急事务管理局官员萨托米·艾哈迈德10日对媒体说 尼日利亚国家紧急事务管理局,官员,萨托米·艾哈迈德 9 土耳其舍尔纳克省国会议员费萨尔·萨雷伊德斯发表声明称 土耳其舍尔纳克省国会,议员,费萨尔·萨雷伊德斯 10 俾路支省内政部长萨尔夫拉兹·布格蒂告诉记者 俾路支省,内政部长,萨尔夫拉兹·布格蒂 曹文斌等: 基于文本语料的涉恐事件实体属性抽取 · 505 ·
506 工程科学学报,第42卷,第4期 表7介宾关系主谓动补三元组提取示例 Table 7 Example of the introduction of the mediation of the mediators No. Sentence Triples 1 目前爆炸死亡人数已经由45人升至52人 爆炸人数.升至.52人 2 爆炸发生在巴格达西部一个什叶派聚居区 爆炸.发生在,巴格达西部一个什叶派聚居区 3 这些伊拉克战斗人员死于IS的袭击 这些伊拉克战斗人员,死于,IS 4 总部设在英国伦敦的叙利亚人权观察组织8月1日晚发布声明称 总部,设在,英国伦敦 5 在俄罗斯和叙利亚的官员证实停火已扩大到阿勒颇市仅几小时后 停火,扩大到,阿勒颇市 从叙利亚境内极端组织“伊斯兰国”控制地区发射的5枚火箭弹 组织伊斯兰国控制地区发射5枚火箭弹, 6 当天上午落在基利斯市 落在,基利斯市 7 爆炸发生于该医院急诊部的入口处 爆炸,发生于,该医院急诊部入口处 8 对峙持续至当地时间29号早是 对峙,持续至.当地时间29号早晨 9 莫斯科就发生一起汽车撞向行人的事故 汽车,撞向,行人 10 两起袭击,发生在,极北大区靠近尼日利亚边境科拉瓦镇 两起袭击,发生在,极北大区靠近尼日利亚边境科拉瓦镇 表8实体属性抽取评测结果 阿富汗南部 2017/2/11 8人死亡 Table 8 Entityraction evaluation result % Entity attribute Precision Recall F1 Occurrence Occurrence Casualties Occurrence time 100 93.3 96.5 location time Occurrence location 86.3 89.5 87.9 Attack method 84.3 84.9 84.6 211”阿富汗自杀式袭击事件 Weapon type 81.2 81.3 81.4 人 Terrorist organization 79.7 82.8 81.2 Terrorist organization Weapon type Attack method Casualties 100 91.2 95.4 词库也需要结合对应领域的业务知识 塔利班 人肉炸弹 自杀式袭击 4结语 图3事件实体属性抽取示例 本文以涉恐事件发生时间、发生地点、伤亡情 Fig.3 Event entity attribute extraction example 况、攻击方式、武器类型和恐怖组织6类实体属性 点、攻击方式、武器类型、恐怖组织、伤亡情况 抽取为目的.开展了朴素贝叶斯文本分类算法、 6个维度属性实体进行抽取,算法程序抽取 语义角色分析、句法依存分析等技术研究,并进一 42221篇文章的运行时间为859s,每秒抽取抽取 步对主语谓语宾语关系、定语后置动宾关系、人 49.15件事件的实体属性.每个维度抽取结果的准 名地名机构、介宾关系主谓动补四种三元组的 确率、召回率和F1值如表8所示.从抽取测评结 特征开展了分析研究,提出了基于涉恐专有词库 果可以看出(表8),本文的抽取方法取得的效果良 的三元组实体属性抽取方法.实验结果抽取测评 好,评估F1值均大于80%.其中武器类型、恐怖组 结果表明,6类涉恐实体属性F1值均大于80%,表 织、攻击方式由于关键词库不够全面,迭代次数不 现出较好的抽取效果.未来可以在以下两方面展 够,召回率有待通过后续的研究进一步提高,如引 开研究工作: 人word2vec等语义相似度或同义词分析等技术2] (1)除了涉恐专有词库,还可以考虑结合涉恐 本文抽取算法适用于其他类型的新闻事件实体属 知识库进行抽取,增加更多的关联分析提高抽取 性抽取,如禁毒事件、灾害事件等.算法迁移应用 的准确率; 过程中的主体步骤路线不变,但事件对应的实体 (2)四类三元组结合word2vec等语义相似度 属性类别不同,如禁毒事件没有恐怖组织属性,需 或同义词分析等技术进行实体属性抽取,提高抽 根据事件类型定义新的实体属性类别,构建关键 取的召回率
点、攻击方式、武器类型、恐怖组织、伤亡情况 6 个 维 度 属 性 实 体 进 行 抽 取 . 算 法 程 序 抽 取 42221 篇文章的运行时间为 859 s,每秒抽取抽取 49.15 件事件的实体属性. 每个维度抽取结果的准 确率、召回率和 F1 值如表 8 所示. 从抽取测评结 果可以看出(表 8),本文的抽取方法取得的效果良 好,评估 F1 值均大于 80%. 其中武器类型、恐怖组 织、攻击方式由于关键词库不够全面,迭代次数不 够,召回率有待通过后续的研究进一步提高,如引 入 word2vec 等语义相似度或同义词分析等技术[25] . 本文抽取算法适用于其他类型的新闻事件实体属 性抽取,如禁毒事件、灾害事件等. 算法迁移应用 过程中的主体步骤路线不变,但事件对应的实体 属性类别不同,如禁毒事件没有恐怖组织属性,需 根据事件类型定义新的实体属性类别,构建关键 词库也需要结合对应领域的业务知识. 4 结语 本文以涉恐事件发生时间、发生地点、伤亡情 况、攻击方式、武器类型和恐怖组织 6 类实体属性 抽取为目的. 开展了朴素贝叶斯文本分类算法、 语义角色分析、句法依存分析等技术研究,并进一 步对主语谓语宾语关系、定语后置动宾关系、人 名//地名//机构、介宾关系主谓动补四种三元组的 特征开展了分析研究,提出了基于涉恐专有词库 的三元组实体属性抽取方法. 实验结果抽取测评 结果表明,6 类涉恐实体属性 F1 值均大于 80%,表 现出较好的抽取效果. 未来可以在以下两方面展 开研究工作: (1)除了涉恐专有词库,还可以考虑结合涉恐 知识库进行抽取,增加更多的关联分析提高抽取 的准确率; (2)四类三元组结合 word2vec 等语义相似度 或同义词分析等技术进行实体属性抽取,提高抽 取的召回率. 表 7 介宾关系主谓动补三元组提取示例 Table 7 Example of the introduction of the mediation of the mediators No. Sentence Triples 1 目前爆炸死亡人数已经由45人升至52人 爆炸人数,升至,52人 2 爆炸发生在巴格达西部一个什叶派聚居区 爆炸,发生在,巴格达西部一个什叶派聚居区 3 这些伊拉克战斗人员死于IS的袭击 这些伊拉克战斗人员,死于,IS 4 总部设在英国伦敦的叙利亚人权观察组织8月1日晚发布声明称 总部,设在,英国伦敦 5 在俄罗斯和叙利亚的官员证实停火已扩大到阿勒颇市仅几小时后 停火,扩大到,阿勒颇市 6 从叙利亚境内极端组织“伊斯兰国”控制地区发射的5枚火箭弹 当天上午落在基利斯市 组织伊斯兰国控制地区发射5枚火箭弹, 落在,基利斯市 7 爆炸发生于该医院急诊部的入口处 爆炸,发生于,该医院急诊部入口处 8 对峙持续至当地时间29号早晨 对峙,持续至,当地时间29号早晨 9 莫斯科就发生一起汽车撞向行人的事故 汽车,撞向,行人 10 两起袭击,发生在,极北大区靠近尼日利亚边境科拉瓦镇 两起袭击,发生在,极北大区靠近尼日利亚边境科拉瓦镇 表 8 实体属性抽取评测结果 Table 8 Entityraction evaluation result % Entity attribute Precision Recall F1 Occurrence time 100 93.3 96.5 Occurrence location 86.3 89.5 87.9 Attack method 84.3 84.9 84.6 Weapon type 81.2 81.3 81.4 Terrorist organization 79.7 82.8 81.2 Casualties 100 91.2 95.4 阿富汗南部 2017/2/11 8人死亡 Occurrence time Casualties Occurrence location 塔利班 人肉炸弹 自杀式袭击 Weapon type Attack method Terrorist organization “211”阿富汗自杀式袭击事件 图 3 事件实体属性抽取示例 Fig.3 Event entity attribute extraction example · 506 · 工程科学学报,第 42 卷,第 4 期
曹文斌等:基于文本语料的涉恐事件实体属性抽取 507· 参考文献 (蒲文莹.面向专用信息获取的用户定制主题网络爬虫技术探 究.电脑编程技巧与维护,2019(1):33) [Li P F,Zhou G D.Zhu Q M.Semantics-based joint model of Chinese event trigger extraction.J Sofn,2016,27(2):280 [13]Xiong Y Q,Yan BB.Web crawler technology based on jsoup to (李培峰,周国栋,朱巧明.基于语义的中文事件触发词轴取联 crawl information of book web pages.Comput Inf Technol,2019, 27(4:61 合模型.软件学报,2016,27(2):280) (熊艳秋,严碧波.基于jsoup爬取图书网页信息的网络爬虫技术. [2]He R F,Duan S Y.Joint Chinese event extraction based multi-task 电脑与信息技术,2019,27(4):61) learning.J Sofh,2019,30(4):1015 [14]Wang D W.Zhou Z W.Cao H G.Research on sentiment analysis (贺瑞芳,段绍杨.基于多任务学习的中文事件抽取联合模型 of hotel review text based on PCA-SVM algorithm.Mod Comput, 软件学报,2019,30(4):1015) 2019(7):13 [3]Tian S W,Zhou X F,Yu L,et al.Causal relation extraction of (王大伟,周志玮,曹红根.基于PCA-SVM算法的酒店评论文本 Uyghur events based on bidirectional long short-term memory 情感分析研究.现代计算机,2019(7):13) model.J Electron Inf Technol,2018,40(1):200 [15]Tang R Z,Duan H C,Sun H T.Research on normalization of (田生伟,周兴发,禹龙,等.基于双向LSTM的维吾尔语事件因 SVM training data.J Shandong Normal University Nat Sci,2016, 果关系抽取.电子与信息学报,2018,40(1):200) 31(4):60 [4]Zhang S R,Luo C.Event extraction technology by semantic role (汤荣志,段会川,孙海涛.SVM训练数据归一化研究.山东师范 analysis.J Terahert Sci Electron Inf Technol,2017,15(2):279 大学学报:自然科学版,2016,31(4):60) (章顺瑞,骆陈.基于语义角色分析的事件抽取技术.太赫兹科 [16]Yang L W.Linguistic features of emergency news headlines:a 学与电子信息学报,2017,15(2):279) corpus-driven empirical study.Shidai Wenxue,2012(6):132 [5]Chen XX,Liu B.Extracting open domain events in microblogs (杨林伟,突发事件新闻标题的语言学特点一一一项语料库票 Comput Appl Sof,2016,33(8):18 动的实证研究.时代文学(下半月),2012(6):132) (陈箫箫,刘波.微博中的开放域事件抽取.计算机应用与软件 [17]Xiong Z B,Zhu J F,Yin C G.Application of regular expressions 2016.33(8):18) in the extraction of tourism emergency information.Compur Eng [6]Qin B,Liu AA,Liu T.Unsupervised Chinese open entity relation Software,.2015,36(11):15 extraction.J Comput Res Dev,2015,52(5):1029 (熊志斌,朱剑锋,尹成国.正则表达式在旅游突发事件信息抽 (秦兵,刘安安,刘挺.无指导的中文开放式实体关系抽取.计算 取中的应用.软件,2015,36(11):15) 机研究与发展,2015,52(5):1029) [18]Zheng Z H,Wu W B,Chen X,et al.A traffic sensing and [7]Hou W T.Ji D H.Research on clinic event recognition based Bi- analyzing system using social media data.Acta Automatica Sinica, LSTM.Appl Res Comput,2018,35(7):1974 201844(4):656 (侯伟涛,姬东鸿.基于Bi-LSTM的医疗事件识别研究.计算机应 (郑治豪,吴文兵,陈鑫,等.基于社交媒体大数据的交通感知分 用研究,2018,35(7):1974) 析系统.自动化学报,2018,44(4):656) [8]Li W J,Li T,Xi F.Chinese entity relation extraction based on [19]Feng X.Triple-based document representation for text multi-features self-attention Bi-LSTM.J Chin Inf Process,2019, classification.Comput Eng Des,2019,40(2):101 33(10):47 (冯雪.基于三元组文档表示的文本分类.计算机工程与设计, (李卫疆,李涛,漆芳.基于多特征自注意力BLSTM的中文实体 2019,40(2):101) 关系抽取.中文信息学报,2019,33(10):47) [20]Luo Y L,Zhao C Y.Extracting method of emergency news head- [9]Zhang J F.Sentiment analysis of teaching evaluation based on line and text from webpages.J Comput Appl,2014,34(10):2865 improved naive Bayes algorithm.Mod Comput,2018(11):3 (罗永莲,赵昌垣.突发事件新闻标题与正文提取方法.计算机 (张俊飞.基于改进朴素贝叶斯算法实现评教评语情感分析.现 应用,2014,34(10):2865) 代计算机:中旬刊,2018(11):3) [21]Liu J W,Li H E,Luo X L.Probabilistic graph model [10]Yu T,Wang H Y.Text information extraction based on TF-IDF representation theory.Comput Sci,2014,41(9):1 algorithm.Sci Technol Vision.2018(16):117 (刘建伟,黎海恩,罗雄麟.概率图模型表示理论.计算机科学, (于韬,王洪岩.基于TFDF算法的文本信息提取.科技视界 2014.41(9):1) 2018(16):117) [22]Qu Q T,Liu Q C,Mu CX.A parallel adaptive news topic tracking [11]Wu Z Q,Huang X J,Wu L D.Question-focused summarization algorithm based on N-Gram language model.J Shandong Univ based on semantic relational triple.Comput Eng,2008,34(6):194 Eng Sci,2018,48(6:37 (吴中勤,黄皆菁,吴立德.基于语义关系三元组的问答式文摘 (屈庆涛,刘其成,牟春晓.基于N-Gram语言模型的并行自适应 计算机工程,2008,34(6):194) 新闻话题追踪算法.山东大学学报:工学版,2018,48(6):37) [12]Pu W Y.Research on user-specific theme web crawler technology [23]Yin C,Wu M.Survey on N-gram model.Comput Syst Appl,2018. for private information acquisition.Software dey appl,2019(1): 27(10):33 33 (尹陈,吴敏.N-gram模型综述.计算机系统应用,2018,27(10):
参 考 文 献 Li P F, Zhou G D, Zhu Q M. Semantics-based joint model of Chinese event trigger extraction. J Softw, 2016, 27(2): 280 (李培峰, 周国栋, 朱巧明. 基于语义的中文事件触发词抽取联 合模型. 软件学报, 2016, 27(2):280) [1] He R F, Duan S Y. Joint Chinese event extraction based multi-task learning. J Softw, 2019, 30(4): 1015 (贺瑞芳, 段绍杨. 基于多任务学习的中文事件抽取联合模型. 软件学报, 2019, 30(4):1015) [2] Tian S W, Zhou X F, Yu L, et al. Causal relation extraction of Uyghur events based on bidirectional long short-term memory model. J Electron Inf Technol, 2018, 40(1): 200 (田生伟, 周兴发, 禹龙, 等. 基于双向LSTM的维吾尔语事件因 果关系抽取. 电子与信息学报, 2018, 40(1):200) [3] Zhang S R, Luo C. Event extraction technology by semantic role analysis. J Terahertz Sci Electron Inf Technol, 2017, 15(2): 279 (章顺瑞, 骆陈. 基于语义角色分析的事件抽取技术. 太赫兹科 学与电子信息学报, 2017, 15(2):279) [4] Chen X X, Liu B. Extracting open domain events in microblogs. Comput Appl Softw, 2016, 33(8): 18 (陈箫箫, 刘波. 微博中的开放域事件抽取. 计算机应用与软件, 2016, 33(8):18) [5] Qin B, Liu A A, Liu T. Unsupervised Chinese open entity relation extraction. J Comput Res Dev, 2015, 52(5): 1029 (秦兵, 刘安安, 刘挺. 无指导的中文开放式实体关系抽取. 计算 机研究与发展, 2015, 52(5):1029) [6] Hou W T, Ji D H. Research on clinic event recognition based BiLSTM. Appl Res Comput, 2018, 35(7): 1974 (侯伟涛, 姬东鸿. 基于Bi-LSTM的医疗事件识别研究. 计算机应 用研究, 2018, 35(7):1974) [7] Li W J, Li T, Xi F. Chinese entity relation extraction based on multi-features self-attention Bi-LSTM. J Chin Inf Process, 2019, 33(10): 47 (李卫疆, 李涛, 漆芳. 基于多特征自注意力BLSTM的中文实体 关系抽取. 中文信息学报, 2019, 33(10):47) [8] Zhang J F. Sentiment analysis of teaching evaluation based on improved naive Bayes algorithm. Mod Comput, 2018(11): 3 (张俊飞. 基于改进朴素贝叶斯算法实现评教评语情感分析. 现 代计算机: 中旬刊, 2018(11):3) [9] Yu T, Wang H Y. Text information extraction based on TF-IDF algorithm. Sci Technol Vision, 2018(16): 117 (于韬, 王洪岩. 基于TF-IDF算法的文本信息提取. 科技视界, 2018(16):117) [10] Wu Z Q, Huang X J, Wu L D. Question-focused summarization based on semantic relational triple. Comput Eng, 2008, 34(6): 194 (吴中勤, 黄萱菁, 吴立德. 基于语义关系三元组的问答式文摘. 计算机工程, 2008, 34(6):194) [11] Pu W Y. Research on user-specific theme web crawler technology for private information acquisition. Software dev appl, 2019(1): 33 [12] (蒲文莹. 面向专用信息获取的用户定制主题网络爬虫技术探 究. 电脑编程技巧与维护, 2019(1):33) Xiong Y Q, Yan B B. Web crawler technology based on jsoup to crawl information of book web pages. Comput Inf Technol, 2019, 27(4): 61 (熊艳秋, 严碧波. 基于jsoup爬取图书网页信息的网络爬虫技术. 电脑与信息技术, 2019, 27(4):61) [13] Wang D W, Zhou Z W, Cao H G. Research on sentiment analysis of hotel review text based on PCA-SVM algorithm. Mod Comput, 2019(7): 13 (王大伟, 周志玮, 曹红根. 基于PCA-SVM算法的酒店评论文本 情感分析研究. 现代计算机, 2019(7):13) [14] Tang R Z, Duan H C, Sun H T. Research on normalization of SVM training data. J Shandong Normal University Nat Sci, 2016, 31(4): 60 (汤荣志, 段会川, 孙海涛. SVM训练数据归一化研究. 山东师范 大学学报: 自然科学版, 2016, 31(4):60) [15] Yang L W. Linguistic features of emergency news headlines: a corpus-driven empirical study. Shidai Wenxue, 2012(6): 132 (杨林伟. 突发事件新闻标题的语言学特点——一项语料库驱 动的实证研究. 时代文学(下半月), 2012(6):132) [16] Xiong Z B, Zhu J F, Yin C G. Application of regular expressions in the extraction of tourism emergency information. Comput Eng Software, 2015, 36(11): 15 (熊志斌, 朱剑锋, 尹成国. 正则表达式在旅游突发事件信息抽 取中的应用. 软件, 2015, 36(11):15) [17] Zheng Z H, Wu W B, Chen X, et al. A traffic sensing and analyzing system using social media data. Acta Automatica Sinica, 2018, 44(4): 656 (郑治豪, 吴文兵, 陈鑫, 等. 基于社交媒体大数据的交通感知分 析系统. 自动化学报, 2018, 44(4):656) [18] Feng X. Triple-based document representation for text classification. Comput Eng Des, 2019, 40(2): 101 (冯雪. 基于三元组文档表示的文本分类. 计算机工程与设计, 2019, 40(2):101) [19] Luo Y L, Zhao C Y. Extracting method of emergency news headline and text from webpages. J Comput Appl, 2014, 34(10): 2865 (罗永莲, 赵昌垣. 突发事件新闻标题与正文提取方法. 计算机 应用, 2014, 34(10):2865) [20] Liu J W, Li H E, Luo X L. Probabilistic graph model representation theory. Comput Sci, 2014, 41(9): 1 (刘建伟, 黎海恩, 罗雄麟. 概率图模型表示理论. 计算机科学, 2014, 41(9):1) [21] Qu Q T, Liu Q C, Mu C X. A parallel adaptive news topic tracking algorithm based on N-Gram language model. J Shandong Univ Eng Sci, 2018, 48(6): 37 (屈庆涛, 刘其成, 牟春晓. 基于N-Gram语言模型的并行自适应 新闻话题追踪算法. 山东大学学报: 工学版, 2018, 48(6):37) [22] Yin C, Wu M. Survey on N-gram model. Comput Syst Appl, 2018, 27(10): 33 (尹陈, 吴敏. N-gram模型综述. 计算机系统应用, 2018, 27(10): [23] 曹文斌等: 基于文本语料的涉恐事件实体属性抽取 · 507 ·
508 工程科学学报,第42卷,第4期 33) 情报学报,2019,38(11):1177) [24]Shi J,Han J,Zhao X K,et al.Research on core word extraction [25]Li X,Jie H,Li L J.Research on sentence semantic similarity algorithm based on contextual concept.J China Soc Sci Tech Inf, calculation based on Word2vec.Comput Sci,2017,44(9):256 2019,38(11):1177 (李晓,解辉,李立杰.基于Word2vec的句子语义相似度计算研 (石进,韩进,赵小柯,等.基于语境概念核心词提取算法研究 究.计算机科学,2017,44(9):256)
33) Shi J, Han J, Zhao X K, et al. Research on core word extraction algorithm based on contextual concept. J China Soc Sci Tech Inf, 2019, 38(11): 1177 (石进, 韩进, 赵小柯, 等. 基于语境概念核心词提取算法研究. [24] 情报学报, 2019, 38(11):1177) Li X, Jie H, Li L J. Research on sentence semantic similarity calculation based on Word2vec. Comput Sci, 2017, 44(9): 256 (李晓, 解辉, 李立杰. 基于Word2vec的句子语义相似度计算研 究. 计算机科学, 2017, 44(9):256) [25] · 508 · 工程科学学报,第 42 卷,第 4 期