当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

【自然语言处理与理解】融合领域特征的科技学术会议语义相似性计算方法

资源类别:文库,文档格式:PDF,文档页数:7,文件大小:4.27MB,团购合买
点击下载完整版文档(PDF)

第17卷第4期 智能系统学报 Vol.17 No.4 2022年7月 CAAI Transactions on Intelligent Systems Jul.2022 D0:10.11992/tis.202203050 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20220621.1156.008.html 融合领域特征的科技学术会议语义相似性计算方法 于润羽,李雅文2,李昂 (1.北京邮电大学智能通信软件与多媒体北京市重点实验室,北京100876:2.北京邮电大学经济管理学院,北 京100876) 摘要:针对目前的语义文本相似度计算方法难以准确估计科技学术会议语义相似性的问题,提出了一种融合 领域特征的科技学术会议语义相似度计算方法(siamese-BERT semantic similarity calculation algorithm fused with domain feature,SBFD)。通过实体识别和关键词抽取等方式获取会议的领域特征信息.将其作为特征与会议信 息共同输入到基于变换器的双向编码器表示网络(bidirectional encoder representations from transformers,.BERT) 中,采用孪生网络(Siamese Network)的结构解决BERT的各向异性的问题,并对网络的输出进行池化和标准 化,利用余弦相似度计算两个会议之间的相似程度。实验结果表明SBFD方法在不同数据集上都取得了较好 的效果,斯皮尔曼相关系数有一定程度的提高。 关键词:科技学术会议;深度学习;自然语言处理;语义学习:知识抽取;语义相似度;预训练模型:孪生网络 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2022)04-0737-07 中文引用格式:于润羽,李雅文,李昂.融合领域特征的科技学术会议语义相似性计算方法,智能系统学报,2022,17(4): 737-743. 英文引用格式:YURunyu,,LI Yawen,.LI Ang.Semantic similarity computing for scientific and technological conferences J..CAAI transactions on intelligent systems,2022,17(4):737-743. Semantic similarity computing for scientific and technological conferences YU Runyu',LI Yawen',LI Ang' (1.Beijing Key Laboratory of Intelligent Telecommunication Software and Multimedia,Beijing University of Posts and Telecommu- nications,Beijing 100876,China;2.School of Economics and Management,Beijing University of Posts and Telecommunications, Beijing 100876,China) Abstract:Aiming at the problem that the current semantic text similarity calculation methods have difficulty in calculat- ing semantic similarity for scientific and technological conference data accurately,a siamese-BERT semantic similarity calculation algorithm for scientific and technological conferences fused with domain features(SBFD)is proposed in this paper.At first,the domain feature information of conference is obtained through entity recognition and keyword extrac- tion,and it is input into the bidirectional encoder representations from transformers(BERT)network as a feature,togeth- er with conference information.The structure of the Siamese network is then used to solve the anisotropy problem of BERT.The output of the network is pooled and normalized,and finally the cosine similarity is used to calculate the sim- ilarity between the two conferences.Experimental results show that the SBFD algorithm achieves good results on differ- ent data sets,with the Spearman's rank correlation coefficient improved in a certain extent. Keywords:science and technological conference;deep learning;natural language processing;semantic learning;know- ledge extraction;semantic similarity;pre-training model;siamese network 科技大数据可以定义为与科研相关的活动产 生的海量数据,这些数据数量规模大,特征属 性多,内容专业化们。科技学术会议数据包含某 收稿日期:2022-03-24.网络出版日期:2022-06-22. 基金项目:国家重点研发计划项目(2018YFB1402600):国家自 个领域内的论文集合,利用自然语言处理技术挖 然科学基金项目(61772083,61802028);广西科技重 大专项(桂科AA18118054). 掘科技学术会议的潜在信息,判断会议之间的语 通信作者:李雅文.E-mail:warmly0716@126.com 义相似度,进而构建知识图谱和画像,可以帮助

DOI: 10.11992/tis.202203050 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220621.1156.008.html 融合领域特征的科技学术会议语义相似性计算方法 于润羽1 ,李雅文2 ,李昂1 (1. 北京邮电大学 智能通信软件与多媒体北京市重点实验室,北京 100876; 2. 北京邮电大学 经济管理学院,北 京 100876) 摘 要:针对目前的语义文本相似度计算方法难以准确估计科技学术会议语义相似性的问题,提出了一种融合 领域特征的科技学术会议语义相似度计算方法(siamese-BERT semantic similarity calculation algorithm fused with domain feature, SBFD)。通过实体识别和关键词抽取等方式获取会议的领域特征信息,将其作为特征与会议信 息共同输入到基于变换器的双向编码器表示网络(bidirectional encoder representations from transformers,BERT) 中,采用孪生网络(Siamese Network)的结构解决 BERT 的各向异性的问题,并对网络的输出进行池化和标准 化,利用余弦相似度计算两个会议之间的相似程度。实验结果表明 SBFD 方法在不同数据集上都取得了较好 的效果,斯皮尔曼相关系数有一定程度的提高。 关键词:科技学术会议;深度学习;自然语言处理;语义学习;知识抽取;语义相似度;预训练模型;孪生网络 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2022)04−0737−07 中文引用格式:于润羽, 李雅文, 李昂. 融合领域特征的科技学术会议语义相似性计算方法 [J]. 智能系统学报, 2022, 17(4): 737–743. 英文引用格式:YU Runyu, LI Yawen, LI Ang. Semantic similarity computing for scientific and technological conferences[J]. CAAI transactions on intelligent systems, 2022, 17(4): 737–743. Semantic similarity computing for scientific and technological conferences YU Runyu1 ,LI Yawen2 ,LI Ang1 (1. Beijing Key Laboratory of Intelligent Telecommunication Software and Multimedia, Beijing University of Posts and Telecommu￾nications, Beijing 100876, China; 2. School of Economics and Management, Beijing University of Posts and Telecommunications, Beijing 100876, China) Abstract: Aiming at the problem that the current semantic text similarity calculation methods have difficulty in calculat￾ing semantic similarity for scientific and technological conference data accurately, a siamese-BERT semantic similarity calculation algorithm for scientific and technological conferences fused with domain features (SBFD) is proposed in this paper. At first, the domain feature information of conference is obtained through entity recognition and keyword extrac￾tion, and it is input into the bidirectional encoder representations from transformers (BERT) network as a feature, togeth￾er with conference information. The structure of the Siamese network is then used to solve the anisotropy problem of BERT. The output of the network is pooled and normalized, and finally the cosine similarity is used to calculate the sim￾ilarity between the two conferences. Experimental results show that the SBFD algorithm achieves good results on differ￾ent data sets, with the Spearman's rank correlation coefficient improved in a certain extent. Keywords: science and technological conference; deep learning; natural language processing; semantic learning; know￾ledge extraction; semantic similarity; pre-training model; siamese network 科技大数据可以定义为与科研相关的活动产 生的海量数据[1-2] ,这些数据数量规模大,特征属 性多,内容专业化[3]。科技学术会议数据包含某 个领域内的论文集合,利用自然语言处理技术挖 掘科技学术会议的潜在信息,判断会议之间的语 义相似度,进而构建知识图谱和画像,可以帮助 收稿日期:2022−03−24. 网络出版日期:2022−06−22. 基金项目:国家重点研发计划项目(2018YFB1402600);国家自 然科学基金项目(61772083,61802028);广西科技重 大专项(桂科 AA18118054). 通信作者:李雅文. E-mail:warmly0716@126.com. 第 17 卷第 4 期 智 能 系 统 学 报 Vol.17 No.4 2022 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2022

·738· 智能系统学报 第17卷 科研人员快速获得有价值的科研信息。 具。Pennington等l提出Glove模型,Glove基于 语义文本相似度计算方面主要有基于字符串, 语料库构建了单词的共现矩阵,利用概率论的计 基于统计机器学习,基于深度学习的方法。目前 算方式,结合构建出的矩阵,计算得出最终的词向 基于深度学习的方法应用最为广泛,也取得了最 量。由于矩阵的构建综合了全局语料,因此Glove 好的效果,但在科技学术会议数据上,常规的相 在一定程度上考虑了全局信息。 似度计算方法并不能挖掘到潜在的语义信息,无 Peters等l提出(来自语言模型的嵌入)(emb 法取得最优的效果。同时基于变换器的双向编码 eddings from language models,ELMO)模型,其先 器表示网络(bidirectional encoder representations 用语言模型在一个大的语料库上学习好词的词 from transformers,BERT)作为自然语言处理领域 向量,此时无法区分多义词。Vaswani等us提出 目前最杰出的预训练模型,却在语义文本相似度 在注意力机制上构建的变换器(Transformer)编码 上的表现并不是很好,本文提出了融合领域特征 器模型。Radford等提出GPT模型,引入了 的科技学术会议语义相似度计算方法(siamese- Transformer架构。Devlin等Po提出的BERT模型 BERT semantic similarity calculation algorithm fused 在Transformer的基础上,引人了mask遮盖编码 with domain feature,.SBFD),利用实体识别和关键 的思路和下句子预测方法,在生成动态词向量上 词抽取等方法获取会议的领域特征信息,将其作 取得了更好的表现。Huang等提出了基于深度 为特征与会议信息共同输入到BERT网络中,采 网络的语义模型方法,基于孪生网络架构,模型 用孪生网络(Siamese Network)的结构解决BERT 分为输入层、表示层、匹配层。Palangi等2将长 的各向异性的问题,并对网络的输出进行池化和 短期记忆网络(long short-.term memory,LSTM)引 标准化,利用余弦相似度计算两个会议之间的相 入其中,LSTM作为特殊的循环神经网络,能够考 似程度,可以有效提升科技学术会议语义相似度 虑到距离更远的上下文信息和一些序列信息,提 的计算性能。 升了计算的效果。Pontes等21将卷积神经网络 本文的主要贡献如下: (convolutional neural networks,CNN)模型和LSTM 1)提出了一种融合领域特征的科技学术会议 模型同时用于孪生网络架构,利用该网络计算语 语义相似度计算方法,在预训练模型的基础上微 义文本相似度。Reimers等提出了SBERT网络 调,提高语义文本相似度计算的准确性。 结构,SBERT模型完成仅需5s,带来了巨大的效 2)利用关键词提取,命名实体识别等技术,获 率提升。Li等21从BERT训练向量结果的层面 取会议中的领域信息,在序列输入层融合了会议的 进行了分析,发现了BERT预训练出的词向量存 领域特征,提高语义文本相似度计算的准确性。 在各向异性和低频词汇稀疏的问题,在STS12-16 3)采用孪生网络结构,解决BERT在相似度 和SICK-R数据集上有更好的表现。 计算上表现不佳的问题,同时提高模型计算速度。 2SBFD计算方法 1语义相似度计算的研究现状 2.1算法整体结构 语义文本相似度计算在文本分类、文本聚类啊 将BERT模型输出的结果进行平滑修正,同 问答系统[61、机器翻译)等各个自然语言处理 时考虑到科技学术会议的特征,提出了SBFD。 研究分支上被广泛使用。语义文本相似度的计算 该方法的整体结构如图1所示。SBFD算法由序 方式主要有基于字符串,基于机器学习和基于深 列输入层、神经网络层、池化及标准化层和相似 度学习几种方式。其中基于字符串的方法相对简单, 度计算层4个部分组成。具体而言,序列输人层作 直接对两个字符串原始文本进行比较,主要的计 为整个系统结构的输入,融人了领域信息的文本 算方法有编辑距离o-)、Jaccard相似度2等,其 转化为向量,领域信息包括会议中论文研究的技 原理简单,实现方便,但只能识别字符级别的信 术实体和会议的主要研究方向;在神经网络层采 息,一般用于文本的快速匹配。基于统计的方法 用了BERT网络模型,基于BERT中文预训练模 主要有VSM模型及LDAI3模型等。基于深度 型进行,在语义文本相似度场景下微调训练出最 学习的方法需要在分布式词向量的基础上进行, 优的模型。接下来通过全局平均池化和标准化,缓 词向量技术就是将单词映射成可被神经网络识别 解BERT模型训练结果的各向异性的问题;最后 的向量。Mikolov等l提出的word2vec是最早生 在相似度计算层,采用余弦相似度衡量文本相似度。 成分布式词向量的方法,同时提供了对应的工 下面将详细描述每层的具体功能与实现原理

科研人员快速获得有价值的科研信息。 语义文本相似度计算方面主要有基于字符串, 基于统计机器学习,基于深度学习的方法。目前 基于深度学习的方法应用最为广泛,也取得了最 好的效果,但在科技学术会议数据上,常规的相 似度计算方法并不能挖掘到潜在的语义信息,无 法取得最优的效果。同时基于变换器的双向编码 器表示网络(bidirectional encoder representations from transformers,BERT)作为自然语言处理领域 目前最杰出的预训练模型,却在语义文本相似度 上的表现并不是很好,本文提出了融合领域特征 的科技学术会议语义相似度计算方法(siamese￾BERT semantic similarity calculation algorithm fused with domain feature, SBFD),利用实体识别和关键 词抽取等方法获取会议的领域特征信息,将其作 为特征与会议信息共同输入到 BERT 网络中,采 用孪生网络(Siamese Network)的结构解决 BERT 的各向异性的问题,并对网络的输出进行池化和 标准化,利用余弦相似度计算两个会议之间的相 似程度,可以有效提升科技学术会议语义相似度 的计算性能。 本文的主要贡献如下: 1) 提出了一种融合领域特征的科技学术会议 语义相似度计算方法,在预训练模型的基础上微 调,提高语义文本相似度计算的准确性。 2) 利用关键词提取,命名实体识别等技术,获 取会议中的领域信息,在序列输入层融合了会议的 领域特征,提高语义文本相似度计算的准确性。 3) 采用孪生网络结构,解决 BERT 在相似度 计算上表现不佳的问题,同时提高模型计算速度。 1 语义相似度计算的研究现状 语义文本相似度计算在文本分类、文本聚类[4-5] 、 问答系统[6-7] 、机器翻译[8-9] 等各个自然语言处理 研究分支上被广泛使用。语义文本相似度的计算 方式主要有基于字符串,基于机器学习和基于深 度学习几种方式。其中基于字符串的方法相对简单, 直接对两个字符串原始文本进行比较,主要的计 算方法有编辑距离[10-11] 、Jaccard 相似度[12] 等,其 原理简单,实现方便,但只能识别字符级别的信 息,一般用于文本的快速匹配。基于统计的方法 主要有 VSM 模型及 LDA[13-14] 模型等。基于深度 学习的方法需要在分布式词向量的基础上进行, 词向量技术就是将单词映射成可被神经网络识别 的向量。Mikolov 等 [15] 提出的 word2vec 是最早生 成分布式词向量的方法,同时提供了对应的工 具。Pennington 等 [16] 提出 Glove 模型,Glove 基于 语料库构建了单词的共现矩阵,利用概率论的计 算方式,结合构建出的矩阵,计算得出最终的词向 量。由于矩阵的构建综合了全局语料,因此 Glove 在一定程度上考虑了全局信息。 Peters 等 [17] 提出(来自语言模型的嵌入)(emb￾eddings from language models,ELMO)模型,其先 用语言模型在一个大的语料库上学习好词的词 向量,此时无法区分多义词。Vaswani 等 [18] 提出 在注意力机制上构建的变换器(Transformer)编码 器模型。Radford 等 [19] 提出 GPT 模型,引入了 Transformer 架构。Devlin 等 [20] 提出的 BERT 模型 在 Transformer 的基础上,引入了 mask 遮盖编码 的思路和下句子预测方法,在生成动态词向量上 取得了更好的表现。Huang 等 [21] 提出了基于深度 网络的语义模型方法,基于孪生网络架构,模型 分为输入层、表示层、匹配层。Palangi等 [22] 将长 短期记忆网络(long short-term memory, LSTM)引 入其中,LSTM 作为特殊的循环神经网络,能够考 虑到距离更远的上下文信息和一些序列信息,提 升了计算的效果。Pontes 等 [23] 将卷积神经网络 (convolutional neural networks,CNN)模型和 LSTM 模型同时用于孪生网络架构,利用该网络计算语 义文本相似度。Reimers 等 [24] 提出了 SBERT 网络 结构,SBERT 模型完成仅需 5 s,带来了巨大的效 率提升。Li 等 [25] 从 BERT 训练向量结果的层面 进行了分析,发现了 BERT 预训练出的词向量存 在各向异性和低频词汇稀疏的问题,在 STS12-16 和 SICK-R 数据集上有更好的表现。 2 SBFD 计算方法 2.1 算法整体结构 将 BERT 模型输出的结果进行平滑修正,同 时考虑到科技学术会议的特征,提出了 SBFD。 该方法的整体结构如图 1 所示。SBFD 算法由序 列输入层、神经网络层、池化及标准化层和相似 度计算层 4 个部分组成。具体而言,序列输入层作 为整个系统结构的输入,融入了领域信息的文本 转化为向量,领域信息包括会议中论文研究的技 术实体和会议的主要研究方向;在神经网络层采 用了 BERT 网络模型,基于 BERT 中文预训练模 型进行,在语义文本相似度场景下微调训练出最 优的模型。接下来通过全局平均池化和标准化,缓 解 BERT 模型训练结果的各向异性的问题;最后 在相似度计算层,采用余弦相似度衡量文本相似度。 下面将详细描述每层的具体功能与实现原理。 ·738· 智 能 系 统 学 报 第 17 卷

第4期 于润羽,等:融合领域特征的科技学术会议语义相似性计算方法 ·739· Consine (u,v) 池化标准化输出向量 池化标准化输出向量v 预训练上下文输出向量 预训练上下文输出向量 全连接层 全连接层 多头 多头 自注意力 自注意力 标记嵌入 标记嵌入 分段嵌人 分段嵌入 位置嵌人 位置嵌入 会议标题文本a+领域信息a 会议标题文本b+领域信息B 图1SBFD算法整体框架 Fig.1 Framework of SBFD algorithm 2.2序列输入层 双向编码的预训练模型,训练时同时考虑到了上 科技学术会议相似度计算序列输入层将需要 下文信息。它的网络架构基于Transformer编码 对比的相似度的两个文本作为输入,传递到Sia- 器,采用了Masked Language Model和下一句预测 mese网络结构中,标准的Siamese网络结构如 两个训练任务训练网络参数,MLM模型主要是 图2所示,输人为两个要比对的文本序列。孪生 用来获取上下文信息,它不像CBOW一样把所有 网络的优势在于结构简单,训练稳定。在本算法 的词都预测一遍,而是随机遮挡部分字符。传统 的实现中,根据数据的特点对序列做了优化,因 的语言模型(language model,LM)的获取概率的 为数据中存在两个会议研究方向相似度很高,但 公式为 是会议名称单纯从文本层面并没有特别高的相 似度,为了降低这个差异的影响,本文中结合了 logp(x:r)= logp(x:I c) 会议领域特征,共同作为序列的输入。如会议标 题1:计算机设计国际会议,2:代码生成和优化国 语义相似度Sx,x 际会议。均为计算机体系结构方面的会议,但会 议名称并不能看出这两个会议之间的明显关联, 计算机设计国际会议和研究信息安全方向的亚 Cosine,Jaccard 洲计算机与通信会议研究主题更加相近,因此将 会议的领域信息,包括研究技术实体,研究主题 共同作为序列的输入,传递到神经网络层中获取 参数相同 向量。 神经网络模型 神经网络模型 权重共享 2.3神经网络层 基于Siamese网络结构的网络层可以选取不 同的神经网络来实现,例如最基本的RNN递归神 句子序列X 句子序列X 经网络,或者在RNN基础上进行改进的传统LSTM、 双向LSTM、LSTM+Attention、GRU等,在本文的 图2孪生网络结构示意图 实现中采用了BERT作为网络层。BERT是一种 Fig.2 Structure of Siamese Network

池化标准化输出向量 u 预训练上下文输出向量 池化标准化输出向量 v 预训练上下文输出向量 全连接层 标记嵌入 分段嵌入 位置嵌入 多头 自注意力 全连接层 标记嵌入 分段嵌入 位置嵌入 多头 自注意力 + + + + + + + + + + + + + + + + 会议标题文本 a+领域信息 α 会议标题文本 b+领域信息 β Consine (u, v) 图 1 SBFD 算法整体框架 Fig. 1 Framework of SBFD algorithm 2.2 序列输入层 科技学术会议相似度计算序列输入层将需要 对比的相似度的两个文本作为输入,传递到 Sia￾mese 网络结构中,标准的 Siamese 网络结构如 图 2 所示,输入为两个要比对的文本序列。孪生 网络的优势在于结构简单,训练稳定。在本算法 的实现中,根据数据的特点对序列做了优化,因 为数据中存在两个会议研究方向相似度很高,但 是会议名称单纯从文本层面并没有特别高的相 似度,为了降低这个差异的影响,本文中结合了 会议领域特征,共同作为序列的输入。如会议标 题 1:计算机设计国际会议,2:代码生成和优化国 际会议。均为计算机体系结构方面的会议,但会 议名称并不能看出这两个会议之间的明显关联, 计算机设计国际会议和研究信息安全方向的亚 洲计算机与通信会议研究主题更加相近,因此将 会议的领域信息,包括研究技术实体,研究主题 共同作为序列的输入,传递到神经网络层中获取 向量。 2.3 神经网络层 基于 Siamese 网络结构的网络层可以选取不 同的神经网络来实现,例如最基本的 RNN 递归神 经网络,或者在 RNN 基础上进行改进的传统 LSTM、 双向 LSTM、LSTM+Attention、GRU 等,在本文的 实现中采用了 BERT 作为网络层。BERT 是一种 双向编码的预训练模型,训练时同时考虑到了上 下文信息。它的网络架构基于 Transformer 编码 器,采用了 Masked Language Model 和下一句预测 两个训练任务训练网络参数,MLM 模型主要是 用来获取上下文信息,它不像 CBOW 一样把所有 的词都预测一遍,而是随机遮挡部分字符。传统 的语言模型(language model,LM)的获取概率的 公式为 log p(x1:T ) = ∑T t=1 log p(xt | ct) 语义相似度 SX1, X2 Cosine, Jaccard 神经网络模型 神经网络模型 参数相同 权重共享 句子序列 X1 句子序列 X2 图 2 孪生网络结构示意图 Fig. 2 Structure of Siamese Network 第 4 期 于润羽,等:融合领域特征的科技学术会议语义相似性计算方法 ·739·

·740· 智能系统学报 第17卷 式中:x1r=(1,2,…,)表示token序列,G=x-1o 式中:Pz是标准高斯分布;M是BERT句向量分 传统语言模型计算token出现概率p(xr)时,采用 布;det为矩阵的行列式。 自回归方式进行因式分解,例如句子x2x出现的 2.5科技学术会议相似度计算层 概率为p(x)p(x|x》'p(|)。 余弦相似度将文本置于向量空间,更适合本文 与传统语言模型不同,BERT采用MLM模型 数据集,解释性较强,因此被选为算法的相似度计 屏蔽了输入文本中的一部分文本,训练出模型后再 算层方法,衡量最后输出的两个文本向量的距离。 对被屏蔽的文本进行预测,其计算公式为 2.6SBFD计算方法步骤 p=∑) 输入:文档D,包含2n个句子文本序列a及其 人 语义特征B,每行有两对文本序列及特征,用空格 式中:为带有被掩盖的token的序列;为被掩盖 分隔,分别为、B、、B2。 的token:m,表示该token是否被掩盖,只有两种取 输出:余弦相似度序列 值,其中1为是,0为否。 for(a,B∈Ddo MLM模型是针对于单词量级的训练,有许多 特征拼接:(a1,B)->e1,(a2,B2)->e2 任务是在句子量级上的。这就需要语言模型理解 孪生网络训练: 句子之间的关系,BERT的下一句预测任务是对 Bert left(e)->h,Bert right(e2)->h2 于句子级别的任务的训练,利用二值预测方法预 池化及标准化: 测句子X是否是句子Y的下一句。思路简单,但 mean normalized(h)->01, 在句子级别问题,如智能问答上有很显著的效果。 mean normalized(h2)->02 在完成以上两个部分的参数训练后,Brt采用 相似度计算: Transformer结构,其中编码单元的核心模块利用 cosine similarity(o1,02)->v 了自注意力机制。在BERT模型中,为了扩展模 将结果添加到列表中:vadd to list 型专注于不同位置的表达能力,采用了MultiHead, return list 即“多头”模式,即 MultiHead (Q,K,V)= 3 实验结果 Concat2(head,head2..,head) 3.1数据集 head,Attention (2.we.K.W,V.Wv) 本实验分为两部分,为了验证方法的泛化能 注意力层的输出即为BERT输出的高维向量。 力,在公开数据集上,对没有融合领域特征的方 2.4池化及标准化层 法进行了测试,采用的数据集包括广泛应用的 BERT网络输出的向量可能存在训练后的向 STS12-STSI6数据集,以及SICK-R数据集。科技 量长度不相同的问题,难以计算这两个不同维度 学术会议数据集为从知网和万方爬取的文本内 的结果之间的距离,因此采用全局平均池化提取 容,由于数据需要人工标注,因此在选取了信息 句子级别的语义表示U和V,得到U和V可以进 科技3种学科下的数据1000条,其中800条用于 行相似度计算。BERT训练后的结果由于存在各 训练,200条用于测试,由于受到标注的限制,整 向异性的问题,影响最终的预测效果,因此在这 体数据量有限,将数据采用交叉验证的方式,取 里增加一层向量标准化(normalized),定义了一个 平均结果作为最终模型性能。 从潜在空间观测空间的可逆变换,标准化流的生 3.2评价指标 成过程描述为 语义文本相似度计算算法的指标一般采用相 z~Pz(),u=f(2) 关系数,相关系数常用的有皮尔逊相关系数以及 其中p2()为先验分布,z->u是可逆变换。 斯皮尔曼相关系数。皮尔逊相关系数,定义为两 通过变量代换定理,可观测变量x的概率密度 个变量的协方差除以它们标准差的乘积,计算公 函数可以表示为 式为 0f6'(0 Pxy=cov(X,.2_E【X-4x)(y-w】 OxOy OxOy 训练目标为最大化预定好的BERT句向量的 斯皮尔曼相关系数为式(1),对于样本容量为 似然函数,即 n的样本,n个原始数据X,Y被转换成等级数据 0f6(u) log.(f'(w)+logdet- x、,其中等级数据x、y是每个原始数据的降序 位置的平均

x1:T = (x1, x2,··· , xT ) ct = x1t−1 p(x1T ) x1 x2 x3 p(x1) ∗ p(x2 | x1) ∗ p(x3 | x1 x2) 式中: 表示 token 序列, 。 传统语言模型计算 token 出现概率 时,采用 自回归方式进行因式分解,例如句子 出现的 概率为 。 与传统语言模型不同,BERT 采用 MLM 模型 屏蔽了输入文本中的一部分文本,训练出模型后再 对被屏蔽的文本进行预测,其计算公式为 p( ¯xxˆ) = ∑T t=1 mt p(xt | ct) xˆ x¯ mt 式中: 为带有被掩盖的 token 的序列; 为被掩盖 的 token; 表示该 token 是否被掩盖,只有两种取 值,其中 1 为是,0 为否。 MLM 模型是针对于单词量级的训练,有许多 任务是在句子量级上的。这就需要语言模型理解 句子之间的关系,BERT 的下一句预测任务是对 于句子级别的任务的训练,利用二值预测方法预 测句子 X 是否是句子 Y 的下一句。思路简单,但 在句子级别问题,如智能问答上有很显著的效果。 在完成以上两个部分的参数训练后,Bert 采用 Transformer 结构,其中编码单元的核心模块利用 了自注意力机制。在 BERT 模型中,为了扩展模 型专注于不同位置的表达能力,采用了 MultiHead, 即“多头”模式,即 MultiHead (Q,K,V) = Concat2 (head1,head2 ,··· ,headn) headi = Attention ( Q· W Q i ,K · WK i ,V · WV i ) 注意力层的输出即为 BERT 输出的高维向量。 2.4 池化及标准化层 BERT 网络输出的向量可能存在训练后的向 量长度不相同的问题,难以计算这两个不同维度 的结果之间的距离,因此采用全局平均池化提取 句子级别的语义表示 U 和 V,得到 U 和 V 可以进 行相似度计算。BERT 训练后的结果由于存在各 向异性的问题,影响最终的预测效果,因此在这 里增加一层向量标准化(normalized),定义了一个 从潜在空间观测空间的可逆变换,标准化流的生 成过程描述为 z ∼ pZ (z), u = fϕ (z) 其中 pZ (z) 为先验分布, z− > u是可逆变换。 通过变量代换定理,可观测变量x的概率密度 函数可以表示为 pU (u) = pz ( f −1 ϕ (u) ) det ∂ f −1 ϕ (u) ∂u 训练目标为最大化预定好的 BERT 句向量的 似然函数,即 logz ( f −1 ϕ (u) ) +log det ∂ f −1 ϕ (u) ∂u 式中: pZ是标准高斯分布;u 是 BERT 句向量分 布;det 为矩阵的行列式。 2.5 科技学术会议相似度计算层 余弦相似度将文本置于向量空间,更适合本文 数据集,解释性较强,因此被选为算法的相似度计 算层方法,衡量最后输出的两个文本向量的距离。 2.6 SBFD 计算方法步骤 α β α1 β1 α1 β2 输入:文档 D,包含 2n 个句子文本序列 及其 语义特征 ,每行有两对文本序列及特征,用空格 分隔,分别为 、 、 、 。 输出:余弦相似度序列 for (α, β) ∈ D do 特征拼接: (α1, β1)− > e1,(α2, β2)− > e2 孪生网络训练: Bert_left(e1)− > h1,Bert_right(e2)− > h2 池化及标准化: mean & normalized(h1)− > o1, mean & normalized(h2)− > o2 相似度计算: cosine similarity(o1,o2)− > v 将结果添加到列表中:v add to list return list 3 实验结果 3.1 数据集 本实验分为两部分,为了验证方法的泛化能 力,在公开数据集上,对没有融合领域特征的方 法进行了测试,采用的数据集包括广泛应用的 STS12-STS16 数据集,以及 SICK-R 数据集。科技 学术会议数据集为从知网和万方爬取的文本内 容,由于数据需要人工标注,因此在选取了信息 科技 3 种学科下的数据 1 000 条,其中 800 条用于 训练,200 条用于测试,由于受到标注的限制,整 体数据量有限,将数据采用交叉验证的方式,取 平均结果作为最终模型性能。 3.2 评价指标 语义文本相似度计算算法的指标一般采用相 关系数,相关系数常用的有皮尔逊相关系数以及 斯皮尔曼相关系数。皮尔逊相关系数,定义为两 个变量的协方差除以它们标准差的乘积,计算公 式为 ρX,Y = cov(X,Y) σXσY = E [ (X −µX) (Y −µY ) ] σXσY Xi Yi xi yi xi yi 斯皮尔曼相关系数为式 (1),对于样本容量为 n 的样本,n 个原始数据 , 被转换成等级数据 、 ,其中等级数据 、 是每个原始数据的降序 位置的平均。 ·740· 智 能 系 统 学 报 第 17 卷

第4期 于润羽,等:融合领域特征的科技学术会议语义相似性计算方法 ·741· ∑(s-)0-列 较,比较结果如表2所示。 Px.Y= (1) V∑G-r∑0-列 表2不同网络结构相似度分析表现 Table 2 Similarity analysis performance of different net- 已有研究表明,皮尔逊相关系数由于对线性 work structures 关系更加敏感,离心数据对整体评价指标影响较 计算领域LSTMLSTM+ATT SBERT SBFD1SBFD2 大,其相关性的内在评估可能会产生误导,皮尔 信息科技0.6036 0.6221 0.66820.7029 0.7525 逊相关系数并不是适合检测语义文本相似度任务 的最佳选择。而斯皮尔曼相关系数更多的是衡量 工程科技0.5258 0.5882 0.62360.6822 0.7057 正相关关系,因此更加适合作为本节的评价指标, 农业科技0.5620 0.6436 0.68220.6918 0.7231 故本节采用斯皮尔曼相关系数对结果进行评估。 平均 0.5638 0.6178 0.65800.6923 0.7271 3.3实验结果 由表2的分析可知,不同的神经网络模型在 在本文为实验中,BERT的batch size设置为32, 学习率设置为1×10。向量输出的池化方式全局平 文本相似度计算领域,对于孪生网络有很大的影响。 SBFD_1不考虑领域信息的SBFD方法,SBFD2 均池化,优化器选择Adam,Dropout设置为0.1。 本节使用斯皮尔曼相关系数对文本相似度分 表示包含领域信息的SBFD方法,SBFD在不同 析的结果进行评价,对不同的方法效果进行评估, 的网络结构中取得了更好的效果,对比方法包括 首先在STS12-STS16和SICK-R数据集数据集 LSTM、LSTM+ATT,通过LSTM识别,可能会忽 上,在孪生网络的结构中,对比了GloVe,BERT, 略掉长距离依赖的信息和下文信息,因此在LSTM SBERT和SBERT方法的效果,这里的SBERT并 基础上结合注意力机制,可以考虑到全局语义信 没有输入领域信息,主要为了验证整体网络框架 息,提高相似度计算的效果。SBERT利用BERT 的能力,实验结果如表1所示。 作为孪生网络的神经网络层,预训练模型提取特 征,也取得了很好的效果。最后对比SBFD方法, 表1不同方法在STS12-16及SICK-R上的表现 对BERT输出进行标准化,就取得了更好的效果, Table 1 Performance of different methods on STS12-16 and SICK-R 解决向量分布异化的问题。引入领域信息带来了 算法 效果的提升,验证了本文方法的有效性。 STS12 STS13 STS14 STS15 STS16 SICK-R 3.4实验参数对性能的影响 G1oVe0.55250.67280.62150.67460.64230.5608 将BERT的batch size设置不同数值进行实 BERT0.42380.57660.58250.63220.62070.5889 验,确定其对论文数据命名实体识别效果的影 SBERT0.68810.72760.73220.74230.71330.7206 响,在信息科技数据集实验结果如图3所示。 SBFD0.69200.73210.74260.76180.73800.7354 0.800 表1中,SBERT为Siamese-BERT算法,NS- 0.775 BERT为标准化后的Siamese-BERT算法。由表1 0.750 0.725 可以看出BERT表现欠佳,甚至在某些数据集表 0.700 现还不如模型更简单的静态词嵌人模型GloVe, 0.675 分析其中原因,常规的BERT训练出的结果不具 0.650 有语义信息,导致两个相似的句子得到的句向量 0.625 可能有很大的差别,为了解决这个问题,孪生网 0.600 16 32 48 64 80 络的两侧分别输入需要计算语义相似度的两个句 batch size 子,获得含有句子潜在语义的Embedding。再将 图3 batch size对信息科技数据集计算效果影响 其输入到BERT网络中进行计算,可以看到效果 Fig.3 Impact of batch size on the computing effect of in- 对比与GloVe和BERT有非常明显地提升,证明 formation technology datasets 李生网络结构的有效性。最后,NSBERT由于对 根据图3可以看出,在信息科技数据集中, 输出的向量进行标准化,解决了BERT生成向量 batch size在32时方法取得了最好的效果,随着 空间分布不均匀的问题,进一步提升了算法的表现。 batch size的升高,效果有一定的下滑,但下滑并 根据表1的分析结果可以证明孪生网络结构 不明显。因此从信息科技数据集上看,batch size 在计算语义文本相似度的有效性,因此,在科技 对于方法的效果有一定影响,但并不是正相关或 学术会议数据集上,均采用李生网络作为网络框 者负相关的趋势,影响程度有限。接下来在工程 架,在神经网络层选择不同的网络结构进行比 科技数据集上进行实验,结果如图4所示

ρX,Y = ∑ i (xi − x¯) (yi −y¯) √∑ i (xi − x¯) 2∑ i (yi −y¯) 2 (1) 已有研究表明,皮尔逊相关系数由于对线性 关系更加敏感,离心数据对整体评价指标影响较 大,其相关性的内在评估可能会产生误导,皮尔 逊相关系数并不是适合检测语义文本相似度任务 的最佳选择。而斯皮尔曼相关系数更多的是衡量 正相关关系,因此更加适合作为本节的评价指标, 故本节采用斯皮尔曼相关系数对结果进行评估。 3.3 实验结果 在本文为实验中,BERT 的 batch size 设置为 32, 学习率设置为 1×10−5。向量输出的池化方式全局平 均池化,优化器选择 Adam,Dropout 设置为 0.1。 本节使用斯皮尔曼相关系数对文本相似度分 析的结果进行评价,对不同的方法效果进行评估, 首先在 STS12-STS16 和 SICK-R 数据集数据集 上,在孪生网络的结构中,对比了 GloVe,BERT, SBERT 和 SBERT 方法的效果,这里的 SBERT 并 没有输入领域信息,主要为了验证整体网络框架 的能力,实验结果如表 1 所示。 表 1 不同方法在 STS12-16 及 SICK-R 上的表现 Table 1 Performance of different methods on STS12-16 and SICK-R 算法 STS12 STS13 STS14 STS15 STS16 SICK-R GloVe 0.5525 0.672 8 0.621 5 0.6746 0.6423 0.5608 BERT 0.4238 0.576 6 0.582 5 0.6322 0.6207 0.5889 SBERT 0.6881 0.727 6 0.732 2 0.7423 0.7133 0.7206 SBFD 0.6920 0.732 1 0.742 6 0.7618 0.7380 0.7354 表 1 中,SBERT 为 Siamese-BERT 算法,NS￾BERT 为标准化后的 Siamese -BERT 算法。由表 1 可以看出 BERT 表现欠佳,甚至在某些数据集表 现还不如模型更简单的静态词嵌入模型 GloVe, 分析其中原因,常规的 BERT 训练出的结果不具 有语义信息,导致两个相似的句子得到的句向量 可能有很大的差别,为了解决这个问题,孪生网 络的两侧分别输入需要计算语义相似度的两个句 子,获得含有句子潜在语义的 Embedding。再将 其输入到 BERT 网络中进行计算,可以看到效果 对比与 GloVe 和 BERT 有非常明显地提升,证明 孪生网络结构的有效性。最后,NSBERT 由于对 输出的向量进行标准化,解决了 BERT 生成向量 空间分布不均匀的问题,进一步提升了算法的表现。 根据表 1 的分析结果可以证明孪生网络结构 在计算语义文本相似度的有效性,因此,在科技 学术会议数据集上,均采用孪生网络作为网络框 架,在神经网络层选择不同的网络结构进行比 较,比较结果如表 2 所示。 表 2 不同网络结构相似度分析表现 Table 2 Similarity analysis performance of different net￾work structures 计算领域 LSTM LSTM+ATT SBERT SBFD_1 SBFD_2 信息科技 0.6036 0.6221 0.6682 0.702 9 0.752 5 工程科技 0.5258 0.5882 0.6236 0.682 2 0.705 7 农业科技 0.5620 0.6436 0.6822 0.691 8 0.723 1 平均 0.5638 0.6178 0.6580 0.692 3 0.727 1 由表 2 的分析可知,不同的神经网络模型在 文本相似度计算领域,对于孪生网络有很大的影响。 SBFD_1 不考虑领域信息的 SBFD 方法,SBFD_2 表示包含领域信息的 SBFD 方法, SBFD 在不同 的网络结构中取得了更好的效果,对比方法包括 LSTM、LSTM+ATT,通过 LSTM 识别,可能会忽 略掉长距离依赖的信息和下文信息,因此在 LSTM 基础上结合注意力机制,可以考虑到全局语义信 息,提高相似度计算的效果。SBERT 利用 BERT 作为孪生网络的神经网络层,预训练模型提取特 征,也取得了很好的效果。最后对比 SBFD 方法, 对 BERT 输出进行标准化,就取得了更好的效果, 解决向量分布异化的问题。引入领域信息带来了 效果的提升,验证了本文方法的有效性。 3.4 实验参数对性能的影响 将 BERT 的 batch size 设置不同数值进行实 验,确定其对论文数据命名实体识别效果的影 响,在信息科技数据集实验结果如图 3 所示。 0.800 0.775 0.750 0.725 0.700 0.675 0.650 0.625 0.600 斯皮尔曼相关系数 16 32 48 64 80 batch size 图 3 batch size 对信息科技数据集计算效果影响 Fig. 3 Impact of batch size on the computing effect of in￾formation technology datasets 根据图 3 可以看出,在信息科技数据集中, batch size 在 32 时方法取得了最好的效果,随着 batch size 的升高,效果有一定的下滑,但下滑并 不明显。因此从信息科技数据集上看,batch size 对于方法的效果有一定影响,但并不是正相关或 者负相关的趋势,影响程度有限。接下来在工程 科技数据集上进行实验,结果如图 4 所示。 第 4 期 于润羽,等:融合领域特征的科技学术会议语义相似性计算方法 ·741·

·742· 智能系统学报 第17卷 0.800 算,其中神经网络层选择了BERT模型,充分利用 0.775 了BERT预训练模型的优势,挖掘文本中的深层 兹0.750 语义信息。同时,考虑到BERT在文本相似度计 算上计算开销大、准确性的缺点,基于孪生网络 0.675 结构,构建了SBERT网络,并对训练出的向量进 0.650 行标准化,计算文本的相似度。将SBFD方法与 0.625 Glove、LSTM等方法比较,实验结果表明,SBFD 0.600 16 32 48 64 80 在学术会议数据集上有更好的表现。相似度计算 batch size 的结果可以用于学术会议知识图谱和画像的构建, 图4 batch size对工程科技数据集计算效果影响 帮助科研人员快速从中获取到想要的科研信息。 Fig.4 Impact of batch size on the calculation effect of en- gineering science and technology datasets 参考文献: 从图4可以看出,在工程科技数据集中,batch []周园春,王卫军,乔子越,等.科技大数据知识图谱构建 size在16时方法取得了最好的效果,与在信息科 方法及应用研究综述[.中国科学:信息科学,2020 技数据集中有一定的区别,但是从分布趋势上来 50(7):957-987 看是一致的,即batch size对于性能有影响,但影 ZHOU Yuanchun,WANG Weijun,QIAO Ziyue,et al.A 响不明显,在某一个值时取得最好效果,随着其 survey on the construction methods and applications of 继续增大,效果对比16时有一定的下降。 sci-tech big data knowledge graph[J].Scientia sinica (in- 接下来在农业科技数据集上进行实验,结果 formationis).2020,50(7):957-987. 如图5所示。 [2]苏晓娟,张英杰,白晨,等.科技大数据背景下的中英双 语语料库的构建及其特点研究),中国科技资源导刊, 0.800 2019.51(6):87-92 0.775 SU Xiaojuan,ZHANG Yingjie,BAI Chen,et al.Re- 0.750 search of bilingual corpus construction and its character- 0.725 istics in big data[J].China science technology re- 0.700 sources review,2019,51(6):87-92. 0.675 [3]胡吉颖,谢靖,钱力,等.基于知识图谱的科技大数据知 s0.650 0.625 识发现平台建设数据分析与知识发现,2019,3(1): 0.600 55-62. 16 32 48 6 80 HU Jiying,XIE Jing,QIAN Li,et al.Constructing big batch size data platform for sci-tech knowledge discovery with 图5 batch size对农业科技数据集计算效果影响 knowledge graph[J].Data analysis and knowledge discov- Fig.5 Impact of batch size on the computing effect of agri- ey,2019,31):55-62. cultural science and technology datasets [4]TONG Yuqiang,GU Lize.A news text clustering meth- 从图5可以看出,在农业科技数据集中,batch od based on similarity of text labels[M]//Lecture Notes of size在32时取得了最好的效果,结合图3、4、5分 the Institute for Computer Sciences,Social Informatics 析可以得出结论:batch size对整个网络的识别效 and Telecommunications Engineering.Cham:Springer 果有一定影响,batch size越大,训练速度越快,但 International Publishing,2019:496-503 [5] 太大的batch size导致模型泛化能力下降。在一 LI Wenling,JIA Yingmin,DU Junping,et al.Distributed multiple-model estimation for simultaneous localization 定范围内,增加batch size有助于收敛的稳定性是 and tracking with NLOS mitigation[J].IEEE transactions 随着batch size的增加,方法的性能会下降,对精 on vehicular technology,2013,62(6):2824-2830. 度造成影响。在训练速度允许的范围内,尽可能的 [6]DAS A.MANDAL J,DANIAL Z,et al.A novel ap- 选择一个合适的batch size,可以提高方法的性能。 proach for automatic Bengali question answering system using semantic similarity analysis[J].International journ- 4结束语 al of speech technology,2020,23(4):873-884 [7]FANG Yuke,DENG Weihong,DU Junping,et al.Iden- 本文提出了一种融合领域特征的科技学术会 tity-aware CycleGAN for face photo-sketch synthesis and 议语义相似度计算方法,结合科技学术会议自身 recognition[J].Pattern recognition,2020,102:107249. 的特点,融入研究领域特征,共同作为向量输 [8]QIAN Ming,LIU J,LI Chaofeng,et al.A comparative 入。基于孪生网络结构对文本语义相似度进行计 study of English-Chinese translations of court texts by

0.800 0.775 0.750 0.725 0.700 0.675 0.650 0.625 0.600 斯皮尔曼相关系数 16 32 48 64 80 batch size 图 4 batch size 对工程科技数据集计算效果影响 Fig. 4 Impact of batch size on the calculation effect of en￾gineering science and technology datasets 从图 4 可以看出,在工程科技数据集中,batch size 在 16 时方法取得了最好的效果,与在信息科 技数据集中有一定的区别,但是从分布趋势上来 看是一致的,即 batch size 对于性能有影响,但影 响不明显,在某一个值时取得最好效果,随着其 继续增大,效果对比 16 时有一定的下降。 接下来在农业科技数据集上进行实验,结果 如图 5 所示。 0.800 0.775 0.750 0.725 0.700 0.675 0.650 0.625 0.600 斯皮尔曼相关系数 16 32 48 64 80 batch size 图 5 batch size 对农业科技数据集计算效果影响 Fig. 5 Impact of batch size on the computing effect of agri￾cultural science and technology datasets 从图 5 可以看出,在农业科技数据集中,batch size 在 32 时取得了最好的效果,结合图 3、4、5 分 析可以得出结论:batch size 对整个网络的识别效 果有一定影响,batch size 越大,训练速度越快,但 太大的 batch size 导致模型泛化能力下降。在一 定范围内,增加 batch size 有助于收敛的稳定性是 随着 batch size 的增加,方法的性能会下降,对精 度造成影响。在训练速度允许的范围内,尽可能的 选择一个合适的 batch size,可以提高方法的性能。 4 结束语 本文提出了一种融合领域特征的科技学术会 议语义相似度计算方法,结合科技学术会议自身 的特点,融入研究领域特征,共同作为向量输 入。基于孪生网络结构对文本语义相似度进行计 算,其中神经网络层选择了 BERT 模型,充分利用 了 BERT 预训练模型的优势,挖掘文本中的深层 语义信息。同时,考虑到 BERT 在文本相似度计 算上计算开销大、准确性的缺点,基于孪生网络 结构,构建了 SBERT 网络,并对训练出的向量进 行标准化,计算文本的相似度。将 SBFD 方法与 Glove、LSTM 等方法比较,实验结果表明,SBFD 在学术会议数据集上有更好的表现。相似度计算 的结果可以用于学术会议知识图谱和画像的构建, 帮助科研人员快速从中获取到想要的科研信息。 参考文献: 周园春, 王卫军, 乔子越, 等. 科技大数据知识图谱构建 方法及应用研究综述 [J]. 中国科学: 信息科学, 2020, 50(7): 957−987. ZHOU Yuanchun, WANG Weijun, QIAO Ziyue, et al. A survey on the construction methods and applications of sci-tech big data knowledge graph[J]. Scientia sinica (in￾formationis), 2020, 50(7): 957−987. [1] 苏晓娟, 张英杰, 白晨, 等. 科技大数据背景下的中英双 语语料库的构建及其特点研究 [J]. 中国科技资源导刊, 2019, 51(6): 87−92. SU Xiaojuan, ZHANG Yingjie, BAI Chen, et al. Re￾search of bilingual corpus construction and its character￾istics in big data[J]. China science & technology re￾sources review, 2019, 51(6): 87−92. [2] 胡吉颖, 谢靖, 钱力, 等. 基于知识图谱的科技大数据知 识发现平台建设 [J]. 数据分析与知识发现, 2019, 3(1): 55−62. HU Jiying, XIE Jing, QIAN Li, et al. Constructing big data platform for sci-tech knowledge discovery with knowledge graph[J]. Data analysis and knowledge discov￾ery, 2019, 3(1): 55−62. [3] TONG Yuqiang, GU Lize. A news text clustering meth￾od based on similarity of text labels[M]//Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering. Cham: Springer International Publishing, 2019: 496-503. [4] LI Wenling, JIA Yingmin, DU Junping, et al. Distributed multiple-model estimation for simultaneous localization and tracking with NLOS mitigation[J]. IEEE transactions on vehicular technology, 2013, 62(6): 2824–2830. [5] DAS A, MANDAL J, DANIAL Z, et al. A novel ap￾proach for automatic Bengali question answering system using semantic similarity analysis[J]. International journ￾al of speech technology, 2020, 23(4): 873–884. [6] FANG Yuke, DENG Weihong, DU Junping, et al. Iden￾tity-aware CycleGAN for face photo-sketch synthesis and recognition[J]. Pattern recognition, 2020, 102: 107249. [7] QIAN Ming, LIU J, LI Chaofeng, et al. A comparative study of English-Chinese translations of court texts by [8] ·742· 智 能 系 统 学 报 第 17 卷

第4期 于润羽,等:融合领域特征的科技学术会议语义相似性计算方法 ·743· machine and human translators and the Word2Vec based 68a1cc19f2ec95b5003d0a5035 similarity measure's ability to gauge human evaluation bi- [20]DEVLIN J.CHANG MING-WEI.LEE K.et al.BERT: ases[C]//Proceedings of Machine Translation Summit pre-training of deep bidirectional transformers for lan- XVII Volume 2:Translator,Project and User Tracks. guage understanding[EB/OL].New York:arXiv,2018. Dublin:ACL.2019:95-100. (2018-10-11)[2022-03-20].https:/∥arxiv.org/abs/ [9]XUE Zhe,DU Junping,DU Dawei,et al.Deep low-rank 1810.04805 subspace ensemble for multi-view clustering[J].Informa- [21]HUANG Posen,HE Xiaodong,GAO Jianfeng,et al. tion sciences,2019,482:210-227 Learning deep structured semantic models for web [10]RISTAD E S,YIANILOS P N.Learning string-edit dis- search using clickthrough data[Cl//CIKM'13:Proceed- tance[J].IEEE transactions on pattern analysis and ma- ings of the 22nd ACM international conference on In- chine intelligence,1998,20(5):522-532. formation Knowledge Management.New York: [11]HU Weiming,GAO Jun,LI Bing,et al.Anomaly detec- ACM,2013:2333-2338. tion using local kernel density estimation and context- [22]PALANGI H,DENG L,SHEN Y,et al.Semantic mod- based regression[J].IEEE transactions on knowledge elling with long-short-term memory for information re- and data engineering,2020,32(2):218-233 trieval[EB/OL].New York:arXiv,2014.(2014-12-20) [12]SUPHAKIT Niwattanakul,JATSADA Singthongchai, [2022-03-20].https:/axiv.org/abs/1412.6629. EKKACHAI Naenudorn,et al.Using of Jaccard coeffi- [23]PONTES EL.HUET S.LINHARES A C.et al.Predict- cient for keywords similarity[C]//Proceedings of the in- ing the semantic textual similarity with Siamese CNN ternational multiconference of engineers and computer and LSTM[EB/OL].New York:arXiv,2018.(2018- scientists.Hong Kong:Newswood Limited,2013,1(6): 10-24)[2022-03-20].https://arxiv.org/abs/1810. 380-384. 10641. [13]KOU Feifei,DU Junping,HE Yijiang,et al.Social net- [24]REIMERS N.GUREVYCH I.Sentence-BERT:sen- work search based on semantic analysis and learning[J]. tence embeddings using Siamese BERT-networks[EB/OL]. CAAI transactions on intelligence technology,2016, New York:arXiv,2019.(2019-08-27)[2022-03-20] 1(4):293-302. https://arxiv.org/abs/1908.10084. [14]LI Wenling,JIA Yingmin,DU Junping.Variance-con- [25]LI BOHAN,ZHOU HAO,HE JUNXIAN,et al.On the strained state estimation for nonlinearly coupled com- sentence embeddings from pre-trained language plex networks[J].IEEE transactions on cybernetics. models[EB/OLl.New York:arXiv,2020.(2020-11-02) 2018.48(2):818-824. [2022-03-20].https:/axiv.org/abs/2011.05864 [15]MIKOLOV T,CHEN KAI,CORRADO G,et al.Effi- 作者简介: cient estimation of word representations in vector space[EB/OL].New York:arXiv,2013.(2013-01-16) 于润羽,硕士研究生,主要研究方 [2022-03-24].htps://arxiv..org/abs/1301.3781. 向为深度学习、数据挖掘。 [16]PENNINGTON J,SOCHER R,MANNING C.Glove: global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natur- al Language Processing.Stroudsburg:Association for Computational Linguistics,2014:1532-1543. [17]PETERS M E,NEUMANN M,IYYER M,et al.Deep 李雅文,副教授.主要研究方向为 contextualized word representations[EB/OL].New 企业创新、人工智能、大数据。 York:arXiv,2018.(2018-03-22)[2020-07-01] https://arxiv.org/abs/1802.05365. [18]VASWANI A.SHAZEER N.PARMAR N,et al.Atten- tion is all You need[Cl//NIPS'17:Proceedings of the 31st International Conference on Neural Information Processing Systems.New York:ACM,2017:6000- 李昂,博士研究生,主要研究方向 6010. 为信息检索、数据挖掘、机器学习。 [19]RADFORD A,NARASIMHAN K.Improving language understanding by generative pre-training[EB/OL]. (2018-11-05)[2020-07-01]https:/www.semantic- scholar.org/paper/Improving-Language-Understanding- by-Generative-Radford-Narasimhan/cd18800a0fe0b6

machine and human translators and the Word2Vec based similarity measure’s ability to gauge human evaluation bi￾ases[C]//Proceedings of Machine Translation Summit XVII Volume 2: Translator, Project and User Tracks. Dublin: ACL, 2019: 95−100. XUE Zhe, DU Junping, DU Dawei, et al. Deep low-rank subspace ensemble for multi-view clustering[J]. Informa￾tion sciences, 2019, 482: 210–227. [9] RISTAD E S, YIANILOS P N. Learning string-edit dis￾tance[J]. IEEE transactions on pattern analysis and ma￾chine intelligence, 1998, 20(5): 522–532. [10] HU Weiming, GAO Jun, LI Bing, et al. Anomaly detec￾tion using local kernel density estimation and context￾based regression[J]. IEEE transactions on knowledge and data engineering, 2020, 32(2): 218–233. [11] SUPHAKIT Niwattanakul, JATSADA Singthongchai, EKKACHAI Naenudorn, et al. Using of Jaccard coeffi￾cient for keywords similarity[C]//Proceedings of the in￾ternational multiconference of engineers and computer scientists. Hong Kong: Newswood Limited, 2013, 1(6): 380−384. [12] KOU Feifei, DU Junping, HE Yijiang, et al. Social net￾work search based on semantic analysis and learning[J]. CAAI transactions on intelligence technology, 2016, 1(4): 293–302. [13] LI Wenling, JIA Yingmin, DU Junping. Variance-con￾strained state estimation for nonlinearly coupled com￾plex networks[J]. IEEE transactions on cybernetics, 2018, 48(2): 818–824. [14] MIKOLOV T, CHEN KAI, CORRADO G, et al. Effi￾cient estimation of word representations in vector space[EB/OL]. New York: arXiv, 2013. (2013−01−16) [2022−03−24]. https: //arxiv. org/abs/1301.3781. [15] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natur￾al Language Processing. Stroudsburg: Association for Computational Linguistics, 2014: 1532−1543. [16] PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations[EB/OL]. New York: arXiv, 2018. (2018−03−22)[2020−07−01]. https://arxiv.org/abs/1802.05365. [17] VASWANI A, SHAZEER N, PARMAR N, et al. Atten￾tion is all You need[C]//NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 6000− 6010. [18] RADFORD A, NARASIMHAN K. Improving language understanding by generative pre-training[EB/OL]. (2018−11−05)[2020−07−01].https://www.semantic￾scholar.org/paper/Improving-Language-Understanding￾by-Generative-Radford-Narasimhan/cd18800a0fe0b6 [19] 68a1cc19f2ec95b5003d0a5035. DEVLIN J, CHANG MING-WEI, LEE K, et al. BERT: pre-training of deep bidirectional transformers for lan￾guage understanding[EB/OL]. New York: arXiv, 2018. (2018−10−11)[2022−03−20]. https: //arxiv. org/abs/ 1810.04805. [20] HUANG Posen, HE Xiaodong, GAO Jianfeng, et al. Learning deep structured semantic models for web search using clickthrough data[C]//CIKM’13: Proceed￾ings of the 22nd ACM international conference on In￾formation & Knowledge Management. New York: ACM, 2013: 2333−2338. [21] PALANGI H, DENG L, SHEN Y, et al. Semantic mod￾elling with long-short-term memory for information re￾trieval[EB/OL]. New York: arXiv, 2014. (2014−12−20) [2022−03−20].https://arxiv.org/abs/1412.6629. [22] PONTES E L, HUET S, LINHARES A C, et al. Predict￾ing the semantic textual similarity with Siamese CNN and LSTM[EB/OL]. New York: arXiv, 2018. (2018− 10−24) [2022−03−20]. https: //arxiv. org/abs/1810. 10641. [23] REIMERS N, GUREVYCH I. Sentence-BERT: sen￾tence embeddings using Siamese BERT-networks[EB/OL]. New York: arXiv, 2019. (2019−08−27) [2022−03−20]. https: //arxiv. org/abs/1908.10084. [24] LI BOHAN, ZHOU HAO, HE JUNXIAN, et al. On the sentence embeddings from pre-trained language models[EB/OL]. New York: arXiv, 2020. (2020−11−02) [2022−03−20]. https: //arxiv. org/abs/2011.05864. [25] 作者简介: 于润羽,硕士研究生,主要研究方 向为深度学习、数据挖掘。 李雅文,副教授,主要研究方向为 企业创新、人工智能、大数据。 李昂,博士研究生,主要研究方向 为信息检索、数据挖掘、机器学习。 第 4 期 于润羽,等:融合领域特征的科技学术会议语义相似性计算方法 ·743·

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
已到末页,全文结束
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有