工程科学学报.第43卷.第9期:1182-1189.2021年9月 Chinese Journal of Engineering,Vol.43,No.9:1182-1189,September 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.13.002;http://cje.ustb.edu.cn 基于ALBERT与双向GRU的中医脏腑定位模型 张德政12),范欣欣1,2,谢永红2)四,蒋彦钊2) 1)北京科技大学计算机与通信工程学院,北京1000832)材料领域知识工程北京市重点实验室,北京100083 ☒通信作者,E-mail:xieyh@ustb.edu.cn 摘要脏腑定位,即明确病变所在的脏腑,是中医脏腑辨证的重要阶段.本文旨在通过神经网络模型搭建中医脏腑定位模 型,输入症状文本信息,输出对应的病变脏腑标签,为实现中医辅助诊疗的脏腑辨证提供支持.将中医的脏腑定位问题建模 为自然语言处理中的多标签文本分类问题,基于中医的医案数据,提出一种基于预训练模型ALBERT和双向门控循环单元 (B-GRU)的脏腑定位模型.对比实验和消融实验的结果表明,本文提出的方法在中医脏腑定位的问题上相比于多层感知机 模型、决策树模型具有更高的准确性,与Word2Vc文本表示方法相比,本文使用的ALBERT预训练模型的文本表示方法有 效提升了模型的准确率.在模型参数上,ALBERT预训练模型相比BERT模型降低了模型参数量,有效减小了模型大小.最 终,本文提出的脏腑定位模型在测试集上F1值达到了0.8013. 关键词多标签文本分类:ALBERT:门控循环单元:脏腑定位:中医 分类号TP391.1 Localization model of traditional Chinese medicine Zang-fu based on ALBERT and Bi- GRU ZHANG De-zheng2,FAN Xin-xin2),XIE Yong-hong2,JIANG Yan-zhao2 1)School of Computer and Communication Engineering.University of Science and Technology Beijing,Beijing 100083,China 2)Beijing Key Laboratory of Knowledge Engineering for Materials Science,Beijing 100083,China Corresponding author,E-mail:xieyh@ustb.edu.cn ABSTRACT The rapid development of artificial intelligence (Al)has injected new vitality into various industries and provided new ideas for the development of traditional Chinese medicine(TCM).The combination of Al and TCM provides more technical support for TCM auxiliary diagnosis and treatment.In the history of TCM,many methods of syndrome differentiation have been observed,among which the differentiation of Zang-fu organs is one of the important methods.The purpose of this paper is to provide support for the localization of Zang-fu in TCM through AI technology.Localization of Zang-fu organs is a method of determining the location of lesions in such organs and is an important stage in the differentiation of Zang-fu organs in TCM.In this paper,the localization model of TCM Zang-fu organs through the neural network model was established.Through the input of symptom text information,the corresponding Zang-fu label for a lesion could be output to provide support for the realization of Zang-fu syndrome differentiation in TCM-assisted diagnosis and treatment.In this paper,the localization of Zang-fu organs was abstracted as multi-label text classification in natural language processing.Using the medical record data of TCM,a Zang-fu localization model based on pretraining models a lite BERT(ALBERT)and bidirectional gated recurrent unit(Bi-GRU)was proposed.Comparison and ablation experiments finally show that the proposed method is more accurate than multilayer perceptron and the decision tree.Moreover,using an ALBERT pretraining model for text representation effectively improves the accuracy of the localization model.In terms of model parameters,the ALBERT 收稿日期:2021-01-13 基金项目:国家重点研发计划云计算和大数据专项资助项目(2017YFB1002304)
基于 ALBERT 与双向 GRU 的中医脏腑定位模型 张德政1,2),范欣欣1,2),谢永红1,2) 苣,蒋彦钊1,2) 1) 北京科技大学计算机与通信工程学院,北京 100083 2) 材料领域知识工程北京市重点实验室,北京 100083 苣通信作者,E-mail: xieyh@ustb.edu.cn 摘 要 脏腑定位,即明确病变所在的脏腑,是中医脏腑辨证的重要阶段. 本文旨在通过神经网络模型搭建中医脏腑定位模 型,输入症状文本信息,输出对应的病变脏腑标签,为实现中医辅助诊疗的脏腑辨证提供支持. 将中医的脏腑定位问题建模 为自然语言处理中的多标签文本分类问题,基于中医的医案数据,提出一种基于预训练模型 ALBERT 和双向门控循环单元 (Bi-GRU)的脏腑定位模型. 对比实验和消融实验的结果表明,本文提出的方法在中医脏腑定位的问题上相比于多层感知机 模型、决策树模型具有更高的准确性,与 Word2Vec 文本表示方法相比,本文使用的 ALBERT 预训练模型的文本表示方法有 效提升了模型的准确率. 在模型参数上,ALBERT 预训练模型相比 BERT 模型降低了模型参数量,有效减小了模型大小. 最 终,本文提出的脏腑定位模型在测试集上 F1 值达到了 0.8013. 关键词 多标签文本分类;ALBERT;门控循环单元;脏腑定位;中医 分类号 TP391.1 Localization model of traditional Chinese medicine Zang-fu based on ALBERT and BiGRU ZHANG De-zheng1,2) ,FAN Xin-xin1,2) ,XIE Yong-hong1,2) 苣 ,JIANG Yan-zhao1,2) 1) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Beijing Key Laboratory of Knowledge Engineering for Materials Science, Beijing 100083, China 苣 Corresponding author, E-mail: xieyh@ustb.edu.cn ABSTRACT The rapid development of artificial intelligence (AI) has injected new vitality into various industries and provided new ideas for the development of traditional Chinese medicine (TCM). The combination of AI and TCM provides more technical support for TCM auxiliary diagnosis and treatment. In the history of TCM, many methods of syndrome differentiation have been observed, among which the differentiation of Zang-fu organs is one of the important methods. The purpose of this paper is to provide support for the localization of Zang-fu in TCM through AI technology. Localization of Zang-fu organs is a method of determining the location of lesions in such organs and is an important stage in the differentiation of Zang-fu organs in TCM. In this paper, the localization model of TCM Zang-fu organs through the neural network model was established. Through the input of symptom text information, the corresponding Zang-fu label for a lesion could be output to provide support for the realization of Zang-fu syndrome differentiation in TCM-assisted diagnosis and treatment. In this paper, the localization of Zang-fu organs was abstracted as multi-label text classification in natural language processing. Using the medical record data of TCM, a Zang-fu localization model based on pretraining models a lite BERT (ALBERT) and bidirectional gated recurrent unit (Bi-GRU) was proposed. Comparison and ablation experiments finally show that the proposed method is more accurate than multilayer perceptron and the decision tree. Moreover, using an ALBERT pretraining model for text representation effectively improves the accuracy of the localization model. In terms of model parameters, the ALBERT 收稿日期: 2021−01−13 基金项目: 国家重点研发计划云计算和大数据专项资助项目(2017YFB1002304) 工程科学学报,第 43 卷,第 9 期:1182−1189,2021 年 9 月 Chinese Journal of Engineering, Vol. 43, No. 9: 1182−1189, September 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.13.002; http://cje.ustb.edu.cn
张德政等:基于ALBERT与双向GRU的中医脏腑定位模型 ·1183 pretraining model greatly reduces the number of model parameters compared with the BERT model and effectively reduces the model size.Finally,the F1-value of the Zang-fu localization model proposed in this paper reaches 0.8013 on the test set,which provided certain support for the TCM auxiliary diagnosis and treatment. KEY WORDS multi-label text classification:ALBERT:GRU:localization of Zang-fu:traditional Chinese medicine(TCM) 人工智能技术的快速发展为各个行业注入了 提供了新的方法,多标签文本分类即为其中的重 新的活力,也为中医学的发展提供了新的思路.随 要方法.多标签文本分类是指一个样本可以属于 着人工智能与中医的结合,也为中医的辅助诊疗 多个类别(或标签).比如一条症状同时与“肾”和 提供了更多可能.中医学在历史上形成了多种辨 “肝”两个标签关联,即该症状表现与“肾”和“肝” 证方法,其中脏腑辨证是根据脏腑的生理功能,病 两个脏腑相关.有研究人员从聚类的角度对文本 理表现,对疾病证候进行归纳,借以推究病机,判 进行多标签分类,申超波等图提出了一种基于标 断病变的部位、性质、正邪盛衰情况的一种辨证 签聚类的标签幂集方法,通过改进平衡k-means聚 方法,是辨证体系中的重要组成部分.当某一脏腑 类来发现训练集中潜在的重要标签集合,并用于 发生病变时,反映出的临床症状也各不相同,且依 形成新的训练集进行多标签分类.黄志强例对基 据脏腑辨证特点,一个症状可涉及多个脏腑,所以 于k-means的多标签分类及标签补全算法进行了 本文将中医中的脏腑定位问题抽象为自然语言处 研究 理领域的多标签文本分类问题,将医案数据中的 在基于神经网络对文本特征进行提取表示方 症状类文本信息作为输入,将具体病变脏腑作为 面,研究人员也进行了大量研究.李德玉等提 多标签文本分类问题中的标签. 出一种基于标签特征的卷积神经网络(CNN)情绪 多标签分类方法,使用Word2Vec进行词向量表 1研究现状 示,然后利用标签特征来强化文本情绪和标签之 在中医的辨证推理方面,已经有大量研究人 间的联系,融合入CNN模型对文本情绪进行深层 员进行过相关研究.许强山通过对经典证素辨证 次的表示和多标签分类.Joulin等基于浅层神 体系相关内容的总结,分析经典证素辨证体系存 经网络设计出了文本分类工具FastText..易士翔等2, 在的不足,并基于有向图这种数据结构重新对证 在中文突发事件数据集上验证了双向LSTM模型 素概念进行定义,对证素内容进行分类,并重新对 在文本表征中的有效性.Chen等]在获得文本的 辨证医理模型进行构建.尹丹等回采用领域本体 整体语义(Text feature vector)后,将文本整体语义 七步法构建中医经方知识图谱,并通过Cypher设 输入到一个递归神经网络(RNN)的序列中作为初 计一种模拟人联想思维进行检索的经方知识检索 始值,每一时刻输入是上一时刻的输出,将卷积神 框架.刘超等)基于BP神经网络方法,建立冠状 经网络和递归神经网络进行集成应用,以获得全 动脉临界病变患者证候要素及其常见组合的中医 局和局部文本语义.Yogatama等w针对文本分类 辨证诊断模型.褚娜在中医辨证的现状研究和 问题构建了基于LSTM(Long short-term memory, 相关智能算法的基础上,提出适合于中医辨证的 长短期记忆网络)的生成模型和判别模型.wang 理论方法和系统实施方案.杨开明阿将85例糖尿 提出了中断递归神经网络(DRNN),将位置不变性 病患者结合C4.5决策树算法建立了中医辨证决策 引入RNN中.该网络通过限制RNN中的信息流 树,提取出糖尿病的8种中医证候分类规则.周璐 的距离,将每个时间步长的隐藏状态限制为表示 等将C4.5决策树、随机森林、支持向量机、BP 当前位置附近的单词.Kiml6提出TextCNN,将卷 神经网络算法进行融合,最终得到一种复合结构 积神经网络应用到文本分类任务,利用多个不同 的智能化辨证选方模型.舒鑫等基于神经网络 大小的kernel提取句子中的关键信息,这种方法类 构建了AS气虚证预测模型,并展现出了良好的 似于多窗口大小的-gram,能够更好地捕捉局部 准确率.在此类方法中,尚未充分使用运用文本的 相关性 高层语义信息,可以尝试在此类方法基础上融入 在对多标签文本分类效果的提升过程中,输 高层语义信息进行效果提升 入高质量的文本表征对模型效果有巨大的作用 自然语言处理技术的发展为中医的辨证论治 基于大规模语料库的预训练模型已经成为自然语
pretraining model greatly reduces the number of model parameters compared with the BERT model and effectively reduces the model size. Finally, the F1-value of the Zang-fu localization model proposed in this paper reaches 0.8013 on the test set, which provided certain support for the TCM auxiliary diagnosis and treatment. KEY WORDS multi-label text classification;ALBERT;GRU;localization of Zang-fu;traditional Chinese medicine (TCM) 人工智能技术的快速发展为各个行业注入了 新的活力,也为中医学的发展提供了新的思路. 随 着人工智能与中医的结合,也为中医的辅助诊疗 提供了更多可能. 中医学在历史上形成了多种辨 证方法,其中脏腑辨证是根据脏腑的生理功能,病 理表现,对疾病证候进行归纳,借以推究病机,判 断病变的部位、性质、正邪盛衰情况的一种辨证 方法,是辨证体系中的重要组成部分. 当某一脏腑 发生病变时,反映出的临床症状也各不相同,且依 据脏腑辨证特点,一个症状可涉及多个脏腑,所以 本文将中医中的脏腑定位问题抽象为自然语言处 理领域的多标签文本分类问题,将医案数据中的 症状类文本信息作为输入,将具体病变脏腑作为 多标签文本分类问题中的标签. 1 研究现状 在中医的辨证推理方面,已经有大量研究人 员进行过相关研究. 许强[1] 通过对经典证素辨证 体系相关内容的总结,分析经典证素辨证体系存 在的不足,并基于有向图这种数据结构重新对证 素概念进行定义,对证素内容进行分类,并重新对 辨证医理模型进行构建. 尹丹等[2] 采用领域本体 七步法构建中医经方知识图谱,并通过 Cypher 设 计一种模拟人联想思维进行检索的经方知识检索 框架. 刘超等[3] 基于 BP 神经网络方法,建立冠状 动脉临界病变患者证候要素及其常见组合的中医 辨证诊断模型. 褚娜[4] 在中医辨证的现状研究和 相关智能算法的基础上,提出适合于中医辨证的 理论方法和系统实施方案. 杨开明[5] 将 85 例糖尿 病患者结合 C4.5 决策树算法建立了中医辨证决策 树,提取出糖尿病的 8 种中医证候分类规则. 周璐 等[6] 将 C4.5 决策树、随机森林、支持向量机、BP 神经网络算法进行融合,最终得到一种复合结构 的智能化辨证选方模型. 舒鑫等[7] 基于神经网络 构建了 AIS 气虚证预测模型,并展现出了良好的 准确率. 在此类方法中,尚未充分使用运用文本的 高层语义信息,可以尝试在此类方法基础上融入 高层语义信息进行效果提升. 自然语言处理技术的发展为中医的辨证论治 提供了新的方法,多标签文本分类即为其中的重 要方法. 多标签文本分类是指一个样本可以属于 多个类别(或标签). 比如一条症状同时与“肾”和 “肝”两个标签关联,即该症状表现与“肾”和“肝” 两个脏腑相关. 有研究人员从聚类的角度对文本 进行多标签分类,申超波等[8] 提出了一种基于标 签聚类的标签幂集方法,通过改进平衡 k-means 聚 类来发现训练集中潜在的重要标签集合,并用于 形成新的训练集进行多标签分类. 黄志强[9] 对基 于 k-means 的多标签分类及标签补全算法进行了 研究. 在基于神经网络对文本特征进行提取表示方 面,研究人员也进行了大量研究. 李德玉等[10] 提 出一种基于标签特征的卷积神经网络(CNN)情绪 多标签分类方法,使用 Word2Vec 进行词向量表 示,然后利用标签特征来强化文本情绪和标签之 间的联系,融合入 CNN 模型对文本情绪进行深层 次的表示和多标签分类. Joulin 等[11] 基于浅层神 经网络设计出了文本分类工具 FastText. 易士翔等[12] 在中文突发事件数据集上验证了双向 LSTM 模型 在文本表征中的有效性. Chen 等[13] 在获得文本的 整体语义 (Text feature vector) 后,将文本整体语义 输入到一个递归神经网络(RNN)的序列中作为初 始值,每一时刻输入是上一时刻的输出,将卷积神 经网络和递归神经网络进行集成应用,以获得全 局和局部文本语义. Yogatama 等[14] 针对文本分类 问题构建了基 于 LSTM( Long short-term memory, 长短期记忆网络)的生成模型和判别模型. Wang[15] 提出了中断递归神经网络(DRNN),将位置不变性 引入 RNN 中. 该网络通过限制 RNN 中的信息流 的距离,将每个时间步长的隐藏状态限制为表示 当前位置附近的单词. Kim[16] 提出 TextCNN,将卷 积神经网络应用到文本分类任务,利用多个不同 大小的 kernel 提取句子中的关键信息,这种方法类 似于多窗口大小的 n-gram,能够更好地捕捉局部 相关性. 在对多标签文本分类效果的提升过程中,输 入高质量的文本表征对模型效果有巨大的作用. 基于大规模语料库的预训练模型已经成为自然语 张德政等: 基于 ALBERT 与双向 GRU 的中医脏腑定位模型 · 1183 ·
1184 工程科学学报,第43卷,第9期 言处理技术的重要研究方向.这些预训练模型是 输入层将症状文本进行预处理后输入模型中 以庞大的语料库作为基础训练的,因此相较于 预训练层将输入的文本通过ALBERT预训练 onehot、.Word2Vec)、Glovel1s]等文本表征方式,预 语言模型获得文本的向量表征 训练模型具有更好的表征能力,可以更好地适用 Bi-GRU层接收经过ALBERT预训练模型后的 于不同场景下的自然语言处理任务.为了更多地 向量序列,通过Bi-GRU进一步编码获取高层语义 保留句子中词与词之间的内在联系,Google提出 输出层通过以Sigmoid为激活函数的全连接 Transformer编码器模型u咧,在此基础上Google提出 层将各标签对应输出值压缩至0~1之间,并将输 了BERT模型2(Bidirectional encoder representations 出值大于等于设定阈值的所有病位标签输出作为 from transformers),利用了随机遮盖语言模型 最终脏腑定位结果 (Masked LM和预测下一句(Next sentence prediction, 2.2 ALBERT预训练模型 NSP)2种方法分别捕捉词语和句子级别的表示.在 自BERT的成功以来,预训练模型都采用了很 BERT出现后,又相继出现了很多在BERT基础上 大的参数量以取得更好的模型表现.但是模型参 进一步改进和提升的模型,如XLNet!2,RoBERTal2、 数量越来越大也带来了很多问题,比如对算力要求 DistilBERT2]等. 越来越高、模型体积越来越大、模型训练时间越 雷景生和钱叶在公开数据集上进行了实 来越长等.为了解决目前预训练模型参数量过大的 验,验证了使用ERNIE预训练模型进行文本分 问题,Lan等2提出了ALBERT模型,相比于BERT, 类的有效性.本文使用的A lite BERT模型 ALBERT使用了2种能够大幅减少预训练模型参 (ALBERT)2是Google在BERT之后提出一种轻 数量的方法,并提出用语句顺序预测(Sentence 量级BERT,相比于BERT,ALBERT模型采用解绑 order prediction,SOP)任务代替BERT中的NSP任 输入的词向量大小和隐藏层大小关系的方式降低 务.ALBERT是一种轻量级的基于Transformer的 了模型参数量,并实现了模型跨层的参数共享,在 双向编码器表示模型(A lite bidirectional encoder 不损失模型效果的前提下有效缩小了模型大小. representations from transformers).通过对部分语义 2模型及算法描述 单元的随机掩码,使得模型能够学习到完整的语 义表示.ALBERT模型结构如图2所示,其中 2.1模型说明 [E1,E2,…,Em-l,En]为原始文本向量,trm为Transfor-- 本文提出的基于ALBERT和双向门控循环单 mer模型g 元(Bidirectional gated recurrent unit,.Bi-GRU)的多 标签文本分类模型整体结果如图1所示,整个模 型可以分为4个部分:输入层,预训练层,Bi-GRU层 和输出层 trm Heart Kidney Lung trm trm trm trm Sigmoid E E E-1 E GR GRU GRU 图2 ALBERT模型结构 Fig.2 ALBERT model structure GRU -GRU 由图2可以看出,模型的输出包含文本上下文 信息的向量表示,且每个向量[T1,T2,…,Tm-1,Tn都 ALBERT 包含了整个序列的文本信息 在ALBERT中,提出了2种可以减少BERT参 Chest Stuffiness Palpitate 数量的方法:(I)解绑WordPiece词向量大小E和 图1脏腑定位模型结构 隐层大小H,减小参数量:(2)层之间参数共享,即 Fig.1 Zang-fu localization model structure 在模型多个层之间使用相同的参数.第一种方法
言处理技术的重要研究方向. 这些预训练模型是 以庞大的语料库作为基础训练的 ,因此相较于 onehot、Word2Vec[17]、Glove[18] 等文本表征方式,预 训练模型具有更好的表征能力,可以更好地适用 于不同场景下的自然语言处理任务. 为了更多地 保留句子中词与词之间的内在联系,Google 提出 Transformer 编码器模型[19] ,在此基础上 Google 提出 了 BERT 模型[20] (Bidirectional encoder representations from transformers) , 利 用 了 随 机 遮 盖 语 言 模 型 (Masked LM) 和预测下一句 (Next sentence prediction, NSP) 2 种方法分别捕捉词语和句子级别的表示. 在 BERT 出现后,又相继出现了很多在 BERT 基础上 进一步改进和提升的模型,如 XLNet[21] ,RoBERTa[22]、 DistilBERT[23] 等. 雷景生和钱叶[24] 在公开数据集上进行了实 验,验证了使用 ERNIE 预训练模型进行文本分 类 的 有 效 性 . 本 文 使 用 的 A lite BERT 模 型 (ALBERT) [25] 是 Google 在 BERT 之后提出一种轻 量级 BERT,相比于 BERT,ALBERT 模型采用解绑 输入的词向量大小和隐藏层大小关系的方式降低 了模型参数量,并实现了模型跨层的参数共享,在 不损失模型效果的前提下有效缩小了模型大小. 2 模型及算法描述 2.1 模型说明 本文提出的基于 ALBERT 和双向门控循环单 元 (Bidirectional gated recurrent unit, Bi-GRU)的多 标签文本分类模型整体结果如图 1 所示,整个模 型可以分为 4 个部分:输入层,预训练层,Bi-GRU 层 和输出层. Heart Kidney Lung Sigmoid GRU GRU GRU GRU Chest Stuffiness Palpitate GRU ALBERT GRU ······ ······ 图 1 脏腑定位模型结构 Fig.1 Zang-fu localization model structure 输入层将症状文本进行预处理后输入模型中. 预训练层将输入的文本通过 ALBERT 预训练 语言模型获得文本的向量表征. Bi-GRU 层接收经过 ALBERT 预训练模型后的 向量序列,通过 Bi-GRU 进一步编码获取高层语义. 输出层通过以 Sigmoid 为激活函数的全连接 层将各标签对应输出值压缩至 0~1 之间,并将输 出值大于等于设定阈值的所有病位标签输出作为 最终脏腑定位结果. 2.2 ALBERT 预训练模型 [E1,E2,··· ,En−1,En ] 自 BERT 的成功以来,预训练模型都采用了很 大的参数量以取得更好的模型表现. 但是模型参 数量越来越大也带来了很多问题,比如对算力要求 越来越高、模型体积越来越大、模型训练时间越 来越长等. 为了解决目前预训练模型参数量过大的 问题,Lan 等[25] 提出了 ALBERT 模型,相比于 BERT, ALBERT 使用了 2 种能够大幅减少预训练模型参 数量的方法 ,并提出用语句顺序预测 ( Sentence order prediction, SOP)任务代替 BERT 中的 NSP 任 务. ALBERT 是一种轻量级的基于 Transformer 的 双向编码器表示模型( A lite bidirectional encoder representations from transformers). 通过对部分语义 单元的随机掩码,使得模型能够学习到完整的语 义表示 . ALBERT 模型结构如 图 2 所示 ,其中 为原始文本向量,trm 为 Transformer 模型[19] . T1 T2 trm trm E1 E2 trm trm Tn En trm trm Tn−1 En−1 trm trm 图 2 ALBERT 模型结构 Fig.2 ALBERT model structure [T1,T2,··· ,Tn−1,Tn ] 由图 2 可以看出,模型的输出包含文本上下文 信息的向量表示,且每个向量 都 包含了整个序列的文本信息. 在 ALBERT 中,提出了 2 种可以减少 BERT 参 数量的方法:(1)解绑 WordPiece 词向量大小 E 和 隐层大小 H,减小参数量;(2)层之间参数共享,即 在模型多个层之间使用相同的参数. 第一种方法 · 1184 · 工程科学学报,第 43 卷,第 9 期
张德政等:基于ALBERT与双向GRU的中医脏腑定位模型 1185 对词嵌入参数进行了因式分解,将它们分解为两 按照流程,可将图3中的GRU分成4部分:更 个小矩阵.不再将One-hot向量直接映射到大小 新门、重置门、产生新记忆,和产生新隐藏层状态 为H的隐藏空间,而是先将它们映射到一个低维 h,下面将具体说明 词嵌入空间E,再映射到隐藏空间.通过这种分 更新门:用过去的隐藏层状态与当前输入决 解,将词嵌入参数从o(VxH)降低到o(V×E+E×H, 定如何产生新记忆 在隐层大小H远大于E时,会有非常明显的参数 重置门:用过去的隐藏层状态与当前输入决 量减少.第2种方法通过跨层参数共享,有效降低 定要有多少之前的记忆被遗忘 了参数量,并且通过参数共享,提升了模型的鲁棒性 产生新记忆五,:用过去的隐藏层状态与当前输 此外,对于BERT中的NSP任务,ALBERT进 入决定当前产生的新记忆,并用重置门控制过去 行了改进.由于BERT中NSP任务是预测两个句子 的隐藏层状态信息流入新记忆中 在原文本中是否连续出现的二分类任务,其正例为文 产生新隐藏层状态:用更新门从新记忆h,与 章中连续出现的两个句子,负例由两篇文档中各选 之前的隐藏层状态-1中得到新的隐藏层状态. 一句构造而成.由于负例的构造使得模型可能更 上述流程描述,可以得到如下4个公式,其中 多倾向于预测句子主题关系而非句子连续性,这将 包括重置门向量、更新门向量、新记忆和经过门 NSP任务简单化.所以ALBERT提出了句子顺序预 控处理后的新的记忆(新的隐藏层状态,): 测任务(SOP),即正例选择方式不变,与NSP任务中 r:=(Wr.[hr-1,x]+br) (1) 的正例选择方式相同,负例选择一篇文档中两个连续 z=σ(Wz[h-l,x]+bz) (2) 的句子并将它们顺序交换后构造得到.在NSP和 SOP有效性对比实验中,NSP在解决SOP问题时精 h:=tanh(Wh[r*1x]+bn) (3) 度仅为52%,而SOP在NSP任务上精度为78.9%, h,=(1-z)*h1-1+z1*h, (4) 且SOP任务在几乎所有下游任务中都相比NSP有 式中,,为1时刻的重置门,z表示1时刻的更新门, 提升,基于此证明了SOP相比于NSP的有效性 h,表示t时刻的候选激活状态,h,表示t时刻的激活 经过上述处理,在大规模语料上训练得到的 状态,h-表示(t-1)时刻的隐藏层状态,[W,WW) ALBERT预训练模型可以凭借较少的模型参数表 表示各部分对应的权重系数矩阵,(b,bz,bh)为偏 达丰富的语义信息,有效缩减了模型体积 移向量,c表示sigmoid激活函数,*表示哈达玛积 2.3Bi-GRU层 (Hadamard product).相较于RNN模型,GRU能够 门控循环单元是LSTM的变种,是相比于LSTM 较好地解决梯度消失问题.而与LSTM相比,GRU 网络更简单的循环神经网络2 模型更为简单,需要的参数更少,而且不容易产生 GU网络通过引入门控机制来进行信息的更 过拟合现象 新.在LSTM网络中,输入门和遗忘门是互补关 GRU作为RNN的变种同RNN一样,均具有 系,直接使用两个门比较冗余.GU将输人门与 遗忘性.通常来说,在训练过程中,最后一个状态 和遗忘门合并成更新门(Update gate),并引入了重 所包含的信息是有损失的,而且越靠前,损失越严 置门(Reset gate).同时,GRU也不引入额外的记 重.对于包含很多序列的训练任务而言,获取前后 忆单元,直接在当前状态h,和历史状态h,-之间引 背景信息对增加模型准确度来说有重要意义.因 入线性依赖关系 此,本文通过训练正向学习和反向学习两个GU GRU模型更新方式如图3所示 神经网络,能够把正向和反向学习过程中最后状 态对应的向量进行连接,将连接后得到的向量作 为最后的结果,这个网络就可以利用前后所有信 息.本文中使用的双向GU模型如图4所示 2.4输出层 tanh 依据中医一个症状涉及多个脏腑的特点,该 模型的输出为多标签分类输出而非多分类输出 多标签分类与多分类的区别在于,多标签分类中 图3GRU单元 一个样本可以同时属于多个类别,而多分类中,一 Fig.3 GRU unit 个样本属于且只属于一个类别.如症状“胸闷,气
o(V × H) o(V × E + E × H) 对词嵌入参数进行了因式分解,将它们分解为两 个小矩阵. 不再将 One-hot 向量直接映射到大小 为 H 的隐藏空间,而是先将它们映射到一个低维 词嵌入空间 E,再映射到隐藏空间. 通过这种分 解,将词嵌入参数从 降低到 , 在隐层大小 H 远大于 E 时,会有非常明显的参数 量减少. 第 2 种方法通过跨层参数共享,有效降低 了参数量,并且通过参数共享,提升了模型的鲁棒性. 此外,对于 BERT 中的 NSP 任务,ALBERT 进 行了改进. 由于 BERT 中 NSP 任务是预测两个句子 在原文本中是否连续出现的二分类任务,其正例为文 章中连续出现的两个句子,负例由两篇文档中各选 一句构造而成. 由于负例的构造使得模型可能更 多倾向于预测句子主题关系而非句子连续性,这将 NSP 任务简单化. 所以 ALBERT 提出了句子顺序预 测任务(SOP),即正例选择方式不变,与 NSP 任务中 的正例选择方式相同,负例选择一篇文档中两个连续 的句子并将它们顺序交换后构造得到. 在 NSP 和 SOP 有效性对比实验中,NSP 在解决 SOP 问题时精 度仅为 52%,而 SOP 在 NSP 任务上精度为 78.9%, 且 SOP 任务在几乎所有下游任务中都相比 NSP 有 提升[25] ,基于此证明了 SOP 相比于 NSP 的有效性. 经过上述处理,在大规模语料上训练得到的 ALBERT 预训练模型可以凭借较少的模型参数表 达丰富的语义信息,有效缩减了模型体积. 2.3 Bi-GRU 层 门控循环单元是 LSTM 的变种,是相比于 LSTM 网络更简单的循环神经网络[26] . ht ht−1 GRU 网络通过引入门控机制来进行信息的更 新. 在 LSTM 网络中,输入门和遗忘门是互补关 系,直接使用两个门比较冗余. GRU 将输入门与 和遗忘门合并成更新门(Update gate),并引入了重 置门(Reset gate). 同时,GRU 也不引入额外的记 忆单元,直接在当前状态 和历史状态 之间引 入线性依赖关系. GRU 模型更新方式如图 3 所示. ht−1 1− xt rt zt ht ~ ht σ σ tanh 图 3 GRU 单元 Fig.3 GRU unit eht ht 按照流程,可将图 3 中的 GRU 分成 4 部分:更 新门、重置门、产生新记忆 和产生新隐藏层状态 ,下面将具体说明. 更新门:用过去的隐藏层状态与当前输入决 定如何产生新记忆. 重置门:用过去的隐藏层状态与当前输入决 定要有多少之前的记忆被遗忘. 产生新记忆eht:用过去的隐藏层状态与当前输 入决定当前产生的新记忆,并用重置门控制过去 的隐藏层状态信息流入新记忆中. ht eht ht−1 产生新隐藏层状态 :用更新门从新记忆 与 之前的隐藏层状态 中得到新的隐藏层状态. eht 上述流程描述,可以得到如下 4 个公式,其中 包括重置门向量、更新门向量、新记忆和经过门 控处理后的新的记忆(新的隐藏层状态 ): rt = σ(Wr ·[hr−1, xt]+ br) (1) zt = σ(Wz ·[ht−1, xt]+ bz) (2) eht = tanh(Wh ·[rt ∗ ht−1, xt]+ bh) (3) ht = (1− zt) ∗ ht−1 + zt ∗eht (4) rt zt eht ht ht−1 (t−1) Wr Wz Wh br bz bh σ 式中, 为 t 时刻的重置门, 表示 t 时刻的更新门, 表示 t 时刻的候选激活状态, 表示 t 时刻的激活 状态, 表示 时刻的隐藏层状态,[ , , ] 表示各部分对应的权重系数矩阵,( , , )为偏 移向量, 表示 sigmoid 激活函数,*表示哈达玛积 (Hadamard product). 相较于 RNN 模型,GRU 能够 较好地解决梯度消失问题. 而与 LSTM 相比,GRU 模型更为简单,需要的参数更少,而且不容易产生 过拟合现象. GRU 作为 RNN 的变种同 RNN 一样,均具有 遗忘性. 通常来说,在训练过程中,最后一个状态 所包含的信息是有损失的,而且越靠前,损失越严 重. 对于包含很多序列的训练任务而言,获取前后 背景信息对增加模型准确度来说有重要意义. 因 此,本文通过训练正向学习和反向学习两个 GRU 神经网络,能够把正向和反向学习过程中最后状 态对应的向量进行连接,将连接后得到的向量作 为最后的结果,这个网络就可以利用前后所有信 息. 本文中使用的双向 GRU 模型如图 4 所示. 2.4 输出层 依据中医一个症状涉及多个脏腑的特点,该 模型的输出为多标签分类输出而非多分类输出. 多标签分类与多分类的区别在于,多标签分类中 一个样本可以同时属于多个类别,而多分类中,一 个样本属于且只属于一个类别. 如症状“胸闷,气 张德政等: 基于 ALBERT 与双向 GRU 的中医脏腑定位模型 · 1185 ·
·1186 工程科学学报,第43卷,第9期 样本属于某一类别的概率;y是样本在某一类别下 的真实标签.区别于Softmax交叉嫡损失,Sigmoid CRU CRU CRU 函数使样本属于各类别的概率分布在(0,1)之间. 在训练阶段结束使用模型进行预测推理时, CRU CRU CRU 设定一个阈值,将概率大于阈值的所有标签输出, 作为多标签分类的预测结果.如输入症状“胸闷, T- T T: 气短,头晕,头痛,夜寐不宁,舌暗,苔薄,苔白,苔 图4双向GRU模型示意图 腻,脉弦,脉细,脉沉”后,输出各个标签概率为 Fig.4 Bi-GRU model diagram [0.64240265,0.6062219,0.04209191,,0.17620572] 短,头晕,头痛,夜寐不宁,舌暗,苔薄,苔白,苔腻, 分别对应[心’,肾,‘肺,,脾],通过网格调 脉弦,脉细,脉沉”同时发生在“心,肾”两个病位, 参的方法,最终设定阈值为0.5,即大于等于0.5均 即同时属于“心”,“肾”两个类别,所以该问题为 为相关病位,在上述例子中,即“心”,“肾”为输入 多标签分类问题 症状的对应病位标签. 基于脏腑定位模型具有多标签分类的特点, 3实验及结果分析 在输出层使用Sigmoid函数作为激活函数预测各 3.1实验数据 个标签的概率,区别于单标签模型常用的Softmax 函数.Sigmoid函数是一类S型曲线函数,为两端 实验数据来源于名老中医医案库,在经过专 饱和函数.可以看成是一个“挤压”函数,把一个实 家指导后共筛选出14821份医案,本文中需要用到 数域的输入“挤压”到(0,1)之间.当输入值在0附 其中的“症状”和“病位”信息.其中“症状”指疾病 近时,Sigmoid函数近似为线性函数;当输入值靠 过程中机体内的一系列机能、代谢和形态结构异 常变化所引起的病人主观上的异常感觉或某些客 近两端时,对输入进行抑制.输人越小,越接近于 观病态改变;“病位”指与表现出的症状相关的部 0,输入越大,越接近于1. 位,即脏腑标签,在这些医案中存在症状信息不 在模型训练过程中,损失函数调整为带有Sigmoid 全、症状文本中存在无意义字符的情况,通过专家 函数的二元交叉熵损失函数,样本损失计算方式 指导和设置相应规则,对症状文本中去噪处理和 如式(5)所示: 筛选后,得到最终有效医案数据.将这些医案中 Loss=1+(y)-In(1) (5) “症状”信息和“病位”信息进行提取,得到本实验 n 中所用到的全部数据,共计12735份.所得数据格 式中,n为类别总数,是模型的输出值,表示预测 式如表1所示 表1脏腑定位数据格式 Table 1 Zang-fu location data format No Symptoms Tag Legs ache,and wake up unable to sleep,along with hemoptysis and a sore throat spleen,kidney,heart 2 The patient had high blood pressure,weakness in the right limb,and pain in the left upper arm liver,kidney 3.2实验参数设置 例的概率 具体实验参数设置如表2所示 F1值:指精确值和召回率的调和均值 3.3评价标准 计算表达式如下: 为了综合考虑模型的性能,本文采用了精确 P= ∑iTP: (6) 率(Precision)、召回率(Recall)、F1值(Fl-Value)作 ∑,TP:+FP 为模型评价指标 R=- ∑:TP: (7) 精确率,P:指在被所有预测为正例中实际为 TP,+FN 正例的概率 (8) 召回率,R:指在所有实际为正例中被预测为正 FI=2P-R P+R
短,头晕,头痛,夜寐不宁,舌暗,苔薄,苔白,苔腻, 脉弦,脉细,脉沉”同时发生在“心,肾”两个病位, 即同时属于“心”,“肾”两个类别,所以该问题为 多标签分类问题. 基于脏腑定位模型具有多标签分类的特点, 在输出层使用 Sigmoid 函数作为激活函数预测各 个标签的概率,区别于单标签模型常用的 Softmax 函数. Sigmoid 函数是一类 S 型曲线函数,为两端 饱和函数. 可以看成是一个“挤压”函数,把一个实 数域的输入“挤压”到 (0, 1) 之间. 当输入值在 0 附 近时,Sigmoid 函数近似为线性函数;当输入值靠 近两端时,对输入进行抑制. 输入越小,越接近于 0,输入越大,越接近于 1. 在模型训练过程中,损失函数调整为带有Sigmoid 函数的二元交叉熵损失函数,样本损失计算方式 如式(5)所示: Loss = − 1 n ∑n i=1 yi ·lnbyi +(1−yi)·ln( 1−byi ) (5) 式中,n 为类别总数,byi 是模型的输出值,表示预测 样本属于某一类别的概率; yi 是样本在某一类别下 的真实标签. 区别于 Softmax 交叉熵损失,Sigmoid 函数使样本属于各类别的概率分布在 (0, 1) 之间. , ··· 在训练阶段结束使用模型进行预测推理时, 设定一个阈值,将概率大于阈值的所有标签输出, 作为多标签分类的预测结果. 如输入症状“胸闷, 气短,头晕,头痛,夜寐不宁,舌暗,苔薄,苔白,苔 腻,脉弦,脉细,脉沉”后,输出各个标签概率为 [0.64240265, 0.6062219, 0.04209191 , 0.17620572], 分别对应 [‘心’, ’肾’, ‘肺’, …, ‘脾’],通过网格调 参的方法,最终设定阈值为 0.5,即大于等于 0.5 均 为相关病位,在上述例子中,即“心”,“肾”为输入 症状的对应病位标签. 3 实验及结果分析 3.1 实验数据 实验数据来源于名老中医医案库,在经过专 家指导后共筛选出 14821 份医案,本文中需要用到 其中的“症状”和“病位”信息. 其中“症状”指疾病 过程中机体内的一系列机能、代谢和形态结构异 常变化所引起的病人主观上的异常感觉或某些客 观病态改变;“病位”指与表现出的症状相关的部 位,即脏腑标签. 在这些医案中存在症状信息不 全、症状文本中存在无意义字符的情况,通过专家 指导和设置相应规则,对症状文本中去噪处理和 筛选后,得到最终有效医案数据. 将这些医案中 “症状”信息和“病位”信息进行提取,得到本实验 中所用到的全部数据,共计 12735 份. 所得数据格 式如表 1 所示. 表 1 脏腑定位数据格式 Table 1 Zang-fu location data format No. Symptoms Tag 1 Legs ache, and wake up unable to sleep, along with hemoptysis and a sore throat spleen, kidney, heart 2 The patient had high blood pressure, weakness in the right limb, and pain in the left upper arm liver, kidney 3.2 实验参数设置 具体实验参数设置如表 2 所示. 3.3 评价标准 为了综合考虑模型的性能,本文采用了精确 率(Precision)、召回率(Recall)、F1 值(F1-Value)作 为模型评价指标. 精确率,P:指在被所有预测为正例中实际为 正例的概率. 召回率,R:指在所有实际为正例中被预测为正 例的概率. F1 值:指精确值和召回率的调和均值. 计算表达式如下: P = ∑ i TPi ∑ i TPi +FPi (6) R = ∑ i TPi ∑ i TPi +FNi (7) F1 = 2 P·R P+R (8) CRU CRU CRU CRU CRU CRU Tt−1 Tt Tt+1 图 4 双向 GRU 模型示意图 Fig.4 Bi-GRU model diagram · 1186 · 工程科学学报,第 43 卷,第 9 期
张德政等:基于ALBERT与双向GRU的中医脏腑定位模型 1187 表2训练过程中的参数 的基于ALBERT预训练模型相比于Word2Vec的 Table 2 Parameters in the training process 表示方式,能更好地完成文本表征任务,F1值相比 Parameter name Parameter value 提升了0.0183.将方法4与方法2、方法3相比,本 Max seg lenth 128 文提出的模型比多层感知机(MLP classifier,.No.2) GRU units 128 模型和决策树(Decision tree classifier,.No.3)方法 Dropout 0.4 F1值分别提升了0.0934和0.1325,均有大幅提升 Leaming_rate 1×10 表4的对比实验结果表明,相比于使用BERT预训 Epochs 10 练模型,采用ALBERT预训练模型的方法FI值提 Batch size 128 升了0.0002,且在测试集上预测时间有了明显减 少,模型参数大幅减少,模型体积缩小为原来的近 式中,TP,表示将类别i中正例预测为正例的数目; 十分之一 TN;表示将类别i中负例预测为负例的数目;P:表 通过表5消融实验可以看出,使用ALBERT 示将类别i中负例预测为正例的数目:FN,表示将 预训练模型后不增加Bi-GRU层,最终在测试集上 类别i中正例预测为负例的数目 的F1值为0.7508.与之相比,在ALBERT层后加 3.4实验对比与分析 入Bi-GRU层的模型F1值提升了0.0505.通过该 为了验证本文提出的脏腑定位模型对于实验 消融实验,可以得出在本文的脏腑定位模型中加 的有效性,采用多种模型与本文模型进行对比,如 入Bi-GRU层确实有效捕捉了上下文信息,生成了 表3和表4所示,并为了验证本文提出模型的有效 高层语义表示,有效提升模型效果 性进行了消融实验,如表5所示 4总结与展望 表3多标签分类对比实验结果 针对中医中的脏腑定位方法,本文提出了一 Table 3 Comparative experimental results of multiple label 种基于ALBERT和Bi-GRU的多标签文本分类模 classification 型.该模型采用ALBERT表示作为输人,通过Bi- No. Method Precision Recall F1-value GRU有效地捕捉上下文信息生成高层次的文本 1 Word2Vec+Bi-GRU 0.8015 0.7653 0.7830 语义信息表示,之后再对高层次信息表示进行分 2 MLP Classifier 0.7091 0.7067 0.7079 类.该方法从医案数据的角度对中医的脏腑定位 Decision Tree Classifier 0.6744 0.6633 0.6688 方法的探索,相较于决策树、感知机等模型℉1值 ALBERT+Bi-GRU 0.8301 0.7745 0.8013 有较大的提升,使用的ALBERT向量化表示方式 与Word2Vec相比有很大的提升,相比于BERT方 表4BERT与ALBERT对比实验结果 法,一定程度上缩短了预测时间,并大幅缩减了 Table 4 Comparative experimental results of BERT and ALBERT 模型体积.在未来的工作中,将在进一步提升模 Model Id Method Precision Recall F1-value Time/s parameters/ 型效果的基础上,考虑融入更多中医中脏腑定位 MB 的知识,将知识图谱中的知识融入到脏腑定位模 1 BERT+Bi- 0.82530.77830.801199.8219 363.3 GRU 型中,进行融合知识的脏腑辨证.探索在中医知 2 ALBERT+Bi- 0.83010.77450.801384.7045 37.3 识的约束下更准确地进行中医证素的推理工作, GRU 在提高模型效果的同时也为模型加入更多的可 解释性 表5多标签分类消融实验结果 Table 5 Ablation experiment multiple label classification results 部 考文献 Method Precision Recall F1-value [1]Xu Q.Mining the Syndrome Factor Distribution of AECOPD by ALBERT 0.7711 0.7315 0.7508 the Attribution Model Built by Directed Graph [Dissertation] ALBERT+Bi-GRU 0.8301 0.7745 0.8013 Chengdu:Chengdu University of TCM,2017 (许强.基于有向图的证素归因模型挖掘AECOPD的证素分布 在表3对比实验中可以看出,方法1与方法 规律学位论文].成都:成都中医药大学,2017) 4相比,在其他条件完全相同的情况下,本文提出 [2] Yin D,Zhou L,Zhou Y M,et al.Study on design of graph search
TPi TNi FPi FNi 式中, 表示将类别 i 中正例预测为正例的数目; 表示将类别 i 中负例预测为负例的数目; 表 示将类别 i 中负例预测为正例的数目; 表示将 类别 i 中正例预测为负例的数目. 3.4 实验对比与分析 为了验证本文提出的脏腑定位模型对于实验 的有效性,采用多种模型与本文模型进行对比,如 表 3 和表 4 所示,并为了验证本文提出模型的有效 性进行了消融实验,如表 5 所示. 表 3 多标签分类对比实验结果 Table 3 Comparative experimental results of multiple label classification No. Method Precision Recall F1-value 1 Word2Vec+Bi-GRU 0.8015 0.7653 0.7830 2 MLP Classifier 0.7091 0.7067 0.7079 3 Decision Tree Classifier 0.6744 0.6633 0.6688 4 ALBERT+Bi-GRU 0.8301 0.7745 0.8013 表 4 BERT 与 ALBERT 对比实验结果 Table 4 Comparative experimental results of BERT and ALBERT Id Method Precision Recall F1-value Time/s Model_ parameters/ MB 1 BERT+BiGRU 0.8253 0.7783 0.8011 99.8219 363.3 2 ALBERT+BiGRU 0.8301 0.7745 0.8013 84.7045 37.3 表 5 多标签分类消融实验结果 Table 5 Ablation experiment multiple label classification results Method Precision Recall F1-value ALBERT 0.7711 0.7315 0.7508 ALBERT+Bi-GRU 0.8301 0.7745 0.8013 在表 3 对比实验中可以看出,方法 1 与方法 4 相比,在其他条件完全相同的情况下,本文提出 的基于 ALBERT 预训练模型相比于 Word2Vec 的 表示方式,能更好地完成文本表征任务,F1 值相比 提升了 0.0183. 将方法 4 与方法 2、方法 3 相比,本 文提出的模型比多层感知机(MLP classifier,No.2) 模型和决策树( Decision tree classifier, No.3)方法 F1 值分别提升了 0.0934 和 0.1325,均有大幅提升. 表 4 的对比实验结果表明,相比于使用 BERT 预训 练模型,采用 ALBERT 预训练模型的方法 F1 值提 升了 0.0002,且在测试集上预测时间有了明显减 少,模型参数大幅减少,模型体积缩小为原来的近 十分之一. 通过表 5 消融实验可以看出,使用 ALBERT 预训练模型后不增加 Bi-GRU 层,最终在测试集上 的 F1 值为 0.7508. 与之相比,在 ALBERT 层后加 入 Bi-GRU 层的模型 F1 值提升了 0.0505. 通过该 消融实验,可以得出在本文的脏腑定位模型中加 入 Bi-GRU 层确实有效捕捉了上下文信息,生成了 高层语义表示,有效提升模型效果. 4 总结与展望 针对中医中的脏腑定位方法,本文提出了一 种基于 ALBERT 和 Bi-GRU 的多标签文本分类模 型. 该模型采用 ALBERT 表示作为输入,通过 BiGRU 有效地捕捉上下文信息生成高层次的文本 语义信息表示,之后再对高层次信息表示进行分 类. 该方法从医案数据的角度对中医的脏腑定位 方法的探索,相较于决策树、感知机等模型 F1 值 有较大的提升. 使用的 ALBERT 向量化表示方式 与 Word2Vec 相比有很大的提升,相比于 BERT 方 法,一定程度上缩短了预测时间,并大幅缩减了 模型体积. 在未来的工作中,将在进一步提升模 型效果的基础上,考虑融入更多中医中脏腑定位 的知识,将知识图谱中的知识融入到脏腑定位模 型中,进行融合知识的脏腑辨证. 探索在中医知 识的约束下更准确地进行中医证素的推理工作, 在提高模型效果的同时也为模型加入更多的可 解释性. 参 考 文 献 Xu Q. Mining the Syndrome Factor Distribution of AECOPD by the Attribution Model Built by Directed Graph [Dissertation]. Chengdu: Chengdu University of TCM, 2017 ( 许强. 基于有向图的证素归因模型挖掘AECOPD的证素分布 规律[学位论文]. 成都: 成都中医药大学, 2017) [1] [2] Yin D, Zhou L, Zhou Y M, et al. Study on design of graph search 表 2 训练过程中的参数 Table 2 Parameters in the training process Parameter name Parameter value Max_seq_lenth 128 GRU_units 128 Dropout 0.4 Learning_rate 1×10−4 Epochs 10 Batch_size 128 张德政等: 基于 ALBERT 与双向 GRU 的中医脏腑定位模型 · 1187 ·
1188 工程科学学报,第43卷.第9期 pattern of knowledge graph of TCM classic prescriptions.ChinJ Univ Nat Sci Ed,2020,43(1):65 Inf Tradit Chin Med,2019,26(8):94 (李德玉,罗锋,王素格.融合CNN和标签特征的中文文本情绪 (尹丹,周璐,周雨玫,等.中医经方知识图谱“图搜索模式”设计 多标签分类.山西大学学报(自然科学版),2020,43(1):65) 研究.中国中医药信息杂志,2019,26(8):94) [11]Joulin A,Grave E,Bojanowski P,et al.Bag of Tricks for Efficient [3]Liu C.Gao JL,Dong Y,et al.Study on TCM syndrome Text Classification Il Proceedings of the 15th Conference of the differentiation and diagnosis model based on BP neural network European Chapter of the Association for Computational for syndrome elements and their common combinations in patients Linguistics.Valencia,2017:427 with borderline coronary lesion.Chin J Inf Tradit Chin Med,2021, [12]Yi S X,Yin H P,Zheng H Y.Public security event trigger 28(3):104 identification based on Bidirectional LSTM.Chin J Eng,2019, (刘超,高嘉良,董艳,等.基于BP神经网络的冠状动脉临界病变 41(9):1201 患者证候要素及其常见组合中医辨证诊断模型研究.中国中医 (易士翔,尹宏鹏,郑恒毅.基于BiLSTM的公共安全事件触发词 药信息杂志,2021,28(3):104) 识别.工程科学学报,2019,41(9):1201) [4]Chu N.Research on Hybrid Intelligent Based Syndrome [13]Chen G B,Ye D H,Xing Z C,et al.Ensemble application of Differentiation System for Traditional Chinese Medicine convolutional and recurrent neural networks for multi-label text [Dissertation].Shanghai:Shanghai Jiaotong University,2012 categorization /2017 International Joint Conference on Neural (褚娜.基于混合智能的中医辨证系统研究学位论文]上海:上 Nenworks (IJCNN).Anchorage,2017:2377 海交通大学,2012) [14]Yogatama D,Dyer C,Ling W,et al.Generative and discriminative [5]Yang K M.Research on Clinical Data Mining Technology of text classification with recurrent neural networks[J/OL].ArXi Diabetes TCM [Dissertation].Kunming:Kunming University of Preprin (2017-03-06)[2020-12-29].https://arxiv.org/abs/1703. Science and Technology,2013 01898v1 (杨开明.糖尿病中医临床数据挖掘技术研究学位论文].昆明: [15]Wang B X.Disconnected Recurrent Neural Networks for Text 昆明理工大学,2013) Categorization Il Proceedings of the 56th Anmual Meeting of [6]Zhou L,Li GG,Sun Y,et al.Construction of intelligent syndrome the Association for Computational Linguistics.Melbourne,2018: differentiation and formula selection of compound structure model 2311 World Chin Med,2018,13(2):479 [16]Kim Y.Convolutional Neural Networks for Sentence (周璐,李光庚,孙燕,等.复合结构智能化辨证选方模型的构建 Classification Il Proceedings of the 2014 Conference on Empirical 世界中医药,2018.13(2):479) Methods in Natural Language Processing (EMNLP).Doha,2014: [7] Shu X,Cao Y,Huang X,et al.Construction of prediction model of 1746 qi deficiency syndrome in acute ischemic stroke based on neural [17]Mikolov T,Sutskever I,Chen K,et al.Distributed representations network analysis technique.Glob Tradit Chin Med,2019,12(11): of words and phrases and their compositionality[J/OL].arXiv 1650 preprint (2013-10-16)[2021-5-22].https://arxiv.org/abs/1310. (舒鑫,曹云,黄幸,等.基于神经网络分析技术的急性缺血性卒 4546 中气虚证预测模型构建的研究.环球中医药,2019,12(11): [18]Pennington J,Socher R,Manning C.Glove:Global Vectors for 1650) Word Representation /Proceedings of the 2014 Conference on [8]Shen C B,Wang Z H,Sun Y G.A multi-label classification Empirical Methods in Natural Language Processing (EMNLP). algorithm based on label clustering.Compur Eng Softe,2014, Doha2014:1532 35(8):16 [19]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need (申超波,王志海,孙艳歌.基于标签聚类的多标签分类算法.软 [J/OL].arXiv preprint (2017-6-12)[2021-5-22].https://arxiv.org/ 件,2014,35(8):16) abs/1706.03762 [9]Huang Z Q.Multi-Label Classification and Label Completion [20]Devlin J,Chang M W,Lee K,et al.BERT:Pre-Training of Deep Algorithm Based on K-Means [Dissertation].Anqing:Anqing Bidirectional Transformers for Language Understanding./ Normal University,2020 Proceedings of the 2019 Conference of the North American (黄志强.基于K-means的多标签分类及标签补全算法[学位论 Chapter of the Association for Computational Linguistics. 文].安庆:安庆师范大学,2020) Minneapolis,Minnesota,2018:4171 [10]Li D Y,Luo F,Wang S G.A multi-label emotion classification [21]Yang Z L,Dai Z H,Yang Y M,et al.XInet:Generalized method for Chinese text based on CNN and tag features.Shanxi autoregressive pretraining for language understanding[J/OL]
pattern of knowledge graph of TCM classic prescriptions. Chin J Inf Tradit Chin Med, 2019, 26(8): 94 (尹丹, 周璐, 周雨玫, 等. 中医经方知识图谱“图搜索模式”设计 研究. 中国中医药信息杂志, 2019, 26(8):94) Liu C, Gao J L, Dong Y, et al. Study on TCM syndrome differentiation and diagnosis model based on BP neural network for syndrome elements and their common combinations in patients with borderline coronary lesion. Chin J Inf Tradit Chin Med, 2021, 28(3): 104 (刘超, 高嘉良, 董艳, 等. 基于BP神经网络的冠状动脉临界病变 患者证候要素及其常见组合中医辨证诊断模型研究. 中国中医 药信息杂志, 2021, 28(3):104) [3] Chu N. Research on Hybrid Intelligent Based Syndrome Differentiation System for Traditional Chinese Medicine [Dissertation]. Shanghai: Shanghai Jiaotong University, 2012 ( 褚娜. 基于混合智能的中医辨证系统研究[学位论文]. 上海: 上 海交通大学, 2012) [4] Yang K M. Research on Clinical Data Mining Technology of Diabetes TCM [Dissertation]. Kunming: Kunming University of Science and Technology, 2013 ( 杨开明. 糖尿病中医临床数据挖掘技术研究[学位论文]. 昆明: 昆明理工大学, 2013) [5] Zhou L, Li G G, Sun Y, et al. Construction of intelligent syndrome differentiation and formula selection of compound structure model. World Chin Med, 2018, 13(2): 479 (周璐, 李光庚, 孙燕, 等. 复合结构智能化辨证选方模型的构建. 世界中医药, 2018, 13(2):479) [6] Shu X, Cao Y, Huang X, et al. Construction of prediction model of qi deficiency syndrome in acute ischemic stroke based on neural network analysis technique. Glob Tradit Chin Med, 2019, 12(11): 1650 (舒鑫, 曹云, 黄幸, 等. 基于神经网络分析技术的急性缺血性卒 中气虚证预测模型构建的研究. 环球中医药, 2019, 12(11): 1650) [7] Shen C B, Wang Z H, Sun Y G. A multi-label classification algorithm based on label clustering. Comput Eng Softw, 2014, 35(8): 16 (申超波, 王志海, 孙艳歌. 基于标签聚类的多标签分类算法. 软 件, 2014, 35(8):16) [8] Huang Z Q. Multi-Label Classification and Label Completion Algorithm Based on K-Means [Dissertation]. Anqing: Anqing Normal University, 2020 ( 黄志强. 基于K-means的多标签分类及标签补全算法[学位论 文]. 安庆: 安庆师范大学, 2020) [9] Li D Y, Luo F, Wang S G. A multi-label emotion classification method for Chinese text based on CNN and tag features. J Shanxi [10] Univ Nat Sci Ed, 2020, 43(1): 65 (李德玉, 罗锋, 王素格. 融合CNN和标签特征的中文文本情绪 多标签分类. 山西大学学报(自然科学版), 2020, 43(1):65) Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, 2017: 427 [11] Yi S X, Yin H P, Zheng H Y. Public security event trigger identification based on Bidirectional LSTM. Chin J Eng, 2019, 41(9): 1201 (易士翔, 尹宏鹏, 郑恒毅. 基于BiLSTM的公共安全事件触发词 识别. 工程科学学报, 2019, 41(9):1201) [12] Chen G B, Ye D H, Xing Z C, et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization // 2017 International Joint Conference on Neural Networks (IJCNN). Anchorage, 2017: 2377 [13] Yogatama D, Dyer C, Ling W, et al. Generative and discriminative text classification with recurrent neural networks[J/OL]. ArXiv Preprin (2017-03-06) [2020-12-29]. https://arxiv.org/abs/1703. 01898v1 [14] Wang B X. Disconnected Recurrent Neural Networks for Text Categorization // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, 2018: 2311 [15] Kim Y. Convolutional Neural Networks for Sentence Classification // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, 2014: 1746 [16] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[J/OL]. arXiv preprint (2013-10-16) [2021-5-22]. https://arxiv.org/abs/1310. 4546 [17] Pennington J, Socher R, Manning C. Glove: Global Vectors for Word Representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, 2014: 1532 [18] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J/OL]. arXiv preprint (2017-6-12) [2021-5-22]. https://arxiv.org/ abs/1706.03762 [19] Devlin J, Chang M W, Lee K, et al. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, Minnesota, 2018: 4171 [20] Yang Z L, Dai Z H, Yang Y M, et al. Xlnet: Generalized autoregressive pretraining for language understanding[J/OL]. [21] · 1188 · 工程科学学报,第 43 卷,第 9 期
张德政等:基于ALBERT与双向GRU的中医脏腑定位模型 ·1189· arXiv preprint (2019-6-19)[2021-5-23].https://arxiv.org/abs/ 329 1906.08237 (雷景生,钱叶.基于ERNE-BiGRU模型的中文文本分类方法 [22]Liu Y,Ott M,Goyal N,et al.Roberta:A robustly optimized bert 上海电力大学学报,2020,36(4):329) pretraining approach[J/OL].arXiv preprint (2019-07-26)[2020- [25]Lan ZZ,Chen M,Goodman S,et al.ALBERT:A lite BERT for 12-29].htp//arxiv.org/abs/1907.11692 self-supervised learning of language representations.///CLR 2020: [23]Sanh V,Debut L,Chaumond J,et al.DistilBERT,a distilled Eighth International Conference on Learning Representations. version of BERT:smaller,faster,cheaper and lighter[J/OL].arXi Addis Ababa,2020 preprint(2019-10-02)[2020-12-291htp:://arxiv.org/abs/1910. [26]Chung J,Gulcehre C,Cho K,et al.Empirical evaluation of gated 01108 recurrent neural networks on sequence modeling [J/OL].ArXiv [24]Lei J S.Qian Y.Chinese-text classification method based on Preprin(2018-08-13)[2020-12-29].htp://arxiv.org/abs/1412. ERNIE-BiGRU.J Shanghai Univ Electr Power,2020,36(4): 3555
arXiv preprint (2019-6-19) [2021-5-23]. https://arxiv.org/abs/ 1906.08237 Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bert pretraining approach[J/OL]. arXiv preprint (2019-07-26) [2020- 12-29]. http://arxiv.org/abs/1907.11692 [22] Sanh V, Debut L, Chaumond J, et al. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter[J/OL]. arXiv preprint (2019-10-02) [2020-12-29]. http://arxiv.org/abs/1910. 01108 [23] Lei J S, Qian Y. Chinese-text classification method based on ERNIE-BiGRU. J Shanghai Univ Electr Power, 2020, 36(4): [24] 329 (雷景生, 钱叶. 基于ERNIE-BiGRU模型的中文文本分类方法. 上海电力大学学报, 2020, 36(4):329) Lan Z Z, Chen M, Goodman S, et al. ALBERT: A lite BERT for self-supervised learning of language representations. //ICLR 2020 : Eighth International Conference on Learning Representations. Addis Ababa, 2020 [25] Chung J, Gulcehre C, Cho K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [J/OL]. ArXiv Preprin (2018-08-13) [2020-12-29]. http://arxiv.org/abs/1412. 3555 [26] 张德政等: 基于 ALBERT 与双向 GRU 的中医脏腑定位模型 · 1189 ·