第16卷第4期 智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202010005 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.tp.20210330.1322.002.html 医学知识增强的肿瘤分期多任务学习模型 张恒',何文玢2,何军',焦增涛2,刘红岩 (1.中国人民大学信息学院,北京100872;2.医渡云(北京)技术有限公司,北京100191,3.清华大学管理科学 与工程系,北京100084) 摘要:肿瘤分期是指从病人的电子病历文本中推测肿瘤对应阶段的过程。在电子病历数据中存在类别严重 不均衡现象,因此使用深度学习方法进行肿瘤分期具有一定的挑战性。该文提出医学知识增强的多任务学习 KEMT(knowledge enhanced multi-task)模型,将肿瘤分期问题视作面向医疗电子病历的文本分类任务,同时引入 医生在人工预测肿瘤分期时参考的医学属性,提出基于医学问题的机器阅读理解任务,对上述两种任务进行联 合学习。我们与医疗机构合作构建了真实场景下的肿瘤分期的数据集,实验结果显示,KEMT模型可以将医学 知识与神经网络结合起来,预测准确率高于传统的文本分类模型。在数据分布不均衡的条件下,在小样本类别 上的准确率提升了4.2个百分点,同时模型也具有一定的解释性。 关键词:肿瘤分期:文本分类;机器阅读理解:多任务学习:不均衡分类;智慧医疗:知识表示:注意力机制 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2021)04-0739-07 中文引用格式:张恒,何文玢,何军,等.医学知识增强的肿瘤分期多任务学习模型.智能系统学报,2021,16(4):739-745, 英文引用格式:ZHANG Heng,HE Wenbin,HE Jun,etal.Multi--task tumor stage learning model with medical knowledge enhance- ment[JI.CAAI transactions on intelligent systems,2021,16(4):739-745. Multi-task tumor stage learning model with medical knowledge enhancement ZHANG Heng',HE Wenbin',HE Jun',JIAO Zengtao',LIU Hongyan' (1.School of Information,Renmin University of China,Beijing 100872,China;2.Yidu Cloud(Beijing)Technology Co.,Ltd,Beijing 100191,China;3.Department of Management Science and Technology,Tsinghua University,Beijing 100084,China) Abstract:Tumor staging is the process of inferring the corresponding stage of tumors based on patients'electronic health records(EHR).The serious uneven data distribution in the types of EHRs has certain challenges on tumor stage prediction through in-depth learning.Accordingly,this paper proposes a knowledge enhanced multi-task(KEMT)mod- el and considers tumor stage reasoning as a text classification task of EHR.It also introduces medical attributes that doc- tors referred to in tumor stage prediction and introduces a medical problem-based machine reading comprehension task. The tasks are jointly studied by building a real-world dataset of tumor staging with medical institutions.Experimental results show that the KEMT model combines medical knowledge with a neural network and gets a higher precision rate of prediction than the traditional text classification models.Under the condition of uneven data distribution,the accur- acy of small samples is improved by 4.2%,for which the model also accounts. Keywords:tumor staging;text classification;machine reading comprehension;multi-task learning;unbalanced classi- fication;smart healthcare;knowledge representation:attention mechanism 肿瘤分期是评价肿瘤生物学行为的最重要指标之一,是根据个体内原发肿瘤数量以及扩散程 度来描述肿瘤的严重程度和侵及范围的过程。 收稿日期:2020-10-09.网络出版日期:2021-03-31. 基金项目:国家自然科学基金项目(U171126.71771131). 医院积累的电子病历文本(ER)中蕴含了大量关 通信作者:刘红岩.E-mail:hyliu@tsinghua.edu.cn 于肿瘤的知识,运用机器学习和自然语言处理技
DOI: 10.11992/tis.202010005 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.tp.20210330.1322.002.html 医学知识增强的肿瘤分期多任务学习模型 张恒1 ,何文玢2 ,何军1 ,焦增涛2 ,刘红岩3 (1. 中国人民大学 信息学院,北京 100872; 2. 医渡云 (北京) 技术有限公司,北京 100191; 3. 清华大学 管理科学 与工程系,北京 100084) 摘 要:肿瘤分期是指从病人的电子病历文本中推测肿瘤对应阶段的过程。在电子病历数据中存在类别严重 不均衡现象,因此使用深度学习方法进行肿瘤分期具有一定的挑战性。该文提出医学知识增强的多任务学习 KEMT(knowledge enhanced multi-task) 模型,将肿瘤分期问题视作面向医疗电子病历的文本分类任务,同时引入 医生在人工预测肿瘤分期时参考的医学属性,提出基于医学问题的机器阅读理解任务,对上述两种任务进行联 合学习。我们与医疗机构合作构建了真实场景下的肿瘤分期的数据集,实验结果显示,KEMT 模型可以将医学 知识与神经网络结合起来,预测准确率高于传统的文本分类模型。在数据分布不均衡的条件下,在小样本类别 上的准确率提升了 4.2 个百分点,同时模型也具有一定的解释性。 关键词:肿瘤分期;文本分类;机器阅读理解;多任务学习;不均衡分类;智慧医疗;知识表示;注意力机制 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)04−0739−07 中文引用格式:张恒, 何文玢, 何军, 等. 医学知识增强的肿瘤分期多任务学习模型 [J]. 智能系统学报, 2021, 16(4): 739–745. 英文引用格式:ZHANG Heng, HE Wenbin, HE Jun, et al. Multi-task tumor stage learning model with medical knowledge enhancement[J]. CAAI transactions on intelligent systems, 2021, 16(4): 739–745. Multi-task tumor stage learning model with medical knowledge enhancement ZHANG Heng1 ,HE Wenbin2 ,HE Jun1 ,JIAO Zengtao2 ,LIU Hongyan3 (1. School of Information, Renmin University of China, Beijing 100872, China; 2. Yidu Cloud (Beijing) Technology Co., Ltd, Beijing 100191, China; 3. Department of Management Science and Technology, Tsinghua University, Beijing 100084, China) Abstract: Tumor staging is the process of inferring the corresponding stage of tumors based on patients ’ electronic health records (EHR). The serious uneven data distribution in the types of EHRs has certain challenges on tumor stage prediction through in-depth learning. Accordingly, this paper proposes a knowledge enhanced multi-task (KEMT) model and considers tumor stage reasoning as a text classification task of EHR. It also introduces medical attributes that doctors referred to in tumor stage prediction and introduces a medical problem-based machine reading comprehension task. The tasks are jointly studied by building a real-world dataset of tumor staging with medical institutions. Experimental results show that the KEMT model combines medical knowledge with a neural network and gets a higher precision rate of prediction than the traditional text classification models. Under the condition of uneven data distribution, the accuracy of small samples is improved by 4.2%, for which the model also accounts. Keywords: tumor staging; text classification; machine reading comprehension; multi-task learning; unbalanced classification; smart healthcare; knowledge representation; attention mechanism 肿瘤分期是评价肿瘤生物学行为的最重要指 标之一,是根据个体内原发肿瘤数量以及扩散程 度来描述肿瘤的严重程度和侵及范围的过程[1]。 医院积累的电子病历文本 (EHR) 中蕴含了大量关 于肿瘤的知识,运用机器学习和自然语言处理技 收稿日期:2020−10−09. 网络出版日期:2021−03−31. 基金项目:国家自然科学基金项目 (U171126,71771131). 通信作者:刘红岩. E-mail:hyliu@tsinghua.edu.cn. 第 16 卷第 4 期 智 能 系 统 学 报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021
·740· 智能系统学报 第16卷 术进行挖掘与知识提取,继而自动地给出分期诊 皮样变、是否侵犯腋窝、是否炎症型癌症等。这 断,是一项具有研究和实用价值的工作。目前肿 些标注信息与最终的分期结果存在内在的联系。 瘤分期的过程尚依赖于医生的诊断经验或者一些 在此基础上,本文提出了一种多任务学习的 专家手动编写的规则,流程复杂并且难以广泛应 机制,同时预测肿瘤分期结果以及上述医学属性 用。虽然神经网络模型已经被广泛地应用于各种 的存在。我们提出了针对特定医学问题的机器阅 互联网文本挖掘的任务中并且取得了很好的效 读理解任务,并使用双向注意力机制生成问题的 果,但是在特定的医疗文本上处理肿瘤分期问题 表示与电子病历文本的表示,融合两方面的表示 还没有合适的模型和方法。本文提出一种将深度 推断最终的分期。这些问题可以为肿瘤分期提供 学习与医学知识相结合的新方法,既借用了医疗 额外的知识,更好地对样本不均衡的类别进行区 大数据的优势,又弥补了传统神经网络缺乏医学 分,也实现了不同肿瘤分期之间的知识迁移。 知识的缺点。 2相关研究工作 肿瘤分期问题概述 2.1文本分类 肿瘤的TNM分期分为T(tumor),N(Node), Kim等提出TextCNN模型,借鉴图像识别 M(Metastasis)3个维度,T分期用来表征原发肿瘤 中的卷积网络捕捉N-gram信息用于文本分类。 的部位以及大小,N分期判断局部淋巴结受累情 Tang等利用门限循环网络捕捉文本的序列特 况,M分期是指远处转移情况。医生参考T、N、M 征,避免训练中的梯度爆炸问题。Joulin等提 分期的结果制定更有针对性的临床诊疗方案。本 出FastText模型,仅使用全联接层和N-gram特征 文采用由美国癌症联合委员会(AJCC)开发的第8 就取得了很好的效果。Johnson等II提出DPCNN 版癌症TNM分期系统作为标准。如表1所示。 模型,提出深度堆叠的CNN模型可以提高单层卷 表1第8版乳腺癌分期标准(部分) 积的效果,具有更强的表征能力。Yao等1提出 Table 1 8th edition of breast cancer staging criteria(part) 种基于图卷积的模型TexGCN利用词与文档的 分期 临床意义 贡献信息对文本节点和单词节点构建图,将文本 To 没有证据说明存在原发肿瘤 分类看作节点分类。Sun等例使用在预训练模型 Ti 早期肿瘤没有扩散至相邻组织 BERT的基础上进行微调用于文本分类任务。 上述研究均是通用领域的文本分类方法,采 Tr-T 大小或原发肿瘤的范围 用的多是样本分布均匀的数据集。针对肿瘤分期 No 无区域淋巴结转移 问题的医疗文本数据集及研究较少。医疗文本普 N 同侧腋窝淋巴结转移可活动 遍存在表述不规范、使用大量医学术语、难以进 N2 同侧腋窝淋巴结转移,固定或相互融合 行语义理解等问题,增加了分类的难度。 N 同侧锁骨下淋巴结转移伴或不伴腋窝淋巴结转移 2.2 不均衡分类 M场 没有远处转移 难度由于医疗电子病历数据的严重不均衡, 直接应用深度学习模型效果不佳。不平衡分类问 M 有远处转移 题在机器学习领域受到广泛关注,由此产生了小 在现实场景中,不同分期的样本分布严重不 样本学习等研究领域。 均衡,以T分期为例,大多数样本集中在T、T2两 不平衡分类的解决办法中,一种是数据层面 类,占总量的80%以上,这给运用深度学习方法 的改进,采用过采样技术与欠采样技术对数据集 解决肿瘤分期问题带来了挑战。此外,不同于通 进行平衡。通过复制样本或者消减样本达到总体 用领域的文本分类,肿瘤分期任务依赖于从文本 平衡。另一种是从模型层面改进,通过引入外部 中进行一定的医学推理,需要相当的医学背景知 知识,帮助神经网络对样本量较少的类别也能够 识,而非仅仅靠上下文就能很好地解决。 很好地学习。本文主要探讨第2种。 Hu等)借助法律条文作为辅助信息,处理智 Hu等)提出一个多任务学习的罪名预测模 慧司法中的罪名判定问题,受此启发,我们在本 型,针对法律文书类别不均衡的问题,引入10个 文中首次引入医生进行诊断时所参考的医学属 有判别作用的区分性属性(盈利、死亡情节、暴力 性,并且将其是否能从文本中推断得到作为一种 行为等)作为判定罪名的中间依据,通过联合学 标注信息。这些特征包括是否侵犯胸壁、是否橘 习罪名预测任务与相关属性预测任务提升了预测
术进行挖掘与知识提取,继而自动地给出分期诊 断,是一项具有研究和实用价值的工作。目前肿 瘤分期的过程尚依赖于医生的诊断经验或者一些 专家手动编写的规则,流程复杂并且难以广泛应 用。虽然神经网络模型已经被广泛地应用于各种 互联网文本挖掘的任务中并且取得了很好的效 果,但是在特定的医疗文本上处理肿瘤分期问题 还没有合适的模型和方法。本文提出一种将深度 学习与医学知识相结合的新方法,既借用了医疗 大数据的优势,又弥补了传统神经网络缺乏医学 知识的缺点。 1 肿瘤分期问题概述 肿瘤的 TNM 分期分为 T(tumor), N(Node), M(Metastasis)3 个维度,T 分期用来表征原发肿瘤 的部位以及大小,N 分期判断局部淋巴结受累情 况,M 分期是指远处转移情况。医生参考 T、N、M 分期的结果制定更有针对性的临床诊疗方案。本 文采用由美国癌症联合委员会 (AJCC) 开发的第 8 版癌症 TNM 分期系统[2] 作为标准。如表 1 所示。 表 1 第 8 版乳腺癌分期标准 (部分) Table 1 8th edition of breast cancer staging criteria (part) 分期 临床意义 T0 没有证据说明存在原发肿瘤 Tis 早期肿瘤没有扩散至相邻组织 T1~T4 大小或原发肿瘤的范围 N0 无区域淋巴结转移 N1 同侧腋窝淋巴结转移,可活动 N2 同侧腋窝淋巴结转移,固定或相互融合 N3 同侧锁骨下淋巴结转移伴或不伴腋窝淋巴结转移 M0 没有远处转移 M1 有远处转移 在现实场景中,不同分期的样本分布严重不 均衡,以 T 分期为例,大多数样本集中在 T1、T2 两 类,占总量的 80% 以上,这给运用深度学习方法 解决肿瘤分期问题带来了挑战。此外,不同于通 用领域的文本分类,肿瘤分期任务依赖于从文本 中进行一定的医学推理,需要相当的医学背景知 识,而非仅仅靠上下文就能很好地解决。 Hu 等 [3] 借助法律条文作为辅助信息,处理智 慧司法中的罪名判定问题,受此启发,我们在本 文中首次引入医生进行诊断时所参考的医学属 性,并且将其是否能从文本中推断得到作为一种 标注信息。这些特征包括是否侵犯胸壁、是否橘 皮样变、是否侵犯腋窝、是否炎症型癌症等。这 些标注信息与最终的分期结果存在内在的联系。 在此基础上,本文提出了一种多任务学习的 机制,同时预测肿瘤分期结果以及上述医学属性 的存在。我们提出了针对特定医学问题的机器阅 读理解任务,并使用双向注意力机制生成问题的 表示与电子病历文本的表示,融合两方面的表示 推断最终的分期。这些问题可以为肿瘤分期提供 额外的知识,更好地对样本不均衡的类别进行区 分,也实现了不同肿瘤分期之间的知识迁移。 2 相关研究工作 2.1 文本分类 Kim 等 [4] 提出 TextCNN 模型,借鉴图像识别 中的卷积网络捕捉 N-gram 信息用于文本分类。 Tang 等 [5] 利用门限循环网络捕捉文本的序列特 征,避免训练中的梯度爆炸问题。Joulin 等 [6] 提 出 FastText 模型,仅使用全联接层和 N-gram 特征 就取得了很好的效果。Johnson 等 [7] 提出 DPCNN 模型,提出深度堆叠的 CNN 模型可以提高单层卷 积的效果,具有更强的表征能力。Yao 等 [8] 提出 一种基于图卷积的模型 TexGCN 利用词与文档的 贡献信息对文本节点和单词节点构建图,将文本 分类看作节点分类。Sun 等 [9] 使用在预训练模型 BERT 的基础上进行微调用于文本分类任务。 上述研究均是通用领域的文本分类方法,采 用的多是样本分布均匀的数据集。针对肿瘤分期 问题的医疗文本数据集及研究较少。医疗文本普 遍存在表述不规范、使用大量医学术语、难以进 行语义理解等问题,增加了分类的难度。 2.2 不均衡分类 难度由于医疗电子病历数据的严重不均衡, 直接应用深度学习模型效果不佳。不平衡分类问 题在机器学习领域受到广泛关注,由此产生了小 样本学习等研究领域。 不平衡分类的解决办法中,一种是数据层面 的改进,采用过采样技术与欠采样技术对数据集 进行平衡。通过复制样本或者消减样本达到总体 平衡。另一种是从模型层面改进,通过引入外部 知识,帮助神经网络对样本量较少的类别也能够 很好地学习。本文主要探讨第 2 种。 Hu 等 [3] 提出一个多任务学习的罪名预测模 型,针对法律文书类别不均衡的问题,引入 10 个 有判别作用的区分性属性 (盈利、死亡情节、暴力 行为等) 作为判定罪名的中间依据,通过联合学 习罪名预测任务与相关属性预测任务提升了预测 ·740· 智 能 系 统 学 报 第 16 卷
第4期 张恒,等:医学知识增强的肿瘤分期多任务学习模型 ·741· 准确率。Elhoseiny等o提出引入类标签的文本 列D={w1,w2,…,wx},其中N为文本的长度,w,是 描述在文本特征和视觉特征之间建立一种映射关 文本的第ⅰ个元素,肿瘤分期任务的目标是根据 系,提升了小样本分类的效果。此类方法可以自 D推测其相应的分期结果yr、yw、yM,且yr∈{Ts, 动地学习标签或属性的向量表示,但是这种向量 T,T2},yw∈{WoN,N2,N,yw∈{M,M}o 只从各属性在文本中的贡献中学习得到,对分类 表2医学属性及对应“问题”描述(部分) 的增益较弱。 Table 2 Description of medical attributes and corres- 本文借鉴了上述思想,引入医学属性对应的 ponding“questions'”(part) 文本描述作为启发信息,并将其作为问题进行机 医学属性 问题描述 器阅读理解模型的训练,模型学习的是多个具有 存在直接侵犯胸壁(包括肋骨、肋 实际意义的医学属性与文本的关系,即将肿瘤分 侵犯胸壁 间肌、前锯肌)等现象 期拆解为对多个医学属性是否存在的判断,相当 橘皮样变 存在橘皮样变,患侧乳房皮肤水肿 于在文本与分期结果中引入了一层中间映射,且 淋巴结转移 同侧腋窝淋巴结转移 增加了监督信息。即使是样本较少的类别,也更 加容易进行学习,由此减弱了类别不均衡带来的 侵犯皮肤 存在肿瘤侵犯皮肤 影响。 炎症型 肿瘤属于炎症型 2.3机器阅读理解 原位癌症 原位癌,早期肿瘤未侵及相邻组织 机器阅读理解技术是自然语言处理的重要研 小型 微小浸润癌,最大直径≤1mm 究领域,其目标是给定一段文本,给出答案或者 指出答案的位置。本文借鉴机器阅读理解的思 中型 20mm50mm 二分类问题。 Cui等提出了双向注意力机制,计算了问 机器阅读理解。将表2中的每种医学属性对 题-上下文(Q2C)和上下文-问题(C2Q)两个方向 应的问题描述当作问题,设每个问题由M个字符 的注意力信息,双向注意力机制为许多机器阅读 组成,假设一共有K个医学属性,对应K个问题 任务目标是根据D推测每个问题对应的答案 理解模型所采用。 Seo等I在BiDAF模型中提出双向注意力 pF{P,P2,…,P},且有p,∈{0,1}o 流,获取注意力矩阵以后,没有把上下文和问题 3.3模型介绍 编码为固定大小的向量,而是由后续的编码模块 本文借鉴Hu等I提出的Attribute-based 继续处理,减少早期加权求和造成的信息损失。 LSTM和Seo等2提出的双向注意力机制,提出 实验表明双向注意力对结果的提升尤为重要。本 医学知识增强的多任务学习(KEMT)模型,包括 文将双向注意力引入肿瘤分期任务,来捕捉上下 输入层、文本编码层、双向注意力层和输出层,如 文和问题间的关系,并对注意力的形式做了改进。 图1所示。 肿瘤分期结果 3医学知识增强的多任务学习肿瘤 医学问题结果 分期模型 3.1肿瘤分期相关医学属性 拼接 医学问题表示 本文选取了医生在推断肿瘤分期时重点观察 双向注意力机制 的医学属性,如表2所示,这些医学属性与分期结 果有一定的对应关系,可以作为肿瘤分期的推断 依据。本文针对每个医学属性定义“阅读理解问 题”,然后基于病历文本回答该问题,即文本中是 输人&编码 输人&编码输人&编码榴人&编码 否蕴含了该属性及其相关特征,结果要么为 “是”,要么为“否”。所以本文将此任务转化为一 电子病历文本 个给定问题的机器阅读理解问题。 医学问题 3.2问题定义 图1模型结构 肿瘤分期。给定一个电子病历文本,记作序 Fig.1 Model structure
准确率。Elhoseiny 等 [10] 提出引入类标签的文本 描述在文本特征和视觉特征之间建立一种映射关 系,提升了小样本分类的效果。此类方法可以自 动地学习标签或属性的向量表示,但是这种向量 只从各属性在文本中的贡献中学习得到,对分类 的增益较弱。 本文借鉴了上述思想,引入医学属性对应的 文本描述作为启发信息,并将其作为问题进行机 器阅读理解模型的训练,模型学习的是多个具有 实际意义的医学属性与文本的关系,即将肿瘤分 期拆解为对多个医学属性是否存在的判断,相当 于在文本与分期结果中引入了一层中间映射,且 增加了监督信息。即使是样本较少的类别,也更 加容易进行学习,由此减弱了类别不均衡带来的 影响 。 2.3 机器阅读理解 机器阅读理解技术是自然语言处理的重要研 究领域,其目标是给定一段文本,给出答案或者 指出答案的位置。本文借鉴机器阅读理解的思 想,将医学问题对应结果的预测视作一个多标签 二分类问题。 Cui 等提出了双向注意力机制[11] ,计算了问 题−上下文 (Q2C) 和上下文−问题 (C2Q) 两个方向 的注意力信息,双向注意力机制为许多机器阅读 理解模型所采用。 Seo 等 [12] 在 BiDAF 模型中提出双向注意力 流,获取注意力矩阵以后,没有把上下文和问题 编码为固定大小的向量,而是由后续的编码模块 继续处理,减少早期加权求和造成的信息损失。 实验表明双向注意力对结果的提升尤为重要。本 文将双向注意力引入肿瘤分期任务,来捕捉上下 文和问题间的关系,并对注意力的形式做了改进。 3 医学知识增强的多任务学习肿瘤 分期模型 3.1 肿瘤分期相关医学属性 本文选取了医生在推断肿瘤分期时重点观察 的医学属性,如表 2 所示,这些医学属性与分期结 果有一定的对应关系,可以作为肿瘤分期的推断 依据。本文针对每个医学属性定义“阅读理解问 题”,然后基于病历文本回答该问题,即文本中是 否蕴含了该属性及其相关特征,结果要么为 “是”,要么为 “否”。所以本文将此任务转化为一 个给定问题的机器阅读理解问题。 3.2 问题定义 肿瘤分期。给定一个电子病历文本,记作序 列 D={w1 , w2 , …, wN},其中 N 为文本的长度,wi 是 文本的第 i 个元素, 肿瘤分期任务的目标是根据 D 推测其相应的分期结果 yT、yN、yM,且 yT∈{Tis, T1 , T2}, yN∈{N0 , N1 , N2 , N3}, yM∈{M0 , M1}。 表 2 医学属性及对应“问题”描述 (部分) Table 2 Description of medical attributes and corresponding “questions” (part) 医学属性 问题描述 侵犯胸壁 存在直接侵犯胸壁(包括肋骨、肋 间肌、前锯肌)等现象 橘皮样变 存在橘皮样变,患侧乳房皮肤水肿 淋巴结转移 同侧腋窝淋巴结转移 侵犯皮肤 存在肿瘤侵犯皮肤 炎症型 肿瘤属于炎症型 原位癌症 原位癌,早期肿瘤未侵及相邻组织 小型 微小浸润癌,最大直径≤1 mm 中型 20 mm<肿瘤最大直径≤50 mm 大型 肿瘤最大直径>50 mm 机器阅读理解。将表 2 中的每种医学属性对 应的问题描述当作问题,设每个问题由 M 个字符 组成,假设一共有 K 个医学属性,对应 K 个问题 任务目标是根据 D 推测每个问题对应的答案 p={p1 , p2 , …, pk},且有 pi∈{0, 1}。 3.3 模型介绍 本文借鉴 Hu 等 [ 3 ] 提出的 Attribute-based LSTM 和 Seo 等 [12] 提出的双向注意力机制,提出 医学知识增强的多任务学习 (KEMT) 模型,包括 输入层、文本编码层、双向注意力层和输出层,如 图 1 所示。 肿瘤分期结果 医学问题结果 拼接 医学问题表示 输入&编码 输入&编码 输入&编码 输入&编码 双向注意力机制 医学问题 电子病历文本 图 1 模型结构 Fig. 1 Model structure 第 4 期 张恒,等:医学知识增强的肿瘤分期多任务学习模型 ·741·
·742· 智能系统学报 第16卷 输入层。负责将输入文本D转化为向量序 下文-问题(context-to-query)方向的注意力,因为 列。由于医疗文本切词复杂,模型的效果随切词 S中每一行表示的病历文本中第i个字符与问题 粒度不同存在很大差异。本文使用字符级的表 中每个字符间的相似度。将得到的C2Q注意力 示,能更好地捕捉上下文语义,避免未登录词 与Q做点积,如式(3)所示: (OOV)现象。记E∈RMxd为输入层字符嵌入矩 A softmax(S,axis row).O (3) 阵,门为字典的大小,即所有病历文本中出现的 式中:A为N×d的矩阵,即用O中的所有词表示 不同字符数,d为输入层字符向量的维度,N为本 病历文本的每一个词。得到A以后与病历文本 段文本的字符数。 表示C进行拼接,得到融合问题信息的文本表示 经过输入层后,输入文本转化为字符向量序 C,c为C的一行,如式(4)所示 列烂{x,2,…,Xw}o c=[c;a;c⊙a] (4) 编码层。对电子病历文本和问题文本进行分 式中:a为A的一行,将K个Q分别经过注意力 别编码,编码层结构如图2所示。 机制得到的向量表示做平均池化操作,得到最终 的文本表示C,如式(⑤)所示: 输出 C=avgpool([CC.Cx (5) 将S相似度矩阵每一列经过softmax层可以 等长卷积 得到quey-to-context(Q2C)方向的注意力,计算的 是对每一个问题中的词,文本中哪些词和它最相 等长卷积 关,计算方法是取相似度矩阵中最大的一列,对 Region embedding 其进行softmax归一化然后计算病历文本向量的 加权和,如式(6)所示: 输入向量 softmax (max(S),axis=col).CT (6) 图2编码层 得到融合了上下文信息的问题表示9,且 Fig.2 Encoder layer 可∈R。K个a组成整体的问题表示为O∈R。 编码层中,模型借鉴DPCNNI7I中的Region 输出层。通过全联接层和sigmoid函数,将O embedding方式对输入文本片段进行嵌入表示,在 映射到对应的答案空间内,获得问题对应的答 后面的多层卷积中,使用两层等长卷积代替传统 案,计算出问题所对应的医学属性是否在文中存 的窄卷积,使得每一个位置的向量都包含了上下 在的概率,如式(7)所示: 文的信息。在卷积块的输入与输出间使用残差 p:=sigmoid(W:+b) (7) 连接。 式中:P,是问题i所对应的医学属性是否在文中 z'=z+f(2) (1) 存在的概率,本文把其视作一个二分类问题, 式中:z为输入卷积层的向量;∫代表两层等长卷 W,和b,是输出层的权重和偏置。 积;?为卷积层的输出向量;编码层也可以采用其 对于病历文本的表示C,使用最大池化获取全 他自然语言处理模型,如BERT,并不限定采用 局的表示e=[ee2…eal,其中d为向量的维度。 CNN模型,主要目的是提取文本的基本特征。 e:max(CuCz...Cv),vie[1.d] (8) 注意力层本文将病历文本经过编码后获得的 表示记为C,且CeRw,d为向量的维度,N为病 为了更好地融合两部分信息,将①经过平均 历文本的长度。每个问题经过编码后的表示记 池化与e进行拼接,作为最终的全文表示表示输 为Q∈Rx“,M表示问题Q的长度。首先计算文 入给分类器,如式(9)、(10)所示。 本表示C与问题Q的注意力分数矩阵S,其第 r=avgpool(②) (9) i行第j列的取值S如式(2)所示。 y softmax(W,[r;e]+b) (10) Sij=f(ci,qj)=Wolqj:c::qa] (2) 这里r是K个问题向量的平均池化,r和e是 式中:o表示逐元素相乘,且SeR",g,和c,分别 采用拼接的方式输入给最终的预测层,W,和b,是 表示问题描述的第广个字符向量和病历文本的第 分类输出层的权重和偏置,y为最终在各个分期 i个字符向量。W。是一个可以训练的权重。 类别上的概率。 将病历文本看作回答问题的上下文信息,将 3.4损失函数 S相似度矩阵每一行经过softmax层可以得到上 本模型采用联合学习的方法,损失函数分为
输入层。负责将输入文本 D 转化为向量序 列。由于医疗文本切词复杂,模型的效果随切词 粒度不同存在很大差异。本文使用字符级的表 示,能更好地捕捉上下文语义,避免未登录词 (OOV) 现象。记 E∈R |V|×d 为输入层字符嵌入矩 阵,|V|为字典的大小,即所有病历文本中出现的 不同字符数,d 为输入层字符向量的维度, N 为本 段文本的字符数。 经过输入层后,输入文本转化为字符向量序 列 X={ x1 , x2 , …, xN}。 编码层。对电子病历文本和问题文本进行分 别编码,编码层结构如图 2 所示。 输出 等长卷积 输入向量 等长卷积 Region embedding 图 2 编码层 Fig. 2 Encoder layer 编码层中,模型借鉴 DPCNN[7] 中的 Region embedding 方式对输入文本片段进行嵌入表示,在 后面的多层卷积中,使用两层等长卷积代替传统 的窄卷积,使得每一个位置的向量都包含了上下 文的信息。在卷积块的输入与输出间使用残差 连接。 z ′ = z+ f (z) (1) z ′ 式中:z 为输入卷积层的向量;f 代表两层等长卷 积; 为卷积层的输出向量;编码层也可以采用其 他自然语言处理模型,如 BERT,并不限定采用 CNN 模型,主要目的是提取文本的基本特征。 S i, j 注意力层本文将病历文本经过编码后获得的 表示记为 C, 且 C∈R d×N ,d 为向量的维度,N 为病 历文本的长度。每个问题经过编码后的表示记 为 Q∈R d×M ,M 表示问题 Q 的长度。首先计算文 本表示 C 与问题 Q 的注意力分数矩阵 S,其第 i 行第 j 列的取值 如式 (2) 所示。 S i, j = f ( ci , qj ) = W0 [ qj ; ci ; qj⊙ci ] (2) 式中: ⊙ 表示逐元素相乘,且 S∈R N×M ,qj 和 ci 分别 表示问题描述的第 j 个字符向量和病历文本的第 i 个字符向量。W0 是一个可以训练的权重。 将病历文本看作回答问题的上下文信息,将 S 相似度矩阵每一行经过 softmax 层可以得到上 下文−问题 (context-to-query) 方向的注意力,因为 S 中每一行表示的病历文本中第 i 个字符与问题 中每个字符间的相似度。将得到的 C2Q 注意力 与 Q 做点积,如式 (3) 所示: A = softmax(S, axis = row)·Q T (3) C¯ k c¯ C¯ k 式中:A 为 N×d 的矩阵,即用 Q 中的所有词表示 病历文本的每一个词。得到 A 以后与病历文本 表示 C 进行拼接,得到融合问题信息的文本表示 , 为 的一行,如式 (4) 所示: c¯ = [c; a; c⊙ a] (4) C¯ 式中:a 为 A 的一行,将 K 个 Q 分别经过注意力 机制得到的向量表示做平均池化操作,得到最终 的文本表示 ,如式 (5) 所示: C¯ = avgpool([C¯ 1 C¯ 2 ··· C¯ K ]) (5) 将 S 相似度矩阵每一列经过 softmax 层可以 得到 query-to-context (Q2C) 方向的注意力,计算的 是对每一个问题中的词,文本中哪些词和它最相 关,计算方法是取相似度矩阵中最大的一列,对 其进行 softmax 归一化然后计算病历文本向量的 加权和,如式 (6) 所示: q¯ = softmax(max(S), axis = col)·C T (6) q¯ q¯ q¯ Q¯ 得到融合了上下文信息的问题表示 ,且 ∈R d。K 个 组成整体的问题表示为 ∈R K×d。 输出层。通过全联接层和 Q¯ sigmoid 函数,将 映射到对应的答案空间内,获得问题对应的答 案,计算出问题所对应的医学属性是否在文中存 在的概率,如式 (7) 所示: pi = sigmoid( WiQ¯ i +bi ) (7) 式中:pi 是问题 i 所对应的医学属性是否在文中 存在的概率,本文把其视作一个二分类问题, Wi 和 bi 是输出层的权重和偏置。 C¯ e = [e1 e2 ··· ed] 对于病历文本的表示 ,使用最大池化获取全 局的表示 ,其中 d 为向量的维度。 ei = max( C¯ 1,i ,C¯ 2,i ,··· ,C¯ N,i ) , ∀i ∈ [1,d] (8) 为了更好地融合两部分信息,将 Q¯ 经过平均 池化与 e 进行拼接,作为最终的全文表示表示输 入给分类器,如式 (9)、(10) 所示。 r = avgpool( Q¯ ) (9) y = softmax( Wy [r; e]+by ) (10) 这里 r 是 K 个问题向量的平均池化,r 和 e 是 采用拼接的方式输入给最终的预测层,Wy 和 by 是 分类输出层的权重和偏置,y 为最终在各个分期 类别上的概率。 3.4 损失函数 本模型采用联合学习的方法,损失函数分为 ·742· 智 能 系 统 学 报 第 16 卷
第4期 张恒,等:医学知识增强的肿瘤分期多任务学习模型 ·743· 两部分。一部分为肿瘤分期的预测概率与真实值 本文选取多种经典的文本分类模型作为基准 之间的交叉嫡损失£: 模型,分别是 C=- ∑log) TextCNN:Kim等提出的TextCNN; (11) I BLSTM:双向的LSTM加max-pooling; 式中:代表肿瘤分期的真实结果;是网络预测 FastText:Joulin等提出的浅层模型; 得到的概率分布:C为对应肿瘤分期的种类数 DPCNN:Johnson等提出的多层卷积网络。 (T分期为5,N分期为4,M分期为2)。另外一部 表4T分期数据分布 分,对于第j个问题的预测结果,利用式(12)计算 Table 4 Data distribution of T stage 二分类交叉嫡损失C: 类别 数量 百分比% Laj=-(p log()+(1-pj)log(1-pj) (12) 分 2597 32 Lo= (13) T 4245 3 T 493 6 £,为所有问题对应的损失加和。模型整体 294 的损失函数由上述两个损失函数加和而成: Tis 409 5 L=C+a·C (14) 其中α是超参数,用来平衡损失函数中两部分的 4.3实验参数设置 比重。 本文使用PyTorch)实现了所有的模型,设 4实验设置及结果分析 置最大训练轮次为100轮。使用Adam作为模 型优化算法,初始学习率设置为0.001,Dropout 4.1数据集构建 的大小设置为0.5,batch的大小设置为64,损失函 目前尚未有公开的适用于肿瘤分期数据集, 数里的权重参数α设置为0.5。输入向量的维度 于是我们与医疗AI公司医渡云合作构建了实验 设置为128维,采用标准正态分布随机初始化,文 数据集,主要来自医渡云医学专家基于临床经验 本最大长度设置为512。对基准模型中的TextCNN 撰写的部分病历内容,包括病人的病理诊断,现 模型,卷积核大小设置为(3、4、5),BLSTM的隐 病史信息等。针对T分期、N分期、M分期3种 藏层大小设置为128维。 标准构建了3个数据集详情如表3所示。 4.4实验结果与分析 表3各数据集信息统计 改进后的KEMT模型与上述基准模型对比如 Table 3 Statistics of data sets 表5所示。 数据集类数训练测试总数平均长度最大长度字典大小 表5T分期实验结果 T分期56542/1496/8038 406 2297 1826 Table 5 Results of Tstage experiment % N分期49224/2286/11510 395 2566 1883 指标模型 MP MR M-F M分期3 3819/4738 550 2560 1780 FastText 80.2 74.0 76.5 TextCNN 87.9 在搜集的肿瘤电子病历数据中,具有显著的 82.7 85.6 类别分布不均衡的现象,以T分期的数据集为 BLSTM 89.2 85.0 87.2 例,如表4所示共分为5类,较高的T下标值意味 DPCNN 88.9 90.7 89.6 着更大的肿瘤和/或更广泛地扩散到附近的组织 KEMT 94.7 91.8 93.1 (T指没有更深人地侵入其他组织的原位癌, T.是Tissue的缩写)。可以看到T、T2类别的样 从表5可以看出,本文提出的KEMT模型的 本较多,T、T、T.样本较少。所以我们在预处理 各指标均超过了基准模型,比基准模型的最好结 阶段使用上采样的方法,复制样本数较少类别的 果分别提升了5.8%、1.7%、3.5%。为了说明我们 样本,使各类别的样本数均与样本数最多的种类 的模型在小样本类别上的有效性,图3展示了各 一致。 个类别上的效果对比。 4.2评价指标与基准模型 如表6所示,KEMT模型在Macro-F,值上超 本文采用文本分类中常用的精确率(Preci- 过了基准模型在小样本类别上的值,显示出模型 sion),召回率(Recall)),F,值作为模型评价指标。 在样本数量极度不均匀的情况下,对小样本类别
Lc 两部分。一部分为肿瘤分期的预测概率与真实值 之间的交叉熵损失 : Lc = − ∑C i=1 yi ·log(yˆi) (11) yi yˆi C Lq, j 式中: 代表肿瘤分期的真实结果; 是网络预测 得到的概率分布; 为对应肿瘤分期的种类数 (T 分期为 5,N 分期为 4,M 分期为 2)。另外一部 分,对于第 j 个问题的预测结果,利用式 (12) 计算 二分类交叉熵损失 : Lq, j = −(pj log( pˆj ) +(1− pj)log(1− pˆj) (12) Lq = 1 K ∑K j=1 Lq, j (13) Lq 为所有问题对应的损失加和。模型整体 的损失函数由上述两个损失函数加和而成: L = Lc +α· Lq (14) 其中 α 是超参数,用来平衡损失函数中两部分的 比重。 4 实验设置及结果分析 4.1 数据集构建 目前尚未有公开的适用于肿瘤分期数据集, 于是我们与医疗 AI 公司医渡云合作构建了实验 数据集,主要来自医渡云医学专家基于临床经验 撰写的部分病历内容,包括病人的病理诊断,现 病史信息等。针对 T 分期、N 分期、M 分期 3 种 标准构建了 3 个数据集详情如表 3 所示。 表 3 各数据集信息统计 Table 3 Statistics of data sets 数据集 类数 训练/测试/总数 平均长度 最大长度 字典大小 T分期 5 6 542/1 496/8038 406 2 297 1826 N分期 4 9 224/2 286/11510 395 2 566 1883 M分期 3 3 819/4738 550 2 560 1780 在搜集的肿瘤电子病历数据中,具有显著的 类别分布不均衡的现象,以 T 分期的数据集为 例,如表 4 所示共分为 5 类,较高的 T 下标值意味 着更大的肿瘤和/或更广泛地扩散到附近的组织 ( Tis 指没有更深入地侵入其他组织的原位癌, Tis 是 Tissue 的缩写)。可以看到 T1、T2 类别的样 本较多,T3、T4、Tis 样本较少。所以我们在预处理 阶段使用上采样的方法,复制样本数较少类别的 样本,使各类别的样本数均与样本数最多的种类 一致。 4.2 评价指标与基准模型 本文采用文本分类中常用的精确率 (Precision),召回率 (Recall),F1 值作为模型评价指标。 本文选取多种经典的文本分类模型作为基准 模型,分别是: TextCNN: Kim 等 [4] 提出的 TextCNN; BLSTM:双向的 LSTM 加 max-pooling; FastText:Joulin 等 [6] 提出的浅层模型; DPCNN: Johnson 等 [7] 提出的多层卷积网络。 表 4 T 分期数据分布 Table 4 Data distribution of T stage 类别 数量 百分比/% T1 2597 32 T2 4245 53 T3 493 6 T4 294 4 Tis 409 5 4.3 实验参数设置 α 本文使用 PyTorch[13] 实现了所有的模型,设 置最大训练轮次为 100 轮。使用 Adam[14] 作为模 型优化算法,初始学习率设置为 0.001,Dropout[15] 的大小设置为 0.5,batch 的大小设置为 64,损失函 数里的权重参数 设置为 0.5。输入向量的维度 设置为 128 维,采用标准正态分布随机初始化,文 本最大长度设置为 512。对基准模型中的 TextCNN 模型,卷积核大小设置为 (3、4、5),BLSTM 的隐 藏层大小设置为 128 维。 4.4 实验结果与分析 改进后的 KEMT 模型与上述基准模型对比如 表 5 所示。 表 5 T 分期实验结果 Table 5 Results of T stage experiment % 指标模型 MP MR M-F1 FastText 80.2 74.0 76.5 TextCNN 87.9 82.7 85.6 BLSTM 89.2 85.0 87.2 DPCNN 88.9 90.7 89.6 KEMT 94.7 91.8 93.1 从表 5 可以看出,本文提出的 KEMT 模型的 各指标均超过了基准模型,比基准模型的最好结 果分别提升了 5.8%、1.7%、3.5%。为了说明我们 的模型在小样本类别上的有效性,图 3 展示了各 个类别上的效果对比。 如表 6 所示,KEMT 模型在 Macro-F1 值上超 过了基准模型在小样本类别上的值,显示出模型 在样本数量极度不均匀的情况下,对小样本类别 第 4 期 张恒,等:医学知识增强的肿瘤分期多任务学习模型 ·743·
·744· 智能系统学报 第16卷 也有不错的分类效果。基准模型中F,值最大的 I)w/o attention,即去掉模型中的注意力机制 为T(93.8%),最小值为T(83.1%),相差10.7个百 模块。则模型退化为将病历文本和问题分别编码。 分点,而KEMT模型中F最大值T(95.2%)和最 2)w/o concatenation,.即保留双向注意力模块, 小值T(91%)相差4.2个百分点。以上结果均显 但直接用文本表示r进行最终的分类。 示出KEMT模型的效果在各类别上更均衡。 从表9可以看到,移除注意力模块以及医学 DPCNN■KEMT 领域知识后,模型的Macro-F,(M-F)值分别下降 96 952 92.7 93.893.8 了5%和4%,由此可见,双向注意力机制和医学 92 领域知识对于模型的效果是有显著影响的。 84 表9注意力机制有效性 Table 9 Effectiveness of attention mechanism T 指标 MP MR M-F 图3 KEMT与DPCNN的F,对比 KEMT 94.7 91.8 93.1 Fig.3 F-score of KEMT and DPCNN w/o attention 90.6 86.5 88.3 表6小样本类别Macro-F w/o concatenation 91.3 87.7 89.2 Table 6 Macro-F of category % 4.6 样例阐释 类别(占比) DPCNN KEMT 本文选取了一个直观的样例,来对于注意力 T3(6%) 83.1 92.5 机制如何帮助预测分期结果进行了说明。该样例 T(4.7%) 85.3 90.9 的真实分期标签和KEMT模型预测的结果均为 T(2.3%) 88.1 92.7 T,一个显著的特征是病人的电子病历中是否有 极差 10.7 4.2 隐含医学属性“橘皮样变”的出现。将“橘皮样 为了说明模型的有效性,接下来采用同样的 变”这个属性对应的注意力用热力图可视化出 方法对N分期和M分期数据集进行实验。实验 来。背景颜色越深的词,具有的注意力权重值更 结果如表7和表8显示,KEMT模型在N分期与 大,通过热力图显示,可以清楚地看到,注意力机 M分期标准下均取得了良好的效果。 制可以捕捉与医学属性相关的关键模式。如图4 所示。 表7N分期实验结果 Table 7 Results of N stage experiment % 示例所属分期:T 侵犯肤,侵犯胸:顿图破溃卫层状节 指标模型 MP MR M-F 文本:患者7个月前因发现看两■脚物并逐渐增大? FastText 86.5 84.9 85.7 围壁腺牆,免疫组化支持乳愿来源 TextCNN 89.3 88.1 88.6 图4注意力机制热力图 BLSTM 87.9 88.4 88.2 Fig.4 Heat-map of attention mechanism DPCNN 91.9 91.0 91.4 KEMT 95.3 92.1 93.3 J 结束语 表8M分期实验结果 本文充分利用医生诊断肿瘤分期时所依据的 Table 8 Results of Mstage experiment % 医学属性,将属性对应的文本描述作为问题,提 指标模型 MP MR M-F 出了面向医学问题的机器阅读理解任务和知识增 FastText 86.4 85.9 86.2 强的多任务学习(KEMT)肿瘤分期模型,实现了 TextCNN 88.0 87.4 87.7 医学问题答案预测和肿瘤分期两种任务之间的知 BLSTM 89.0 88.7 88.9 识迁移。实验结果表明该方法一定程度上解决了 DPCNN 90.8 89.9 90.3 数据集不均衡带来的分类效果不佳的问题。 KEMT 93.7 92.8 93.1 然而本文仍有需要改进的地方,比如医生实 际运用的知识更复杂,本文对于分期的划分目前 4.5有效性说明 还是粗粒度的,在每一种分期下还有更细粒度的 为了说明注意力机制的有效性,本文还设计 划分,如果要达到更精细的分类,需要制定更精 了两组消融实验: 细的医学属性信息
也有不错的分类效果。基准模型中 F1 值最大的 为 T2 (93.8%),最小值为 T4 (83.1%),相差 10.7 个百 分点,而 KEMT 模型中 F1 最大值 T2 (95.2%) 和最 小值 T4 (91%) 相差 4.2 个百分点。以上结果均显 示出 KEMT 模型的效果在各类别上更均衡。 87.9 92.7 89.1 93.8 93.8 95.2 86.4 92.7 91.0 83.1 76 80 84 88 92 96 Tis T1 T2 T3 T4 DPCNN KEMT MacroF1/% 图 3 KEMT 与 DPCNN 的 F1 对比 Fig. 3 F1 -score of KEMT and DPCNN 表 6 小样本类别 Macro-F1 Table 6 Macro-F of category % 类别(占比) DPCNN KEMT T3 (6%) 83.1 92.5 T4 (4.7%) 85.3 90.9 Tis(2.3%) 88.1 92.7 极差 10.7 4.2 为了说明模型的有效性,接下来采用同样的 方法对 N 分期和 M 分期数据集进行实验。实验 结果如表 7 和表 8 显示,KEMT 模型在 N 分期与 M 分期标准下均取得了良好的效果。 表 7 N 分期实验结果 Table 7 Results of N stage experiment % 指标模型 MP MR M-F1 FastText 86.5 84.9 85.7 TextCNN 89.3 88.1 88.6 BLSTM 87.9 88.4 88.2 DPCNN 91.9 91.0 91.4 KEMT 95.3 92.1 93.3 表 8 M 分期实验结果 Table 8 Results of M stage experiment % 指标模型 MP MR M-F1 FastText 86.4 85.9 86.2 TextCNN 88.0 87.4 87.7 BLSTM 89.0 88.7 88.9 DPCNN 90.8 89.9 90.3 KEMT 93.7 92.8 93.1 4.5 有效性说明 为了说明注意力机制的有效性,本文还设计 了两组消融实验: 1)w/o attention,即去掉模型中的注意力机制 模块。则模型退化为将病历文本和问题分别编码。 2)w/o concatenation,即保留双向注意力模块, 但直接用文本表示 r 进行最终的分类。 从表 9 可以看到,移除注意力模块以及医学 领域知识后,模型的 Macro-F1 (M-F1 ) 值分别下降 了 5% 和 4%,由此可见,双向注意力机制和医学 领域知识对于模型的效果是有显著影响的。 表 9 注意力机制有效性 Table 9 Effectiveness of attention mechanism 指标 MP MR M-F1 KEMT 94.7 91.8 93.1 w/o attention 90.6 86.5 88.3 w/o concatenation 91.3 87.7 89.2 4.6 样例阐释 本文选取了一个直观的样例,来对于注意力 机制如何帮助预测分期结果进行了说明。该样例 的真实分期标签和 KEMT 模型预测的结果均为 T4,一个显著的特征是病人的电子病历中是否有 隐含医学属性“橘皮样变”的出现。将 “橘皮样 变”这个属性对应的注意力用热力图可视化出 来。背景颜色越深的词,具有的注意力权重值更 大,通过热力图显示,可以清楚地看到,注意力机 制可以捕捉与医学属性相关的关键模式。如图 4 所示。 T4 图 4 注意力机制热力图 Fig. 4 Heat-map of attention mechanism 5 结束语 本文充分利用医生诊断肿瘤分期时所依据的 医学属性,将属性对应的文本描述作为问题,提 出了面向医学问题的机器阅读理解任务和知识增 强的多任务学习 (KEMT) 肿瘤分期模型,实现了 医学问题答案预测和肿瘤分期两种任务之间的知 识迁移。实验结果表明该方法一定程度上解决了 数据集不均衡带来的分类效果不佳的问题。 然而本文仍有需要改进的地方,比如医生实 际运用的知识更复杂,本文对于分期的划分目前 还是粗粒度的,在每一种分期下还有更细粒度的 划分,如果要达到更精细的分类,需要制定更精 细的医学属性信息。 ·744· 智 能 系 统 学 报 第 16 卷
第4期 张恒,等:医学知识增强的肿瘤分期多任务学习模型 ·745· 近来,图神经网络和预训练模型兴起,在多项 guistics.Kunming,China,2019:194-206. 任务中有巨大潜力,下一步我们也将探索这些新 [10]ELHOSEINY M,SALEH B,ELGAMMAL A.Write a 方法运用到肿瘤分期问题中,希望能够引入更多 classifier:zero-shot learning using purely textual descrip- 有效的医学知识,提升肿瘤分期问题的模型效果。 tions[Cl//Proceedings of 2013 IEEE International Confer- ence on Computer Vision.Sydney,Australia,2013: 参考文献: 2584-2591. [1]姚云峰.肿瘤分期与疗效评价[.中国医学前沿杂志 [11]CUI Yiming,CHEN Zhipeng,WEI Si,et al.Attention- (电子版),2010,2(4):70-75 over-attention neural networks for reading comprehen- YAO Yunfeng.Evaluation of tumor stage and curative ef- sion[C]//Proceedings of the 55th Annual Meeting of the fect[].Chinese journal of the frontiers of medical science Association for Computational Linguistics.Vancouver. (electronic version),2010,2(4):70-75. Canada,2017:593-602. [2]周斌,季科,辛灵,等.美国肿瘤联合会乳腺癌分期系统 [12]SEO M,KEMBHAVI A,FARHADI A,et al.Bidirection- (第8版)更新内容介绍及解读凹.中国实用外科杂志, al attention flow for machine comprehension[EB/OL]. 2017,371)10-14. (2016-11-05)[2019-10-12]https:/∥arxiv.org/abs/1611 ZHOU Bin,JI Ke,XIN Ling,et al.Updates and interpreta- 01603」 tions of the 8th edition of AJCC breast cancer staging sys- [13]PASZKE A,GROSS S,CHINTALA S,et al.Automatic tem[J].Chinese journal of practical surgery,2017,37(1): differentiation in PyTorch[C]//Proceedings of the 31st 10-14. Conference on Neural Information Processing Systems [3]HU Zikun,LI Xiang,TU Cunchao,et al.Few-shot charge Long Beach,USA,2017. prediction with discriminative legal attributes[Cl//Proceed- [14]KINGMA D P.BA J.Adam:a method for stochastic op- ings of the 27th International Conference on Computation- timization[EB/OL].(2014-12-22)[2019-12-12]https://arxiv.org/ al Linguistics.New Mexico,USA,2018:487-498. pdf1412.6980.pdf [4]KIM Y.Convolutional neural networks for sentence classi- [15]SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al. fication[C]//Proceedings of 2014 Conference on Empirical Dropout:a simple way to prevent neural networks from Methods in Natural Language Processing.Doha,Qatar, overfitting[J].The journal of machine learning research, 2014:1746-1751 2014,151:1929-1958. [5]TANG Duyu,QIN Bing,LIU Ting.Document modeling 作者简介: with gated recurrent neural network for sentiment classific- 张恒,硕士研究生,主要研究方向 ation[C]//Proceedings of the 2015 Conference on Empiric- 为自然语言处理,医疗数据挖掘。 al Methods in Natural Language Processing.Lisbon,Por- tugal,,2015:1422-1432. [6]JOULIN A,GRAVE E,BOJANOWSKI P,et al.Bag of tricks for efficient text classification[Cl//Proceedings of the 15th Conference of the European Chapter of the Associ- ation for Computational Linguistics.Valencia,Spain, 何文玢,硕士研究生,主要研究方 2017:427-431 向为运动康复、医学数据分析、医学 [7]JOHNSON R,ZHANG Tong.Deep pyramid convolution- AI产品设计等。 al neural networks for text categorization[C]//Proceedings of the 55th Annual Meeting of the Association for Compu- tational Linguistics.Vancouver,Canada,2017:562-570. [8]YAO Liang,MAO Chengsheng,LUO Yuang.Graph con- volutional networks for text classification[C]//Proceedings 刘红岩,教授,博土生导师, CCF数据库专业委员会委员,主要研 of 32rd AAAI Conference on Artificial Intelligence. 究方向为大数据管理与分析、数据/文 Hawaii,USA:7370-7377. 本挖掘、商务智能、个性化推荐系统 [9]SUN Chi,QIU Xipeng,XU Yige,et al.How to fine-tune 医疗数据分析。发表学术论文近百 BERT for text classification?[C]//Proceedings of the 18th 篇,出版学术专著2部。 China National Conference on Chinese Computational Lin-
近来,图神经网络和预训练模型兴起,在多项 任务中有巨大潜力,下一步我们也将探索这些新 方法运用到肿瘤分期问题中,希望能够引入更多 有效的医学知识,提升肿瘤分期问题的模型效果。 参考文献: 姚云峰. 肿瘤分期与疗效评价 [J]. 中国医学前沿杂志 (电子版), 2010, 2(4): 70–75. YAO Yunfeng. Evaluation of tumor stage and curative effect[J]. Chinese journal of the frontiers of medical science (electronic version), 2010, 2(4): 70–75. [1] 周斌, 季科, 辛灵, 等. 美国肿瘤联合会乳腺癌分期系统 (第 8 版) 更新内容介绍及解读 [J]. 中国实用外科杂志, 2017, 37(1): 10–14. ZHOU Bin, JI Ke, XIN Ling, et al. Updates and interpretations of the 8th edition of AJCC breast cancer staging system[J]. Chinese journal of practical surgery, 2017, 37(1): 10–14. [2] HU Zikun, LI Xiang, TU Cunchao, et al. Few-shot charge prediction with discriminative legal attributes[C]//Proceedings of the 27th International Conference on Computational Linguistics. New Mexico, USA, 2018: 487−498. [3] KIM Y. Convolutional neural networks for sentence classification[C]//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar, 2014: 1746−1751. [4] TANG Duyu, QIN Bing, LIU Ting. Document modeling with gated recurrent neural network for sentiment classification[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015: 1422−1432. [5] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, Spain, 2017: 427−431. [6] JOHNSON R, ZHANG Tong. Deep pyramid convolutional neural networks for text categorization[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada, 2017: 562−570. [7] YAO Liang, MAO Chengsheng, LUO Yuang. Graph convolutional networks for text classification[C]//Proceedings of 32rd AAAI Conference on Artificial Intelligence. Hawaii, USA: 7370−7377. [8] SUN Chi, QIU Xipeng, XU Yige, et al. How to fine-tune BERT for text classification?[C]//Proceedings of the 18th China National Conference on Chinese Computational Lin- [9] guistics. Kunming, China, 2019: 194−206. ELHOSEINY M, SALEH B, ELGAMMAL A. Write a classifier: zero-shot learning using purely textual descriptions[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia, 2013: 2584−2591. [10] CUI Yiming, CHEN Zhipeng, WEI Si, et al. Attentionover-attention neural networks for reading comprehension[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada, 2017: 593−602. [11] SEO M, KEMBHAVI A, FARHADI A, et al. Bidirectional attention flow for machine comprehension[EB/OL]. (2016-11-05) [2019-10-12] https://arxiv.org/abs/1611. 01603. [12] PASZKE A, GROSS S, CHINTALA S, et al. Automatic differentiation in PyTorch[C]//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA, 2017. [13] KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. (2014-12-22) [2019-12-12] https://arxiv.org/ pdf/1412.6980.pdf. [14] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The journal of machine learning research, 2014, 15(1): 1929–1958. [15] 作者简介: 张恒,硕士研究生,主要研究方向 为自然语言处理,医疗数据挖掘。 何文玢,硕士研究生,主要研究方 向为运动康复、医学数据分析、医学 AI 产品设计等。 刘红岩,教授,博士生导师, CCF 数据库专业委员会委员,主要研 究方向为大数据管理与分析、数据/文 本挖掘、商务智能、个性化推荐系统、 医疗数据分析。发表学术论文近百 篇,出版学术专著 2 部。 第 4 期 张恒,等:医学知识增强的肿瘤分期多任务学习模型 ·745·