正在加载图片...
优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第35卷第7期 抽取了疾病、治疗间的三种关系,并引入UMLS生物和医疗实科中被称为希舒美,在A+医学百科中别名有阿齐霉素、阿奇 体特征,取得了不错的实验结果。而 Abacha等[37]在同样的任红霉素、叠氮红霉素等,商品名有泰力特、希舒美、舒美特等。 务中使用人工模板和SM的混合模型,取得了9407%的平均因此实体对齐是医学知识融合中非常重要的一步。实体对齐 F值。该研究指出,在样本数较少时,模板匹配方法起主要作是判断多源异构数据中的实体是否指向真实世界同一对象的过 用,而面向海量样本时则SⅤM起主要作用。 此外,在关系识别的分类方法对比研究中, Bruijn等人38 现有的对齐算法有成对实体对齐与集体实体对齐两类。成 在2B22010评测中对比研究了有监督分类和基于 Self-training对实体对齐方法只考虑实例及其属性相似度,包括基于传统概 的半监督分类的表现,表明了UMLS、依存句法分析结果和未率模型的实体对齐方法和基于机器学习的实体对齐方法。前者 标记数据对关系识别有着显著影响。除了预定义关系然后转换以 Fellegi等人将基于属性相似性评分的实体对齐问题转换 为分类任务来处理的方法,还有少量研究采用了模板匹配、统为分类问题的工作为基础,至今仍应用于很多实体对齐工作中 计共现等方法来抽取关系。如在 Medline摘要中通过统计基因后者常用的对齐方法有分类回归树算法S、I3决策树算法、 名的共现来提取关系,并根据共现矩阵生成了关系图围9,或在SvM分类方法、集成学习框架等基于有监督学习的方法 Medline摘要中通过语法依赖树进行图的模式匹配,进而抽取和无监督学习下的层次图模型等基于无监督学习的方法。 因果关系 集体实体对齐在成对实体对齐的基础上在计算实体相似度 1.2.3属性抽取 时加入了实体间的相互关系,分为局部集体实体对齐与全局集 属性抽取是指对属性和属性值对( attribute- value pair,体实体对齐。前者典型算法是使用向量空间模型和余弦相似度 P)的抽取,其中属性的抽取是指为医学实体构造属性列表,计算实体相似性绚,准确率不高,但召回率和运行速度比较可 如药品的属性包括适应症、禁忌症等。属性值的抽取是指为各观。后者通过不同匹配决策之间的相互影响来调整实体间的相 实体附加具体的属性值,如阿莫西林是青霉素过敏者禁用。常似度,又分为基于相似性传播和基于概率模型的集体实体对齐 见的抽取方法包括从开放链接数据提取叫、从结构化数据库提方法。基于相似性传播的方法通过初始匹配以“ bootstrapping 取、从百科类站点提取、从垂直网站进行包装器归纳、以及利方式迭代地产生新的匹配l. Lacoste- Julien等人2在此基础上 用模式匹配从査询日志中提取等。对于医学知识图谱来说,主提出的 SiGMa算法更适合大规模知识库,但需要一定的人工干 要通过上文提及的医学词典和主流医学站点来进行。值得一提预。基于概率模型的方法通过为实体匹配关系和决策建立复杂 的是,前者关于属性和属性值对的描述相对比较稀疏(特别对的概率模型,包括关系贝叶斯网络模型[53]、LDA分配模型 于中文领域),因此需从主流医学站点进一步抽取整合。 [54]、CRF模型561和 Markov逻辑网模型58等,可以提高 对于AVP结构化程度比较高的网站,如维基百科、A+医匹配效果,但效率还有待提高。 学百科等,有规整的信息框( Info Box),可以方便地爬取识别 当来自不同知识源的数据出现数据冲突时,需要考虑知识 InfoBox部分,直接提取该实体对应的属性名和属性值,置信源的可靠性以及不同信息在各知识源中出现的频度等因素。阮 度高,但规模较小。而对于更多形式各异、半结构化的医药站形等人在构建中医药知识图谱时对数据源的可信度进行评 点和垂直文本来说,通常是构建面向站点的包装器,从待抽取分,结合数据在不同来源中出现的次数,对数据项进行排序 站点采样并标注几个典型的详细页面( Detailed pages),利用这并补充到相应的属性值字段中。 些页面通过模式学习自动构建出一个或多个类 Xpath表示的模 随着知识库规模扩大和实体数量的增加,知识库中的实体 式,然后将其应用在该站点的其他详细页面中从而实现自动化对齐越来越受到重视,如何准确高效地实体对齐是未来知识融 的AVP抽取 合的研究重点之一。 1.3医学知识融合 1.3.2知识库融合 知识融合是高层次的知识组织2,使不同来源的知识在同 构建知识库时需求和设计理念不同会导致知识库中数据的 一框架规范下进行数据整合、消歧、加工、推理验证、更新等多样性和异构性。对于庞杂的医疗知识来说,当前多数知识库 步骤?,目的是解决知识复用的问题,增强知识库内部的逻辑性都是针对某个科室或者某类疾病或药物来构建的,比如脾胃病 和表达能力。针对知识图谱中不同粒度的知识对象,知识融合知识库、中医药知识图谱等,若要得到更完善的医疗知识 可细分为实体对齐、知识库的融合等 图谱,需要对不同的医疗知识库进行融合以及将尚未涵盖的知 1.3.1实体对齐 识和不断产生的新知识融合到已有的知识图谱中。医疗知识图 医疗知识图谱中知识来源的多样性导致了知识重复、知识谱的构建是一个不断迭代更新的过程 质量良莠不齐、知识间关联不够明确等问题。医学实体在不同 知识库融合的研究工作始于“本体匹配”,初期针对本体类 的数据源中存在严重的多元指代问题,例如阿奇霉素在百度百别的语义相似性进行匹配。随着知识库规模扩大和结构复杂 化,类别、属性以及实体和它们之间的相互关系等也成为考虑 http://www.a-hospital.com/ 7张坤面向知识图 索技术(搜狗)htp/ wwwcPsc.org.cn/kgl/ 的因素。 Suchanek等人提出的基于概率的知识融合算法优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第 35 卷第 7 期 抽取了疾病、治疗间的三种关系,并引入 UMLS 生物和医疗实 体特征,取得了不错的实验结果。而 Abacha 等[37]在同样的任 务中使用人工模板和 SVM 的混合模型,取得了 94.07%的平均 F 值。该研究指出,在样本数较少时,模板匹配方法起主要作 用,而面向海量样本时则 SVM 起主要作用。 此外,在关系识别的分类方法对比研究中,Bruijn 等人[38] 在 I2B2 2010 评测中对比研究了有监督分类和基于 Self-training 的半监督分类的表现,表明了 UMLS、依存句法分析结果和未 标记数据对关系识别有着显著影响。除了预定义关系然后转换 为分类任务来处理的方法,还有少量研究采用了模板匹配、统 计共现等方法来抽取关系。如在 Medline 摘要中通过统计基因 名的共现来提取关系,并根据共现矩阵生成了关系图[39],或在 Medline 摘要中通过语法依赖树进行图的模式匹配,进而抽取 因果关系[40]。 1.2.3 属性抽取 属性抽取是指对属性和属性值对(attribute-value pair, AVP)的抽取,其中属性的抽取是指为医学实体构造属性列表, 如药品的属性包括适应症、禁忌症等。属性值的抽取是指为各 实体附加具体的属性值,如阿莫西林是青霉素过敏者禁用。常 见的抽取方法包括从开放链接数据提取[41]、从结构化数据库提 取、从百科类站点提取、从垂直网站进行包装器归纳、以及利 用模式匹配从查询日志中提取等。对于医学知识图谱来说,主 要通过上文提及的医学词典和主流医学站点来进行。值得一提 的是,前者关于属性和属性值对的描述相对比较稀疏(特别对 于中文领域),因此需从主流医学站点进一步抽取整合。 对于 AVP 结构化程度比较高的网站,如维基百科、A+医 学百科6等,有规整的信息框(InfoBox),可以方便地爬取识别 InfoBox 部分,直接提取该实体对应的属性名和属性值,置信 度高,但规模较小。而对于更多形式各异、半结构化的医药站 点和垂直文本来说,通常是构建面向站点的包装器,从待抽取 站点采样并标注几个典型的详细页面(Detailed Pages),利用这 些页面通过模式学习自动构建出一个或多个类 Xpath 表示的模 式,然后将其应用在该站点的其他详细页面中从而实现自动化 的 AVP 抽取。 1.3 医学知识融合 知识融合是高层次的知识组织[42],使不同来源的知识在同 一框架规范下进行数据整合、消歧、加工、推理验证、更新等 步骤7,目的是解决知识复用的问题,增强知识库内部的逻辑性 和表达能力。针对知识图谱中不同粒度的知识对象,知识融合 可细分为实体对齐、知识库的融合等。 1.3.1 实体对齐 医疗知识图谱中知识来源的多样性导致了知识重复、知识 质量良莠不齐、知识间关联不够明确等问题。 医学实体在不同 的数据源中存在严重的多元指代问题,例如阿奇霉素在百度百 6 http://www.a-hospital.com/ 7 张坤.面向知识图谱的搜索技术(搜狗) http://www.cipsc.org.cn/kg1/ 科中被称为希舒美,在 A+医学百科中别名有阿齐霉素、阿奇 红霉素、叠氮红霉素等,商品名有泰力特、希舒美、舒美特等。 因此实体对齐是医学知识融合中非常重要的一步。实体对齐[43] 是判断多源异构数据中的实体是否指向真实世界同一对象的过 程。 现有的对齐算法有成对实体对齐与集体实体对齐两类。成 对实体对齐方法只考虑实例及其属性相似度,包括基于传统概 率模型的实体对齐方法和基于机器学习的实体对齐方法。前者 以 Fellegi 等人[44]将基于属性相似性评分的实体对齐问题转换 为分类问题的工作为基础,至今仍应用于很多实体对齐工作中; 后者常用的对齐方法有分类回归树算法[45]、ID3 决策树算法[46]、 SVM 分类方法[47]、集成学习框架[48]等基于有监督学习的方法 和无监督学习下的层次图模型[49]等基于无监督学习的方法。 集体实体对齐在成对实体对齐的基础上在计算实体相似度 时加入了实体间的相互关系,分为局部集体实体对齐与全局集 体实体对齐。前者典型算法是使用向量空间模型和余弦相似度 计算实体相似性[50],准确率不高,但召回率和运行速度比较可 观。后者通过不同匹配决策之间的相互影响来调整实体间的相 似度,又分为基于相似性传播和基于概率模型的集体实体对齐 方法。基于相似性传播的方法通过初始匹配以“bootstrapping” 方式迭代地产生新的匹配[51]。Lacoste-Julien 等人[52]在此基础上 提出的 SiGMa 算法更适合大规模知识库,但需要一定的人工干 预。基于概率模型的方法通过为实体匹配关系和决策建立复杂 的概率模型,包括关系贝叶斯网络模型[53]、LDA 分配模型 [54]、CRF 模型[55,56]和 Markov 逻辑网模型[57,58]等,可以提高 匹配效果,但效率还有待提高。 当来自不同知识源的数据出现数据冲突时,需要考虑知识 源的可靠性以及不同信息在各知识源中出现的频度等因素。阮 彤等人[59]在构建中医药知识图谱时对数据源的可信度进行评 分,结合数据在不同来源中出现的次数,对数据项进行排序, 并补充到相应的属性值字段中。 随着知识库规模扩大和实体数量的增加,知识库中的实体 对齐越来越受到重视,如何准确高效地实体对齐是未来知识融 合的研究重点之一。 1.3.2 知识库融合 构建知识库时需求和设计理念不同会导致知识库中数据的 多样性和异构性。对于庞杂的医疗知识来说,当前多数知识库 都是针对某个科室或者某类疾病或药物来构建的,比如脾胃病 知识库[60]、中医药知识图谱[4]等,若要得到更完善的医疗知识 图谱,需要对不同的医疗知识库进行融合以及将尚未涵盖的知 识和不断产生的新知识融合到已有的知识图谱中。医疗知识图 谱的构建是一个不断迭代更新的过程。 知识库融合的研究工作始于“本体匹配”,初期针对本体类 别的语义相似性进行匹配[61]。随着知识库规模扩大和结构复杂 化,类别、属性以及实体和它们之间的相互关系等也成为考虑 的因素。Suchanek 等人提出的基于概率的知识融合算法
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有