第13卷第3期 智能系统学报 Vol.13 No.3 2018年6月 CAAI Transactions on Intelligent Systems Jun.2018 D0:10.11992/tis.201711036 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180408.0930.002.html 面对智能导诊的个性化推荐算法 马钰,张岩,王宏志,张义策 (哈尔滨工业大学计算机科学与技术学院.黑龙江哈尔滨150001) 摘要:针对电子医疗信息过载和医疗资源严重不足的问题,本文以辅助诊疗的结果为基础,将Skyline查询和局部 范围内基于协同过滤的评分方式有机结合,提出了一种面向智能导诊的个性化推荐算法。实验结果表明,本文提出 的算法能为用户提供个性化的合理推荐结果。该方法对合理分配和使用医疗资源有很大的促进作用,能从一定程度 上缓解就诊压力,提高就诊质量,具有重要的实用价值和社会意义。 关键词:辅助诊疗:智能导诊:Skyline查询:医疗推荐:协同过滤:推荐系统:大数据:个性化 中图分类号:TP311文献标志码:A文章编号:1673-4785(2018)03-0352-07 中文引用格式:马钰,张岩,王宏志,等.面对智能导诊的个性化推荐算法J.智能系统学报,2018,13(3):352-358. 英文引用格式:MAYu,ZHANG Yan,WANG Hongzhi,.etal.A personalized recommendation algorithm for intelligent guidance [JI.CAAI transactions on intelligent systems,2018,13(3):352-358. A personalized recommendation algorithm for intelligent guidance MA Yu,ZHANG Yan,WANG Hongzhi,ZHANG Yice (School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China) Abstract:Because of the overload in the electronic medical data and serious shortage of medical resources,we com- bined Skyline queries and the scoring method based on collaborative filtering in local areas and proposed a recommend- ation algorithm for intelligent personalized guidance.Our experimental results show that the proposed algorithm can provide users with personalized and reasonable recommendations.Thus,the proposed algorithm was found to consider- able promote rational allocation and the use of medical resources.Additionally,our algorithm improved the quality of medical treatments to a certain extent. Keywords:auxiliary diagnosiss;intelligent guide;skyline query;medical recommendation;collaborative filtering;re- commendation system;big data;personality 中国人口数量与医疗资源之间的巨大反差使得 推荐技术与医疗导诊的结合意义重大,但是传 医疗资源日趋不足,短期内增加医疗资源的总量几 统的推荐技术在导诊中的应用并不好,因为导诊和 乎是不可能的,因此有效整合和合理分配现有的医 每个用户的特征息息相关:由于地理位置等因素的 疗资源,缓解就诊压力,提升就医质量,有着很大的 影响,不同用户在选择医院时差别很大,即使同一 实用价值与社会意义。 个用户,在所患疾病不同时也会去不同的医院就 智能导诊根据患者的主诉为患者自动推荐相应 诊。因此,针对用户和疾病的不同推荐与导诊的结 的医院和医生,对合理分诊起着重要作用。从数据 果也应该随之变化,这样的推荐才是有意义的。也 的角度看,智能导诊是针对患者主诉和基本信息对 就是说,医疗导诊领域的推荐必须体现出用户和疾 医院和医生的推荐。 病的特征,以个性化推荐为主。因此本文提出了一 收稿日期:2017-11-29.网络出版日期:2018-04-08. 种面向智能导诊的个性化推荐算法。 基金项目:国家科技支撑计划项目(20I5BAH10F0I):国家自然科 学基金项目(U1509216,61472099,61602129):国家重 点研发计划项目(2016YFB1000703):黑龙江省留学回 1相关工作及分析 国人员基金项日(LC2016026). 通信作者:王宏志.E-mail:wangzh@hit.edu.cn 近年来国内外与医疗领域推荐相关的研究很
DOI: 10.11992/tis.201711036 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180408.0930.002.html 面对智能导诊的个性化推荐算法 马钰,张岩,王宏志,张义策 (哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001) 摘 要:针对电子医疗信息过载和医疗资源严重不足的问题,本文以辅助诊疗的结果为基础,将 Skyline 查询和局部 范围内基于协同过滤的评分方式有机结合,提出了一种面向智能导诊的个性化推荐算法。实验结果表明,本文提出 的算法能为用户提供个性化的合理推荐结果。该方法对合理分配和使用医疗资源有很大的促进作用,能从一定程度 上缓解就诊压力,提高就诊质量,具有重要的实用价值和社会意义。 关键词:辅助诊疗;智能导诊;Skyline 查询;医疗推荐;协同过滤;推荐系统;大数据;个性化 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2018)03−0352−07 中文引用格式:马钰, 张岩, 王宏志, 等. 面对智能导诊的个性化推荐算法[J]. 智能系统学报, 2018, 13(3): 352–358. 英文引用格式:MA Yu, ZHANG Yan, WANG Hongzhi, et al. A personalized recommendation algorithm for intelligent guidance [J]. CAAI transactions on intelligent systems, 2018, 13(3): 352–358. A personalized recommendation algorithm for intelligent guidance MA Yu,ZHANG Yan,WANG Hongzhi,ZHANG Yice (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: Because of the overload in the electronic medical data and serious shortage of medical resources, we combined Skyline queries and the scoring method based on collaborative filtering in local areas and proposed a recommendation algorithm for intelligent personalized guidance. Our experimental results show that the proposed algorithm can provide users with personalized and reasonable recommendations. Thus, the proposed algorithm was found to considerable promote rational allocation and the use of medical resources. Additionally, our algorithm improved the quality of medical treatments to a certain extent. Keywords: auxiliary diagnosiss; intelligent guide; skyline query; medical recommendation; collaborative filtering; recommendation system; big data; personality 中国人口数量与医疗资源之间的巨大反差使得 医疗资源日趋不足,短期内增加医疗资源的总量几 乎是不可能的,因此有效整合和合理分配现有的医 疗资源,缓解就诊压力,提升就医质量,有着很大的 实用价值与社会意义。 智能导诊根据患者的主诉为患者自动推荐相应 的医院和医生,对合理分诊起着重要作用。从数据 的角度看,智能导诊是针对患者主诉和基本信息对 医院和医生的推荐。 推荐技术与医疗导诊的结合意义重大,但是传 统的推荐技术在导诊中的应用并不好,因为导诊和 每个用户的特征息息相关:由于地理位置等因素的 影响,不同用户在选择医院时差别很大,即使同一 个用户,在所患疾病不同时也会去不同的医院就 诊。因此,针对用户和疾病的不同推荐与导诊的结 果也应该随之变化,这样的推荐才是有意义的。也 就是说,医疗导诊领域的推荐必须体现出用户和疾 病的特征,以个性化推荐为主。因此本文提出了一 种面向智能导诊的个性化推荐算法。 1 相关工作及分析 近年来国内外与医疗领域推荐相关的研究很 收稿日期:2017−11−29. 网络出版日期:2018−04−08. 基金项目:国家科技支撑计划项目 (2015BAH10F01);国家自然科 学基金项目 (U1509216,61472099,61602129);国家重 点研发计划项目 (2016YFB1000703);黑龙江省留学回 国人员基金项目 (LC2016026). 通信作者:王宏志. E-mail:wangzh@hit.edu.cn. 第 13 卷第 3 期 智 能 系 统 学 报 Vol.13 No.3 2018 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2018
第3期 马钰,等:面对智能导诊的个性化推荐算法 ·353· 多,M.Lopez-Nores等四引入了一种新的过滤策略, 在图1中,虚线将框架图分为两大部分:第1 对于有特定疾病的患者,这种推荐方法的效率较 部分是获取用户偏好的过程,首先根据用户的症状 高。P.Pattaraintakorn等提出了一种使用粗糙 表现,使用辅助诊疗算法给出初步诊断结果,再利 集和规则分析的医疗推荐系统,主要目标是将病人 用反馈信息和症状联想机制进一步确定所患疾病, 的自身的身体数据作为条件属性,推荐临床检查 从而完成症状到用户偏好的转化过程:第2部分是 方式。宫继兵等提出了一种医疗社交网络中的多 生成推荐结果的过程,由用户的偏好结合其地理位 层混合医生推荐结构,通过挖掘网络中医生与病人 置信息,采用改进的Skyline查询算法,找出一定范 之间的关系为患者推荐医生。徐守坤等提出过一 围内符合要求的医院作为候选集合,最后在局部范 种医生资源均衡推荐算法,使用最佳结果优先的推 围内由基于协同过滤的评分方式对候选集合中的医 荐算法,解决了医疗资源的使用过度集中而产生的 院进行评分、排序,从而生成最终的推荐结果。 问题。 由上述分析可以看出,现行系统主要有两方面 3基于医疗知识库的辅助诊疗技术 的问题:)没有考虑现在医疗推荐方面最迫切需要 在本节中,我们主要介绍辅助诊疗技术的具体 解决的问题;2)没有考虑导诊与医疗推荐和传统的 细节,用以解决医疗导诊与推荐时用户偏好未知的 推荐在本质上的不同。 问题,通过辅助诊疗帮助用户根据症状表现确定其 针对这些问题,本文提出了一种面向智能导诊 所患疾病,从而明确用户偏好。 的个性化推荐算法,其主要有3个特点: 3.1分词与症状索引表的建立 1)算法提出了辅助诊疗机制,通过辅助诊疗能 为了提高分词速度,本文通过对《同义词林》 根据用户的症状表现,帮助用户大致确定其所患疾 进行适当的改造,构建了一个新的字典。首先,部 病,从而明确用户偏好,提升推荐结果的满意度。 分无用词汇被剔除:其次,按照词语的字数,字典被 2)算法获得用户评分及反馈信息的方式以显 分为5个部分,这样每次匹配时词典最多被扫描一 式方法为主,并且在辅助诊疗时根据用户的反馈信 次。使用改造后的词典,诊断时症状描述中遇到的 息对诊断结果进行优化,从而提高诊断结果的准 同义词和相关词等问题得到了一定程度的缓解。为 确性。 了提高分词准确度,本文选用了逆向最大匹配法。 3)提出了一种在有地域约束时的推荐算法。 为了加快诊断速度,本文采取了在症状信息上建立 对Skyline-o查询进行改进,并将其结果作为推荐 倒排索引的方法。该索引包含3个属性,分别保存 的候选集合,之后在局部范围内使用基于协同过滤 症状分词结果对应的同义词林中的编码、疾病ICD 的评分算法,对候选集合进行评分并排序。 编码和疾病中症状出现的次数,以及症状对应的疾 2 整体框架 病类型数。后两个属性在进行诊断时使用。 3.2辅助诊断技术 为了对本文所述系统有一个全局性的了解进而 3.2.1辅助诊疗思路 更好地了解算法细节,本部分将以框架图为基础, 辅助诊疗技术采用的核心思想是计算用户输入 阐述算法中各部分的作用及大致思路。本文的整体 的症状信息与医疗知识库中疾病症状信息之间的相 框架如图1所示。 似度,从而确诊疾病类型,具体实现过程包括: 用户 1)对录入的症状信息进行分词,使用分词结果 在索引表中进行查询,记录所有匹配项,将对应的 症状表现 疾病作为候选集,并将其中的疾病总数记为N。 2)利用症状索引表计算输入与候选集中每种 位置信息 反馈 辅助诊疗 疾病症状的相似度,并依据相似度进行排序。 用户 信息 特征 诊断结果 3.2.2相似度计算 用户 相似度计算公式借鉴了TF-IDF计算相似度的 改进的 偏好 Skyline查询 思路,其公式为 基于协同 N 候选集合 过滤的评分排序 推荐结果 S=) num一log2 (1) numsymptom 图1整体框架 式中:S为输入q与疾病症状之间的相似度;num,表 Fig.1 The overall framework 示q中的某一症状i在该疾病中出现的次数,当
多,M. López-Nores 等 [1]引入了一种新的过滤策略, 对于有特定疾病的患者,这种推荐方法的效率较 高。P. Pattaraintakorn 等 [2]提出了一种使用粗糙 集和规则分析的医疗推荐系统,主要目标是将病人 的自身的身体数据作为条件属性,推荐临床检查 方式。宫继兵等[3]提出了一种医疗社交网络中的多 层混合医生推荐结构,通过挖掘网络中医生与病人 之间的关系为患者推荐医生。徐守坤等[4]提出过一 种医生资源均衡推荐算法,使用最佳结果优先的推 荐算法,解决了医疗资源的使用过度集中而产生的 问题。 由上述分析可以看出,现行系统主要有两方面 的问题:1) 没有考虑现在医疗推荐方面最迫切需要 解决的问题;2) 没有考虑导诊与医疗推荐和传统的 推荐在本质上的不同。 针对这些问题,本文提出了一种面向智能导诊 的个性化推荐算法,其主要有 3 个特点: 1) 算法提出了辅助诊疗机制,通过辅助诊疗能 根据用户的症状表现,帮助用户大致确定其所患疾 病,从而明确用户偏好,提升推荐结果的满意度。 2) 算法获得用户评分及反馈信息的方式以显 式方法为主,并且在辅助诊疗时根据用户的反馈信 息对诊断结果进行优化,从而提高诊断结果的准 确性。 3) 提出了一种在有地域约束时的推荐算法。 对 Skyline[5-10]查询进行改进,并将其结果作为推荐 的候选集合,之后在局部范围内使用基于协同过滤 的评分算法,对候选集合进行评分并排序。 2 整体框架 为了对本文所述系统有一个全局性的了解进而 更好地了解算法细节,本部分将以框架图为基础, 阐述算法中各部分的作用及大致思路。本文的整体 框架如图 1 所示。 用户 症状表现 辅助诊疗 诊断结果 反馈 信息 用户 偏好 推荐结果 排序 基于协同 过滤的评分 候选集合 改进的 Skyline查询 用户 特征 位置信息 图 1 整体框架 Fig. 1 The overall framework 在图 1 中,虚线将框架图分为两大部分:第 1 部分是获取用户偏好的过程,首先根据用户的症状 表现,使用辅助诊疗算法给出初步诊断结果,再利 用反馈信息和症状联想机制进一步确定所患疾病, 从而完成症状到用户偏好的转化过程;第 2 部分是 生成推荐结果的过程,由用户的偏好结合其地理位 置信息,采用改进的 Skyline 查询算法,找出一定范 围内符合要求的医院作为候选集合,最后在局部范 围内由基于协同过滤的评分方式对候选集合中的医 院进行评分、排序,从而生成最终的推荐结果。 3 基于医疗知识库的辅助诊疗技术 在本节中,我们主要介绍辅助诊疗技术的具体 细节,用以解决医疗导诊与推荐时用户偏好未知的 问题,通过辅助诊疗帮助用户根据症状表现确定其 所患疾病,从而明确用户偏好。 3.1 分词与症状索引表的建立 为了提高分词速度,本文通过对《同义词林》 进行适当的改造,构建了一个新的字典。首先,部 分无用词汇被剔除;其次,按照词语的字数,字典被 分为 5 个部分,这样每次匹配时词典最多被扫描一 次。使用改造后的词典,诊断时症状描述中遇到的 同义词和相关词等问题得到了一定程度的缓解。为 了提高分词准确度,本文选用了逆向最大匹配法。 为了加快诊断速度,本文采取了在症状信息上建立 倒排索引的方法。该索引包含 3 个属性,分别保存 症状分词结果对应的同义词林中的编码、疾病 ICD 编码和疾病中症状出现的次数,以及症状对应的疾 病类型数。后两个属性在进行诊断时使用。 3.2 辅助诊断技术 3.2.1 辅助诊疗思路 辅助诊疗技术采用的核心思想是计算用户输入 的症状信息与医疗知识库中疾病症状信息之间的相 似度,从而确诊疾病类型,具体实现过程包括: 1) 对录入的症状信息进行分词,使用分词结果 在索引表中进行查询,记录所有匹配项,将对应的 疾病作为候选集,并将其中的疾病总数记为 N。 2) 利用症状索引表计算输入与候选集中每种 疾病症状的相似度,并依据相似度进行排序。 3.2.2 相似度计算 相似度计算公式借鉴了 TF-IDF 计算相似度的 思路[11] ,其公式为 S = ∑ i∈q ( numi numsymptom log2 ( N typedisease +1 )) (1) 式中:S 为输入 q 与疾病症状之间的相似度;numi 表 示 q 中的某一症状 i 在该疾病中出现的次数,当 第 3 期 马钰,等:面对智能导诊的个性化推荐算法 ·353·
·354· 智能系统学报 第13卷 q值较大时,意味着此症状为潜在的主要症状,则提 通过对Skyline查询进行改进并将其结果作为推荐 高该症状的权重;numsympiom表示疾病的总症状数, 结果的候选集合,而将传统的协同过滤推荐算法加 对num,进行归一化,以防止部分疾病系数偏大: 以改进作为局部范围内的一种评分方式,有效地应 typedisease表示症状对应的疾病类型数量,对数函数 对地域约束严格带来的挑战。 则是为了提高潜在主要症状的权重。 4.1kd-tree索引结构 3.2.3症状联想机制 地理位置信息由经度和纬度组成,是一个天然 算法在用户输入症状信息和得到诊断结果之后 的二维数据,而kd-tree常被用来对多维数据结构进 均引入症状联想机制,以此来加强与用户的交互, 行划分,在kd-tree上对指定的点搜索其一定范围内 提升辅助诊断的准确性。 的邻居节点效率很高四。 1)用户输入时的症状联想 因此,针对医院的经纬度信息,将所有的医院 基于分词与症状索引表,统计症状两两之间共 以kd-tree的结构组织起来,每个节点保存医院的经 同出现的次数,并将与该症状共同出现次数前5的 纬度以及医院在数据库中对应的编号。在后面的推 症状存入症状索引表作为联想症状,在用户输入完 荐算法中,查询指定点一定范围内的医院时就可以 一个症状之后,将联想症状提供给用户,用户可以 在该kd-tree上进行,返回医院的idhospital集合,而 从中选择与自身相关的症状,以此来帮助用户提升 根据idhospital返回医院的其他信息的时间可忽略 输入症状的完整性。 不计。 2)诊断之后的症状联想 4.2改进的Skyline查询算法 首先计算疾病中每个症状在该疾病中的权值, 医疗推荐可以抽象为一个多目标优化问题,可 然后选择权重前3的症状作为联想症状保存,在得 以通过将Skyline查询引入到推荐算法中解决。 到诊断结果之后将联想症状提供给用户,若出现联 Skyline查询的目的是找到不被其他点支配的 想症状说明患该种疾病的可能性较高,从而帮助用 点集合作为Skyline集合,本文中支配的定义如下。 户进一步确定所患疾病,症状在疾病中的权重计算 支配:一个医院节点主要考虑距离和评分两方 方法与上述相似度计算公式类似,只不过N为疾病 面,因此可以抽象地表示为h=(s,d),其中s表示该 总数。 医院治疗某种疾病的评分,d表示该医院与该用户 辅助诊断部分使用的数据只是疾病与其相关症 的距离;若h1支配h2,则(h1.s≥h2s且h1.d≤h2.d)并 状信息,相比于通用检索系统其数据量很小:而且 且(h.s>h2.s或h1.dkh2.d为真。 查询是由症状确定疾病这一种固定模式,其输入与 该算法是针对传统Skyline查询中结果集合小 输出模式不变,因此引入症状联想机制是合理的, 于推荐结果集的最小阈值而提出的,此时推荐结果 而且能有效加强系统和用户的交互,提升推荐结果 候选集合由两部分组成:传统的Skyline集合和优 的满意度。 先级队列中的元素集合。其中Skyline集合中元素 3.3诊断结果的优化 的优先度高于优先队列中的元素,只有当Skyline 用户往往会对自己可能患有的疾病进行猜想, 集合中的元素少于推荐的最小阈值时才从优先级队 这是非常有价值的信息。系统将考虑来自用户的反 列选取元素进行补充。 馈信息,对诊断结果进行优化。具体实现过程如下: 在算法中,维护一个优先级队列Q,长度为什1, 1)将反馈疾病的症状加入查询项; 以便在队列中的元素达到推荐结果的最小阈值时还 2)增加查询项中已有的症状的权重。 能进行一次插入操作,队列Q的优先级定义为:若 具体而言,反馈信息与原症状信息的权重比 h,支配h2,则h,的优先级大于h2;否则,h2的优先 α的计算过程为 级大于h1。Q中从头到尾元素的优先级依次升高, a=0.5(x+1 也就是说,Q的头元素Q.front的优先级最低。对于 (2) \max 在BNL中淘汰的节点P,进行如下操作: 式中:x为某反馈项在诊断结果中的位置,max为反 if(O.size(<k) 馈项在诊断结果中位置的最大值。 Q=Q+p,*若Q还没有满,则将p插入Q*/ 4基于地域信息的推荐技术 else if(Q.sizc0=k)/*若优先级队列Q满了*/ if(Q.front(0支配p) 本节介绍了基于地域信息的推荐技术,该算法 passp,/*若Q的头节点支配p,淘汰p*/
q 值较大时,意味着此症状为潜在的主要症状,则提 高该症状的权重;numsymptom 表示疾病的总症状数, 对 numi 进行归一化,以防止部分疾病系数偏大; typedisease 表示症状对应的疾病类型数量,对数函数 则是为了提高潜在主要症状的权重。 3.2.3 症状联想机制 算法在用户输入症状信息和得到诊断结果之后 均引入症状联想机制,以此来加强与用户的交互, 提升辅助诊断的准确性。 1) 用户输入时的症状联想 基于分词与症状索引表,统计症状两两之间共 同出现的次数,并将与该症状共同出现次数前 5 的 症状存入症状索引表作为联想症状,在用户输入完 一个症状之后,将联想症状提供给用户,用户可以 从中选择与自身相关的症状,以此来帮助用户提升 输入症状的完整性。 2) 诊断之后的症状联想 首先计算疾病中每个症状在该疾病中的权值, 然后选择权重前 3 的症状作为联想症状保存,在得 到诊断结果之后将联想症状提供给用户,若出现联 想症状说明患该种疾病的可能性较高,从而帮助用 户进一步确定所患疾病,症状在疾病中的权重计算 方法与上述相似度计算公式类似,只不过 N 为疾病 总数。 辅助诊断部分使用的数据只是疾病与其相关症 状信息,相比于通用检索系统其数据量很小;而且 查询是由症状确定疾病这一种固定模式,其输入与 输出模式不变,因此引入症状联想机制是合理的, 而且能有效加强系统和用户的交互,提升推荐结果 的满意度。 3.3 诊断结果的优化 用户往往会对自己可能患有的疾病进行猜想, 这是非常有价值的信息。系统将考虑来自用户的反 馈信息,对诊断结果进行优化。具体实现过程如下: 1) 将反馈疾病的症状加入查询项; 2) 增加查询项中已有的症状的权重。 具体而言,反馈信息与原症状信息的权重比 α 的计算过程为 α = 0.5 ( x max +1 ) (2) 式中:x 为某反馈项在诊断结果中的位置,max 为反 馈项在诊断结果中位置的最大值。 4 基于地域信息的推荐技术 本节介绍了基于地域信息的推荐技术,该算法 通过对 Skyline 查询进行改进并将其结果作为推荐 结果的候选集合,而将传统的协同过滤推荐算法加 以改进作为局部范围内的一种评分方式,有效地应 对地域约束严格带来的挑战。 4.1 kd-tree 索引结构 地理位置信息由经度和纬度组成,是一个天然 的二维数据,而 kd-tree 常被用来对多维数据结构进 行划分,在 kd-tree 上对指定的点搜索其一定范围内 的邻居节点效率很高[12]。 因此,针对医院的经纬度信息,将所有的医院 以 kd-tree 的结构组织起来,每个节点保存医院的经 纬度以及医院在数据库中对应的编号。在后面的推 荐算法中,查询指定点一定范围内的医院时就可以 在该 kd-tree 上进行,返回医院的 idhospital 集合,而 根据 idhospital 返回医院的其他信息的时间可忽略 不计。 4.2 改进的 Skyline 查询算法 医疗推荐可以抽象为一个多目标优化问题,可 以通过将 Skyline 查询引入到推荐算法中解决。 Skyline 查询的目的是找到不被其他点支配的 点集合作为 Skyline 集合,本文中支配的定义如下。 h = ⟨s,d⟩ 支配:一个医院节点主要考虑距离和评分两方 面,因此可以抽象地表示为 ,其中 s 表示该 医院治疗某种疾病的评分,d 表示该医院与该用户 的距离;若 h1 支配 h2,则 (h1 .s≥h2 .s 且 h1 .d≤h2 .d) 并 且 (h1 .s>h2 .s 或 h1 .d<h2 .d) 为真。 该算法是针对传统 Skyline 查询中结果集合小 于推荐结果集的最小阈值而提出的,此时推荐结果 候选集合由两部分组成:传统的 Skyline 集合和优 先级队列中的元素集合。其中 Skyline 集合中元素 的优先度高于优先队列中的元素,只有当 Skyline 集合中的元素少于推荐的最小阈值时才从优先级队 列选取元素进行补充。 在算法中,维护一个优先级队列 Q,长度为 k+1, 以便在队列中的元素达到推荐结果的最小阈值时还 能进行一次插入操作,队列 Q 的优先级定义为:若 h1 支配 h2,则 h1 的优先级大于 h2;否则,h2 的优先 级大于 h1。Q 中从头到尾元素的优先级依次升高, 也就是说,Q 的头元素 Q.front 的优先级最低。对于 在 BNL 中淘汰的节点 p,进行如下操作: if (Q.size()<k) Q=Q+p; /*若 Q 还没有满,则将 p 插入 Q*/ else if (Q.size()=k)/*若优先级队列 Q 满了*/ if (Q.front() 支配 p) pass p; /*若 Q 的头节点支配 p,淘汰 p*/ ·354· 智 能 系 统 学 报 第 13 卷
第3期 马钰,等:面对智能导诊的个性化推荐算法 ·355· if(p支配Q.front()) 式中:effect、charge、attitude为各项评分的均值, O=0-0.front(); userCounter为评分的总人数,对评分总人数取对数 0-0+p, 是用来平衡规模不同的医院之间评价人数的差别引 /体若p支配Q的头节点,将Q头节点删除,将 起的偏斜。 p插入Q*/ 4.3.3计算预测评分 4.3局部范围内基于协同过滤的评分算法 1)确定相似用户集 这一步要解决的问题就是结合用户信息与医院 在经过筛选的用户子集上计算用户相似度时采 信息,对Skyline中的医院集合进行评分与排序,算 用的是Pearson相关系数,因为Pearson相关系数能 法提出了局部范围内基于协同过滤的评分方式。该 在计算中不考虑平均值的差异,用户相似度计算公 评分算法能够充分利用用户数据以及用户之间的相 式为 似性,而且针对该领域中数据分布的局部稠密性, (ap-ia)p-ib) PEP 提出了近邻用户的筛选机制,有效降低了算法的时 sim(a,b)= (6) 间复杂度。 4.3.1近邻用户的选择 相似度系数取值在-1~1之间,-1表示完全负 传统的基于用户的协同过滤算法局限性在于不 相关,1表示完全正相关,0表示不相关。 能很好地适应大规模用户和物品数据),假定M个 2)计算预测值 用户和N个物品,在最坏的情况下,评估最多包含 预测值计算公式为 这N个物品的所有M个用户的记录,因此复杂度较 sim(a,b)(rhp-i) 高,而且评分矩阵一般非常稀疏。 pre(a,b)=Ta+ bEN sim(a.b) (7) 针对数据分布局部范围内稠密这一特性,近邻 针对空白评分数据,采用的是缺省投票机制, 用户选择算法将用户信息同样采用kd-trce索引结 即用该医院的平均评分值填充空白值。 构组织起来,可以快速找到距离该医院一定范围内 的用户集合,该集合是所有用户集合的一个很小的 5实验验证 子集。选取一定范围内的用户能够覆盖大多数的评 分记录。 5.1辅助诊疗实验 4.3.2带“分级诊疗”的医院累积评分 本文所使用的测试数据来自超星医疗知识库。 每次用户就诊后对就诊的医院的治疗效果、收 为了模拟症状表述不全的情况,每种疾病的症状信 费水平、服务态度这3个方面进行评分,系统根据 息都被拆分为两部分。实验在医疗知识库中疾病的 种类数为100和1000时分别进行了测试。 3项各自的权重计算出评分的平均值,均值计算函 统计实验结果的策略是:如果诊断结果的前10 数为 avgScore=5effect+3charge+2attitude 位中出现该疾病,则认为成功召回;如果诊断结果 (3) 中的前3位中出现该疾病,则认为诊断结果准确。 10 其中治疗效果、收费水平、服务态度3者之间的权 1)数据库中的疾病种类为100时,选取了10 重暂时定为5:3:2,这3者的权重比是通过查阅相关 种疾病,共20个测试用例,实验结果如表1所示。 资料与调查问卷的方式相结合得出的。 表1100种疾病时的辅助诊断结果 计算医院治疗每种疾病的累积评分时采用动态 Table 1 The results of auxiliary diagnoses on 100 diseases 的惩罚机制,惩罚系数设为: 位置 初步 优化 位置 初步 优化 1 9 14 7 1 0 Ld-Lhl+1 (4) 8 0 0 式中:Ld表示疾病标注的默认等级,Lh为实际所去 9 0 0 的医院。当Ld=Lh时=1,对该评分不惩罚;当Ld- Lh越大时a越小,对该评分的惩罚越严重,a在计 10 0 算每项均值时作为系数使用。 其他 0 完整的医院累积评分计算公式为 0 accScore= 5effect+3charge+attitude loguserounter 2)数据库中疾病种类为1000时,选取100种, 10 (5) 共200个测试用例,实验结果如表2所示
if (p 支配 Q.front()) Q=Q-Q.front(); Q=Q+p; /*若 p 支配 Q 的头节点,将 Q 头节点删除,将 p 插入 Q*/ 4.3 局部范围内基于协同过滤的评分算法 这一步要解决的问题就是结合用户信息与医院 信息,对 Skyline 中的医院集合进行评分与排序,算 法提出了局部范围内基于协同过滤的评分方式。该 评分算法能够充分利用用户数据以及用户之间的相 似性,而且针对该领域中数据分布的局部稠密性, 提出了近邻用户的筛选机制,有效降低了算法的时 间复杂度。 4.3.1 近邻用户的选择 传统的基于用户的协同过滤算法局限性在于不 能很好地适应大规模用户和物品数据[13] ,假定 M 个 用户和 N 个物品,在最坏的情况下,评估最多包含 这 N 个物品的所有 M 个用户的记录,因此复杂度较 高,而且评分矩阵一般非常稀疏。 针对数据分布局部范围内稠密这一特性,近邻 用户选择算法将用户信息同样采用 kd-tree 索引结 构组织起来,可以快速找到距离该医院一定范围内 的用户集合,该集合是所有用户集合的一个很小的 子集。选取一定范围内的用户能够覆盖大多数的评 分记录。 4.3.2 带“分级诊疗”的医院累积评分 每次用户就诊后对就诊的医院的治疗效果、收 费水平、服务态度这 3 个方面进行评分,系统根据 3 项各自的权重计算出评分的平均值,均值计算函 数为 avgScore = 5effect+3charge+2attitude 10 (3) 其中治疗效果、收费水平、服务态度 3 者之间的权 重暂时定为 5:3:2,这 3 者的权重比是通过查阅相关 资料与调查问卷的方式相结合得出的[14]。 计算医院治疗每种疾病的累积评分时采用动态 的惩罚机制,惩罚系数设为 α: α = 1 |Ld−Lh|+1 (4) 式中:Ld 表示疾病标注的默认等级,Lh 为实际所去 的医院。当 Ld=Lh 时 α=1,对该评分不惩罚;当|LdLh|越大时 α 越小,对该评分的惩罚越严重,α 在计 算每项均值时作为系数使用。 完整的医院累积评分计算公式为 accScore = 5effect+3charge+2attitude 10 log userCounter (5) 式中:effect、charge、attitude 为各项评分的均值, userCounter 为评分的总人数,对评分总人数取对数 是用来平衡规模不同的医院之间评价人数的差别引 起的偏斜。 4.3.3 计算预测评分 1) 确定相似用户集 在经过筛选的用户子集上计算用户相似度时采 用的是 Pearson 相关系数,因为 Pearson 相关系数能 在计算中不考虑平均值的差异,用户相似度计算公 式为 sim(a,b) = ∑ p∈P ( ra,p −r¯a ) (rb,p −r¯b ) √∑ p∈P ( ra,p −r¯a )2 √∑ p∈P ( rb,p −r¯b )2 (6) 相似度系数取值在–1~1 之间,–1 表示完全负 相关,1 表示完全正相关,0 表示不相关。 2) 计算预测值 预测值计算公式为 pre(a,b) = r¯a + ∑ b∈N sim(a,b) ( rb,p −r¯b ) ∑ b∈N sim(a,b) (7) 针对空白评分数据,采用的是缺省投票机制, 即用该医院的平均评分值填充空白值。 5 实验验证 5.1 辅助诊疗实验 本文所使用的测试数据来自超星医疗知识库。 为了模拟症状表述不全的情况,每种疾病的症状信 息都被拆分为两部分。实验在医疗知识库中疾病的 种类数为 100 和 1 000 时分别进行了测试。 统计实验结果的策略是:如果诊断结果的前 10 位中出现该疾病,则认为成功召回;如果诊断结果 中的前 3 位中出现该疾病,则认为诊断结果准确。 1) 数据库中的疾病种类为 100 时,选取了 10 种疾病,共 20 个测试用例,实验结果如表 1 所示。 表 1 100 种疾病时的辅助诊断结果 Table 1 The results of auxiliary diagnoses on 100 diseases 位置 初步 优化 位置 初步 优化 1 9 14 7 1 0 2 5 4 8 0 0 3 3 1 9 0 0 4 0 1 10 0 0 5 1 0 其他 1 0 6 0 0 2) 数据库中疾病种类为 1 000 时,选取 100 种, 共 200 个测试用例,实验结果如表 2 所示。 第 3 期 马钰,等:面对智能导诊的个性化推荐算法 ·355·
·356· 智能系统学报 第13卷 表21000种疾病时辅助诊断结果 纬度数值随机生成,只要将其限制在上述的矩形区 Table 2 The results of auxiliary diagnoses on 1 000 dis- 域即可,医院和疾病的等级信息也随机生成。 eases ②医院的诊疗效果(effect)、收费水平(charge)、 位置 初步 优化 位置 初步 优化 服务态度(attitude)都是医院的固有属性,因此事先 105 116 7 2 2 生成医院擅长治疗的疾病与医院之间的对应集合 2 43 39 8 3 1 S,、收费较低的医院集合S2、服务态度好的医院集 3 14 22 9 3 0 合S 4 7 8 10 1 1 ③对每条评价记录,effect、charge、attitude初始 5 2 其他 > 的评价都是5分。 ④按式(8)~(1O)更新effect、charge、attitude的 6 0 值。 实验结果表明,所选测试数据在此统计策略 (1+)effect, (disease,hospital)ES effect (8) 下,当数据库中疾病种类为100时,召回率为95%, (1-41)effect, (disease,hospital) 准确率为85%,在优化诊断之后,准确率达到95%, charge (1+42)charge,hospital eS2 召回率达到100%;当数据库中疾病种类为1000 (1-42)charge, hospital (9) 时,召回率为91.5%,准确率为81%,在优化诊断之 (1+42)attitude, attitude hospital∈S3 (1-2)attitude,hospitalS3 (10) 后,准确率达到88.5%,召回率达到96%。 5.2推荐技术实验 ⑤给每一项再加一个小的正负随机的扰动4, 推荐算法的质量衡量方法一直是存在争议的, 以模拟评分时的噪音。 甚至有人认为推荐系统的质量根本就不可能直接衡 5.2.2实验方案 量,因为有太多的目标函数。目前最主流的评估方 使用上面生成的模拟数据作为训练数据,再随 案是根据电影领域用户历史评分来估计不同算法的 机选择100名用户,每人2种疾病,距离用户=15km 实验方法,EachMovie数据集和Netfliⅸ数据集是其 的医院作为候选医院,在该测试数据集上运行推荐 中的典型代表,但是很显然,这些数据不可能应用 算法,并记录推荐结果中前3位。 到本文中的推荐算法上,因为文中提出的推荐算法 前面已经说过,就诊时的关注点主要有距离和 是和医疗与导诊密切相关的。基于以上原因,本文 医院的质量,因此,一方面对距离用户范围R内的 中使用合成的数据集,并采用定量和定性结合的方 医院按照距离和治疗对应疾病的综合评分分别排 式评估算法质量。 序,统计推荐的医院在两个序列中的具体分布情 5.2.1生成实验数据 况:另一方面查看并统计推荐的医院在上述S、S2 1)合理性分析 S?这3个集合中分布情况,以此来定性地确定推荐 经过查阅相关医学资料以及调查问卷的方式, 的医院的质量。最终,通过对以上两个指标分布的 得出在选择医院时人们主要关注的有两点:医院与 分析,来半定量地评估推荐算法。 自己的距离,一般对于常见疾病人们倾向于选择距 5.2.3实验结果 离自己近的医院就诊:在医院质量方面,患者主要 推荐结果中排前三的医院在按照评分距离和评 关心的因素是诊疗效果、收费水平、服务态度,对这 分排序的两个序列中的具体分布情况如图2所示。 三者的关注度权重接近于5:3:2。既然人们在就诊 60 口第一次推荐 选择时有这样的倾向性,实际的数据分布也会体现 50 ▣第二次推荐 40 口第三次推着 出这样的特点,那么我们就能按照上面的原则模拟 30 生成实验数据,并且这样的数据具有一定的合理性。 2)数据规模 假定地域范围是44×44km2的一个矩形,有 1...0oo 4 5678910其他 50家医院,医院的等级共有10级,有50种疾病,疾 推荐排名 病的严重等级共有10级,有5000个病人,每人有 图2推荐结果在两个序列中的分布 10条就诊评价记录,共有50000条记录。 Fig.2 The distribution of recommended results in two lists 3)生成数据 由统计结果可得:排名第一的推荐结果两个序 ①医院和用户的地域信息使用经纬度表示,经 列中前6位出现的概率是87%,在前3位出现的概
表 2 1 000 种疾病时辅助诊断结果 Table 2 The results of auxiliary diagnoses on 1 000 diseases 位置 初步 优化 位置 初步 优化 1 105 116 7 2 3 2 43 39 8 3 1 3 14 22 9 3 0 4 7 8 10 1 1 5 1 2 其他 17 8 6 4 0 实验结果表明,所选测试数据在此统计策略 下,当数据库中疾病种类为 100 时,召回率为 95%, 准确率为 85%,在优化诊断之后,准确率达到 95%, 召回率达到 100%;当数据库中疾病种类为 1 000 时,召回率为 91.5%,准确率为 81%,在优化诊断之 后,准确率达到 88.5%,召回率达到 96%。 5.2 推荐技术实验 推荐算法的质量衡量方法一直是存在争议的, 甚至有人认为推荐系统的质量根本就不可能直接衡 量,因为有太多的目标函数。目前最主流的评估方 案是根据电影领域用户历史评分来估计不同算法的 实验方法,EachMovie 数据集和 Netflix 数据集是其 中的典型代表,但是很显然,这些数据不可能应用 到本文中的推荐算法上,因为文中提出的推荐算法 是和医疗与导诊密切相关的。基于以上原因,本文 中使用合成的数据集,并采用定量和定性结合的方 式评估算法质量。 5.2.1 生成实验数据 1) 合理性分析 经过查阅相关医学资料以及调查问卷的方式, 得出在选择医院时人们主要关注的有两点:医院与 自己的距离,一般对于常见疾病人们倾向于选择距 离自己近的医院就诊;在医院质量方面,患者主要 关心的因素是诊疗效果、收费水平、服务态度,对这 三者的关注度权重接近于 5:3:2。既然人们在就诊 选择时有这样的倾向性,实际的数据分布也会体现 出这样的特点,那么我们就能按照上面的原则模拟 生成实验数据,并且这样的数据具有一定的合理性。 2) 数据规模 假定地域范围是 44×44 km2 的一个矩形,有 50 家医院,医院的等级共有 10 级,有 50 种疾病,疾 病的严重等级共有 10 级,有 5 000 个病人,每人有 10 条就诊评价记录,共有 50 000 条记录。 3) 生成数据 ① 医院和用户的地域信息使用经纬度表示,经 纬度数值随机生成,只要将其限制在上述的矩形区 域即可,医院和疾病的等级信息也随机生成。 ② 医院的诊疗效果 (effect)、收费水平 (charge)、 服务态度 (attitude) 都是医院的固有属性,因此事先 生成医院擅长治疗的疾病与医院之间的对应集合 S1、收费较低的医院集合 S2、服务态度好的医院集 合 S3。 ③对每条评价记录,effect、charge、attitude 初始 的评价都是 5 分。 ④按式 (8)~(10) 更新 effect、charge、attitude 的 值。 effect = { (1+∆1)effect, ⟨ disease,hospital⟩ ∈ S 1 (1−∆1)effect, ⟨ disease,hospital⟩ < S 1 (8) charge = { (1+∆2)charge, hospital ∈ S 2 (1−∆2)charge, hospital < S 2 (9) attitude = { (1+∆2)attitude, hospital ∈ S 3 (1−∆2)attitude, hospital < S 3 (10) ⑤ 给每一项再加一个小的正负随机的扰动 Δ0, 以模拟评分时的噪音。 5.2.2 实验方案 使用上面生成的模拟数据作为训练数据,再随 机选择 100 名用户,每人 2 种疾病,距离用户 R=15 km 的医院作为候选医院,在该测试数据集上运行推荐 算法,并记录推荐结果中前 3 位。 前面已经说过,就诊时的关注点主要有距离和 医院的质量,因此,一方面对距离用户范围 R 内的 医院按照距离和治疗对应疾病的综合评分分别排 序,统计推荐的医院在两个序列中的具体分布情 况;另一方面查看并统计推荐的医院在上述 S1、S2、 S3 这 3 个集合中分布情况,以此来定性地确定推荐 的医院的质量。最终,通过对以上两个指标分布的 分析,来半定量地评估推荐算法。 5.2.3 实验结果 推荐结果中排前三的医院在按照评分距离和评 分排序的两个序列中的具体分布情况如图 2 所示。 0 10 20 30 40 50 60 1 2 3 4 5 6 7 8 9 10 ڢЂ じ̬⁍ᣔ㡼 じθ⁍ᣔ㡼 じ̵⁍ᣔ㡼 Ắ⢳/% ᣔ㡼ᢾह 图 2 推荐结果在两个序列中的分布 Fig. 2 The distribution of recommended results in two lists 由统计结果可得:排名第一的推荐结果两个序 列中前 6 位出现的概率是 87%,在前 3 位出现的概 ·356· 智 能 系 统 学 报 第 13 卷
第3期 马钰,等:面对智能导诊的个性化推荐算法 ·357· 率是62%;排名第二的推荐结果在前6位出现的概 health-aware recommender systems[C]//Proceedings of 率是84%,在前3位出现的概率是51.5%:推荐结果 2011 IEEE International Conference on Consumer Electron- 排在前6位出现的概率是81.5%,在前3位出现的 ics.Las Vegas,NV.USA.2011. [2]PATTARAINTAKORN P,ZAVERUCHA G M,CER- 概率是54%。可以看出,推荐的医院主要出现在上 CONE N.Web based health recommender system using 述两个列表中的前6位,其概率大于81%,出现在 rough sets,survival analysis and rule-based expert systems 前3位的概率大于51%,而且出现在前6位的概率 [C]//Proceedings of the 11th International Conference on 随着推荐结果的次序依次从高到低线性排列,这符 Rough Sets,Fuzzy Sets,Data Mining and Granular Comput- 合预期的结果,推荐的医院至少在距离和质量两方 ing.Toronto,Canada,2007:491-499. [3]GONG Jibing,WANG Lili,SUN Shengtao,et al.iBole:a 面之一有优势,而且越处于推荐结果前列的医院其 hybrid multi-layer architecture for doctor recommendation 占优的可能性应该越大。 in medical social networks[J].Journal of computer science 推荐结果中前3的医院在上述S1、S2、S,这 and technology,2015,30(5):1073-1081. 3个集合中分布情况如图3所示。 [4徐守坤,吴伟伟.基于语义的医疗资源均衡推荐算法[ 计算机工程,2015,41(9):74-79 120[口第一次推荐 100 口第二次推荐 XU Shoukun,WU Weiwei.Balance recommendation al- 80 口第三次推荐 gorthm for medical resources based on semantic[J].Com- 60 puter engineering,2015,41(9):74-79 [5]PAPADIAS D,TAO Yufei,FU G,et al.An optimal and 20 0 progressive algorithm for skyline queries[Cl//Proceedings of 2 集合编号 2003 ACM SIGMOD International Conference on Manage- ment of Data.San Diego,USA,2003:467-478 图3推荐结果在3个集合中的分布 [6]CHAN C Y,JAGADISH H V,TAN K L,et al.Finding k- Fig.3 The distribution of recommended results in three dominant skylines in high dimensional space[C]//Proceed- sets ings of 2006 ACM SIGMOD International Conference on 推荐的医院在诊疗效果、收费水平、服务态度 Management of Date.Chicago,IL,USA,2006:503-514. 这3项中至少有2项占优的概率:结果一为82.5%, [7]VLACHOU A,DOULKERIDIS C,KOTIDIS Y.Angle- 结果二为73.5%,结果三为66%,至少有一项占优的 based space partitioning for efficient parallel skyline compu- 概率大于95%。这就说明,推荐的医院从一定程度 tation[C]//Proceedings of 2008 ACM SIGMOD Internation- al Conference on Management of Data.Vancouver,Canada, 上来看是较优的,而且推荐结果中位置越靠前的就 2008:227-238 越优,推荐结果具有一定的合理性。 [8]SARKAS N.DAS G,KOUDAS N.et al.Categorical sky- lines for streaming data[Cl//Proceedings of 2008 ACM SIG- 6结束语 MOD International Conference on Management of Data. 本文通过对医疗与导诊领域的深人研究,发现 Vancouver.Canada.2008:239-250. [9]BORZSONYI S,KOSSMANN D.STOCKER K.The sky- 了医疗领域的推荐与传统推荐在本质上的区别,提 line operator[C]//Proceedings of the 17th International Con- 出了一种面向智能导诊的个性化推荐算法,以辅助 ference on Data Engineering.Washington,DC,USA,2001: 诊疗结果为基础,将Skyline查询和局部范围内基 421-430. 于协同过滤的评分方式相结合。算法能根据用户的 [10]CHAN CY,ENG P K,TAN K L.Efficient processing of 症状表现与地理位置等个人信息,为用户提供个性 skyline queries with partially-ordered domains[Cl//Pro- ceedings of the 21st International Conference on Data En- 化的推荐结果。并且通过模拟生成实验数据,半定 gineering.Tokoyo,Japan,2005:190-191. 量地验证了推荐算法的合理性和有效性。本文中提 [11]GUO Qinglin.The similarity computing of documents 出的算法和思路对于有效地利用电子医疗数据,合 based on VSM[C]//Proceedings of the 32nd Annual IEEE 理分配和使用现有的医疗资源,缓解就诊压力,提 International Computer Software and Applications.Turku, 升就医质量意义重大,有着很大的实用价值与社会 Finland,.2008:585-586. [12]ROBINSON J T.A search structure for large mul-tidimen 意义。 tional dynamic indexes[Cl//Proceedings of 1981 Interna- 参考文献: tional Conference on Management of Data.Ann Arbor, Michigan,1981:10-18. [1]LOPEZ-NORES M,BLANCO-FERNANDEZ Y,PAZOS- [13]HERLOCKER JL.KONSTAN J A,RIEDL J.Explaining ARIAS JJ,et al.Property-based collaborative filtering for collaborative filtering recommendations[Cl/Proceedings of
率是 62%;排名第二的推荐结果在前 6 位出现的概 率是 84%,在前 3 位出现的概率是 51.5%;推荐结果 排在前 6 位出现的概率是 81.5%,在前 3 位出现的 概率是 54%。可以看出,推荐的医院主要出现在上 述两个列表中的前 6 位,其概率大于 81%,出现在 前 3 位的概率大于 51%,而且出现在前 6 位的概率 随着推荐结果的次序依次从高到低线性排列,这符 合预期的结果,推荐的医院至少在距离和质量两方 面之一有优势,而且越处于推荐结果前列的医院其 占优的可能性应该越大。 推荐结果中前 3 的医院在上述 S1、S2、S3 这 3 个集合中分布情况如图 3 所示。 0 20 40 60 80 100 120 0 1 2 3 䯲ऴ㑂ण じ̬⁍ᣔ㡼 じθ⁍ᣔ㡼 じ̵⁍ᣔ㡼 䛻 图 3 推荐结果在 3 个集合中的分布 Fig. 3 The distribution of recommended results in three sets 推荐的医院在诊疗效果、收费水平、服务态度 这 3 项中至少有 2 项占优的概率:结果一为 82.5%, 结果二为 73.5%,结果三为 66%,至少有一项占优的 概率大于 95%。这就说明,推荐的医院从一定程度 上来看是较优的,而且推荐结果中位置越靠前的就 越优,推荐结果具有一定的合理性。 6 结束语 本文通过对医疗与导诊领域的深入研究,发现 了医疗领域的推荐与传统推荐在本质上的区别,提 出了一种面向智能导诊的个性化推荐算法,以辅助 诊疗结果为基础,将 Skyline 查询和局部范围内基 于协同过滤的评分方式相结合。算法能根据用户的 症状表现与地理位置等个人信息,为用户提供个性 化的推荐结果。并且通过模拟生成实验数据,半定 量地验证了推荐算法的合理性和有效性。本文中提 出的算法和思路对于有效地利用电子医疗数据,合 理分配和使用现有的医疗资源,缓解就诊压力,提 升就医质量意义重大,有着很大的实用价值与社会 意义。 参考文献: LOPEZ-NORES M, BLANCO-FERNÁNDEZ Y, PAZOSARIAS J J, et al. Property-based collaborative filtering for [1] health-aware recommender systems[C]//Proceedings of 2011 IEEE International Conference on Consumer Electronics. Las Vegas, NV, USA, 2011. PATTARAINTAKORN P, ZAVERUCHA G M, CERCONE N. Web based health recommender system using rough sets, survival analysis and rule-based expert systems [C]//Proceedings of the 11th International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing. Toronto, Canada, 2007: 491–499. [2] GONG Jibing, WANG Lili, SUN Shengtao, et al. iBole: a hybrid multi-layer architecture for doctor recommendation in medical social networks[J]. Journal of computer science and technology, 2015, 30(5): 1073–1081. [3] 徐守坤, 吴伟伟. 基于语义的医疗资源均衡推荐算法[J]. 计算机工程, 2015, 41(9): 74–79. XU Shoukun, WU Weiwei. Balance recommendation algorthm for medical resources based on semantic[J]. Computer engineering, 2015, 41(9): 74–79. [4] PAPADIAS D, TAO Yufei, FU G, et al. An optimal and progressive algorithm for skyline queries[C]//Proceedings of 2003 ACM SIGMOD International Conference on Management of Data. San Diego, USA, 2003: 467–478. [5] CHAN C Y, JAGADISH H V, TAN K L, et al. Finding kdominant skylines in high dimensional space[C]//Proceedings of 2006 ACM SIGMOD International Conference on Management of Date. Chicago, IL, USA, 2006: 503–514. [6] VLACHOU A, DOULKERIDIS C, KOTIDIS Y. Anglebased space partitioning for efficient parallel skyline computation[C]//Proceedings of 2008 ACM SIGMOD International Conference on Management of Data. Vancouver, Canada, 2008: 227–238. [7] SARKAS N, DAS G, KOUDAS N, et al. Categorical skylines for streaming data[C]//Proceedings of 2008 ACM SIGMOD International Conference on Management of Data. Vancouver, Canada, 2008: 239–250. [8] BÖRZSÖNYI S, KOSSMANN D, STOCKER K. The skyline operator[C]//Proceedings of the 17th International Conference on Data Engineering. Washington, DC, USA, 2001: 421–430. [9] CHAN C Y, ENG P K, TAN K L. Efficient processing of skyline queries with partially-ordered domains[C]//Proceedings of the 21st International Conference on Data Engineering. Tokoyo, Japan, 2005: 190–191. [10] GUO Qinglin. The similarity computing of documents based on VSM[C]//Proceedings of the 32nd Annual IEEE International Computer Software and Applications. Turku, Finland, 2008: 585–586. [11] ROBINSON J T. A search structure for large mul-tidimentional dynamic indexes[C]//Proceedings of 1981 International Conference on Management of Data. Ann Arbor, Michigan, 1981: 10-18. [12] HERLOCKER J L, KONSTAN J A, RIEDL J. Explaining collaborative filtering recommendations[C]//Proceedings of [13] 第 3 期 马钰,等:面对智能导诊的个性化推荐算法 ·357·
·358· 智能系统学报 第13卷 2000 ACM Conference on Computer Supported Cooperat- 张岩,男,1962年生,副教授,主 ive Work.Philadelphia,Pennsylvania,USA.2000:241- 要研究方向为数据质量和生物信息 250. 学。发表学术论文20余篇。 [14]RICCI F,ROKACH L,SHAPIRA B,et al.Recommender systems handbook[M].Boston,MA:Springer,2011:1-35. 作者简介: 马钰,男,1993年生,硕士研究 王宏志,男,1978年生,教授,博 生,主要研究方向为数据库、数据挖 士生导师,主要研究方向为大数据管 掘、大数据。发表学术论文2篇。 理,包括数据质量、XML数据管理和 图数据管理。获得省部级科技进步奖 2项,发表学术论文200余篇。 2018第三届机电一体化和自动化技术国际会议(ICMAT2018) 2018 3rd International Conference on Mechatronics and Automation Technology (ICMAT 2018) ICMAT2018是由皇家墨尔本理工大学,AUT大学,斯文本科技大学,澳大利亚国立大学和香港机械工程师 协会联合主办。本次会议将于2018年9月27-一29日在泰国普吉岛举办。ICMAT2016和ICMAT2017已成功在 奥克兰和墨尔本举行。 欢迎在机电一体化和自动化技术,在处理理论的新发展,分析建模与仿真、实验、示范和数值,高级部署和案 例研究,实验室或现场运行试验结果的投稿。此次会议将为世界各地机电一体化和自动化技术这一领域的科研 专家们提供面对面的交流机会。 【出版与检索】 所有注册和提交的论文将发表在会议论文集,并提交EI Compendex,Scopus,.Thomson Reuters(WoS),In- spec及其他检索机构检索。 被选中的优秀论文将刊发在国际期刊上。 【征稿主题】 智能机电一体化 光电元件和材料 机器人 激光技术与激光加工 仿生 控制系统建模 自动化和控制系统 仿真技术 Website:http://www.icmat.net/cfp.html
2000 ACM Conference on Computer Supported Cooperative Work. Philadelphia, Pennsylvania, USA, 2000: 241– 250. RICCI F, ROKACH L, SHAPIRA B, et al. Recommender systems handbook[M]. Boston, MA: Springer, 2011: 1–35. [14] 作者简介: 马钰,男,1993 年生,硕士研究 生,主要研究方向为数据库、数据挖 掘、大数据。发表学术论文 2 篇。 张岩,男,1962 年生,副教授,主 要研究方向为数据质量和生物信息 学。发表学术论文 20 余篇。 王宏志,男,1978 年生,教授,博 士生导师,主要研究方向为大数据管 理,包括数据质量、XML 数据管理和 图数据管理。获得省部级科技进步奖 2 项,发表学术论文 200 余篇。 2018 第三届机电一体化和自动化技术国际会议 (ICMAT 2018) 2018 3rd International Conference on Mechatronics and Automation Technology (ICMAT 2018) ICMAT 2018 是由皇家墨尔本理工大学,AUT 大学,斯文本科技大学,澳大利亚国立大学和香港机械工程师 协会联合主办。本次会议将于 2018 年 9 月 27—29 日在泰国普吉岛举办。ICMAT2016 和 ICMAT2017 已成功在 奥克兰和墨尔本举行。 欢迎在机电一体化和自动化技术,在处理理论的新发展,分析建模与仿真、实验、示范和数值,高级部署和案 例研究,实验室或现场运行试验结果的投稿。此次会议将为世界各地机电一体化和自动化技术这一领域的科研 专家们提供面对面的交流机会。 【出版与检索】 所有注册和提交的论文将发表在会议论文集,并提交 EI Compendex, Scopus, Thomson Reuters (WoS), Inspec 及其他检索机构检索。 被选中的优秀论文将刊发在国际期刊上。 【征稿主题】 智能机电一体化 光电元件和材料 机器人 激光技术与激光加工 仿生 控制系统建模 自动化和控制系统 仿真技术 Website: http://www.icmat.net/cfp.html ·358· 智 能 系 统 学 报 第 13 卷