当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

【智能系统】面对智能导诊的个性化推荐算法

资源类别:文库,文档格式:PDF,文档页数:7,文件大小:827.05KB,团购合买
点击下载完整版文档(PDF)

第13卷第3期 智能系统学报 Vol.13 No.3 2018年6月 CAAI Transactions on Intelligent Systems Jun.2018 D0:10.11992/tis.201711036 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180408.0930.002.html 面对智能导诊的个性化推荐算法 马钰,张岩,王宏志,张义策 (哈尔滨工业大学计算机科学与技术学院.黑龙江哈尔滨150001) 摘要:针对电子医疗信息过载和医疗资源严重不足的问题,本文以辅助诊疗的结果为基础,将Skyline查询和局部 范围内基于协同过滤的评分方式有机结合,提出了一种面向智能导诊的个性化推荐算法。实验结果表明,本文提出 的算法能为用户提供个性化的合理推荐结果。该方法对合理分配和使用医疗资源有很大的促进作用,能从一定程度 上缓解就诊压力,提高就诊质量,具有重要的实用价值和社会意义。 关键词:辅助诊疗:智能导诊:Skyline查询:医疗推荐:协同过滤:推荐系统:大数据:个性化 中图分类号:TP311文献标志码:A文章编号:1673-4785(2018)03-0352-07 中文引用格式:马钰,张岩,王宏志,等.面对智能导诊的个性化推荐算法J.智能系统学报,2018,13(3):352-358. 英文引用格式:MAYu,ZHANG Yan,WANG Hongzhi,.etal.A personalized recommendation algorithm for intelligent guidance [JI.CAAI transactions on intelligent systems,2018,13(3):352-358. A personalized recommendation algorithm for intelligent guidance MA Yu,ZHANG Yan,WANG Hongzhi,ZHANG Yice (School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China) Abstract:Because of the overload in the electronic medical data and serious shortage of medical resources,we com- bined Skyline queries and the scoring method based on collaborative filtering in local areas and proposed a recommend- ation algorithm for intelligent personalized guidance.Our experimental results show that the proposed algorithm can provide users with personalized and reasonable recommendations.Thus,the proposed algorithm was found to consider- able promote rational allocation and the use of medical resources.Additionally,our algorithm improved the quality of medical treatments to a certain extent. Keywords:auxiliary diagnosiss;intelligent guide;skyline query;medical recommendation;collaborative filtering;re- commendation system;big data;personality 中国人口数量与医疗资源之间的巨大反差使得 推荐技术与医疗导诊的结合意义重大,但是传 医疗资源日趋不足,短期内增加医疗资源的总量几 统的推荐技术在导诊中的应用并不好,因为导诊和 乎是不可能的,因此有效整合和合理分配现有的医 每个用户的特征息息相关:由于地理位置等因素的 疗资源,缓解就诊压力,提升就医质量,有着很大的 影响,不同用户在选择医院时差别很大,即使同一 实用价值与社会意义。 个用户,在所患疾病不同时也会去不同的医院就 智能导诊根据患者的主诉为患者自动推荐相应 诊。因此,针对用户和疾病的不同推荐与导诊的结 的医院和医生,对合理分诊起着重要作用。从数据 果也应该随之变化,这样的推荐才是有意义的。也 的角度看,智能导诊是针对患者主诉和基本信息对 就是说,医疗导诊领域的推荐必须体现出用户和疾 医院和医生的推荐。 病的特征,以个性化推荐为主。因此本文提出了一 收稿日期:2017-11-29.网络出版日期:2018-04-08. 种面向智能导诊的个性化推荐算法。 基金项目:国家科技支撑计划项目(20I5BAH10F0I):国家自然科 学基金项目(U1509216,61472099,61602129):国家重 点研发计划项目(2016YFB1000703):黑龙江省留学回 1相关工作及分析 国人员基金项日(LC2016026). 通信作者:王宏志.E-mail:wangzh@hit.edu.cn 近年来国内外与医疗领域推荐相关的研究很

DOI: 10.11992/tis.201711036 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180408.0930.002.html 面对智能导诊的个性化推荐算法 马钰,张岩,王宏志,张义策 (哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001) 摘 要:针对电子医疗信息过载和医疗资源严重不足的问题,本文以辅助诊疗的结果为基础,将 Skyline 查询和局部 范围内基于协同过滤的评分方式有机结合,提出了一种面向智能导诊的个性化推荐算法。实验结果表明,本文提出 的算法能为用户提供个性化的合理推荐结果。该方法对合理分配和使用医疗资源有很大的促进作用,能从一定程度 上缓解就诊压力,提高就诊质量,具有重要的实用价值和社会意义。 关键词:辅助诊疗;智能导诊;Skyline 查询;医疗推荐;协同过滤;推荐系统;大数据;个性化 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2018)03−0352−07 中文引用格式:马钰, 张岩, 王宏志, 等. 面对智能导诊的个性化推荐算法[J]. 智能系统学报, 2018, 13(3): 352–358. 英文引用格式:MA Yu, ZHANG Yan, WANG Hongzhi, et al. A personalized recommendation algorithm for intelligent guidance [J]. CAAI transactions on intelligent systems, 2018, 13(3): 352–358. A personalized recommendation algorithm for intelligent guidance MA Yu,ZHANG Yan,WANG Hongzhi,ZHANG Yice (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: Because of the overload in the electronic medical data and serious shortage of medical resources, we com￾bined Skyline queries and the scoring method based on collaborative filtering in local areas and proposed a recommend￾ation algorithm for intelligent personalized guidance. Our experimental results show that the proposed algorithm can provide users with personalized and reasonable recommendations. Thus, the proposed algorithm was found to consider￾able promote rational allocation and the use of medical resources. Additionally, our algorithm improved the quality of medical treatments to a certain extent. Keywords: auxiliary diagnosiss; intelligent guide; skyline query; medical recommendation; collaborative filtering; re￾commendation system; big data; personality 中国人口数量与医疗资源之间的巨大反差使得 医疗资源日趋不足,短期内增加医疗资源的总量几 乎是不可能的,因此有效整合和合理分配现有的医 疗资源,缓解就诊压力,提升就医质量,有着很大的 实用价值与社会意义。 智能导诊根据患者的主诉为患者自动推荐相应 的医院和医生,对合理分诊起着重要作用。从数据 的角度看,智能导诊是针对患者主诉和基本信息对 医院和医生的推荐。 推荐技术与医疗导诊的结合意义重大,但是传 统的推荐技术在导诊中的应用并不好,因为导诊和 每个用户的特征息息相关:由于地理位置等因素的 影响,不同用户在选择医院时差别很大,即使同一 个用户,在所患疾病不同时也会去不同的医院就 诊。因此,针对用户和疾病的不同推荐与导诊的结 果也应该随之变化,这样的推荐才是有意义的。也 就是说,医疗导诊领域的推荐必须体现出用户和疾 病的特征,以个性化推荐为主。因此本文提出了一 种面向智能导诊的个性化推荐算法。 1 相关工作及分析 近年来国内外与医疗领域推荐相关的研究很 收稿日期:2017−11−29. 网络出版日期:2018−04−08. 基金项目:国家科技支撑计划项目 (2015BAH10F01);国家自然科 学基金项目 (U1509216,61472099,61602129);国家重 点研发计划项目 (2016YFB1000703);黑龙江省留学回 国人员基金项目 (LC2016026). 通信作者:王宏志. E-mail:wangzh@hit.edu.cn. 第 13 卷第 3 期 智 能 系 统 学 报 Vol.13 No.3 2018 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2018

第3期 马钰,等:面对智能导诊的个性化推荐算法 ·353· 多,M.Lopez-Nores等四引入了一种新的过滤策略, 在图1中,虚线将框架图分为两大部分:第1 对于有特定疾病的患者,这种推荐方法的效率较 部分是获取用户偏好的过程,首先根据用户的症状 高。P.Pattaraintakorn等提出了一种使用粗糙 表现,使用辅助诊疗算法给出初步诊断结果,再利 集和规则分析的医疗推荐系统,主要目标是将病人 用反馈信息和症状联想机制进一步确定所患疾病, 的自身的身体数据作为条件属性,推荐临床检查 从而完成症状到用户偏好的转化过程:第2部分是 方式。宫继兵等提出了一种医疗社交网络中的多 生成推荐结果的过程,由用户的偏好结合其地理位 层混合医生推荐结构,通过挖掘网络中医生与病人 置信息,采用改进的Skyline查询算法,找出一定范 之间的关系为患者推荐医生。徐守坤等提出过一 围内符合要求的医院作为候选集合,最后在局部范 种医生资源均衡推荐算法,使用最佳结果优先的推 围内由基于协同过滤的评分方式对候选集合中的医 荐算法,解决了医疗资源的使用过度集中而产生的 院进行评分、排序,从而生成最终的推荐结果。 问题。 由上述分析可以看出,现行系统主要有两方面 3基于医疗知识库的辅助诊疗技术 的问题:)没有考虑现在医疗推荐方面最迫切需要 在本节中,我们主要介绍辅助诊疗技术的具体 解决的问题;2)没有考虑导诊与医疗推荐和传统的 细节,用以解决医疗导诊与推荐时用户偏好未知的 推荐在本质上的不同。 问题,通过辅助诊疗帮助用户根据症状表现确定其 针对这些问题,本文提出了一种面向智能导诊 所患疾病,从而明确用户偏好。 的个性化推荐算法,其主要有3个特点: 3.1分词与症状索引表的建立 1)算法提出了辅助诊疗机制,通过辅助诊疗能 为了提高分词速度,本文通过对《同义词林》 根据用户的症状表现,帮助用户大致确定其所患疾 进行适当的改造,构建了一个新的字典。首先,部 病,从而明确用户偏好,提升推荐结果的满意度。 分无用词汇被剔除:其次,按照词语的字数,字典被 2)算法获得用户评分及反馈信息的方式以显 分为5个部分,这样每次匹配时词典最多被扫描一 式方法为主,并且在辅助诊疗时根据用户的反馈信 次。使用改造后的词典,诊断时症状描述中遇到的 息对诊断结果进行优化,从而提高诊断结果的准 同义词和相关词等问题得到了一定程度的缓解。为 确性。 了提高分词准确度,本文选用了逆向最大匹配法。 3)提出了一种在有地域约束时的推荐算法。 为了加快诊断速度,本文采取了在症状信息上建立 对Skyline-o查询进行改进,并将其结果作为推荐 倒排索引的方法。该索引包含3个属性,分别保存 的候选集合,之后在局部范围内使用基于协同过滤 症状分词结果对应的同义词林中的编码、疾病ICD 的评分算法,对候选集合进行评分并排序。 编码和疾病中症状出现的次数,以及症状对应的疾 2 整体框架 病类型数。后两个属性在进行诊断时使用。 3.2辅助诊断技术 为了对本文所述系统有一个全局性的了解进而 3.2.1辅助诊疗思路 更好地了解算法细节,本部分将以框架图为基础, 辅助诊疗技术采用的核心思想是计算用户输入 阐述算法中各部分的作用及大致思路。本文的整体 的症状信息与医疗知识库中疾病症状信息之间的相 框架如图1所示。 似度,从而确诊疾病类型,具体实现过程包括: 用户 1)对录入的症状信息进行分词,使用分词结果 在索引表中进行查询,记录所有匹配项,将对应的 症状表现 疾病作为候选集,并将其中的疾病总数记为N。 2)利用症状索引表计算输入与候选集中每种 位置信息 反馈 辅助诊疗 疾病症状的相似度,并依据相似度进行排序。 用户 信息 特征 诊断结果 3.2.2相似度计算 用户 相似度计算公式借鉴了TF-IDF计算相似度的 改进的 偏好 Skyline查询 思路,其公式为 基于协同 N 候选集合 过滤的评分排序 推荐结果 S=) num一log2 (1) numsymptom 图1整体框架 式中:S为输入q与疾病症状之间的相似度;num,表 Fig.1 The overall framework 示q中的某一症状i在该疾病中出现的次数,当

多,M. López-Nores 等 [1]引入了一种新的过滤策略, 对于有特定疾病的患者,这种推荐方法的效率较 高。P. Pattaraintakorn 等 [2]提出了一种使用粗糙 集和规则分析的医疗推荐系统,主要目标是将病人 的自身的身体数据作为条件属性,推荐临床检查 方式。宫继兵等[3]提出了一种医疗社交网络中的多 层混合医生推荐结构,通过挖掘网络中医生与病人 之间的关系为患者推荐医生。徐守坤等[4]提出过一 种医生资源均衡推荐算法,使用最佳结果优先的推 荐算法,解决了医疗资源的使用过度集中而产生的 问题。 由上述分析可以看出,现行系统主要有两方面 的问题:1) 没有考虑现在医疗推荐方面最迫切需要 解决的问题;2) 没有考虑导诊与医疗推荐和传统的 推荐在本质上的不同。 针对这些问题,本文提出了一种面向智能导诊 的个性化推荐算法,其主要有 3 个特点: 1) 算法提出了辅助诊疗机制,通过辅助诊疗能 根据用户的症状表现,帮助用户大致确定其所患疾 病,从而明确用户偏好,提升推荐结果的满意度。 2) 算法获得用户评分及反馈信息的方式以显 式方法为主,并且在辅助诊疗时根据用户的反馈信 息对诊断结果进行优化,从而提高诊断结果的准 确性。 3) 提出了一种在有地域约束时的推荐算法。 对 Skyline[5-10]查询进行改进,并将其结果作为推荐 的候选集合,之后在局部范围内使用基于协同过滤 的评分算法,对候选集合进行评分并排序。 2 整体框架 为了对本文所述系统有一个全局性的了解进而 更好地了解算法细节,本部分将以框架图为基础, 阐述算法中各部分的作用及大致思路。本文的整体 框架如图 1 所示。 用户 症状表现 辅助诊疗 诊断结果 反馈 信息 用户 偏好 推荐结果 排序 基于协同 过滤的评分 候选集合 改进的 Skyline查询 用户 特征 位置信息 图 1 整体框架 Fig. 1 The overall framework 在图 1 中,虚线将框架图分为两大部分:第 1 部分是获取用户偏好的过程,首先根据用户的症状 表现,使用辅助诊疗算法给出初步诊断结果,再利 用反馈信息和症状联想机制进一步确定所患疾病, 从而完成症状到用户偏好的转化过程;第 2 部分是 生成推荐结果的过程,由用户的偏好结合其地理位 置信息,采用改进的 Skyline 查询算法,找出一定范 围内符合要求的医院作为候选集合,最后在局部范 围内由基于协同过滤的评分方式对候选集合中的医 院进行评分、排序,从而生成最终的推荐结果。 3 基于医疗知识库的辅助诊疗技术 在本节中,我们主要介绍辅助诊疗技术的具体 细节,用以解决医疗导诊与推荐时用户偏好未知的 问题,通过辅助诊疗帮助用户根据症状表现确定其 所患疾病,从而明确用户偏好。 3.1 分词与症状索引表的建立 为了提高分词速度,本文通过对《同义词林》 进行适当的改造,构建了一个新的字典。首先,部 分无用词汇被剔除;其次,按照词语的字数,字典被 分为 5 个部分,这样每次匹配时词典最多被扫描一 次。使用改造后的词典,诊断时症状描述中遇到的 同义词和相关词等问题得到了一定程度的缓解。为 了提高分词准确度,本文选用了逆向最大匹配法。 为了加快诊断速度,本文采取了在症状信息上建立 倒排索引的方法。该索引包含 3 个属性,分别保存 症状分词结果对应的同义词林中的编码、疾病 ICD 编码和疾病中症状出现的次数,以及症状对应的疾 病类型数。后两个属性在进行诊断时使用。 3.2 辅助诊断技术 3.2.1 辅助诊疗思路 辅助诊疗技术采用的核心思想是计算用户输入 的症状信息与医疗知识库中疾病症状信息之间的相 似度,从而确诊疾病类型,具体实现过程包括: 1) 对录入的症状信息进行分词,使用分词结果 在索引表中进行查询,记录所有匹配项,将对应的 疾病作为候选集,并将其中的疾病总数记为 N。 2) 利用症状索引表计算输入与候选集中每种 疾病症状的相似度,并依据相似度进行排序。 3.2.2 相似度计算 相似度计算公式借鉴了 TF-IDF 计算相似度的 思路[11] ,其公式为 S = ∑ i∈q ( numi numsymptom log2 ( N typedisease +1 )) (1) 式中:S 为输入 q 与疾病症状之间的相似度;numi 表 示 q 中的某一症状 i 在该疾病中出现的次数,当 第 3 期 马钰,等:面对智能导诊的个性化推荐算法 ·353·

·354· 智能系统学报 第13卷 q值较大时,意味着此症状为潜在的主要症状,则提 通过对Skyline查询进行改进并将其结果作为推荐 高该症状的权重;numsympiom表示疾病的总症状数, 结果的候选集合,而将传统的协同过滤推荐算法加 对num,进行归一化,以防止部分疾病系数偏大: 以改进作为局部范围内的一种评分方式,有效地应 typedisease表示症状对应的疾病类型数量,对数函数 对地域约束严格带来的挑战。 则是为了提高潜在主要症状的权重。 4.1kd-tree索引结构 3.2.3症状联想机制 地理位置信息由经度和纬度组成,是一个天然 算法在用户输入症状信息和得到诊断结果之后 的二维数据,而kd-tree常被用来对多维数据结构进 均引入症状联想机制,以此来加强与用户的交互, 行划分,在kd-tree上对指定的点搜索其一定范围内 提升辅助诊断的准确性。 的邻居节点效率很高四。 1)用户输入时的症状联想 因此,针对医院的经纬度信息,将所有的医院 基于分词与症状索引表,统计症状两两之间共 以kd-tree的结构组织起来,每个节点保存医院的经 同出现的次数,并将与该症状共同出现次数前5的 纬度以及医院在数据库中对应的编号。在后面的推 症状存入症状索引表作为联想症状,在用户输入完 荐算法中,查询指定点一定范围内的医院时就可以 一个症状之后,将联想症状提供给用户,用户可以 在该kd-tree上进行,返回医院的idhospital集合,而 从中选择与自身相关的症状,以此来帮助用户提升 根据idhospital返回医院的其他信息的时间可忽略 输入症状的完整性。 不计。 2)诊断之后的症状联想 4.2改进的Skyline查询算法 首先计算疾病中每个症状在该疾病中的权值, 医疗推荐可以抽象为一个多目标优化问题,可 然后选择权重前3的症状作为联想症状保存,在得 以通过将Skyline查询引入到推荐算法中解决。 到诊断结果之后将联想症状提供给用户,若出现联 Skyline查询的目的是找到不被其他点支配的 想症状说明患该种疾病的可能性较高,从而帮助用 点集合作为Skyline集合,本文中支配的定义如下。 户进一步确定所患疾病,症状在疾病中的权重计算 支配:一个医院节点主要考虑距离和评分两方 方法与上述相似度计算公式类似,只不过N为疾病 面,因此可以抽象地表示为h=(s,d),其中s表示该 总数。 医院治疗某种疾病的评分,d表示该医院与该用户 辅助诊断部分使用的数据只是疾病与其相关症 的距离;若h1支配h2,则(h1.s≥h2s且h1.d≤h2.d)并 状信息,相比于通用检索系统其数据量很小:而且 且(h.s>h2.s或h1.dkh2.d为真。 查询是由症状确定疾病这一种固定模式,其输入与 该算法是针对传统Skyline查询中结果集合小 输出模式不变,因此引入症状联想机制是合理的, 于推荐结果集的最小阈值而提出的,此时推荐结果 而且能有效加强系统和用户的交互,提升推荐结果 候选集合由两部分组成:传统的Skyline集合和优 的满意度。 先级队列中的元素集合。其中Skyline集合中元素 3.3诊断结果的优化 的优先度高于优先队列中的元素,只有当Skyline 用户往往会对自己可能患有的疾病进行猜想, 集合中的元素少于推荐的最小阈值时才从优先级队 这是非常有价值的信息。系统将考虑来自用户的反 列选取元素进行补充。 馈信息,对诊断结果进行优化。具体实现过程如下: 在算法中,维护一个优先级队列Q,长度为什1, 1)将反馈疾病的症状加入查询项; 以便在队列中的元素达到推荐结果的最小阈值时还 2)增加查询项中已有的症状的权重。 能进行一次插入操作,队列Q的优先级定义为:若 具体而言,反馈信息与原症状信息的权重比 h,支配h2,则h,的优先级大于h2;否则,h2的优先 α的计算过程为 级大于h1。Q中从头到尾元素的优先级依次升高, a=0.5(x+1 也就是说,Q的头元素Q.front的优先级最低。对于 (2) \max 在BNL中淘汰的节点P,进行如下操作: 式中:x为某反馈项在诊断结果中的位置,max为反 if(O.size(<k) 馈项在诊断结果中位置的最大值。 Q=Q+p,*若Q还没有满,则将p插入Q*/ 4基于地域信息的推荐技术 else if(Q.sizc0=k)/*若优先级队列Q满了*/ if(Q.front(0支配p) 本节介绍了基于地域信息的推荐技术,该算法 passp,/*若Q的头节点支配p,淘汰p*/

q 值较大时,意味着此症状为潜在的主要症状,则提 高该症状的权重;numsymptom 表示疾病的总症状数, 对 numi 进行归一化,以防止部分疾病系数偏大; typedisease 表示症状对应的疾病类型数量,对数函数 则是为了提高潜在主要症状的权重。 3.2.3 症状联想机制 算法在用户输入症状信息和得到诊断结果之后 均引入症状联想机制,以此来加强与用户的交互, 提升辅助诊断的准确性。 1) 用户输入时的症状联想 基于分词与症状索引表,统计症状两两之间共 同出现的次数,并将与该症状共同出现次数前 5 的 症状存入症状索引表作为联想症状,在用户输入完 一个症状之后,将联想症状提供给用户,用户可以 从中选择与自身相关的症状,以此来帮助用户提升 输入症状的完整性。 2) 诊断之后的症状联想 首先计算疾病中每个症状在该疾病中的权值, 然后选择权重前 3 的症状作为联想症状保存,在得 到诊断结果之后将联想症状提供给用户,若出现联 想症状说明患该种疾病的可能性较高,从而帮助用 户进一步确定所患疾病,症状在疾病中的权重计算 方法与上述相似度计算公式类似,只不过 N 为疾病 总数。 辅助诊断部分使用的数据只是疾病与其相关症 状信息,相比于通用检索系统其数据量很小;而且 查询是由症状确定疾病这一种固定模式,其输入与 输出模式不变,因此引入症状联想机制是合理的, 而且能有效加强系统和用户的交互,提升推荐结果 的满意度。 3.3 诊断结果的优化 用户往往会对自己可能患有的疾病进行猜想, 这是非常有价值的信息。系统将考虑来自用户的反 馈信息,对诊断结果进行优化。具体实现过程如下: 1) 将反馈疾病的症状加入查询项; 2) 增加查询项中已有的症状的权重。 具体而言,反馈信息与原症状信息的权重比 α 的计算过程为 α = 0.5 ( x max +1 ) (2) 式中:x 为某反馈项在诊断结果中的位置,max 为反 馈项在诊断结果中位置的最大值。 4 基于地域信息的推荐技术 本节介绍了基于地域信息的推荐技术,该算法 通过对 Skyline 查询进行改进并将其结果作为推荐 结果的候选集合,而将传统的协同过滤推荐算法加 以改进作为局部范围内的一种评分方式,有效地应 对地域约束严格带来的挑战。 4.1 kd-tree 索引结构 地理位置信息由经度和纬度组成,是一个天然 的二维数据,而 kd-tree 常被用来对多维数据结构进 行划分,在 kd-tree 上对指定的点搜索其一定范围内 的邻居节点效率很高[12]。 因此,针对医院的经纬度信息,将所有的医院 以 kd-tree 的结构组织起来,每个节点保存医院的经 纬度以及医院在数据库中对应的编号。在后面的推 荐算法中,查询指定点一定范围内的医院时就可以 在该 kd-tree 上进行,返回医院的 idhospital 集合,而 根据 idhospital 返回医院的其他信息的时间可忽略 不计。 4.2 改进的 Skyline 查询算法 医疗推荐可以抽象为一个多目标优化问题,可 以通过将 Skyline 查询引入到推荐算法中解决。 Skyline 查询的目的是找到不被其他点支配的 点集合作为 Skyline 集合,本文中支配的定义如下。 h = ⟨s,d⟩ 支配:一个医院节点主要考虑距离和评分两方 面,因此可以抽象地表示为 ,其中 s 表示该 医院治疗某种疾病的评分,d 表示该医院与该用户 的距离;若 h1 支配 h2,则 (h1 .s≥h2 .s 且 h1 .d≤h2 .d) 并 且 (h1 .s>h2 .s 或 h1 .d<h2 .d) 为真。 该算法是针对传统 Skyline 查询中结果集合小 于推荐结果集的最小阈值而提出的,此时推荐结果 候选集合由两部分组成:传统的 Skyline 集合和优 先级队列中的元素集合。其中 Skyline 集合中元素 的优先度高于优先队列中的元素,只有当 Skyline 集合中的元素少于推荐的最小阈值时才从优先级队 列选取元素进行补充。 在算法中,维护一个优先级队列 Q,长度为 k+1, 以便在队列中的元素达到推荐结果的最小阈值时还 能进行一次插入操作,队列 Q 的优先级定义为:若 h1 支配 h2,则 h1 的优先级大于 h2;否则,h2 的优先 级大于 h1。Q 中从头到尾元素的优先级依次升高, 也就是说,Q 的头元素 Q.front 的优先级最低。对于 在 BNL 中淘汰的节点 p,进行如下操作: if (Q.size()<k) Q=Q+p; /*若 Q 还没有满,则将 p 插入 Q*/ else if (Q.size()=k)/*若优先级队列 Q 满了*/ if (Q.front() 支配 p) pass p; /*若 Q 的头节点支配 p,淘汰 p*/ ·354· 智 能 系 统 学 报 第 13 卷

第3期 马钰,等:面对智能导诊的个性化推荐算法 ·355· if(p支配Q.front()) 式中:effect、charge、attitude为各项评分的均值, O=0-0.front(); userCounter为评分的总人数,对评分总人数取对数 0-0+p, 是用来平衡规模不同的医院之间评价人数的差别引 /体若p支配Q的头节点,将Q头节点删除,将 起的偏斜。 p插入Q*/ 4.3.3计算预测评分 4.3局部范围内基于协同过滤的评分算法 1)确定相似用户集 这一步要解决的问题就是结合用户信息与医院 在经过筛选的用户子集上计算用户相似度时采 信息,对Skyline中的医院集合进行评分与排序,算 用的是Pearson相关系数,因为Pearson相关系数能 法提出了局部范围内基于协同过滤的评分方式。该 在计算中不考虑平均值的差异,用户相似度计算公 评分算法能够充分利用用户数据以及用户之间的相 式为 似性,而且针对该领域中数据分布的局部稠密性, (ap-ia)p-ib) PEP 提出了近邻用户的筛选机制,有效降低了算法的时 sim(a,b)= (6) 间复杂度。 4.3.1近邻用户的选择 相似度系数取值在-1~1之间,-1表示完全负 传统的基于用户的协同过滤算法局限性在于不 相关,1表示完全正相关,0表示不相关。 能很好地适应大规模用户和物品数据),假定M个 2)计算预测值 用户和N个物品,在最坏的情况下,评估最多包含 预测值计算公式为 这N个物品的所有M个用户的记录,因此复杂度较 sim(a,b)(rhp-i) 高,而且评分矩阵一般非常稀疏。 pre(a,b)=Ta+ bEN sim(a.b) (7) 针对数据分布局部范围内稠密这一特性,近邻 针对空白评分数据,采用的是缺省投票机制, 用户选择算法将用户信息同样采用kd-trce索引结 即用该医院的平均评分值填充空白值。 构组织起来,可以快速找到距离该医院一定范围内 的用户集合,该集合是所有用户集合的一个很小的 5实验验证 子集。选取一定范围内的用户能够覆盖大多数的评 分记录。 5.1辅助诊疗实验 4.3.2带“分级诊疗”的医院累积评分 本文所使用的测试数据来自超星医疗知识库。 每次用户就诊后对就诊的医院的治疗效果、收 为了模拟症状表述不全的情况,每种疾病的症状信 费水平、服务态度这3个方面进行评分,系统根据 息都被拆分为两部分。实验在医疗知识库中疾病的 种类数为100和1000时分别进行了测试。 3项各自的权重计算出评分的平均值,均值计算函 统计实验结果的策略是:如果诊断结果的前10 数为 avgScore=5effect+3charge+2attitude 位中出现该疾病,则认为成功召回;如果诊断结果 (3) 中的前3位中出现该疾病,则认为诊断结果准确。 10 其中治疗效果、收费水平、服务态度3者之间的权 1)数据库中的疾病种类为100时,选取了10 重暂时定为5:3:2,这3者的权重比是通过查阅相关 种疾病,共20个测试用例,实验结果如表1所示。 资料与调查问卷的方式相结合得出的。 表1100种疾病时的辅助诊断结果 计算医院治疗每种疾病的累积评分时采用动态 Table 1 The results of auxiliary diagnoses on 100 diseases 的惩罚机制,惩罚系数设为: 位置 初步 优化 位置 初步 优化 1 9 14 7 1 0 Ld-Lhl+1 (4) 8 0 0 式中:Ld表示疾病标注的默认等级,Lh为实际所去 9 0 0 的医院。当Ld=Lh时=1,对该评分不惩罚;当Ld- Lh越大时a越小,对该评分的惩罚越严重,a在计 10 0 算每项均值时作为系数使用。 其他 0 完整的医院累积评分计算公式为 0 accScore= 5effect+3charge+attitude loguserounter 2)数据库中疾病种类为1000时,选取100种, 10 (5) 共200个测试用例,实验结果如表2所示

if (p 支配 Q.front()) Q=Q-Q.front(); Q=Q+p; /*若 p 支配 Q 的头节点,将 Q 头节点删除,将 p 插入 Q*/ 4.3 局部范围内基于协同过滤的评分算法 这一步要解决的问题就是结合用户信息与医院 信息,对 Skyline 中的医院集合进行评分与排序,算 法提出了局部范围内基于协同过滤的评分方式。该 评分算法能够充分利用用户数据以及用户之间的相 似性,而且针对该领域中数据分布的局部稠密性, 提出了近邻用户的筛选机制,有效降低了算法的时 间复杂度。 4.3.1 近邻用户的选择 传统的基于用户的协同过滤算法局限性在于不 能很好地适应大规模用户和物品数据[13] ,假定 M 个 用户和 N 个物品,在最坏的情况下,评估最多包含 这 N 个物品的所有 M 个用户的记录,因此复杂度较 高,而且评分矩阵一般非常稀疏。 针对数据分布局部范围内稠密这一特性,近邻 用户选择算法将用户信息同样采用 kd-tree 索引结 构组织起来,可以快速找到距离该医院一定范围内 的用户集合,该集合是所有用户集合的一个很小的 子集。选取一定范围内的用户能够覆盖大多数的评 分记录。 4.3.2 带“分级诊疗”的医院累积评分 每次用户就诊后对就诊的医院的治疗效果、收 费水平、服务态度这 3 个方面进行评分,系统根据 3 项各自的权重计算出评分的平均值,均值计算函 数为 avgScore = 5effect+3charge+2attitude 10 (3) 其中治疗效果、收费水平、服务态度 3 者之间的权 重暂时定为 5:3:2,这 3 者的权重比是通过查阅相关 资料与调查问卷的方式相结合得出的[14]。 计算医院治疗每种疾病的累积评分时采用动态 的惩罚机制,惩罚系数设为 α: α = 1 |Ld−Lh|+1 (4) 式中:Ld 表示疾病标注的默认等级,Lh 为实际所去 的医院。当 Ld=Lh 时 α=1,对该评分不惩罚;当|Ld￾Lh|越大时 α 越小,对该评分的惩罚越严重,α 在计 算每项均值时作为系数使用。 完整的医院累积评分计算公式为 accScore = 5effect+3charge+2attitude 10 log userCounter (5) 式中:effect、charge、attitude 为各项评分的均值, userCounter 为评分的总人数,对评分总人数取对数 是用来平衡规模不同的医院之间评价人数的差别引 起的偏斜。 4.3.3 计算预测评分 1) 确定相似用户集 在经过筛选的用户子集上计算用户相似度时采 用的是 Pearson 相关系数,因为 Pearson 相关系数能 在计算中不考虑平均值的差异,用户相似度计算公 式为 sim(a,b) = ∑ p∈P ( ra,p −r¯a ) (rb,p −r¯b ) √∑ p∈P ( ra,p −r¯a )2 √∑ p∈P ( rb,p −r¯b )2 (6) 相似度系数取值在–1~1 之间,–1 表示完全负 相关,1 表示完全正相关,0 表示不相关。 2) 计算预测值 预测值计算公式为 pre(a,b) = r¯a + ∑ b∈N sim(a,b) ( rb,p −r¯b ) ∑ b∈N sim(a,b) (7) 针对空白评分数据,采用的是缺省投票机制, 即用该医院的平均评分值填充空白值。 5 实验验证 5.1 辅助诊疗实验 本文所使用的测试数据来自超星医疗知识库。 为了模拟症状表述不全的情况,每种疾病的症状信 息都被拆分为两部分。实验在医疗知识库中疾病的 种类数为 100 和 1 000 时分别进行了测试。 统计实验结果的策略是:如果诊断结果的前 10 位中出现该疾病,则认为成功召回;如果诊断结果 中的前 3 位中出现该疾病,则认为诊断结果准确。 1) 数据库中的疾病种类为 100 时,选取了 10 种疾病,共 20 个测试用例,实验结果如表 1 所示。 表 1 100 种疾病时的辅助诊断结果 Table 1 The results of auxiliary diagnoses on 100 diseases 位置 初步 优化 位置 初步 优化 1 9 14 7 1 0 2 5 4 8 0 0 3 3 1 9 0 0 4 0 1 10 0 0 5 1 0 其他 1 0 6 0 0 2) 数据库中疾病种类为 1 000 时,选取 100 种, 共 200 个测试用例,实验结果如表 2 所示。 第 3 期 马钰,等:面对智能导诊的个性化推荐算法 ·355·

·356· 智能系统学报 第13卷 表21000种疾病时辅助诊断结果 纬度数值随机生成,只要将其限制在上述的矩形区 Table 2 The results of auxiliary diagnoses on 1 000 dis- 域即可,医院和疾病的等级信息也随机生成。 eases ②医院的诊疗效果(effect)、收费水平(charge)、 位置 初步 优化 位置 初步 优化 服务态度(attitude)都是医院的固有属性,因此事先 105 116 7 2 2 生成医院擅长治疗的疾病与医院之间的对应集合 2 43 39 8 3 1 S,、收费较低的医院集合S2、服务态度好的医院集 3 14 22 9 3 0 合S 4 7 8 10 1 1 ③对每条评价记录,effect、charge、attitude初始 5 2 其他 > 的评价都是5分。 ④按式(8)~(1O)更新effect、charge、attitude的 6 0 值。 实验结果表明,所选测试数据在此统计策略 (1+)effect, (disease,hospital)ES effect (8) 下,当数据库中疾病种类为100时,召回率为95%, (1-41)effect, (disease,hospital) 准确率为85%,在优化诊断之后,准确率达到95%, charge (1+42)charge,hospital eS2 召回率达到100%;当数据库中疾病种类为1000 (1-42)charge, hospital (9) 时,召回率为91.5%,准确率为81%,在优化诊断之 (1+42)attitude, attitude hospital∈S3 (1-2)attitude,hospitalS3 (10) 后,准确率达到88.5%,召回率达到96%。 5.2推荐技术实验 ⑤给每一项再加一个小的正负随机的扰动4, 推荐算法的质量衡量方法一直是存在争议的, 以模拟评分时的噪音。 甚至有人认为推荐系统的质量根本就不可能直接衡 5.2.2实验方案 量,因为有太多的目标函数。目前最主流的评估方 使用上面生成的模拟数据作为训练数据,再随 案是根据电影领域用户历史评分来估计不同算法的 机选择100名用户,每人2种疾病,距离用户=15km 实验方法,EachMovie数据集和Netfliⅸ数据集是其 的医院作为候选医院,在该测试数据集上运行推荐 中的典型代表,但是很显然,这些数据不可能应用 算法,并记录推荐结果中前3位。 到本文中的推荐算法上,因为文中提出的推荐算法 前面已经说过,就诊时的关注点主要有距离和 是和医疗与导诊密切相关的。基于以上原因,本文 医院的质量,因此,一方面对距离用户范围R内的 中使用合成的数据集,并采用定量和定性结合的方 医院按照距离和治疗对应疾病的综合评分分别排 式评估算法质量。 序,统计推荐的医院在两个序列中的具体分布情 5.2.1生成实验数据 况:另一方面查看并统计推荐的医院在上述S、S2 1)合理性分析 S?这3个集合中分布情况,以此来定性地确定推荐 经过查阅相关医学资料以及调查问卷的方式, 的医院的质量。最终,通过对以上两个指标分布的 得出在选择医院时人们主要关注的有两点:医院与 分析,来半定量地评估推荐算法。 自己的距离,一般对于常见疾病人们倾向于选择距 5.2.3实验结果 离自己近的医院就诊:在医院质量方面,患者主要 推荐结果中排前三的医院在按照评分距离和评 关心的因素是诊疗效果、收费水平、服务态度,对这 分排序的两个序列中的具体分布情况如图2所示。 三者的关注度权重接近于5:3:2。既然人们在就诊 60 口第一次推荐 选择时有这样的倾向性,实际的数据分布也会体现 50 ▣第二次推荐 40 口第三次推着 出这样的特点,那么我们就能按照上面的原则模拟 30 生成实验数据,并且这样的数据具有一定的合理性。 2)数据规模 假定地域范围是44×44km2的一个矩形,有 1...0oo 4 5678910其他 50家医院,医院的等级共有10级,有50种疾病,疾 推荐排名 病的严重等级共有10级,有5000个病人,每人有 图2推荐结果在两个序列中的分布 10条就诊评价记录,共有50000条记录。 Fig.2 The distribution of recommended results in two lists 3)生成数据 由统计结果可得:排名第一的推荐结果两个序 ①医院和用户的地域信息使用经纬度表示,经 列中前6位出现的概率是87%,在前3位出现的概

表 2 1 000 种疾病时辅助诊断结果 Table 2 The results of auxiliary diagnoses on 1 000 dis￾eases 位置 初步 优化 位置 初步 优化 1 105 116 7 2 3 2 43 39 8 3 1 3 14 22 9 3 0 4 7 8 10 1 1 5 1 2 其他 17 8 6 4 0 实验结果表明,所选测试数据在此统计策略 下,当数据库中疾病种类为 100 时,召回率为 95%, 准确率为 85%,在优化诊断之后,准确率达到 95%, 召回率达到 100%;当数据库中疾病种类为 1 000 时,召回率为 91.5%,准确率为 81%,在优化诊断之 后,准确率达到 88.5%,召回率达到 96%。 5.2 推荐技术实验 推荐算法的质量衡量方法一直是存在争议的, 甚至有人认为推荐系统的质量根本就不可能直接衡 量,因为有太多的目标函数。目前最主流的评估方 案是根据电影领域用户历史评分来估计不同算法的 实验方法,EachMovie 数据集和 Netflix 数据集是其 中的典型代表,但是很显然,这些数据不可能应用 到本文中的推荐算法上,因为文中提出的推荐算法 是和医疗与导诊密切相关的。基于以上原因,本文 中使用合成的数据集,并采用定量和定性结合的方 式评估算法质量。 5.2.1 生成实验数据 1) 合理性分析 经过查阅相关医学资料以及调查问卷的方式, 得出在选择医院时人们主要关注的有两点:医院与 自己的距离,一般对于常见疾病人们倾向于选择距 离自己近的医院就诊;在医院质量方面,患者主要 关心的因素是诊疗效果、收费水平、服务态度,对这 三者的关注度权重接近于 5:3:2。既然人们在就诊 选择时有这样的倾向性,实际的数据分布也会体现 出这样的特点,那么我们就能按照上面的原则模拟 生成实验数据,并且这样的数据具有一定的合理性。 2) 数据规模 假定地域范围是 44×44 km2 的一个矩形,有 50 家医院,医院的等级共有 10 级,有 50 种疾病,疾 病的严重等级共有 10 级,有 5 000 个病人,每人有 10 条就诊评价记录,共有 50 000 条记录。 3) 生成数据 ① 医院和用户的地域信息使用经纬度表示,经 纬度数值随机生成,只要将其限制在上述的矩形区 域即可,医院和疾病的等级信息也随机生成。 ② 医院的诊疗效果 (effect)、收费水平 (charge)、 服务态度 (attitude) 都是医院的固有属性,因此事先 生成医院擅长治疗的疾病与医院之间的对应集合 S1、收费较低的医院集合 S2、服务态度好的医院集 合 S3。 ③对每条评价记录,effect、charge、attitude 初始 的评价都是 5 分。 ④按式 (8)~(10) 更新 effect、charge、attitude 的 值。 effect = { (1+∆1)effect, ⟨ disease,hospital⟩ ∈ S 1 (1−∆1)effect, ⟨ disease,hospital⟩ < S 1 (8) charge = { (1+∆2)charge, hospital ∈ S 2 (1−∆2)charge, hospital < S 2 (9) attitude = { (1+∆2)attitude, hospital ∈ S 3 (1−∆2)attitude, hospital < S 3 (10) ⑤ 给每一项再加一个小的正负随机的扰动 Δ0, 以模拟评分时的噪音。 5.2.2 实验方案 使用上面生成的模拟数据作为训练数据,再随 机选择 100 名用户,每人 2 种疾病,距离用户 R=15 km 的医院作为候选医院,在该测试数据集上运行推荐 算法,并记录推荐结果中前 3 位。 前面已经说过,就诊时的关注点主要有距离和 医院的质量,因此,一方面对距离用户范围 R 内的 医院按照距离和治疗对应疾病的综合评分分别排 序,统计推荐的医院在两个序列中的具体分布情 况;另一方面查看并统计推荐的医院在上述 S1、S2、 S3 这 3 个集合中分布情况,以此来定性地确定推荐 的医院的质量。最终,通过对以上两个指标分布的 分析,来半定量地评估推荐算法。 5.2.3 实验结果 推荐结果中排前三的医院在按照评分距离和评 分排序的两个序列中的具体分布情况如图 2 所示。 0 10 20 30 40 50 60 1 2 3 4 5 6 7 8 9 10 ڢЂ じ̬⁍ᣔ㡼 じθ⁍ᣔ㡼 じ̵⁍ᣔ㡼 Ắ⢳/% ᣔ㡼ᢾह 图 2 推荐结果在两个序列中的分布 Fig. 2 The distribution of recommended results in two lists 由统计结果可得:排名第一的推荐结果两个序 列中前 6 位出现的概率是 87%,在前 3 位出现的概 ·356· 智 能 系 统 学 报 第 13 卷

第3期 马钰,等:面对智能导诊的个性化推荐算法 ·357· 率是62%;排名第二的推荐结果在前6位出现的概 health-aware recommender systems[C]//Proceedings of 率是84%,在前3位出现的概率是51.5%:推荐结果 2011 IEEE International Conference on Consumer Electron- 排在前6位出现的概率是81.5%,在前3位出现的 ics.Las Vegas,NV.USA.2011. [2]PATTARAINTAKORN P,ZAVERUCHA G M,CER- 概率是54%。可以看出,推荐的医院主要出现在上 CONE N.Web based health recommender system using 述两个列表中的前6位,其概率大于81%,出现在 rough sets,survival analysis and rule-based expert systems 前3位的概率大于51%,而且出现在前6位的概率 [C]//Proceedings of the 11th International Conference on 随着推荐结果的次序依次从高到低线性排列,这符 Rough Sets,Fuzzy Sets,Data Mining and Granular Comput- 合预期的结果,推荐的医院至少在距离和质量两方 ing.Toronto,Canada,2007:491-499. [3]GONG Jibing,WANG Lili,SUN Shengtao,et al.iBole:a 面之一有优势,而且越处于推荐结果前列的医院其 hybrid multi-layer architecture for doctor recommendation 占优的可能性应该越大。 in medical social networks[J].Journal of computer science 推荐结果中前3的医院在上述S1、S2、S,这 and technology,2015,30(5):1073-1081. 3个集合中分布情况如图3所示。 [4徐守坤,吴伟伟.基于语义的医疗资源均衡推荐算法[ 计算机工程,2015,41(9):74-79 120[口第一次推荐 100 口第二次推荐 XU Shoukun,WU Weiwei.Balance recommendation al- 80 口第三次推荐 gorthm for medical resources based on semantic[J].Com- 60 puter engineering,2015,41(9):74-79 [5]PAPADIAS D,TAO Yufei,FU G,et al.An optimal and 20 0 progressive algorithm for skyline queries[Cl//Proceedings of 2 集合编号 2003 ACM SIGMOD International Conference on Manage- ment of Data.San Diego,USA,2003:467-478 图3推荐结果在3个集合中的分布 [6]CHAN C Y,JAGADISH H V,TAN K L,et al.Finding k- Fig.3 The distribution of recommended results in three dominant skylines in high dimensional space[C]//Proceed- sets ings of 2006 ACM SIGMOD International Conference on 推荐的医院在诊疗效果、收费水平、服务态度 Management of Date.Chicago,IL,USA,2006:503-514. 这3项中至少有2项占优的概率:结果一为82.5%, [7]VLACHOU A,DOULKERIDIS C,KOTIDIS Y.Angle- 结果二为73.5%,结果三为66%,至少有一项占优的 based space partitioning for efficient parallel skyline compu- 概率大于95%。这就说明,推荐的医院从一定程度 tation[C]//Proceedings of 2008 ACM SIGMOD Internation- al Conference on Management of Data.Vancouver,Canada, 上来看是较优的,而且推荐结果中位置越靠前的就 2008:227-238 越优,推荐结果具有一定的合理性。 [8]SARKAS N.DAS G,KOUDAS N.et al.Categorical sky- lines for streaming data[Cl//Proceedings of 2008 ACM SIG- 6结束语 MOD International Conference on Management of Data. 本文通过对医疗与导诊领域的深人研究,发现 Vancouver.Canada.2008:239-250. [9]BORZSONYI S,KOSSMANN D.STOCKER K.The sky- 了医疗领域的推荐与传统推荐在本质上的区别,提 line operator[C]//Proceedings of the 17th International Con- 出了一种面向智能导诊的个性化推荐算法,以辅助 ference on Data Engineering.Washington,DC,USA,2001: 诊疗结果为基础,将Skyline查询和局部范围内基 421-430. 于协同过滤的评分方式相结合。算法能根据用户的 [10]CHAN CY,ENG P K,TAN K L.Efficient processing of 症状表现与地理位置等个人信息,为用户提供个性 skyline queries with partially-ordered domains[Cl//Pro- ceedings of the 21st International Conference on Data En- 化的推荐结果。并且通过模拟生成实验数据,半定 gineering.Tokoyo,Japan,2005:190-191. 量地验证了推荐算法的合理性和有效性。本文中提 [11]GUO Qinglin.The similarity computing of documents 出的算法和思路对于有效地利用电子医疗数据,合 based on VSM[C]//Proceedings of the 32nd Annual IEEE 理分配和使用现有的医疗资源,缓解就诊压力,提 International Computer Software and Applications.Turku, 升就医质量意义重大,有着很大的实用价值与社会 Finland,.2008:585-586. [12]ROBINSON J T.A search structure for large mul-tidimen 意义。 tional dynamic indexes[Cl//Proceedings of 1981 Interna- 参考文献: tional Conference on Management of Data.Ann Arbor, Michigan,1981:10-18. [1]LOPEZ-NORES M,BLANCO-FERNANDEZ Y,PAZOS- [13]HERLOCKER JL.KONSTAN J A,RIEDL J.Explaining ARIAS JJ,et al.Property-based collaborative filtering for collaborative filtering recommendations[Cl/Proceedings of

率是 62%;排名第二的推荐结果在前 6 位出现的概 率是 84%,在前 3 位出现的概率是 51.5%;推荐结果 排在前 6 位出现的概率是 81.5%,在前 3 位出现的 概率是 54%。可以看出,推荐的医院主要出现在上 述两个列表中的前 6 位,其概率大于 81%,出现在 前 3 位的概率大于 51%,而且出现在前 6 位的概率 随着推荐结果的次序依次从高到低线性排列,这符 合预期的结果,推荐的医院至少在距离和质量两方 面之一有优势,而且越处于推荐结果前列的医院其 占优的可能性应该越大。 推荐结果中前 3 的医院在上述 S1、S2、S3 这 3 个集合中分布情况如图 3 所示。 0 20 40 60 80 100 120 0 1 2 3 䯲ऴ㑂ण じ̬⁍ᣔ㡼 じθ⁍ᣔ㡼 じ̵⁍ᣔ㡼 ᪜䛻 图 3 推荐结果在 3 个集合中的分布 Fig. 3 The distribution of recommended results in three sets 推荐的医院在诊疗效果、收费水平、服务态度 这 3 项中至少有 2 项占优的概率:结果一为 82.5%, 结果二为 73.5%,结果三为 66%,至少有一项占优的 概率大于 95%。这就说明,推荐的医院从一定程度 上来看是较优的,而且推荐结果中位置越靠前的就 越优,推荐结果具有一定的合理性。 6 结束语 本文通过对医疗与导诊领域的深入研究,发现 了医疗领域的推荐与传统推荐在本质上的区别,提 出了一种面向智能导诊的个性化推荐算法,以辅助 诊疗结果为基础,将 Skyline 查询和局部范围内基 于协同过滤的评分方式相结合。算法能根据用户的 症状表现与地理位置等个人信息,为用户提供个性 化的推荐结果。并且通过模拟生成实验数据,半定 量地验证了推荐算法的合理性和有效性。本文中提 出的算法和思路对于有效地利用电子医疗数据,合 理分配和使用现有的医疗资源,缓解就诊压力,提 升就医质量意义重大,有着很大的实用价值与社会 意义。 参考文献: LOPEZ-NORES M, BLANCO-FERNÁNDEZ Y, PAZOS￾ARIAS J J, et al. Property-based collaborative filtering for [1] health-aware recommender systems[C]//Proceedings of 2011 IEEE International Conference on Consumer Electron￾ics. Las Vegas, NV, USA, 2011. PATTARAINTAKORN P, ZAVERUCHA G M, CER￾CONE N. Web based health recommender system using rough sets, survival analysis and rule-based expert systems [C]//Proceedings of the 11th International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Comput￾ing. Toronto, Canada, 2007: 491–499. [2] GONG Jibing, WANG Lili, SUN Shengtao, et al. iBole: a hybrid multi-layer architecture for doctor recommendation in medical social networks[J]. Journal of computer science and technology, 2015, 30(5): 1073–1081. [3] 徐守坤, 吴伟伟. 基于语义的医疗资源均衡推荐算法[J]. 计算机工程, 2015, 41(9): 74–79. XU Shoukun, WU Weiwei. Balance recommendation al￾gorthm for medical resources based on semantic[J]. Com￾puter engineering, 2015, 41(9): 74–79. [4] PAPADIAS D, TAO Yufei, FU G, et al. An optimal and progressive algorithm for skyline queries[C]//Proceedings of 2003 ACM SIGMOD International Conference on Manage￾ment of Data. San Diego, USA, 2003: 467–478. [5] CHAN C Y, JAGADISH H V, TAN K L, et al. Finding k￾dominant skylines in high dimensional space[C]//Proceed￾ings of 2006 ACM SIGMOD International Conference on Management of Date. Chicago, IL, USA, 2006: 503–514. [6] VLACHOU A, DOULKERIDIS C, KOTIDIS Y. Angle￾based space partitioning for efficient parallel skyline compu￾tation[C]//Proceedings of 2008 ACM SIGMOD Internation￾al Conference on Management of Data. Vancouver, Canada, 2008: 227–238. [7] SARKAS N, DAS G, KOUDAS N, et al. Categorical sky￾lines for streaming data[C]//Proceedings of 2008 ACM SIG￾MOD International Conference on Management of Data. Vancouver, Canada, 2008: 239–250. [8] BÖRZSÖNYI S, KOSSMANN D, STOCKER K. The sky￾line operator[C]//Proceedings of the 17th International Con￾ference on Data Engineering. Washington, DC, USA, 2001: 421–430. [9] CHAN C Y, ENG P K, TAN K L. Efficient processing of skyline queries with partially-ordered domains[C]//Pro￾ceedings of the 21st International Conference on Data En￾gineering. Tokoyo, Japan, 2005: 190–191. [10] GUO Qinglin. The similarity computing of documents based on VSM[C]//Proceedings of the 32nd Annual IEEE International Computer Software and Applications. Turku, Finland, 2008: 585–586. [11] ROBINSON J T. A search structure for large mul-tidimen￾tional dynamic indexes[C]//Proceedings of 1981 Interna￾tional Conference on Management of Data. Ann Arbor, Michigan, 1981: 10-18. [12] HERLOCKER J L, KONSTAN J A, RIEDL J. Explaining collaborative filtering recommendations[C]//Proceedings of [13] 第 3 期 马钰,等:面对智能导诊的个性化推荐算法 ·357·

·358· 智能系统学报 第13卷 2000 ACM Conference on Computer Supported Cooperat- 张岩,男,1962年生,副教授,主 ive Work.Philadelphia,Pennsylvania,USA.2000:241- 要研究方向为数据质量和生物信息 250. 学。发表学术论文20余篇。 [14]RICCI F,ROKACH L,SHAPIRA B,et al.Recommender systems handbook[M].Boston,MA:Springer,2011:1-35. 作者简介: 马钰,男,1993年生,硕士研究 王宏志,男,1978年生,教授,博 生,主要研究方向为数据库、数据挖 士生导师,主要研究方向为大数据管 掘、大数据。发表学术论文2篇。 理,包括数据质量、XML数据管理和 图数据管理。获得省部级科技进步奖 2项,发表学术论文200余篇。 2018第三届机电一体化和自动化技术国际会议(ICMAT2018) 2018 3rd International Conference on Mechatronics and Automation Technology (ICMAT 2018) ICMAT2018是由皇家墨尔本理工大学,AUT大学,斯文本科技大学,澳大利亚国立大学和香港机械工程师 协会联合主办。本次会议将于2018年9月27-一29日在泰国普吉岛举办。ICMAT2016和ICMAT2017已成功在 奥克兰和墨尔本举行。 欢迎在机电一体化和自动化技术,在处理理论的新发展,分析建模与仿真、实验、示范和数值,高级部署和案 例研究,实验室或现场运行试验结果的投稿。此次会议将为世界各地机电一体化和自动化技术这一领域的科研 专家们提供面对面的交流机会。 【出版与检索】 所有注册和提交的论文将发表在会议论文集,并提交EI Compendex,Scopus,.Thomson Reuters(WoS),In- spec及其他检索机构检索。 被选中的优秀论文将刊发在国际期刊上。 【征稿主题】 智能机电一体化 光电元件和材料 机器人 激光技术与激光加工 仿生 控制系统建模 自动化和控制系统 仿真技术 Website:http://www.icmat.net/cfp.html

2000 ACM Conference on Computer Supported Cooperat￾ive Work. Philadelphia, Pennsylvania, USA, 2000: 241– 250. RICCI F, ROKACH L, SHAPIRA B, et al. Recommender systems handbook[M]. Boston, MA: Springer, 2011: 1–35. [14] 作者简介: 马钰,男,1993 年生,硕士研究 生,主要研究方向为数据库、数据挖 掘、大数据。发表学术论文 2 篇。 张岩,男,1962 年生,副教授,主 要研究方向为数据质量和生物信息 学。发表学术论文 20 余篇。 王宏志,男,1978 年生,教授,博 士生导师,主要研究方向为大数据管 理,包括数据质量、XML 数据管理和 图数据管理。获得省部级科技进步奖 2 项,发表学术论文 200 余篇。 2018 第三届机电一体化和自动化技术国际会议 (ICMAT 2018) 2018 3rd International Conference on Mechatronics and Automation Technology (ICMAT 2018) ICMAT 2018 是由皇家墨尔本理工大学,AUT 大学,斯文本科技大学,澳大利亚国立大学和香港机械工程师 协会联合主办。本次会议将于 2018 年 9 月 27—29 日在泰国普吉岛举办。ICMAT2016 和 ICMAT2017 已成功在 奥克兰和墨尔本举行。 欢迎在机电一体化和自动化技术,在处理理论的新发展,分析建模与仿真、实验、示范和数值,高级部署和案 例研究,实验室或现场运行试验结果的投稿。此次会议将为世界各地机电一体化和自动化技术这一领域的科研 专家们提供面对面的交流机会。 【出版与检索】 所有注册和提交的论文将发表在会议论文集,并提交 EI Compendex, Scopus, Thomson Reuters (WoS), In￾spec 及其他检索机构检索。 被选中的优秀论文将刊发在国际期刊上。 【征稿主题】 智能机电一体化 光电元件和材料 机器人 激光技术与激光加工 仿生 控制系统建模 自动化和控制系统 仿真技术 Website: http://www.icmat.net/cfp.html ·358· 智 能 系 统 学 报 第 13 卷

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
已到末页,全文结束
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有