第7卷第4期 智能系统学报 Vol.7 No.4 2012年8月 CAAI Transactions on Intelligent Systems Aug.2012 D0I:10.3969/j.issn.1673-4785.201205041 网络出版地址:htp:/wnw.cmki.net/kcms/detail/23.1538.TP.20120720.1005.001.html 面向学术社区的专家推荐模型 李春英,汤庸,陈国华2,汤志康3 (1.肇庆学院计算机学院,广东肇庆526061;2.华南师范大学计算机学院,广东广州510631;3.广东技术师范学 院计算机学院,广东广州510665) 摘要:在学术社区提供的服务中,对于研究者特别是青年研究者来说,专家推荐是一个必不可少的部分.目前提供 学术信息服务的所有中文搜索引擎中,都没有提供用户感兴趣的专家推荐服务.因此,提出了一个面向学术社区的 专家推荐模型.使用改进的H参数对学者年时间内发表的论文成果进行量化,获取专家列表:使用概率主题模型 从作者发表的论文中提取主题向量作为学者的研究方向;根据矩阵奇异值分解对构建的词项-文档矩阵进行降维,进 而生成词项词项关系矩阵,实现对搜索关键词的查询扩展,并计算查询扩展向量与作者主题向量之间的相关度,根 据相关度大小进行排序推荐.在SCHOLAT(学者网)数据集上验证模型的有效性,实验结果表明提出的模型达到了 预期的效果。 关键词:学术专家推荐;H参数;概率主题模型;查询扩展; 中图分类号:TP393文献标志码:A文章编号:16734785(2012)04036505 Research on an expert recommendation model based on the scholar community SCHOLAT LI Chunying',TANG Yong,CHEN Guohua2,TANG Zhikang (1.School of Computer,Zhaoging University,Zhaoging 526061,China;2.School of Computer Science,South China Normal University, Guangzhou 510631,China:3.School of Computer Science,Guangdong Polytechnic Normal University,Guangzhou 510665,China) Abstract:Among the services offered by the academic community,expert recommendation is an indispensable com- ponent for researchers,especially young researchers.At present,expert recommendation services have not been of- fered to users on all of the Chinese search engines offering academic information services.Thus,a scholar commu- nity oriented expert recommendation model was proposed.The H-index was improved to quantify the achievements of a scholar based on the published papers in the last n years,and then the expert list was given based on the im- proved H-index.The research interests of a researcher were obtained based on the topics extracted by the probabi- listic topic model.In order to carry out high recall retrieval,a query expansion strategy was used:the singular val- ue decomposition step was applied to the term-document matrix to reduce the dimensionality of the matrix and obtain the term-term relationship matrix,and then the highly related terms were selected to make up the expanded query. Finally,the relevance between the expanded query and the scholar's topic vectors was calculated and the results were represented in a descending order.An experiment was conducted on the dataset collected from an existing scholar community,SCHOLAT,to verify the effectiveness of the proposed model.The experimental results demon- strate that the proposed model produces the expected results. Keywords:expert recommendation;H index;probabilistic topic model;query expansion 学术合作研究越来越受到人们的重视四.在学术 收稿日期:2012-0524.网络出版日期:201207-20. 基金项目:国家自然科学基金资助项目(60970044):广东省科技计划 研究领域有相同研究兴趣或者工作在不同学科、领域 资助项日(2010B010600031);广州市科技计划资助项目 的科研人员常常组成一个团队进行合作,显然这使得 (2010J-D00511). 通信作者:李春英.E-mail:zpxyley(@163.com, 更多的问题得到了解决.比如一篇电子商务方面的论
·366 智能系统学报 第7卷 文,可能是从事计算机研究、经济学研究和管理学研 作者感兴趣,并可能给他们未来的研究工作带来极 究的学者共同的智慧结晶.实际上,学者间高水平的 大方便.下面将分别阐述面向学术社区的专家推荐 合作具备更强的生产力.因此,找到潜在的成功合作 模型的详细设计和实验评估,系统的整体架构如图 者对于研究者特别是青年研究者来说是倍受欢迎的。 1所示. 然而,团队合作常常局限于同一学科、同一科研院所 Weh接口 的内部.对于我国大多数二三类院校的研究者而言, 因缺乏学术带头人导致众多研究者特别是青年研究 用 者无法超越现实的距离而徘徊不前.而国内外大多数 斋 扩展词库 学术搜索引擎,如中国知网、万方数据知识服务平台、 维普资迅、Scirus、Google Scholar、CiteSeer、CiteULike、 检索 查询扩展 DBLP C-DBLP等都具备了文献检索的功能,但他们 结果生成 都没有对有着相似研究兴趣和潜在合作关系的学者 相关度计算 进行有效地挖掘和推荐, 为了有效地挖掘潜在的合作者并进行推荐,本 成果量化值库 文提出了一个面向学术社区的专家推荐系统模型。 主题词库 在这个学术社区内,用户可以按照关键字搜索相关 论文;系统可以根据用户的研究兴趣,为用户自动推 图1系统的整体架构 Fig.1 The system architecture 荐最新的相关论文;另外还可以自动管理用户的学 术资料,如果用户有新论文发表出来,当用户登录 2 模型的详细设计 时,系统将会提醒用户将该论文收藏到自己的主页 2.1 成果量化 中,这样就极大地方便了用户对自己资料的管理,同 对于获得诺贝尔奖的科学家而言,他们研究工 时可以让其他用户及时地了解到自己的最新工作进 作的影响和主题相关性是毋庸置疑的.但对于大多 展2.除常规功能外,本文着重论述学术专家推荐 数的研究人员而言,该如何量化个人科研成果累积 模型的设计及实验测评.该模型包括3个部分:1) 的影响和相关性?科研人员公开发表的论文记录显 通过分析学者公开发表的论文被引用的次数、录用 然是对量化有用的信息.各个科研机构往往是利用 期刊的影响因子以及发表论文的数量3个方面对学 科研人员有限的成果资源,进行比较和评价.虽然这 者的学术价值进行量化;2)利用主题模型提取学者 种量化可能使人反感,但在高校、科研院所,它是科 的研究方向;3)对搜索关键词进行查询扩展,并计 研人员职务招聘、晋升职称和补助奖励的有效依据, 算其与作者主题词之间的相关度,按相关度排序在 J.E.Hirsch在文献[5]中提出利用个人在过去n年 推荐系统中给出用户需要的学者专家列表,其中用 时间内发表的论文数量p、论文被引用的次数c和 户可按影响力进行排序, 录用期刊的影响因子去评估个人的科研成果,即所 1专家推荐模型的相关工作 谓的H参数.J.E.Hirsch的H参数在物理学科[6列 和在科学计量学8]方面得到了验证并获得了广泛 专家推荐模型是一种面向学术领域的学术推荐 的认同,表明该参数对于量化个人的科研成果是有 搜索引擎.对于学术推荐,近年来人们开展了大量的 效的.J.E.Hirsch提出H参数的具体量化公式s)如 研究工作并取得了丰硕的研究成果.文献[3]在Ci- teULike社区结合了传统的协同过滤的优点和概率 式(1)所示. 主题模型进行建模,为用户推荐论文.文献「4提出 H=-c (1) 一个基于合作发现的搜索引擎,为学者推荐潜在的 1+&1 p 学术研究合作伙伴.对于学术搜索引擎,文献[2]已 式(1)中未直接考虑期刊的影响因子对H参数的影 经做了非常详尽的闸述,在此不再赘述, 响.因此对其加以改进,使其能够更加准确地量化个 总之,在目前提供学术信息服务的所有中文搜 人的科研成果 索引擎中,都没有提供推荐用户感兴趣的领域专家 令A表示某期刊在第y-2年和第y-1年出版 服务.如果结合学术社区提供一个易于使用的专家 的所有文章在第y年被引用的次数之和,B表示该 推荐服务,一定能使科研工作者特别是青年科研工 期刊在第y-2年和第y-1年所发表的文章篇数之
第4期 李春英,等:面向学术社区的专家推荐模型 ·367· 和,则该期刊在第y年的影响因子巴,=合假设一 2.3查询扩展 查询扩展是查询优化的一个分支研究方向,也 个人在过去n年时间内发表论文p篇,C,表示第i 是目前改善信息检索中查全率和查准率的关键技术 篇论文被引用的次数,F,表示收录第i篇论文的期 之一.查询扩展是指为了保证用户搜索时使用的关 刊当年的影响因子,改进的H参数如式(2)所示 键词和作者主题词相关,需将用户搜索时使用的关 C:×IF 键词进行语义扩展,把与原关键词语义相关的词或 H= (2) 词组添加到原查询中,得到比原查询更长的新查询, ,C:×IF 以便更完整、更准确地描述原查询所隐含的语义,帮 1+ 助其提供更多有利于判断文档相关性的信息,提高 ∑F, 检索的查全率和查准率。 2.2概率主题模型 隐性语义索引(latent semantic indexing,LSI)W 概率主题模型越来越多地应用于图像处理和自 用于发现文本中词项-文档之间的语义关系.在LS 然语言处理领域.在自然语言处理领域中,主题可以 模型中,词项-文档矩阵C用于表示词项和文档之 看成是词项的概率分布.主题模型通过词项在文档 间的关系,C=(C),其中C表示第i个词项在第j 级的共现信息抽取出语义相关的主题集合,并能够 篇文档中的权重值,即第i个词项在第j篇文档中出 将词项空间中的文档变换到主题空间,得到文档在 现的次数. 低维空间中的表达.这为语料库挖掘、文档分类和信 LSI通过奇异值分解对高维稀疏的词项-文档 息检索工作提供了极大的便利.本文将使用主题模 矩阵构造低阶最佳近似,以减轻计算的复杂度.适用 型抽取作者全部文章的主题信息,进而形成作者研 奇异值分解降维的基本思想为:假设Cm×m是词项 文档矩阵;m是词项空间的维度,n是文档个数,则 究方向的主题集合 CC是m阶对称方阵,其元素(i,)代表了词项i和 使用主题模型对文档的生成过程进行模拟,再 词项j的共现次数,反映了任意2个词项(i,)之间 通过参数估计得到各个主题.最简单的主题模型是 的相似度.则 LDA(latent Dirichlet allocation)[9.假定p,表示主题 1)令rank(C)=r,则CC的特征值为入,≥ t中的词项概率分布;0,表示第j篇文档的主题概率 入2≥…≥入,>0,入+1=入,+2=…=入m=0,令0:= 分布;”、0,又作为多项式分布的参数分别用于生成 单词和主题,服从Dirichlet分布;T代表主题数目;M √入(i=1,2,…,r),0:称为C的奇异值. 代表文档数目;N表示第j篇文档的长度;ω,和乙 2)存在正交矩阵Umx,、Vmx,和广义对角阵三,x (其中#=:)使得C=UV,则CC= 分别表示第j篇文档中第n个单词及其主题;a和B UXVVSU-UU. 是Dirichlet分布的参数,通常是固定值且是对称分 布的o] 对于给定的矩阵C和正整数k(k≤r),找到一 个矩阵Ck,使用Frobenius范数来估算C-Ck的误 则对于语料库中的每一篇文档o,LDA的生成 过程如下: 差,即‖C-Cp=√o+1+o+2…+o,计算并且 1)对主题采样p,~Dir(B),te[1,T]; 输出(CC)kxm=UU,作为CCT降维后的最佳近 2)采样主题概率分布0,~Dir(a); 似,其中的行向量显示了某一词项与所有其他词项 3)采样文档的单词数目W~Poiss(); 的相关程度。 4)对文档j中的每个单词n: 2.4相关度计算 ①选择隐含主题Z,.~Multinomial(0,); 当用户进行查询请求时,首先将关键词经过中文 分词处理,然后对其分词结果进行查询扩展,并将所有 ②生成一个单词o.~Multinomial(pz,), 结果作为查询关键词向量·的分量,个数作为关键词 这个过程表明了从每一篇文档中提取主题词的 向量空间的维数.最后使用Salton的TF-DF公式计算 过程.对于给定的语料库,根据给定的最优化目标函 向量U中每个关键词分量的权值,详见式(3). 数,使用Gibbs参数估计方法得到对参数的估计值. talg(八+0.1) 利用训练好的模型对新文档进行推断,发现T个主 (3) 题,进而将指定的词项空间表达的文档分解降维,得 到所需要的主题集合 ∑()2xg(N+0.1) n
·368 智能系统学报 第7卷 式中:t,表示关键词分量U在主题向量T4中出现的 不包括英文文献,导致总体量化值偏低,但与期望值 次数,N表示主题词库中主题向量的总数,nk表示主 相似.按职务量化求均值后的结果如表1所示. 题词库中含有关键词U的主题向量数.因此,查询关 表1学者成果量化值 键词被扩展为一个查询关键词向量:向量的维数就是 Table 1 Quantify the achievements of a scholar 分词后的中文词语个数,向量每一维分量的大小就是 D 职务 H参数平均值 每个分量的权值.对每一个主题向量Ta,每个主题分 教授/博士生导师 20.32 量的权值取文档主题的概率分布值.因此主题向量分 教授/硕士生导师 13.63 量的权值可用其对应的概率分布值表示即Pa=[Pa 副教授 3.97 P.,…Pa].此时,要计算关键词和主题向量的相关 讲师 0.98 度,可以认为是向量U和向量Ta之间的相关度,而计 算向量之间的相关度,可以使用向量夹角余弦系数进 3.2概率主题模型实验 行衡量,如式(4)所示,最后按相关度大小进行排序并 实验中,设定Gibbs算法的迭代次数是1000 将结果页面推荐给用户, 次,经多次实验,Dirichlet的先验参数a和B取值为 similarity(U,T)=cos 0 α=20/K,B=0.01,起到了平滑数据的作用.采用 Perplexity评估方法(如式(5)所示)确定最佳主题 ∑(U×Pa,) 个数T=200,如图2所示.在SCHOLAT数据集上将 (4) 作者全部文章的标题和摘要合并后分词,将分词后 ×P 的词项集合和最佳T值作为LDA算法的输入项,得 到每个作者论文的潜在主题集合,将每个潜在主题 3 实验评估 下概率最大的词项提取出来构成每个作者研究方向 3.1成果量化实验 向量T,并将每个主题的概率分布值作为其在向量 量化计算关键在于数据库的设计和查询算法. Pa中的权值 论文和作者是多对多的关系,为了分担部分计算压 力、提高查询性能,需提前计算好部分数据结果.因 perplexity(D 5 ∑N 此,需将SCHOLAT数据集中的数据分成3个部分. 式中:N.为文本d的长度,p(d)是待测试模型产生 1)论文信息表:论文D(主键)、论文名称、作 文档da的概率 者、作者单位、发表刊物、影响因子、出版年份、参考 文献、引用次数. 2)论文作者关系表:论文D(外键)、作者 50*10 45 ◆LDA 3)作者信息表:作者D(主键)、作者名称、作者 40 单位、研究方向、C值(取自名C,×E,)、F值(取自 35 存E,)小H值 30 25 将论文信息表中的作者(合作者)、作者单位进行 40 80120160200 分词处理并将结果存入论文作者关系表、作者信息表 主题个数 当有信息更新时,系统将论文信息处理后分别存入论 图2主题个数与困惑度的变化关系 文信息表、论文作者关系表和作者信息表,并更新C值 Fig.2 Relation of number of topics and perplexity 和F值字段,进而更新作者信息表的H值。 3.3查询扩展及相关度计算实验 从学者网(SCHOLAT)数据集中选取汤庸等 从论文库中抽取成果量化值大于5的计算机相 100位学者在2006年1月1日一2010年12月31 关研究方向的100个作者的2513篇论文,将每一 日5年共2513篇论文进行量化,从中剔除了引用 个作者名下的文章标题和摘要合并成一篇文档,则 次数为0的论文373篇,实际参加测试的论文数目 参与测试的文档数目为100,然后对100篇文档进 为2140篇,实验所需期刊影响因子数据来源于中 行分词,去掉停用词等没有实际意义的信息后,共 国科技期刊引证报告(核心版)和维普资讯网.实验 175910个词项参与实验,编写实验源程序建立词 结果显示量化模型有效.因SCHOLAT数据集目前 项-文档共生矩阵C,使用Lanczos算法计算SVD,对
第4期 李春英,等:面向学术社区的专家推荐模型 ·369. 所建立的高维稀疏的词项-文档矩阵分解降维.实验 research output[J].The National Academy of Sciences of 取得最佳K值,K=53853,计算并输出C,进而输 the USA,2005,102(46):16569-16572. 出A=CC,则矩阵A为词项-词项的相关度矩阵, [6]POPOV S B.A parameter to quantify dynamics of a researc- A表示词项u和词项v的相关度权值.查询时将与 her's scientific activity[EB/OL].[2011-11-03].http:// 用户关键词相关度最大的前200个词项作为扩展词 arxiv.org/abs/physics/0508113. [7]BATISTA P D,CAMPITELI M G,KINOUCHI O,et al.A 项加入到用户的查询中,其中用户的原始查询词项 complementary index to quantify an individual's scientific 最能直接反映用户查询意图,其权值置为最大.在相 research output[J].Scientometrics,2006,68 (1):179 关度计算方面,以单个词项查询作为测试条件,选择 189. 查询扩展向量与作者主题向量进行向量夹角余弦系 [8]BORNMANN L,DANIEL H D.Does the h-index for rank- 数计算时,系统的响应时间为132ms.这显然比设 ing of scientists really work?[].Scientometrics,2005,65 计成与矩阵C中的每一列列向量进行向量夹角余 (3):391392. 弦系数计算的方案的系统响应时间要少很多.因此, [9]BLEI D,NG A,JORDAN M.Latent dirichlet allocation 在查全率和查准率近似的情况下,前者大大降低了 [J].Journal of Machine Learning Research,2003,3: 993-1022. 计算的复杂度,提高了系统的响应时间。 [10]徐戈,王厚峰.自然语言处理中主题模型的发展[J] 4结束语 计算机学报,2011,34(8):1423-1436. XU Ge,WANG Houfeng.The development of topic models 提出了一个面向学术社区的专家推荐系统模 in natural language processing[J].Chinese Journal of 型,给出了系统的总体架构及各个部分的详细设计 Computers,2011,34(8):1423-1436. 方案,在SCHOLAT数据集上做实验验证了模型的 [11]DEERWESTER S,DUMAIS S T,LANDAUER T K,et 有效性.其中,成果量化模型和概率主题模型部分均 al.Indexing by latent semantic analysis[J].Journal of 为离线运算,降低了系统的压力.不足之处是成果量 The American Society for Information Science,1990,41 化模型中选择参与计算的成果时间跨度较小且没有 (6):391407 考虑合作者的权重问题,主要原因是目前SCHOLAT 作者简介: 李春英,女,1978年生,讲师,CCF 数据集有些数据不够充分,以及无法批量获得论文 会员(E200019159M),主要研究方向为 的通信作者信息,下一步应用时将主要解决这些 学术信息检索与推荐、人工智能. 问题。 参考文献: [1]HUANG J,ZHUANG Z,LI J,et al.Collaboration over time:characterizing and modeling network evolution[C]// 汤庸,男,1964年生,教授,博士生 Proceedings of the International Conference on Web Search 导师,博士,中国计算机学会协同计算 and Web Data Mining.Palo Alto,USA,2008:107-116. 专委会副主任,中国人工智能学会网络 [2]陈国华,汤肃,彭泽武,等.基于学术社区的学术搜索引 专委会副主任,广东省计算机学会常务 擎设计[J].计算机科学,2011,38(8):171-175. 副理事长,广东省网络文化协会副会 CHEN Guohua,TANG Yong,PENG Zewu,et al.Design of 长.主要研究方向为数据库、协同计算、 an academic search engine based on the scholar community 云服务软件,发表学术论文多篇 [J].Computer Science,2011,38(8):171-175. 3]WANG Chong,BLEI D M.Collaborative topic modeling for 陈国华,男,1984年生,讲师,博士,主 recommending scientific articles[C]//Proceedings of the 要研究方向为学术信息检索、机器学习. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA,2011:448- 456. [4]CHEN HH,GOU Liang,ZHANG Xiaolong,et al.Collab- seer:a search engine for collaboration discovery[C]//Pro- ceedings of JCDL.Ottawa,Canada,2011:231-240. [5]HIRSCH J E.An index to quantify an individual's scientific