知识工程：面向学术社区的专家推荐模型

团购合买资源类别：文库，文档格式：PDF，文档页数：5，文件大小：706.46KB

第7卷第4期智能系统学报 Vol.7 No.4 2012年8月 CAAI Transactions on Intelligent Systems Aug.2012 D0I:10.3969/j.issn.1673-4785.201205041 网络出版地址：htp:/wnw.cmki.net/kcms/detail/23.1538.TP.20120720.1005.001.html 面向学术社区的专家推荐模型李春英，汤庸，陈国华2，汤志康3 (1.肇庆学院计算机学院，广东肇庆526061；2.华南师范大学计算机学院，广东广州510631；3.广东技术师范学院计算机学院，广东广州510665) 摘要：在学术社区提供的服务中，对于研究者特别是青年研究者来说，专家推荐是一个必不可少的部分.目前提供学术信息服务的所有中文搜索引擎中，都没有提供用户感兴趣的专家推荐服务.因此，提出了一个面向学术社区的专家推荐模型.使用改进的H参数对学者年时间内发表的论文成果进行量化，获取专家列表：使用概率主题模型从作者发表的论文中提取主题向量作为学者的研究方向；根据矩阵奇异值分解对构建的词项-文档矩阵进行降维，进而生成词项词项关系矩阵，实现对搜索关键词的查询扩展，并计算查询扩展向量与作者主题向量之间的相关度，根据相关度大小进行排序推荐.在SCHOLAT(学者网)数据集上验证模型的有效性，实验结果表明提出的模型达到了预期的效果。关键词：学术专家推荐；H参数；概率主题模型；查询扩展；中图分类号：TP393文献标志码：A文章编号：16734785(2012)04036505 Research on an expert recommendation model based on the scholar community SCHOLAT LI Chunying',TANG Yong,CHEN Guohua2,TANG Zhikang (1.School of Computer,Zhaoging University,Zhaoging 526061,China;2.School of Computer Science,South China Normal University, Guangzhou 510631,China:3.School of Computer Science,Guangdong Polytechnic Normal University,Guangzhou 510665,China) Abstract:Among the services offered by the academic community,expert recommendation is an indispensable com- ponent for researchers,especially young researchers.At present,expert recommendation services have not been of- fered to users on all of the Chinese search engines offering academic information services.Thus,a scholar commu- nity oriented expert recommendation model was proposed.The H-index was improved to quantify the achievements of a scholar based on the published papers in the last n years,and then the expert list was given based on the im- proved H-index.The research interests of a researcher were obtained based on the topics extracted by the probabi- listic topic model.In order to carry out high recall retrieval,a query expansion strategy was used:the singular val- ue decomposition step was applied to the term-document matrix to reduce the dimensionality of the matrix and obtain the term-term relationship matrix,and then the highly related terms were selected to make up the expanded query. Finally,the relevance between the expanded query and the scholar's topic vectors was calculated and the results were represented in a descending order.An experiment was conducted on the dataset collected from an existing scholar community,SCHOLAT,to verify the effectiveness of the proposed model.The experimental results demon- strate that the proposed model produces the expected results. Keywords:expert recommendation;H index;probabilistic topic model;query expansion 学术合作研究越来越受到人们的重视四.在学术收稿日期：2012-0524.网络出版日期：201207-20. 基金项目：国家自然科学基金资助项目(60970044)：广东省科技计划研究领域有相同研究兴趣或者工作在不同学科、领域资助项日(2010B010600031);广州市科技计划资助项目的科研人员常常组成一个团队进行合作，显然这使得 (2010J-D00511). 通信作者：李春英.E-mail:zpxyley(@163.com, 更多的问题得到了解决.比如一篇电子商务方面的论

·366 智能系统学报第7卷文，可能是从事计算机研究、经济学研究和管理学研作者感兴趣，并可能给他们未来的研究工作带来极究的学者共同的智慧结晶.实际上，学者间高水平的大方便.下面将分别阐述面向学术社区的专家推荐合作具备更强的生产力.因此，找到潜在的成功合作模型的详细设计和实验评估，系统的整体架构如图者对于研究者特别是青年研究者来说是倍受欢迎的。 1所示. 然而，团队合作常常局限于同一学科、同一科研院所 Weh接口的内部.对于我国大多数二三类院校的研究者而言，因缺乏学术带头人导致众多研究者特别是青年研究用者无法超越现实的距离而徘徊不前.而国内外大多数斋扩展词库学术搜索引擎，如中国知网、万方数据知识服务平台、维普资迅、Scirus、Google Scholar、CiteSeer、CiteULike、检索查询扩展 DBLP C-DBLP等都具备了文献检索的功能，但他们结果生成都没有对有着相似研究兴趣和潜在合作关系的学者相关度计算进行有效地挖掘和推荐，为了有效地挖掘潜在的合作者并进行推荐，本成果量化值库文提出了一个面向学术社区的专家推荐系统模型。主题词库在这个学术社区内，用户可以按照关键字搜索相关论文；系统可以根据用户的研究兴趣，为用户自动推图1系统的整体架构 Fig.1 The system architecture 荐最新的相关论文；另外还可以自动管理用户的学术资料，如果用户有新论文发表出来，当用户登录 2 模型的详细设计时，系统将会提醒用户将该论文收藏到自己的主页 2.1 成果量化中，这样就极大地方便了用户对自己资料的管理，同对于获得诺贝尔奖的科学家而言，他们研究工时可以让其他用户及时地了解到自己的最新工作进作的影响和主题相关性是毋庸置疑的.但对于大多展2.除常规功能外，本文着重论述学术专家推荐数的研究人员而言，该如何量化个人科研成果累积模型的设计及实验测评.该模型包括3个部分：1) 的影响和相关性？科研人员公开发表的论文记录显通过分析学者公开发表的论文被引用的次数、录用然是对量化有用的信息.各个科研机构往往是利用期刊的影响因子以及发表论文的数量3个方面对学科研人员有限的成果资源，进行比较和评价.虽然这者的学术价值进行量化；2)利用主题模型提取学者种量化可能使人反感，但在高校、科研院所，它是科的研究方向；3)对搜索关键词进行查询扩展，并计研人员职务招聘、晋升职称和补助奖励的有效依据，算其与作者主题词之间的相关度，按相关度排序在 J.E.Hirsch在文献[5]中提出利用个人在过去n年推荐系统中给出用户需要的学者专家列表，其中用时间内发表的论文数量p、论文被引用的次数c和户可按影响力进行排序，录用期刊的影响因子去评估个人的科研成果，即所 1专家推荐模型的相关工作谓的H参数.J.E.Hirsch的H参数在物理学科[6列和在科学计量学8]方面得到了验证并获得了广泛专家推荐模型是一种面向学术领域的学术推荐的认同，表明该参数对于量化个人的科研成果是有搜索引擎.对于学术推荐，近年来人们开展了大量的效的.J.E.Hirsch提出H参数的具体量化公式s)如研究工作并取得了丰硕的研究成果.文献[3]在Ci- teULike社区结合了传统的协同过滤的优点和概率式(1)所示. 主题模型进行建模，为用户推荐论文.文献「4提出 H=-c (1) 一个基于合作发现的搜索引擎，为学者推荐潜在的 1+&1 p 学术研究合作伙伴.对于学术搜索引擎，文献[2]已式(1)中未直接考虑期刊的影响因子对H参数的影经做了非常详尽的闸述，在此不再赘述，响.因此对其加以改进，使其能够更加准确地量化个总之，在目前提供学术信息服务的所有中文搜人的科研成果索引擎中，都没有提供推荐用户感兴趣的领域专家令A表示某期刊在第y-2年和第y-1年出版服务.如果结合学术社区提供一个易于使用的专家的所有文章在第y年被引用的次数之和，B表示该推荐服务，一定能使科研工作者特别是青年科研工期刊在第y-2年和第y-1年所发表的文章篇数之

第4期李春英，等：面向学术社区的专家推荐模型 ·367· 和，则该期刊在第y年的影响因子巴，=合假设一 2.3查询扩展查询扩展是查询优化的一个分支研究方向，也个人在过去n年时间内发表论文p篇，C,表示第i 是目前改善信息检索中查全率和查准率的关键技术篇论文被引用的次数，F,表示收录第i篇论文的期之一.查询扩展是指为了保证用户搜索时使用的关刊当年的影响因子，改进的H参数如式(2)所示键词和作者主题词相关，需将用户搜索时使用的关 C:×IF 键词进行语义扩展，把与原关键词语义相关的词或 H= (2) 词组添加到原查询中，得到比原查询更长的新查询， ,C:×IF 以便更完整、更准确地描述原查询所隐含的语义，帮 1+ 助其提供更多有利于判断文档相关性的信息，提高 ∑F, 检索的查全率和查准率。 2.2概率主题模型隐性语义索引(latent semantic indexing,LSI)W 概率主题模型越来越多地应用于图像处理和自用于发现文本中词项-文档之间的语义关系.在LS 然语言处理领域.在自然语言处理领域中，主题可以模型中，词项-文档矩阵C用于表示词项和文档之看成是词项的概率分布.主题模型通过词项在文档间的关系，C=(C),其中C表示第i个词项在第j 级的共现信息抽取出语义相关的主题集合，并能够篇文档中的权重值，即第i个词项在第j篇文档中出将词项空间中的文档变换到主题空间，得到文档在现的次数. 低维空间中的表达.这为语料库挖掘、文档分类和信 LSI通过奇异值分解对高维稀疏的词项-文档息检索工作提供了极大的便利.本文将使用主题模矩阵构造低阶最佳近似，以减轻计算的复杂度.适用型抽取作者全部文章的主题信息，进而形成作者研奇异值分解降维的基本思想为：假设Cm×m是词项文档矩阵；m是词项空间的维度，n是文档个数，则究方向的主题集合 CC是m阶对称方阵，其元素(i,)代表了词项i和使用主题模型对文档的生成过程进行模拟，再词项j的共现次数，反映了任意2个词项(i,)之间通过参数估计得到各个主题.最简单的主题模型是的相似度.则 LDA(latent Dirichlet allocation)[9.假定p,表示主题 1)令rank(C)=r,则CC的特征值为入，≥ t中的词项概率分布；0，表示第j篇文档的主题概率入2≥…≥入，>0，入+1=入，+2=…=入m=0,令0：= 分布；”、0，又作为多项式分布的参数分别用于生成单词和主题，服从Dirichlet分布；T代表主题数目；M √入(i=1,2,…,r）,0:称为C的奇异值. 代表文档数目；N表示第j篇文档的长度；ω，和乙 2)存在正交矩阵Umx,、Vmx,和广义对角阵三，x (其中#=：)使得C=UV,则CC= 分别表示第j篇文档中第n个单词及其主题；a和B UXVVSU-UU. 是Dirichlet分布的参数，通常是固定值且是对称分布的o] 对于给定的矩阵C和正整数k(k≤r),找到一个矩阵Ck,使用Frobenius范数来估算C-Ck的误则对于语料库中的每一篇文档o,LDA的生成过程如下：差，即‖C-Cp=√o+1+o+2…+o,计算并且 1)对主题采样p,~Dir(B),te[1,T]; 输出(CC)kxm=UU,作为CCT降维后的最佳近 2)采样主题概率分布0，~Dir(a)；似，其中的行向量显示了某一词项与所有其他词项 3)采样文档的单词数目W~Poiss(); 的相关程度。 4)对文档j中的每个单词n: 2.4相关度计算 ①选择隐含主题Z,.~Multinomial(0,); 当用户进行查询请求时，首先将关键词经过中文分词处理，然后对其分词结果进行查询扩展，并将所有 ②生成一个单词o.~Multinomial(pz,）, 结果作为查询关键词向量·的分量，个数作为关键词这个过程表明了从每一篇文档中提取主题词的向量空间的维数.最后使用Salton的TF-DF公式计算过程.对于给定的语料库，根据给定的最优化目标函向量U中每个关键词分量的权值，详见式(3). 数，使用Gibbs参数估计方法得到对参数的估计值. talg(八+0.1）利用训练好的模型对新文档进行推断，发现T个主 (3) 题，进而将指定的词项空间表达的文档分解降维，得到所需要的主题集合 ∑()2xg(N+0.1) n

·368 智能系统学报第7卷式中：t,表示关键词分量U在主题向量T4中出现的不包括英文文献，导致总体量化值偏低，但与期望值次数，N表示主题词库中主题向量的总数，nk表示主相似.按职务量化求均值后的结果如表1所示. 题词库中含有关键词U的主题向量数.因此，查询关表1学者成果量化值键词被扩展为一个查询关键词向量：向量的维数就是 Table 1 Quantify the achievements of a scholar 分词后的中文词语个数，向量每一维分量的大小就是 D 职务 H参数平均值每个分量的权值.对每一个主题向量Ta,每个主题分教授/博士生导师 20.32 量的权值取文档主题的概率分布值.因此主题向量分教授/硕士生导师 13.63 量的权值可用其对应的概率分布值表示即Pa=[Pa 副教授 3.97 P.,…Pa].此时，要计算关键词和主题向量的相关讲师 0.98 度，可以认为是向量U和向量Ta之间的相关度，而计算向量之间的相关度，可以使用向量夹角余弦系数进 3.2概率主题模型实验行衡量，如式(4)所示，最后按相关度大小进行排序并实验中，设定Gibbs算法的迭代次数是1000 将结果页面推荐给用户，次，经多次实验，Dirichlet的先验参数a和B取值为 similarity(U,T)=cos 0 α=20/K,B=0.01,起到了平滑数据的作用.采用 Perplexity评估方法（如式(5）所示)确定最佳主题 ∑(U×Pa,) 个数T=200,如图2所示.在SCHOLAT数据集上将 (4) 作者全部文章的标题和摘要合并后分词，将分词后 ×P 的词项集合和最佳T值作为LDA算法的输入项，得到每个作者论文的潜在主题集合，将每个潜在主题 3 实验评估下概率最大的词项提取出来构成每个作者研究方向 3.1成果量化实验向量T,并将每个主题的概率分布值作为其在向量量化计算关键在于数据库的设计和查询算法. Pa中的权值论文和作者是多对多的关系，为了分担部分计算压力、提高查询性能，需提前计算好部分数据结果.因 perplexity(D 5 ∑N 此，需将SCHOLAT数据集中的数据分成3个部分. 式中：N.为文本d的长度，p(d)是待测试模型产生 1)论文信息表：论文D(主键)、论文名称、作文档da的概率者、作者单位、发表刊物、影响因子、出版年份、参考文献、引用次数. 2)论文作者关系表：论文D(外键)、作者 50*10 45 ◆LDA 3)作者信息表：作者D(主键)、作者名称、作者 40 单位、研究方向、C值（取自名C,×E,)、F值（取自 35 存E,)小H值 30 25 将论文信息表中的作者（合作者）、作者单位进行 40 80120160200 分词处理并将结果存入论文作者关系表、作者信息表主题个数当有信息更新时，系统将论文信息处理后分别存入论图2主题个数与困惑度的变化关系文信息表、论文作者关系表和作者信息表，并更新C值 Fig.2 Relation of number of topics and perplexity 和F值字段，进而更新作者信息表的H值。 3.3查询扩展及相关度计算实验从学者网(SCHOLAT)数据集中选取汤庸等从论文库中抽取成果量化值大于5的计算机相 100位学者在2006年1月1日一2010年12月31 关研究方向的100个作者的2513篇论文，将每一日5年共2513篇论文进行量化，从中剔除了引用个作者名下的文章标题和摘要合并成一篇文档，则次数为0的论文373篇，实际参加测试的论文数目参与测试的文档数目为100，然后对100篇文档进为2140篇，实验所需期刊影响因子数据来源于中行分词，去掉停用词等没有实际意义的信息后，共国科技期刊引证报告（核心版）和维普资讯网.实验 175910个词项参与实验，编写实验源程序建立词结果显示量化模型有效.因SCHOLAT数据集目前项-文档共生矩阵C,使用Lanczos算法计算SVD,对

第4期李春英，等：面向学术社区的专家推荐模型 ·369. 所建立的高维稀疏的词项-文档矩阵分解降维.实验 research output[J].The National Academy of Sciences of 取得最佳K值，K=53853,计算并输出C,进而输 the USA,2005,102(46):16569-16572. 出A=CC,则矩阵A为词项-词项的相关度矩阵， [6]POPOV S B.A parameter to quantify dynamics of a researc- A表示词项u和词项v的相关度权值.查询时将与 her's scientific activity[EB/OL].[2011-11-03].http:// 用户关键词相关度最大的前200个词项作为扩展词 arxiv.org/abs/physics/0508113. [7]BATISTA P D,CAMPITELI M G,KINOUCHI O,et al.A 项加入到用户的查询中，其中用户的原始查询词项 complementary index to quantify an individual's scientific 最能直接反映用户查询意图，其权值置为最大.在相 research output[J].Scientometrics,2006,68 (1):179 关度计算方面，以单个词项查询作为测试条件，选择 189. 查询扩展向量与作者主题向量进行向量夹角余弦系 [8]BORNMANN L,DANIEL H D.Does the h-index for rank- 数计算时，系统的响应时间为132ms.这显然比设 ing of scientists really work?[].Scientometrics,2005,65 计成与矩阵C中的每一列列向量进行向量夹角余 (3)：391392. 弦系数计算的方案的系统响应时间要少很多.因此， [9]BLEI D,NG A,JORDAN M.Latent dirichlet allocation 在查全率和查准率近似的情况下，前者大大降低了 [J].Journal of Machine Learning Research,2003,3: 993-1022. 计算的复杂度，提高了系统的响应时间。 [10]徐戈，王厚峰.自然语言处理中主题模型的发展[J] 4结束语计算机学报，2011,34(8)：1423-1436. XU Ge,WANG Houfeng.The development of topic models 提出了一个面向学术社区的专家推荐系统模 in natural language processing[J].Chinese Journal of 型，给出了系统的总体架构及各个部分的详细设计 Computers,2011,34(8):1423-1436. 方案，在SCHOLAT数据集上做实验验证了模型的 [11]DEERWESTER S,DUMAIS S T,LANDAUER T K,et 有效性.其中，成果量化模型和概率主题模型部分均 al.Indexing by latent semantic analysis[J].Journal of 为离线运算，降低了系统的压力.不足之处是成果量 The American Society for Information Science,1990,41 化模型中选择参与计算的成果时间跨度较小且没有 (6):391407 考虑合作者的权重问题，主要原因是目前SCHOLAT 作者简介：李春英，女，1978年生，讲师，CCF 数据集有些数据不够充分，以及无法批量获得论文会员(E200019159M),主要研究方向为的通信作者信息，下一步应用时将主要解决这些学术信息检索与推荐、人工智能. 问题。参考文献： [1]HUANG J,ZHUANG Z,LI J,et al.Collaboration over time:characterizing and modeling network evolution[C]// 汤庸，男，1964年生，教授，博士生 Proceedings of the International Conference on Web Search 导师，博士，中国计算机学会协同计算 and Web Data Mining.Palo Alto,USA,2008:107-116. 专委会副主任，中国人工智能学会网络 [2]陈国华，汤肃，彭泽武，等.基于学术社区的学术搜索引专委会副主任，广东省计算机学会常务擎设计[J].计算机科学，2011,38(8)：171-175. 副理事长，广东省网络文化协会副会 CHEN Guohua,TANG Yong,PENG Zewu,et al.Design of 长.主要研究方向为数据库、协同计算、 an academic search engine based on the scholar community 云服务软件，发表学术论文多篇 [J].Computer Science,2011,38(8):171-175. 3]WANG Chong,BLEI D M.Collaborative topic modeling for 陈国华，男，1984年生，讲师，博士，主 recommending scientific articles[C]//Proceedings of the 要研究方向为学术信息检索、机器学习. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA,2011:448- 456. [4]CHEN HH,GOU Liang,ZHANG Xiaolong,et al.Collab- seer:a search engine for collaboration discovery[C]//Pro- ceedings of JCDL.Ottawa,Canada,2011:231-240. [5]HIRSCH J E.An index to quantify an individual's scientific

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

知识工程：面向学术社区的专家推荐模型