正在加载图片...
第44卷第3期 Vol. 44 No. 3 2017年3月 COMPUTER SCIENCE Mar.2017 基于人口统计学的改进聚类模型协同过滤算法 王媛媛李翔 (淮阴工学院计算机与软件工程学院淮安223003)(河海大学计算机与信息学院南京211100 摘要针对传統基于用户的协冋过滤推荐算法在大教据环境下存在评分高维稀疏性、推荐精度低的问题,提出一种 基于人口统计学数据与改进聚类模型相结合的协同过滤推荐算法,以提高推荐系统精度和泛化能力。该方法首先通 过用户人口统计学数据属性,结合用户-项目评分矩阵计算各个用户间的相似度;然后对用户、项目进行分层近邻传播 聚类,根据用户对项目的评分数据计算用户或项目之间的相似性,产生目标用户或项目的兴趣近邻;最后根据兴趣最 近邻进行推荐。对 Epinions, MovieLents等数据集进行仿真实验,仿真的结果表明,与传统的协同过滤算法相比,提出 的算法提高了推荐精度,为传统的协同过滤推荐算法提供了参考。 关键词协同过滤,人口统计学,聚类,推荐系统 中图法分类号TP183文献标识码ADOI10.11896/isn.1002137X2017.03,016 Study on Improved Clustering Collaborative Filtering Algorithm Based on Demography WANG Yuanyuan LI Xiang Faculty of Computer and Software Engineering, Huaiyin Institute of Technology, Huai'an 223003, China (College of Computer and Information, Hohai University, Nanjing 211100, China) Abstract The traditional user based collaborative filtering recommendation algorithm in large data environment has the problem of high dimensional sparse and low recommendation accuracy. a collaborative filtering recommendation algo- rithm based on the combination of demographic data and improved clustering model was proposed to improve the accu racy and generalization ability of the recommendation system. Firstly, this method calculates the similarity among diffe- rent users through the user demographic data attributes and the user-item score matrix. Secondly, hierarchical neighbor clustering of user and project, calculates the similarity between users or items by the user's score data for the project and generates interest in a neighbor of a target user or project. Finally, according to the recent interest in the nearest neighbor to recommend Simulation experiments on Epinions and MovieLents data set, the simulation results show that the proposed algorithm improves the recommendation accuracy compared with the traditional collaborative filtering al gorithm, provide reference for the traditional collaborative filtering recommendation algorithm. Keywords Collaborative filtering, Demography, Clustering, Recommender systems 推荐系统( Recommender Systems)是一种根据用户历史较成功的推荐算法受到了最广泛的关注2。随着移动应用的 数据建立用户兴趣模型,协助用户过滤不相关信息,可为用户迅速发展信息数据量呈指数级增长可,在大数据环境下,推 提供最佳的数据以满足用户个性化需求的信息系统。推荐荐系统一般会涉及社会网络数据、人口统计学数据语境感知 技术近几年已成为国内外研究和应用的热点,在电子商务在等多方面数据,这些多源数据一般为高维稀疏性数据,数据存 线影视、新闻媒体等各领域均有广泛应用,如亚马逊购物 在噪声和高冗余。研究表明:大数据环境下使用混合推荐算 Amazon)、淘宝网( Taobao)、优酷视频( Youku)、搜狐新闻 (Sohu)等。推荐系统可以辅助企业实现个性化营销,提升服法的推荐准确度高于单独使用一种推荐算法的 务质量和产品销量,为企业创造最大的利润 传统推荐系统的输入数据规模、冗余度及噪声较小,数据 根据所使用的推荐算法推荐系统主要分为以下几类:基稀疏性容易解决,使用协同过滤算法推荐效果较好大数据环 于用户行为的推荐系统、基于项目内容的推荐系统、基于语境境下的数据规模更大数据稀疏性冗余度、噪声更强⑤。本 感知的推荐系统以及基于人口统计学的推荐系统等。其文提出使用人口统计学方法统计聚类计算用户间相似度,解 中,基于用户行为推荐算法中的基于用户的协同过滤作为比决大数据环境下的数据稀疏性问题,从而提高推荐准确度。 到稿日期:201510-01返修日期:20160220本文受国家自然科学基金(61403060),江苏重点研发计划产业前瞻与共性关键技术 BE2015127),江苏省高校自然科学研究面上项目(15KJB520004),江苏省先进制造技术重点实验室开放基金( HGAMTL-1401),江苏省科技厅 产学研联合研究项目(BY2014097),淮安市科技计划项目(HAG2015060,HAG201602,HAC201601)资助 王媛嫒(1981-),女,博士生,讲师,CCF会员,主要研究领域为机器学习、人工神经网络,Emai246104417@qcom;李翔(1980-),男 博士生,副教授,主要研究领域为机器学习。第 44卷 第 3期 2017年 3月 计 算 机 科 学 COM PU TER SCIENCE Vo1.44No.3 M ar.2017 基于人 口统计学 的改进聚 类模 型协 同过滤算 法 王媛媛 李 翔 (淮阴工学院计算机与软件工程学院 淮安 223003) (河海大学计算机 与信息学院 南京 211100) 摘 要 针对传统基 于用户的协 同过 滤推荐 算法在大数据环境下存在评分 高维稀疏性 、推荐精度低 的问题 ,提 出一种 基于人口统计学数据与改进聚类模型相结合的协同过滤推荐算法,以提高推荐 系统精度和泛化能力。该方法首先通 过 用户人 口统计 学数据属性 ,结合用 户一项 目评分矩 阵计算各 个用户间的相似 度 ;然后对用户 、项 目进行分层近 邻传播 聚类 ,根 据用户对项 目的评分数据计算用 户或项 目之 间的相 似性 ,产生 目标 用户或项 目的兴趣 近邻 ;最后根据 兴趣 最 近邻进行推 荐。对 Epinions,MovieLents等数据 集进行仿 真实验 ,仿真的结果表 明,与传 统的协 同过 滤算法相 比,提 出 的算法提 高 了推荐精度 ,为传统的协 同过 滤推荐 算法提供 了参考 。 关键词 协 同过 滤,人 口统计 学,聚类 ,推荐 系统 中图法分类 号 TP183 文献标识 码 A DOI 10.11896/j.issn.1002—137X.2017.03.016 Studyon Improved Clustering CollaborativeFiltering Algorithm Based 011Demography W ANG Yuan-yuan LIXiang (FacultyofComputerandSoftwareEngineering,HuaiyinInstituteofTechnology,Huai’an223003,China) (Co llegeofCo mputerandInformation,HohaiUniversity,Nanjing211100,China) Abstract Thetraditionaluserbasedcollaborativefilteringrecommendationalgorithm inlargedataenvironmenthasthe problem ofhigh dimensionalsparseand low recom mendation accuracy.A collaborativefiltering recommendation algo— rithm based on thecombination ofdemographicdataandim proved clusteringmodelwasproposedtoim provetheaccu— racy andgeneralizationability oftherecomm endation system.Firstly,thismethod calculatesthesimilarityam ongdiffe￾rentusersthroughtheuserdemographicdataattributesandtheuser-item scorematrix.Secondly,hierarchicalneighbor clustering ofuserandproject,calculatesthesimilaritybetweenusersoritemsbytheuser’sscoredatafortheproject, andgeneratesinterestinaneighborofatargetuserorproject.Finally,accordingtotherecentinterestinthenearest neighbortorecommend.SimulationexperimentsonEpinionsandMovieLentsdataset,thesim ulationresultsshow that theproposedalgorithm improvestherecomm endationaccuracy compared with thetraditionalcollaborativefiltering al— gorithm,providereferenceforthetraditiona1collaborativefilteringrecommendationalgorithm. Keywords Collaborativefiltering ,Demography,Clustering,Recomm endersystems 推荐系统 (RecommenderSystems)是一种 根据用 户历 史 数据建立用户兴趣模型,协助用户过滤不相关信息,可为用户 提供最佳的数据以满足用户个性化需求的信息系统Ⅲ。推荐 技术近几年已成为国内外研究和应用的热点,在电子商务、在 线影视、新 闻媒体等各领域均有广泛应用,如亚马逊购物 (Amazon)、淘宝 网 (Taobao)、优 酷 视 频 (Youku)、搜 狐 新 闻 (Sohu)等。推荐系统可以辅助企业实现个性化营销,提升服 务 质量 和产品销量 ,为企业创造最大 的利 润。 根据所使用 的推荐算法 ,推荐 系统主要分为以下几类 :基 于用 户行为的推荐系统 、基 于项 目内容 的推荐 系统 、基 于语境 感 知的推荐 系 统 以及基 于人 口统 计学 的 推荐 系统 等E13。其 中,基于用户行为推荐算法中的基于用户的协同过滤作为比 较成功的推荐算法受到 了最广泛 的关注|2]。随着移动应用 的 迅速发展,信息数据量呈指数级增长[3],在大数据环境下,推 荐系统一般会涉及社会 网络数据 、人 口统计学数据 、语境感 知 等多方面数据 ,这些 多源数据一般 为高维稀疏性数据 ,数据存 在噪声和高冗余 。研究表 明 :大 数据环境 下使用混合 推荐 算 法的推荐准确度高于单独使用一种推荐算法的[4]。 传统推荐系统的输入数据规模、冗余度及噪声较小,数据 稀疏性容易解决 ,使用协 同过滤算法推荐效果较好 ;大数据 环 境 下的数据规模更大 ,数据 稀疏性 、冗余度 、噪声 更强 [。本 文提出使用人 口统计学方法统计聚类计算用户间相似度 ,解 决 大数据环境下的数据稀疏性问题 ,从而提高推荐准确度 。 到稿 13期 :2015~10—01 返 修 日期 :2016—02—20 本 文受 国家 自然 科学 基 金 (61403060),江 苏 重 点研 发 计 划 业 前 瞻 与共 性 关键 技 术 (BE2015127),江苏省高校 自然科学研 究面上项 目(15KJB520004),江苏省先进制造技术重点实验室开放基金 (HGAMTI,1401),江 苏省科 技厅 产学研联合研究项 目(BY2014097),淮安市科技计划项 目(HAG2015060,HAG201602,HAC201601)资助 。 王媛媛 (1981一),女 ,博士 生 ,讲师 ,CCF会员 ,主要 研究领域 为机 器学 习、人工 神经 网络 ,E-mail:461044170@qq.com;李 翔(198O一),男 , 博士生 ,副教授 ,主要研究领域为机器学习
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有