第 3期王媛嫒，等：基于人口统计学的改进聚类模型协同过滤算法

点击下载：《计算机科学COMPUTER SCIENCE》：基于人口统计学的改进聚类模型协同过滤算法（王媛媛、李翔）

正在加载图片...

第3期王媛媛,等:基于人口统计学的改进聚类模型协同过滤算法 65 2.3HAP用户聚类算法线服务网站epinions.com上的49290个用户、139783个物 HAP聚类方法主要是分层获取数据集的聚类中心。首品、664824个评分以及487181个朋友关系数据先在各个数据子集中分别执行AP聚类,得到子集的聚类中 Movielens数据集由美国 Minnesota大学计算机科学与心后再对子集的聚类中心执行聚类,最终得到原数据集的聚工程学院Grouplens项目组收集Movielens网站(http:// 类中心;然后以各聚类中心为初始类,将数据元素重新划分至 movielens, umn.edu/)上大量用户的电影评分得到,评分等与其相似度最大的聚类中心所在的类最终实现聚类。级为1-5,5表示最喜欢,1表示最不喜欢,用户通过评分对于任意用户属性i计算其他用户对其的吸引度r(x,)的数值表达了自己的兴趣爱好,数据集下载地址:htp:/ 和归属度a(i,j)。HAP算法的核心是r(i,j)和a(i,j)两个 ww. grouplens.org/node/73。本实验中选取了 Movielens 值的不断更新,公式为 (M), Movielens(100k)以及 MovieLens+3个不同规模的 e_a(i,)=m(0,,)+.,mx,k,),()数据集作为实验数据,其中Myd(1MD包含了1mlon r(i,j)=s(i,j)-maxla(i, k)+s(i, k)) tings from 6000 users on 4000 movies: MovieLens (100k)a 基于人口统计学数据的用户聚类 A 100000 ratings from 1000 users on 1700 movies: Movie 在基于人口统计学数据计算用户相似度值的基础上,使Lems+包含了8598 ratings from2113 users on10197mo 用分层近邻传播聚类算法对用户进行聚类。结果显示,同类用户比异类用户之间的属性更接近。 3.2实验计算框架 1)输入用户集U与用户相似度矩阵D 本文实验采用目前流行的大数据计算框架 MapReduce, 2)根据21节中的公式计算相似度,并从相似度矩阵中该框架可以实现对大型数据矩阵进行快速计算,也为个性化求出最大相似度 x(sim(u, D) (10)推荐系统提供计算支持。实验中在服务器上搭建3台虚拟机,第一台虚拟机用作 NameNode节点,第二台虚拟机用作其中,和v为任意用户集中的任意两个对象 SecondNameNode节点,第三台虚拟机用作 JobTracker节点 3)若任意两个用户对象u和v的sim值相同,则将两个3台虚拟机同时也是 Data Node节点,模拟 Hadoop集群的负用户对象划分为同类,再使用2.3节中的方法进行用户聚类执行上述步骤,直到聚类数量达到实际应用系统的要求载均衡环境。实验采用 MapReduce和Java代码实现 3.3推荐实验结果对比再进行预测结果推荐。 2.5预测推荐实验中选用NDCG2( Normalized Discounted Cumula 经过基于人口统计数据的相似度计算以及分层近邻传播 tive gain)排名和ER43( Expected Reciprocal Rank)作为用户聚类系统根据式(7)预测某类用户对项目的评分并按分评价指标。训练数据集随机选择60%和80%两种比例,项目值排序推荐给指定用户。特征维度D取8和16两种维度。为了比较所提出的DCCF ∑.sin(p,q)r 方法的性能,选用WRMF, BPRME2, Weighted BPRMF pred(p, i) (11)(WBPMF)[28, Soft Margin Ranking MF (SMRMF)(29)CK Quadratic Matrix Factorization(QMF)5种方法做比较,同时 3实验结果与分析 i F Matrix Factorization(MF)(3o, Biased Matrix Factoriza- 3.1实验数据集 tion( Biased mr)3作为基准线选取 epinions, Movielen(1M), Movielen(100k)以及从图1-图4、表1-表4中可以看出,本文提出的DCCF velen+4个真实数据集进行实验。方法在NDCG和ERR两种评价指标中排序准确率均较高, Epinions数据集(htp://ww.epinions.com)包含了在取得了较好的结果。 Hm1m富 (epinions, train=0. 60, D=8 (b)epinions, train=0. 60, D=16 M ESe NDCG5 NDOG10 NDCI DCOln NDX2 ERRS ERRI ER (e)epinions, train=0, 80, D=8 (epinions, train=0. 80, D=16 图1 Epinions数据集比较结果第 3期王媛嫒，等：基于人口统计学的改进聚类模型协同过滤算法 65 2．3 HAP用户聚类算法 HAP聚类方法主要是分层获取数据集的聚类中心。首先在各个数据子集中分别执行 AP 聚类，得到子集的聚类中心后再对子集的聚类中心执行聚类，最终得到原数据集的聚类中心；然后以各聚类中心为初始类，将数据元素重新划分至与其相似度最大的聚类中心所在的类，最终实现聚类 l2 。对于任意用户属性，计算其他用户对其的吸引度 r(i，) 和归属度 a(i，)。HAP 算法的核心是 r(i，)和 “(i，)两个值的不断更新，公式为： r(i，)一s(i，)一max{a(i，)+ (i，是)) (8) ≠j a(i，)=min(0，r(j，)+ ∑ max(0，r(k，J)))，≠ (9) 2．4 基于人口统计学数据的用户聚类在基于人口统计学数据计算用户相似度值的基础上，使用分层近邻传播聚类算法对用户进行聚类。结果显示，同类用户比异类用户之间的属性更接近。 1)输入用户集 U 与用户相似度矩阵 D。 2)根据 2．1节中的公式计算相似度，并从相似度矩阵中求出最大相似度： 5‰ 一 max(sire(U， )) (10) 其中，U和为任意用户集中的任意两个对象。 3)若任意两个用户对象 U和的 sim 值相同，则将两个用户对象划分为同类，再使用 2．3节中的方法进行用户聚类。执行上述步骤，直到聚类数量达到实际应用系统的要求，再进行预测结果推荐。 2．5 预测推荐经过基于人口统计数据的相似度计算以及分层近邻传播用户聚类，系统根据式(7)预测某类用户对项目的评分并按分值排序推荐给指定用户。一 sim(p，q)rq， pred(p)=口∈ neighl_(户) 丽 (11) 3 实验结果与分析 3．1 实验数据集选取 Epinions，MovieLen(1M )，MovieLen(100k) 以及 MovieLen+ 4个真实数据集进行实验。 Epinions数据集 (http：／／ epinions．corn)包含了在 ( l a)epin i ions，tr l ain蓬= 0l．6蠢0，Di=8 l ( lc) 蠢epinilons，triain蠢=Oi．80，Dl=8 l 线服务网站 epinions．corn 上的 49290个用户、139783个物品、664824个评分以及 487181个朋友关系数据。 MovieLens数据集由美国 Minnesota大学计算机科学与工程学院 GroupLens项目组收集 MovieLens网站 (http：／／ movielens．unln．edu／)上大量用户的电影评分得到，评分等级为 1—5，5表示最喜欢，1表示最不喜欢，用户通过评分的数值表达了自己的兴趣爱好，数据集下载地址：http：／／ grouplens．org／node／73。本实验中选取了 MovieLens (1M)，MovieLens(1OOk)以及 MovieLens+ 3个不同规模的数据集作为实验数据，其中 MovieLens(1M)包含了 1million ratingsfrom 6000userson4000movies；MovieLens(100k)包含了 100000ratingsfrom 1000userson 1700movies；Movie Lens+包含了 855598ratingsfrom 2113userson10197moV les 。 3．2 实验计算框架本文实验采用目前流行的大数据计算框架 MapReduce，该框架可以实现对大型数据矩阵进行快速计算，也为个性化推荐系统提供计算支持。实验中在服务器上搭建 3台虚拟机，第一台虚拟机用作 NameNode节点，第二台虚拟机用作 SeeondNameNode节点，第三台虚拟机用作 JobTracker节点； 3台虚拟机同时也是 DataNode节点，模拟 Hadoop集群的负载均衡环境。实验采用 MapReduee和 Java代码实现。 3．3 推荐实验结果对比实验中选用 )C 船](NormalizedDiscountedCumulativeGain)排名和 ERR[24253(ExpectedReciprocalRank)作为评价指标。训练数据集随机选择 6O 和 80 两种比例，项目特征维度 D取 8和 16两种维度。为了比较所提出的 I)(二CF 方法的性能，选用 WRM ]，BPRM~。，WeightedBPRMF (WBPMF)[0 ，SoftMarginRankingMF (SMRMF) 以及 QuadraticMatrixFaetorization(QMF)5种方法做比较，同时选用 MatrixFaetorization(MF) ，BiasedMatrixFaetoriza— tion(BiasedMF)[“]作为基准线。从图 1一图 4、表 1一表 4中可以看出，本文提出的 DCCF 方法在 NDCG和 ER 两种评价指标中排序准确率均较高，取得了较好的结果。 iil耋~I,Htl i蠢落l蠢ili 图 1 Epinions数据集比较结果～ ■鼹赫耩嚣一～ ■ 绻黟～霸．一～ ■耩鞋鹱翁■ ～ —雅霉必 —■

<<向上翻页向下翻页>>

点击下载：《计算机科学COMPUTER SCIENCE》：基于人口统计学的改进聚类模型协同过滤算法（王媛媛、李翔）