正在加载图片...
·1092· 智能系统学报 第15卷 个性化推荐技术中协同过滤推荐(collaborative 聚类结果有一定的影响。为了降低初始聚类中心 filtering,CF)技术是最成熟也是应用最广泛的一种 对聚类结果的影响,本文在使用K-means聚类算 技术,简单来说,协同过滤是根据某兴趣相投、拥 法时,对初始聚类中心的选取进行了优化。年 有相似用户群体的喜好来预测用户感兴趣的信 龄、性别、职业作为用户特有的特征,本文在对用 息,并将其推荐给目标用户。但是由于对象和商 户属性特征进行K-means聚类时,初始聚类中心 品数的快速增长,协同过滤推荐技术出现了冷启 即K值的选取,依据用户特有特征(年龄、性别、 动、可扩展性、数据稀疏性问题。 职业)进行K的选取,本文根据年龄段的划分,可 为了改善协同过滤推荐算法,一些研究者基 以分为7个阶段,即K值为7。 于上述问题从不同角度出发对其进行研究,针对 首先将出现次数最多的,即具有高活跃度的 数据稀疏性问题,文献[3]提出了一种数据挖掘 属性特征的用户群作为选取对象,因为选取聚类 算法对稀疏矩阵进行填充,并引入相似性计算因 中心时是根据年龄段进行划分选取的,本文将划 子计算用户相似性。文献[4]利用降维技术,对 分的7个年龄段分别用数字0、1、2、3、4、5、6来 高维稀疏数据在分布式平台下采用矩阵分解算法 表示,然后在每个年龄段中选取活跃度高的性别 进行预处理,降低数据稀疏性。 属性(男、女,本文用数字0、1代表),根据年龄、 针对传统协同过滤推荐技术的冷启动问题, 性别再选取每个年龄段中职业活跃度高的用户 文献[5]提出了扩展的基于概率论分类的朴素贝 本文将21种职业归属为4大类,分别用数字0、 叶斯的混合推荐算法,文献[6-8]提出了基于用户 1、2、3来表示,这样在每个年龄段中依次选取, 本身特有的信息进行聚类的C℉算法,这些算法 结果如表1所示。 的提出都有效缓解了用户冷启动问题,从而提升 表1初始聚类中心 了推荐的响应速度。 Table 1 Initial clustering center 针对传统协同过滤推荐技术的可扩展性问 年龄 性别 职业 题,面对日益增多的用户,数据量的急剧增加,算 0 0 3 法的可扩展性问题成为制约推荐系统的重要因 1 0 素。文献[9]提出了基于传统的SVD协同过滤算 2 0 1 法,但是这种矩阵分解算法有一定的代价。 0 在上述方法的启发下,本文提出了一种新颖 4 0 的相似度模型(PCEDS),PCEDS是将用户属性特 5 0 6 0 征和用户偏好相融合的一种相似度模型。首先根 据用户属性特征进行聚类,聚类采用优化的K- 处理数据的算法如下: means算法,即CF-act(m对用户进行聚类,然后根 输入用户特征信息表CUser 据聚类后的目标用户采用一种新颖的PCEDS推 输出用数字代表的用户特征信息表NCUser 荐模型为目标用户产生推荐。 CUser表中选取n个用户,记为U={p1, P2,…,pn} 1基于用户活跃度(CF-act)聚类 对所有的p∈U 聚类10是指在物理或抽象对象的集合里, 90,=0,j0: 将相类似的对象分类成多个类的过程,这些对象 if q<3, 在同一类中彼此相似,在不同类中相异。但是, ifp.[1∈{0-17八18-2425-34l35-44l45-4950 传统的C℉算法经常是基于用户对商品的评分数 5556-} 据进行聚类,而忽视了用户特有的一些特征属 then int sign:={01123415116) 性,从而会出现一种对目标用户推荐一些完全不 else if p.D+l]e{男I女} 感兴趣的信息的尴尬情况,这在很大程度上影响 then int sign:=(01) 了推荐的准确性。在现实中,每个用户都有其个 else ifp.什2]e{某一职业类} 人特征,本文将依据用户的性别、年龄、职业等属 then int sign:=(011213) 性特征进行聚类,认为拥有相似年龄、性别、职业 q+;t+;j升+: 的用户其偏好和消费行为也可能相似。 end if K-means是聚类方法1211中最常用的一种算 end if 法。在K-means算法中,初始聚类中心的选取对 end个性化推荐技术[1] 中协同过滤推荐 (collaborative filtering, CF)技术是最成熟也是应用最广泛的一种 技术,简单来说,协同过滤是根据某兴趣相投、拥 有相似用户群体的喜好来预测用户感兴趣的信 息,并将其推荐给目标用户。但是由于对象和商 品数的快速增长,协同过滤推荐技术出现了冷启 动、可扩展性、数据稀疏性问题[2]。 为了改善协同过滤推荐算法,一些研究者基 于上述问题从不同角度出发对其进行研究,针对 数据稀疏性问题,文献 [3] 提出了一种数据挖掘 算法对稀疏矩阵进行填充,并引入相似性计算因 子计算用户相似性。文献 [4] 利用降维技术,对 高维稀疏数据在分布式平台下采用矩阵分解算法 进行预处理,降低数据稀疏性。 针对传统协同过滤推荐技术的冷启动问题, 文献 [5] 提出了扩展的基于概率论分类的朴素贝 叶斯的混合推荐算法,文献 [6-8] 提出了基于用户 本身特有的信息进行聚类的 CF 算法,这些算法 的提出都有效缓解了用户冷启动问题,从而提升 了推荐的响应速度。 针对传统协同过滤推荐技术的可扩展性问 题,面对日益增多的用户,数据量的急剧增加,算 法的可扩展性问题成为制约推荐系统的重要因 素。文献 [9] 提出了基于传统的 SVD 协同过滤算 法,但是这种矩阵分解算法有一定的代价。 在上述方法的启发下,本文提出了一种新颖 的相似度模型 (PCEDS),PCEDS 是将用户属性特 征和用户偏好相融合的一种相似度模型。首先根 据用户属性特征进行聚类,聚类采用优化的 K￾means 算法,即 CF-act(u) 对用户进行聚类,然后根 据聚类后的目标用户采用一种新颖的 PCEDS 推 荐模型为目标用户产生推荐。 1 基于用户活跃度 (CF-act) 聚类 聚类[10-11] 是指在物理或抽象对象的集合里, 将相类似的对象分类成多个类的过程,这些对象 在同一类中彼此相似,在不同类中相异。但是, 传统的 CF 算法经常是基于用户对商品的评分数 据进行聚类,而忽视了用户特有的一些特征属 性,从而会出现一种对目标用户推荐一些完全不 感兴趣的信息的尴尬情况,这在很大程度上影响 了推荐的准确性。在现实中,每个用户都有其个 人特征,本文将依据用户的性别、年龄、职业等属 性特征进行聚类,认为拥有相似年龄、性别、职业 的用户其偏好和消费行为也可能相似。 K-means 是聚类方法[12-13] 中最常用的一种算 法。在 K-means 算法中,初始聚类中心的选取对 聚类结果有一定的影响。为了降低初始聚类中心 对聚类结果的影响,本文在使用 K-means 聚类算 法时,对初始聚类中心的选取进行了优化。年 龄、性别、职业作为用户特有的特征,本文在对用 户属性特征进行 K-means 聚类时,初始聚类中心 即 K 值的选取,依据用户特有特征 (年龄、性别、 职业) 进行 K 的选取,本文根据年龄段的划分,可 以分为 7 个阶段,即 K 值为 7。 首先将出现次数最多的,即具有高活跃度的 属性特征的用户群作为选取对象,因为选取聚类 中心时是根据年龄段进行划分选取的,本文将划 分的 7 个年龄段分别用数字 0、1、2、3、4、5、6 来 表示,然后在每个年龄段中选取活跃度高的性别 属性 (男、女,本文用数字 0、1 代表),根据年龄、 性别再选取每个年龄段中职业活跃度高的用户, 本文将 21 种职业归属为 4 大类,分别用数字 0、 1、2、3 来表示,这样在每个年龄段中依次选取, 结果如表 1 所示。 表 1 初始聚类中心 Table 1 Initial clustering center 年龄 性别 职业 0 0 3 1 0 3 2 0 1 3 0 1 4 0 1 5 0 1 6 0 3 处理数据的算法如下: 输入 用户特征信息表 CUser 输出 用数字代表的用户特征信息表 NCUser CUse r 表中选 取 n 个用户,记 为 U = { p 1 , p2,…,pn} 对所有的 pi∈U q=0,i=0,j=0; if q<3; if pi [j]∈{0−17||18−24||25−34||35−44||45−49||50− 55||56−} then int sign:={0||1||2||3||4||5||6} else if pi [j+1]∈{男|女} then int sign:={0||1} else if pi [j+2]∈{某一职业类} then int sign:={0||1||2||3} q++;i++;j++; end if end if end ·1092· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有