正在加载图片...
计算机科学 2017年 1相关问题 2.1联合聚类预测未知项 使用联合聚类预测评分矩阵中的未知项,详细步骤如下: 1.1协同过滤算法 1)初始化评分属于某类别的概率p(ku,v,r),满足 协同过滤算法由 Goldberg等于192年提出,该算法2(kla,r)=1 据,使用算法分析用户兴趣特征,搜索与特定用户有相似兴趣 (k|a)+a×[p(k)+p (rm|k)+0 的邻居用户,分析相似用户评价生成指定用户喜好物品的推1D)+0又pkD+xDk2)+ (1) 荐值。基于用户行为的传统协同过滤推荐算法过分依赖历史其中,a,月,0为超参数,为避免分母为O,均一化为0.000 数据,对历史数据质量的要求较高,若缺少新用户和新项目的pka)为用户属于某类别的概率,p(k|)为项目属于某一类 评分信息,则对新用户的信息推荐准确率较低。 另外在大数据环境中,用户以及项目的评分数据相对较别的概率 p(ku, U, ra. v) 少导致评分矩阵具有稀疏性因此目前大数据环境下使用传p(kln)=2p(z1,,r 统协同过滤推荐算法推荐的准确度不理想。目前,国内外 学者提出了很多为克服评分矩阵稀疏性并提高推荐准确性的 p(ku, u,ru, v) p(klv) p(z (3) 改进算法,主要有以下的改进组合思路:混合、加权特征组 合、变换、特征扩充以及元级别等方式。例如,文献[9提出了 2)由式(2)式(3)重新计算p(k|u)和p(k|v) 用户人口统计结合专家评分的协同过滤算法,但是有些数据 3)计算评分值概率pdw(r,|k)。 集中不存在专家评分数据,专家与用户的背景知识可能有区 别,所以专家的评分数据存在准确性的问题;文献[10]提出使 Pagrete(ru, I k) 用人口统计信息分析技术融合EM算法进行用户聚类;文献4)选择概率最大的k作为此评分的类别,循环步骤2)至 [11]利用社交网络中的好友信任关系缓解了评分数据的稀疏收 性;文献[2]提出使用划分聚类改进推荐算法;文献13]提出2.2基于人口统计学数据计算用户相似度 高维无参数的分裂层次聚类技术;文献[14提出对多次提取 用户间的相似性计算是目前推荐算法的关键,其准确性 的大规模的样本进行聚类处理,进而确定自然族质心的初始直接影响到推荐的准确性。传统协同过滤推荐算法计算用户 位置对推荐算法进行改进;文献[15提出一种基于边缘度密相似性的主要方法有基于 Spearman相关系数的相似度基于 度距的聚类方法。 夹角余弦的相似度、基于 Jaccard相关系数的相似度、基于 1.2基于人口统计学数据的推荐 Tanimoto相关系数的相似度、修正余弦相似度以及绝对指数 基于人口统计学的推荐是根据人口统计学数据(一般包 相似性等计算方法。但是这类方法在大数据环境中的数 括人的年龄性别、国籍、民族、工作、学历、出生地等)对每个 用户建立一个用户剖面( User Profile)进行聚类,系统通过聚据稀疏概率较高,本文结合人口统计数据计算相似度。 类计算用户间相似度,得到当前用户的最近用户邻集并以这 用户相关的人口统计数据可以反映用户偏好,结合此类 些用户作为协同过滤的计算用户集最后系统将邻集中评分信息计算用户相似度的准确性更高。文献[19的研究发 较高的项目推荐给当前用户16。 现用户的人口统计数据属性如性别、年龄、职业、文化程度、地 文使用用户人口统计学数据计算用户之间必要相关属理位置、收入水平等特征信息对用户的兴趣偏好有影响。本 性的相似度,再使用文献[17提出的改进的分层近邻传播文根据上述特征维度属性进行用户聚类。用户人口统计属性 ( Hierarchical Affinity Propagation,HAP)算法对用户进行聚向量为(d:,d,…,dk,…,dhn),先计算用户在每一维属性上的 类处理,最后将组内所有的用户的推荐结果进行聚合按照推相似度,再结合需要使用的属性计算最后的相似度。文本考 荐评分数据推荐给指定用户 虑在数据稀疏情况下使用文献[19]提出的相似度计算方法: 2算法设计 使用传统的协同过滤算法计算用户相似度,一般不考虑其中,n为用户属性个数,mn(加,9s)为用户白和q在d属 与用户、项目相关的其他属性。本文使用用户的人口统计学性的相似度,w(d)是4属性的权值。用绝对指数相似性计 数据属性对用户之间的相似度进行判断,再使用改进的分层算sim(pa,4),公式如下 近邻传播算法对用户进行层次聚类,以达到更好的推荐效果 sim(Pa, g a)=e 1)使用联合聚类预测评分矩阵中的未知项; 相对权值t(dk)是dk属性区别不同用户的能力,那么用 2)使用用户人口统计学数据属性,并结合联合聚类结果户在d属性两个维度之间评分最高的t个项目不相同的平 3)根据上一步的结果对用户,项目进行分层近邻传播聚均个数是ad),权值ud4)为 类,由用户对项目的评分数据计算用户或项目之间的相似性 we(dk= 产生目标用户或项目的兴趣近邻; ∑ave(dh) 4)根据兴趣最近邻预测目标用户对待推荐项目进行目标 结合以上3个公式计算任意两个用户在人口统计学数据 推荐 中的用户相似度值64 计 算 机 科 学 2017正 1 相 关 问题 2·1 1.1 协同过滤算法 协 同过滤 算法 由 Goldberg等l6于 1992年提 出 ,该算 法 主要 考虑用户 和项 目协 同过滤 ,根 据用户对各 项 目的评 分数 据 ,使用算法分析用户兴趣特征 ,搜索 与特 定用 户有 相似兴趣 的邻 居用户 ,分析相似用户评价 ,生成 指定 用户喜好 物品的推 荐值 。基于用户行为的传统协同过滤推荐算法过分依赖历史 数 据 ,对历史数据质量 的要求较高 ,若 缺少 新用户 和新项 目的 评分信息,则对新用户的信息推荐准确率较低。 另外 在大数据环境 中,用 户 以及 项 目的评分数 据相对 较 少,导致评分矩阵具有稀疏性,因此目前大数据环境下使用传 统协 同过滤推荐算法推 荐 的准确 度不理 想E 。目前 ,国内外 学者提出了很 多为克服评分矩阵稀疏性并提高推荐准确性 的 改进算法 ,主要有 以下 的改进组合思路[8]:混合 、加权 、特 征组 合、变换、特征扩充以及元级别等方式。例如,文献1-9]提出了 用户人 口统计结合专 家评分 的协 同过滤算法 ,但是 有些数据 集 中不存 在专家评分数 据 ,专 家与用户 的背景知识 可能有 区 别,所以专家的评分数据存在准确性的问题 ;文献Elo]提出使 用人 口统计信 息分析技术融 合 EM 算法进 行用户 聚类 ;文献 [11]利用 社交网络中的好友信任关系缓解 了评分数据的稀疏 性;文献[12]提出使用划分聚类改进推荐算法;文献[13]提出 高维无参数 的分裂层次 聚类技 术 ;文献E14]提 出对 多次提取 的大规模 的样本进行 聚类处理 ,进而 确定 自然簇 质心 的初始 位置对推荐算法进行 改进 ;文献 [15]提 出一种 基于边 缘度 密 度距 的聚类方法 。 1.2 基 于人口统计 学数 据的推荐 基于人 口统计学 的推荐是根据 人 口统 计学数 据 (一般包 括人 的年龄 、性 别 、国籍 、民族 、工作 、学 历、出生地 等)对每个 用户建立一个用户剖 面(UserProfile)进 行聚类 ,系统通过 聚 类计 算用户 间相 似度 ,得到 当前用 户的最近用 户邻集并 以这 些用 户作为协 同过滤 的计算 用户集 ,最后 系统 将邻集 中评 分 较高的项 目推荐给当前用户l1。 本文使用 用户人 口统计 学数据计 算用户之间必要相关属 性的相似度,再使用文献[17]提 出的改进 的分层近邻传播 (HierarchicalAffinityPropagation,HAP)算 法对用 户进行 聚 类处理,最后将组内所有的用户的推荐结果进行聚合,按照推 荐评分数据推荐给指定用户。 2 算法设 计 使用传统的协同过滤算 法计算 用户相似 度 ,一 般不 考虑 与用户 、项 目相关 的其他属 性。本文使用 用户 的人 171统 计学 数据属性 对用户之 问的相似度 进行判断 ,再使用 改进的分层 近邻传播算法对用户进行层次 聚类 ,以达到更好 的推荐效果 。 1)使用联合聚类预测评分矩阵中的未知项; 2)使用用户人 口统计 学数据属 性 ,并 结合 联合 聚类 结果 计算各个用户间 的相似度 ; 3)根据上一步的结果对用户、项 目进行分层近邻传播聚 类 ,由用户对项 目的评分数据计算用户或项 目之间 的相似性 , 产生 目标用 户或项 El的兴趣 近邻 ; 4)根据兴趣最近邻预测 目标用户对待推荐项 目进行目标 推荐 。 联合聚类预测未知项 使用联合聚类预测评分矩阵 中的未知项 ,详细步骤如 下 : 1)初 始化评分 属于某 类别 的概率 p(klU,, ,),满 足 : ∑ (愚I“,口, ,)一1。 p(kI“,, ,。)一 [ 垒j ± [垒!垒l ± !:l鱼± [户(愚l“)+口]×[户(忌I)-I-冈×[户(,l忌)+ 其中 卢,0为超参数 ,为避免分母为 0,均一化为0.000000001, p(kI“)为用户属于某类 别的概率 ,p(kf)为项 目属 于某一类 别的概率 。 ∑ p(kl“,, ,) p(k 一 厢 ∑ p(k1“,口, ,) p(kl 一 (3) 2)由式 (2)、式 (3)重新计算 p(kI“)和 p(kl)。 3)计算评分值概率 ( .l愚)。 胪袁 端 ㈩ 4)选择概率最大 的 k作为此评分 的类别 ,循环步 骤 2)至 收敛 。 2.2 基于人 口统计学数据计算用户相似度 用户间的相似性计算是 目前推荐算法的关键 ,其准确性 直接影响到推荐的准确性。传统协同过滤推荐算法计算用户 相似性的主要方法有基于 Spearman相关 系数的相似 度 、基 于 夹角余 弦 的相 似度 、基 于 Jaccard相 关 系数 的相 似 度 、基 于 Tanimoto相关系数的相似度 、修正余 弦相似度 以及 绝对 指数 相似 性等计算 方法m]。但是 这类 方法在 大数 据环境 中的数 据稀 疏概 率较高 ,本文结合人 口统计数据计算相似度 。 用户相关的人 口统计数据 可 以反 映用户 偏好 ,结合 此类 信息计算用户相似度的准确性更高m]。文献[19]的研究发 现用户的人 口统计数据属性如性别 、年龄 、职业 、文化程 度 、地 理位置 、收入水平等 特征信 息对用户 的兴趣偏 好有 影 响。本 文根据上述特征维度属性进行用户聚类 。用户人 口统计属性 向量为 (dl,d2,…, ,… , ),先计算用户在每一维 属性上 的 相似度 ,再结合需要使 用 的属 性计算 最后 的相 似度 。文本 考 虑在数据稀疏情况下使用文献[19]提出的相似度计算方法 : sim(p,q)一Z[-sim(p战,% )]× (dk) (5) 其 中, 为用户属 性个数 ,sim(p,~,% )为用户 P和 q在 d 属 性 的相似度 ,w(d)是 以 属 性的权值 。用绝 对指数 相似性 计 算 sim(po~,‰ )[。,公式如下: 弓 . sire( ,钕 )一 e =1’’ Tm,q (6) 相对权值 (dk)是 dk属性 区别不 同用户 的能力 ,那 么用 户在 属性两个维度之 间评分 最高 的 t个项 目不 相 同的平 均个数是 “ (以),权 值 训(dk)为: w(dk)一 (7) 口ve(dk) 结合 以上 3个公式计算任意两个用户在人 口统计学数 据 中的用户相似度值
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有