·62· 智能系统学报 第2卷 反馈2种反馈机制实时更新用户兴趣 试实验系统:机器人足球;入侵检测系统;数据挖掘; 4.1隐式反馈学习 Linux;电子商务.该系统实验评价指标o1为 在用户没有明确参与评价搜索结果的情况下, 查全率Recall,表示为用户预测并推荐给用户 系统在客户端浏览器的后台时刻监视和跟踪用户的 的文档S中真正是用户感兴趣的文档数,与用户感 浏览行为和操作,通过用户在某个网站的停留时间 兴趣的全部文档总数的百分比 或者在一段时间内反复登录某个网站来推断出用户 预测查全率:Recall=SDR4X1O0%.(9 兴趣 IRI 假定用户i在一段时间H内经常上网(以小时 查准率Precision,表示在推荐给用户的文档 为单位),若在此期间花H的时间上网(H以小时 中,真正是用户感兴趣的文档数,与系统提交给用户 为单位),其中用户1对感兴趣的页面总浏览时间为 的页面数的百分比 H,:对一些认为重要的页面浏览了T次,对感兴趣 预测准确率:Precisi0n=SRLX1O0% ISI 的页面浏览次数为T,:对一些认为重要的页面内容 10 保存了s次,对感兴趣的页面保存次数为S.对含 若输入关键字为“机器人足球”,则输出结果如 用户兴趣内容的页面进行词干抽取处理和关键词切 表1所示:其中Recall 1为由ACFM返回的相关结 分,即可获得用户兴趣度.定义用户ⅰ对兴趣项 果的查全率;Recall2为由普通检索工具检索时返 word的兴趣度w为 回的相关结果的查全率.从表1可以看出,ACFM w'=a出+B.+y. 8) H T 与普通的搜索工具在相同的用户兴趣度下,结果有 式中:a,B,Y为浏览时间、浏览次数和保存次数3项 很大的差别,因为ACFM不但具有跟踪用户上网行 对兴趣项word,的影响因子,0≤0≤1,0≤B≤1, 为的能力,而且可以根据用户的兴趣度主动查询出 0y,且a+B+y=1.a,B,Y的取值可通过机器 与该用户兴趣相关的网页,由此提高了查全率 学习得到或通过经验取值 表1查全率比较 式8)计算出w,',0≤w图.设定阈值6,当 ble I Comparison of the alFsearching probability w'>6时,可认为用户i对word感兴趣 用户兴趣度 Recall 1/% Recall 2/% 4.2显式反馈学习 系统根据用户对查询结果的评价信息来学习用 0.10 10 10 户的兴趣.用户对查询结果所在页面的评价可分为 0.20 20 20 3类:正好符合兴趣:与兴趣相关:与兴趣无关 ACFM根据评价信息对用户兴趣模型中w,的权值 0.30 30 20 作调整: 0.40 40 1)当用户i对含有关键词word,的页面评价 是正好符合兴趣,则W加1: 0.50 55 2)当用户i对含有关键词word的页面评价 0.60 65 5 是与兴趣相关,则W加0.5; 3)当用户i对含有关键词word.,的页面评价 0.70 70 6( 是与兴趣无关,则W减1:若此时减为负数,则置 0.80 80 65 0 在系统作下一次预测用户兴趣,向用户推荐页 0.90 90 75 面之前,须更新用户模型 对5个查询提问的搜索结果进行过滤后产生表 5实验结果 2,该图是通过合作过滤后所计算出来的准确率表, 使用来自于江苏大学数字图书馆的数据库的总 并且与使用普通搜索工具的结果进行比较,Preci- 容量近十万字,共含有100多篇科技文献作为测试 sion1为由ACFM返回的相关结果的查准率;Pre 数据.5个覆盖了不同的主题的查询提问被用来测 cision2为由普通检索工具检索时返回的相关结果 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net反馈 2 种反馈机制实时更新用户兴趣. 411 隐式反馈学习 在用户没有明确参与评价搜索结果的情况下 , 系统在客户端浏览器的后台时刻监视和跟踪用户的 浏览行为和操作 ,通过用户在某个网站的停留时间 或者在一段时间内反复登录某个网站来推断出用户 兴趣. 假定用户 i 在一段时间 H 内经常上网(以小时 为单位) ,若在此期间花 H^ 的时间上网 ( H^ 以小时 为单位) ,其中用户 i 对感兴趣的页面总浏览时间为 H^ i ;对一些认为重要的页面浏览了 ^T 次 ,对感兴趣 的页面浏览次数为 ^Ti ;对一些认为重要的页面内容 保存了 S^ 次 ,对感兴趣的页面保存次数为 S^ i . 对含 用户兴趣内容的页面进行词干抽取处理和关键词切 分 ,即可获得用户兴趣度. 定义用户 i 对兴趣项 word i , j的兴趣度 w′i , j为 wi , j′=α· H^ i H^ +β· ^Ti ^T +γ· S^ i S^ . (8) 式中 :α,β,γ为浏览时间、浏览次数和保存次数 3 项 对兴趣项 wordi , j 的影响因子 , 0 ≤α≤1 , 0 ≤β≤1 , 0 ≤γ≤1 ,且α+β+γ= 1.α,β,γ的取值可通过机器 学习得到或通过经验取值. 式(8) 计算出 wi , j′, 0 ≤wi , j ≤1. 设定阈值δ,当 wi , j′>δ时 ,可认为用户 i 对 word i , j感兴趣. 412 显式反馈学习 系统根据用户对查询结果的评价信息来学习用 户的兴趣. 用户对查询结果所在页面的评价可分为 3 类 : 正好符合兴趣; 与兴趣相关; 与兴趣无关. ACFM 根据评价信息对用户兴趣模型中 wi , j的权值 作调整 : 1) 当用户 i 对含有关键词 word i , j 的页面评价 是正好符合兴趣 ,则 W i , j加 1 ; 2) 当用户 i 对含有关键词 word i , j 的页面评价 是与兴趣相关 ,则 W i , j加 015 ; 3) 当用户 i 对含有关键词 word i , j 的页面评价 是与兴趣无关 ,则 W i , j 减 1 ;若此时减为负数 ,则置 0. 在系统作下一次预测用户兴趣 ,向用户推荐页 面之前 ,须更新用户模型. 5 实验结果 使用来自于江苏大学数字图书馆的数据库的总 容量近十万字 ,共含有 100 多篇科技文献作为测试 数据. 5 个覆盖了不同的主题的查询提问被用来测 试实验系统 :机器人足球 ;入侵检测系统 ;数据挖掘 ; Linux ;电子商务. 该系统实验评价指标[10 ]为 查全率 Recall ,表示为用户预测并推荐给用户 的文档 S 中真正是用户感兴趣的文档数 ,与用户感 兴趣的全部文档总数的百分比. 预测查全率 :Recall = | S ∩R | | R | ×100 %. (9) 查准率 Precision ,表示在推荐给用户的文档 中 ,真正是用户感兴趣的文档数 ,与系统提交给用户 的页面数的百分比. 预测准确率 :Precision = | S ∩R | | S | ×100 %. (10) 若输入关键字为“机器人足球”,则输出结果如 表 1 所示 :其中 Recall 1 为由 ACFM 返回的相关结 果的查全率 ; Recall 2 为由普通检索工具检索时返 回的相关结果的查全率. 从表 1 可以看出 ,ACFM 与普通的搜索工具在相同的用户兴趣度下 ,结果有 很大的差别 ,因为 ACFM 不但具有跟踪用户上网行 为的能力 ,而且可以根据用户的兴趣度主动查询出 与该用户兴趣相关的网页 ,由此提高了查全率. 表 1 查全率比较 Table 1 Comparison of the all2searching probability 用户兴趣度 Recall 1/ % Recall 2/ % 0110 10 10 0120 20 20 0130 30 20 0140 40 30 0150 55 45 0160 65 55 0170 70 60 0180 80 65 0190 90 75 对 5 个查询提问的搜索结果进行过滤后产生表 2 ,该图是通过合作过滤后所计算出来的准确率表 , 并且与使用普通搜索工具的结果进行比较 , Preci2 sion 1 为由 ACFM 返回的相关结果的查准率 ;Pre2 cision 2 为由普通检索工具检索时返回的相关结果 ·62 · 智 能 系 统 学 报 第 2 卷