第3卷第1期 智能系统学报 Vol.3№1 2008年2月 CAAI Transactions on Intelligent Systems Fcb.2008 自适应过滤算法在社区E-learning的 个性化服务系统中的研究 罗奇12,谈宏华 (1.武汉工程大学电气信息学院,湖北武汉430073;2.武汉科技大学中南分校信息工程学院,湖北武汉430223) 摘要:针对学习型社区中的教育需求,在传统算法上加以改进,提出了一种基于向量空间模型的教育资源自适应 过滤算法.通过训练算法,提取特征向量和伪反馈建立初始模板,设置初始阈值.然后通过过滤算法根据用户的反馈 信息自适应地调整模板和阈值.该算法在执行过程中,不需要大量的初始文本,同时在过滤的过程中可不断地进行 自主学习来提高过滤精度.该算法已在个性化知识服务系统中进行验证,结果表明是有效的, 关键词:自适应过滤,个性化知识服务;相似度;终身化学习 中图分类号:TP302文献标识码:A文章编号:16734785(2007)05009-04 Research on a personalized knowledge service system for community E-learning using an ada ptive filtering algorithm LUO Qi'2,TAN Hong-hua' (1.School of Electrical Information,Wuhan Institute of Technology,Wuhan 430073,China;2.Department of Information En gineering,Wuhan University of Science and Technology Zhongnan Branch,Wuhan 430223,China) Abstract:To effectively provide personalized Elearning in a community,an adaptive filtering algorithm for identifying appropriate teaching resources was developed.It is based on a vector space model,an improve- ment on traditional algorithms used for this purpose.Firstly,feature selection and pseudo feedback were used to establish the initial templates and thresholds through a training algorithm.Then the user's feed- back was utilized to modify the templates and thresholds adaptively for the filtering algorithm.The algo- rithm did not need massive quantities of initial texts to begin the process of filtering.Furthermore,filte- ring precision improved during the process through self learning.The algorithm proved effective as a per- sonalized knowledge service system for community E-learning. Key words :adaptive filtering;personalized knowledge service;similarity;lifelong education 当今,为了实现社区居民终身学习、主动学习、吸引社区居民的主动参与).经调查研究表明,这主 全面学习的教育理念,国内外建立了很多的学习型要是由于个性化的知识服务体系还不完善,提供的 社区.随着拥有电脑和网络的社区居民数的增加,基 信息准确度不高,有效性差,导致社区学习者兴趣度 于E-learning社区教育可突破时空的限制并降低学 低,对E-learning社区教育信心不足或持怀疑态度. 习成本、显著提高学习效率等优点日益受到人们的 基于E-learning的社区教育要想很好地吸引住社区 关注山.因此,不少学习型社区也基于E-learning方 居民,就要有个性化设计的思想,即为社区居民提供 式建设了社区网站,为社区成员提供一些信息,或提 个性化的量身定做的知识和信息服务.而个性化设 供一些学习课程.但在实践应用中,这些网站却难以 计的关键在于如何根据用户的个性兴趣进行教学资 源的过滤.目前,国内外也有不少学者对过滤算法进 收稿日期:2007-01-25 基金项目:因家自然科学基金资助项目(60533080):“973”基金资助 行了大量的研究,例如传统的批过滤算法).他们的 项目(2002CB312100);“863”基金资助项目(2006AA01Z3 算法在过滤的过程中,需要大量初始训练文本,同时 03). 通讯作者:罗奇.E-mail:ccnu luo.2008@yahoo.com.cn. 准确率和查全率也不高,基于此,文中在改进传统 1994-2008 China Academie Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
第 3 卷第 1 期 智 能 系 统 学 报 Vol. 3 №. 1 2008 年 2 月 CAA I Transactions on Intelligent Systems Feb. 2008 自适应过滤算法在社区 E2learning 的 个性化服务系统中的研究 罗 奇1 ,2 ,谈宏华1 (1. 武汉工程大学 电气信息学院 ,湖北 武汉 430073 ;2. 武汉科技大学中南分校 信息工程学院 ,湖北 武汉 430223) 摘 要 :针对学习型社区中的教育需求 ,在传统算法上加以改进 ,提出了一种基于向量空间模型的教育资源自适应 过滤算法. 通过训练算法 ,提取特征向量和伪反馈建立初始模板 ,设置初始阈值. 然后通过过滤算法根据用户的反馈 信息自适应地调整模板和阈值. 该算法在执行过程中 ,不需要大量的初始文本 ,同时在过滤的过程中可不断地进行 自主学习来提高过滤精度. 该算法已在个性化知识服务系统中进行验证 ,结果表明是有效的. 关键词 :自适应过滤 ;个性化知识服务 ; 相似度 ;终身化学习 中图分类号 : TP302 文献标识码 :A 文章编号 :167324785 (2007) 0520091204 Research on a personalized knowledge service system for community E2learning using an adaptive filtering algorithm L UO Qi 1 ,2 , TAN Hong2hua 1 (1. School of Electrical Information , Wuhan Institute of Technology , Wuhan 430073 , China ; 2. Department of Information En2 gineering , Wuhan University of Science and Technology Zhongnan Branch , Wuhan 430223 , China) Abstract :To effectively provide personalized E2learning in a community , an adaptive filtering algorit hm for identifying appropriate teaching resources was developed. It is based on a vector space model , an improve2 ment on traditional algorithms used for t his p urpose. Firstly , feature selection and p seudo feedback were used to establish t he initial templates and t hresholds t hrough a training algorit hm. Then t he user’s feed2 back was utilized to modify t he templates and t hresholds adaptively for t he filtering algorit hm. The algo2 rit hm did not need massive quantities of initial texts to begin t he process of filtering. Furthermore , filte2 ring p recision improved during t he process t hrough self learning. The algorit hm proved effective as a per2 sonalized knowledge service system for community E2learning. Keywords :adaptive filtering ; personalized knowledge service ; similarity ; lifelong education 收稿日期 :2007201225. 基金项目 :国家自然科学基金资助项目(60533080) ;“973”基金资助 项目(2002CB312100) “; 863”基金资助项目(2006AA01Z3 03) . 通讯作者 :罗 奇. E2mail :ccnu_luo2008 @yahoo. com. cn. 当今 ,为了实现社区居民终身学习、主动学习、 全面学习的教育理念 ,国内外建立了很多的学习型 社区. 随着拥有电脑和网络的社区居民数的增加 ,基 于 E2learning 社区教育可突破时空的限制并降低学 习成本、显著提高学习效率等优点日益受到人们的 关注[ 1 ] . 因此 ,不少学习型社区也基于 E2learning 方 式建设了社区网站 ,为社区成员提供一些信息 ,或提 供一些学习课程. 但在实践应用中 ,这些网站却难以 吸引社区居民的主动参与[2 ] . 经调查研究表明 ,这主 要是由于个性化的知识服务体系还不完善 ,提供的 信息准确度不高 ,有效性差 ,导致社区学习者兴趣度 低 ,对 E2learning 社区教育信心不足或持怀疑态度. 基于 E2learning 的社区教育要想很好地吸引住社区 居民 ,就要有个性化设计的思想 ,即为社区居民提供 个性化的量身定做的知识和信息服务. 而个性化设 计的关键在于如何根据用户的个性兴趣进行教学资 源的过滤. 目前 ,国内外也有不少学者对过滤算法进 行了大量的研究 ,例如传统的批过滤算法[3 ] . 他们的 算法在过滤的过程中 ,需要大量初始训练文本 ,同时 准确率和查全率也不高[4 ] . 基于此 ,文中在改进传统
·92 智能系统学报 第3卷 算法基础上,引入智能控制中的自适应反馈学习机 式中:w:为文档中的第1个词,为第j个主题 制,提出了一种基于向量空间模型的教育资源自适 P(w,/)和P(w)采用最大似然法进行估计 应过滤算法.该算法在执行过程中,不需要大量的初 3)在获得主题的正例和伪正例向量后,初始模 始文本,同时在过滤的过程中可不断的进行自主学 板向量是正例特征向量、伪正例特征向量、用户兴趣 习来提高过滤精度.将该算法应用于基于社区E 向量和主题向量4个向量的加权和,权重分别为a、 learning的个性化知识服务系统中,能更好地支持 B、Y、6即 社区教育的开展 pfo(Q)aPo(Q)BP(Q)+YP2 (Q)P3 (Q) 1 基于向量空间模型的教育资源自适 2) 式中:Q表示主题,Pf(Q是主题Q的初始模板向 应过滤算法 量,而B、P、B、P是它的4个分量 基于向量空间模型的教育资源过滤算法包括训 1.1.2初始模板的建立 练和过滤2个阶段.训练阶段的目的是根据给定的 教育资源训练集中,比该主题模板的相似度大 教育资源训练文本,生成初始的过滤模板,并决定初 的阈值的文档将作为该主题的相关文本而检出.计 始的阈值.在自适应过滤阶段,对于教育资源中的每 算初始模块向量和全部训练样本之间的相似度,可 篇文本,系统判断它是否和过滤模板相关,再根据用 以为每个主题选择最优的初始相似度阈值.相似度 户的反馈信息,自动调整过滤模板和阈值,以获得最 采用余弦公式进行计算,如式3所示 佳的过滤性能 ∑dpfk 1.1训练 sim(d.pr) (3) 图1说明了训练算法的流程图.首先,将主题转 hpri 变为向量形式,同时从正例文本和伪正例文本中抽 式中:p表示初始模块向量,d表示文本.d是d中 取特征向量.而初始的模板则是正例特征向量和伪 第k个词的权重1 正例特征向量的加权和.于是,就可以计算初始模块 1.2过滤 向量和全部的训练样本之间的相似度,从而为每个 1.2.1自适应过滤算法 主题选择最优的初始相似度阈值 初始的过滤模板建立,并且设置好初始阈值之 主题 用户兴趣模型 正例正文 伪正例文本 后,过滤的过程就是自适应地修改过滤模板和阈值, 使过滤性能不断提高,是一个机器学习的过程.图2 主题处理特征提取 是自适应过滤算法流程图.对于教学资源的每个文 题向量 特征向量 本,可计算它和某个主题的模板向量的相似度.若相 似度大于阈值,就被认为是相关文本.然后由用户判 相似度计算 教学资源 断这篇文本是否真正与主题相关.根据不同的结果 初始模板 训练集 相应地修改模板向量或调整阈值 初始倒值 正例文本 图1训练算法流程图 Fig.1 The flow chart of training algorithm 主题向量 特征向量 特征提取 是 1.1.1初始模板的建立 慎板 1)对于每个主题,只能得到少的正例文本.因 伪正例文本 此需加入伪反馈的功能,从训练文本中挖掘出更 教学资 相似度>圆值 多的相关文本来补充正例文本,和模板向量具有 是否成立 相似度计算 高度相似度而不是给定的正例文本的那些作为伪 倒值调整 正例文本 圆值 2)获得正例文本和伪正例文本后,采用计算互 信息量的方法计算每个词的权重 图2自适应算法流程图 log MI(w.)=log(p (1) Fig.2 The flow chart of training algorithm P(wi) 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
算法基础上 ,引入智能控制中的自适应反馈学习机 制 ,提出了一种基于向量空间模型的教育资源自适 应过滤算法. 该算法在执行过程中 ,不需要大量的初 始文本 ,同时在过滤的过程中可不断的进行自主学 习来提高过滤精度. 将该算法应用于基于社区 E2 learning 的个性化知识服务系统中 ,能更好地支持 社区教育的开展. 1 基于向量空间模型的教育资源自适 应过滤算法 基于向量空间模型的教育资源过滤算法包括训 练和过滤 2 个阶段. 训练阶段的目的是根据给定的 教育资源训练文本 ,生成初始的过滤模板 ,并决定初 始的阈值. 在自适应过滤阶段 ,对于教育资源中的每 篇文本 ,系统判断它是否和过滤模板相关 ,再根据用 户的反馈信息 ,自动调整过滤模板和阈值 ,以获得最 佳的过滤性能. 1. 1 训 练 图 1 说明了训练算法的流程图. 首先 ,将主题转 变为向量形式 ,同时从正例文本和伪正例文本中抽 取特征向量. 而初始的模板则是正例特征向量和伪 正例特征向量的加权和. 于是 ,就可以计算初始模块 向量和全部的训练样本之间的相似度 ,从而为每个 主题选择最优的初始相似度阈值. 图 1 训练算法流程图 Fig. 1 The flow chart of training algorithm 1. 1. 1 初始模板的建立 1) 对于每个主题 ,只能得到少的正例文本. 因 此需加入伪反馈的功能 ,从训练文本中挖掘出更 多的相关文本来补充正例文本 ,和模板向量具有 高度相似度而不是给定的正例文本的那些作为伪 正例文本. 2) 获得正例文本和伪正例文本后 ,采用计算互 信息量的方法计算每个词的权重[5 ] . log MI( wi , tj) = log ( P( wi / tj) ) P( wi) . (1) 式中 :wi 为文档中的第 i 个词 , tj 为第 j 个主题. P( wj / tj) 和 P( wi) 采用最大似然法进行估计. 3) 在获得主题的正例和伪正例向量后 , 初始模 板向量是正例特征向量、伪正例特征向量、用户兴趣 向量和主题向量 4 个向量的加权和 ,权重分别为α、 β、γ、δ即 pf 0 (Q) =αP0 ( Q) +βP1 ( Q) +γP2 (Q) +δP3 ( Q) . (2) 式中 :Q 表示主题 , Pf 0 ( Q) 是主题 Q 的初始模板向 量 ,而 P0 、P1 、P2 、P3 是它的 4 个分量. 1. 1. 2 初始模板的建立 教育资源训练集中 ,比该主题模板的相似度大 的阈值的文档将作为该主题的相关文本而检出. 计 算初始模块向量和全部训练样本之间的相似度 ,可 以为每个主题选择最优的初始相似度阈值. 相似度 采用余弦公式进行计算 ,如式 3 所示. sim( d , pf ) = ∑k d k p f k ∑k d 2 k ∑k p f 2 k . (3) 式中 : pf 表示初始模块向量 , d 表示文本. dk 是 d 中 第 k 个词的权重[6 ] . 1. 2 过 滤 1. 2. 1 自适应过滤算法 初始的过滤模板建立 ,并且设置好初始阈值之 后 ,过滤的过程就是自适应地修改过滤模板和阈值 , 使过滤性能不断提高 ,是一个机器学习的过程. 图 2 是自适应过滤算法流程图. 对于教学资源的每个文 本 ,可计算它和某个主题的模板向量的相似度. 若相 似度大于阈值 ,就被认为是相关文本. 然后由用户判 断这篇文本是否真正与主题相关. 根据不同的结果 相应地修改模板向量或调整阈值. 图 2 自适应算法流程图 Fig. 2 The flow chart of training algorithm · 29 · 智 能 系 统 学 报 第 3 卷
第1期 罗奇,等:自适应过滤算法在社区E-learning的个性化服务系统中的研究 ·93· 1.2.2阈值自适应调整 由于教学资源文本流中相关文本的比例是很低 用户界面 的,因此过滤出文档后就需要进行自适应调整阈值. 用户 请求 提高阈值的目的是过滤出较少的正例文档,从而提 个性化 个性化 个性化 高准确率:而降低阈值的目的是过滤出较多的正例 特征提取模块推荐 检索 互助 模块 模块 模块 文档.文中提出采用概率分布密度的思想,如果近期 教学资源管理 过滤的正例分布超过期望的正例分布范围,则升高 阈值.否则,降低阈值,以增加正例文档数 个性化教学资源过滤模块 定义1设n为过滤文档在教育资源中的顺序 用户 个性特 编号,D为期望的正例分布密度 征库 用户兴趣模型 教学资源 社区 定义2S(为截至文档n时过滤的文档总数. 特征库 教学资源 定义3SR(W为截至文档n时过滤得到的正 例文档 定义4O(m为截至文档n时过滤阈值 图3 ECPKSS模型 Fig.3 ECPKSS model 定义5Dr(m,m+i)为上次阈值调整后得到的 正例文档的概率分布密度」 特征提取模块实现根据用户对社区教育资源游 Dr(m,mi)=SaL+)-S山 (4) 览和相关反馈,来提取用户感兴趣的教学资源的特 S(t+1)-S() 征信息,然后把这些特征信息保存在用户个性特征 如下的阈值调整算法: 中并及时跟踪和更新」 1)若De(n,m+)>max(D,0.2)且SR(nlD,则O(n+1)=O()X 性特征,并作为用户模型构建模块提供用户特征」 用户兴趣模型构建模块从用户个性特征库提取 1.1,即如过滤出的文档数多于必需的,则提高阈值. 关键词构成个体用户模型, 3)若DR(m,m+1)<D,则O(n+1)=O(n川X 个性化社区教育资源过滤模块可以根据用户模 0.9,如果过滤出的文档数少于必需的,则降低阈值 如果检出的文本被用户判断为相关文本,将它 型分别对社区教育资源进行过滤 加入到正例文本集合中,否则加入到伪正例文本集 个性化推荐模块实现教育资源自动推荐和用户 合中.在调整模板向量时,从正例文本和伪正例文本 请求推荐2种个性化推荐功能.用户请求推荐通过 对教学资源库的管理模块和教学资源过滤模块调用 中抽取出特征向量.于是新的模板向量就是正例特 来实现. 征向量、伪正例特征向量、用户兴趣向量和主题向量 4个向量的加权和,权重分别为a'B、y'、6即 个性化检索模块是接受用户的检索请求,由过 pfo(Q)=a'Po(Q)+BP (Q)+ 滤模块根据用户对社区教育资源的过滤形成个性化 的检索结果」 Y'P2 (Q)+6'P3 (Q) (5) 个性化的互助模块使用户在学习过程中出现问 2基于社区E-learning的个性化知识 题而得到及时、准确地指导与帮助 服务系统 该模型的工作过程是首先由特征提取模块提取 用户感兴趣的社区教学资源的特征信息,并把这些 该文应用个性化、数据挖掘、自适应过滤等技术 提出了一种基于社区Elearning的个性化知识服务 信息保存在用户个性特征库中并及时跟踪和更新, 系统模型(ECPKSS)),如图3所示. 其次由用户模型构建模块根据用户的个性化特征信 ECPKSS模型的主要功能是在社区网络教学 息构成用户模型.然后由个性化教学资源过滤模块 资源中学习和跟踪用户的个性化兴趣,并根据用户 根据用户模型实现对社区教育资源的过滤,最后由 的个性化兴趣特征对教育资源进行过滤,帮助用户 个性化检索、个性化推荐、个性化互助等模块根据过 在海量的社区网络教学资源中快速而准确得到或者 滤结果分别实现个性化检索服务、个性化推荐、个性 化互助服务等. 推荐用户感兴趣的教学资源 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
1. 2. 2 阈值自适应调整 由于教学资源文本流中相关文本的比例是很低 的 ,因此过滤出文档后就需要进行自适应调整阈值. 提高阈值的目的是过滤出较少的正例文档 ,从而提 高准确率;而降低阈值的目的是过滤出较多的正例 文档. 文中提出采用概率分布密度的思想 ,如果近期 过滤的正例分布超过期望的正例分布范围 ,则升高 阈值. 否则 ,降低阈值 ,以增加正例文档数. 定义 1 设 n 为过滤文档在教育资源中的顺序 编号 , D 为期望的正例分布密度. 定义 2 S ( n)为截至文档 n时过滤的文档总数. 定义 3 S R ( n) 为截至文档 n 时过滤得到的正 例文档. 定义 4 O( n) 为截至文档 n 时过滤阈值. 定义 5 DR ( nt , nt + 1 ) 为上次阈值调整后得到的 正例文档的概率分布密度. DR ( nt , nt+1 ) = S R ( t + 1) - S R ( t) S ( t + 1) - S ( t) . (4) 如下的阈值调整算法 : 1) 若 DR ( nt , nt + 1 ) > max ( D , 0. 2) 且 S R ( n) D ,则 O ( n + 1) = O ( n) × 1. 1 ,即如过滤出的文档数多于必需的 ,则提高阈值. 3) 若 DR ( nt , nt + 1 ) < D ,则 O ( n + 1) = O ( n) × 0. 9 ,如果过滤出的文档数少于必需的 ,则降低阈值. 如果检出的文本被用户判断为相关文本 ,将它 加入到正例文本集合中 ,否则加入到伪正例文本集 合中. 在调整模板向量时 ,从正例文本和伪正例文本 中抽取出特征向量. 于是新的模板向量就是正例特 征向量、伪正例特征向量、用户兴趣向量和主题向量 4 个向量的加权和 ,权重分别为α′、β′、γ′、δ′即 pf 0 ( Q) =α′P0 ( Q) +β′P1 (Q) + γ′P2 ( Q) +δ′P3 ( Q) . (5) 2 基于社区 E2learning 的个性化知识 服务系统 该文应用个性化、数据挖掘、自适应过滤等技术 提出了一种基于社区 E2learning 的个性化知识服务 系统模型( ECP KSS) [7 ] ,如图 3 所示. ECP KSS 模型的主要功能是在社区网络教学 资源中学习和跟踪用户的个性化兴趣 ,并根据用户 的个性化兴趣特征对教育资源进行过滤 ,帮助用户 在海量的社区网络教学资源中快速而准确得到或者 图 3 ECPKSS 模型 Fig. 3 ECP KSS model 推荐用户感兴趣的教学资源. 特征提取模块实现根据用户对社区教育资源游 览和相关反馈 ,来提取用户感兴趣的教学资源的特 征信息 ,然后把这些特征信息保存在用户个性特征 中并及时跟踪和更新. 用户个性特征库记录用户个性化信息. 它动态 跟踪用户的兴趣 ,提取并记录关键词作为用户的个 性特征 ,并作为用户模型构建模块提供用户特征. 用户兴趣模型构建模块从用户个性特征库提取 关键词构成个体用户模型. 个性化社区教育资源过滤模块可以根据用户模 型分别对社区教育资源进行过滤. 个性化推荐模块实现教育资源自动推荐和用户 请求推荐 2 种个性化推荐功能. 用户请求推荐通过 对教学资源库的管理模块和教学资源过滤模块调用 来实现. 个性化检索模块是接受用户的检索请求 ,由过 滤模块根据用户对社区教育资源的过滤形成个性化 的检索结果. 个性化的互助模块使用户在学习过程中出现问 题而得到及时、准确地指导与帮助. 该模型的工作过程是首先由特征提取模块提取 用户感兴趣的社区教学资源的特征信息 ,并把这些 信息保存在用户个性特征库中并及时跟踪和更新 , 其次由用户模型构建模块根据用户的个性化特征信 息构成用户模型. 然后由个性化教学资源过滤模块 根据用户模型实现对社区教育资源的过滤 ,最后由 个性化检索、个性化推荐、个性化互助等模块根据过 滤结果分别实现个性化检索服务、个性化推荐、个性 化互助服务等. 第 1 期 罗 奇 ,等 :自适应过滤算法在社区 E2learning 的个性化服务系统中的研究 · 39 ·
·94· 智能系统学报 第3卷 证,结果表明是有效的.希望本文的工作能给相关人 3 实验 员有所参考。 在上述研究的基础上,结合与某社区的合作课 题“个性化知识服务系统”的研究,为某社区建设了 参考文献: 一个提供个性化知识和信息服务系统网站(供小区 [1 ]LUO Qi,XU E Qiang.Research on application of associa- 局域网接入,外网不可访问),为了得到实验的对比 tion rule mining algorithm in learning community [Cl// 结果,文中在个性化教学资源过滤模块中分别采用 Proceedings of CAAF11.Wuhan,2005. 传统批过滤算法和自适应过滤算法.实验数据来自 [2]WU Yanwen,WU Zhonghong.Knowledge adaptive pres- 社区教育中的法律知识,所有的文档为XML格式, entation strategy in E-learning [C]//Proceedings of Sec- ond International Conference on Knowledge Economy and 分为训练集(83650个文档)和测试集(723420个有 Development of Science and Technology.Beijing,2004. 序文档).测试共使用63个不同的主题,实验结果如 [3]HU Tian,XIA Yingju HUANG Xuanjing.A webr based 图所示,横轴是63个主题,按批过滤的准确率从大 Chinese information filtering system base on VSM [J ] 到小的顺序排列.纵轴则出了每个主题自适应过滤 Computer Engineering,2003,29(3):25-27. 和批过滤的准确率数值,批过滤每个主题平均提供 [4]LI Dun,CAO Yuanda.A new weighted text filtering 了10篇相关文本,而自适应过滤提供了2篇.此外, method [C]//Proceedings of International Conference on 不进行自适应的情况下,每个主题只提供2篇相关 Natural Language Processing and Knowledge Engineer- 文本 ing.Wuhan,2005. 1.0 [5]ROBERTSON S,HULL D A.The TREC-9 filtering ·白适应过滤算法 一批过滤算法 track final report[C]//Proceedings of the 9th Text Re- 081 trieval Conference.Gaithersburg,Maryland,USA, 0.6 一尤白适应过滤算法 2001. 0. 0. [6]HUANGXJ,WU L D,ISHIZA KI H,et al.Language independent text categorization [J].Journal of Chinese 0 203040 50 60 Information Processing,2000,14(2):1-7. 主题数/个 [7]LAWRENCE R D,ALMASI G S.Personalization of su- permarket product recommendations [J].Special Issue of 图4算法性能比较 the International Journal of Data Mining and Knowledge Fig.4 Performance comparison of batch algorithm Discovery,2001,15(5):11-32. and adaptive filtering algorithm 作者简介: 从图4中可以发现,与传统批过滤相比,自适 罗奇,男,1982生,讲师,主要研究方 应过滤的性能下降得并不是很大,2条曲线非常接 向为情感计算、智能计算!体育工程等,发表 近.事实上,两者的平均数值分别是31.7%和 论文多篇 26.5%,下降幅度仅为16.4%.相比之下,在不进行 自适应的情况下,大多数主题的准确率均有很大幅度 的下降,且平均准确率仅为17.5%,下降了45.8% 4结束语 谈宏华,男,1963生,博士,教授,武汉工 程大学电气信息学院院长,主要研究方向为 综上所述,文中提出了一种基于向量空间模型 机电一体化、智能控制等,曾主持项目40余 的教育资源自适应过滤算法.将该算法应用于基于 项,发表文章30余篇 社区E-learning的个性化知识服务系统中,能更好 地支持社区教育的开展.该算法己在实验中得到验 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
3 实 验 在上述研究的基础上 ,结合与某社区的合作课 题“个性化知识服务系统”的研究 ,为某社区建设了 一个提供个性化知识和信息服务系统网站 (供小区 局域网接入 ,外网不可访问) ,为了得到实验的对比 结果 ,文中在个性化教学资源过滤模块中分别采用 传统批过滤算法和自适应过滤算法. 实验数据来自 社区教育中的法律知识 ,所有的文档为 XML 格式 , 分为训练集(83 650个文档) 和测试集 (723 420个有 序文档) . 测试共使用 63 个不同的主题 ,实验结果如 图所示 ,横轴是 63 个主题 ,按批过滤的准确率从大 到小的顺序排列. 纵轴则出了每个主题自适应过滤 和批过滤的准确率数值. 批过滤每个主题平均提供 了 10 篇相关文本 ,而自适应过滤提供了 2 篇. 此外 , 不进行自适应的情况下 ,每个主题只提供 2 篇相关 文本. 图 4 算法性能比较 Fig. 4 Performance comparison of batch algorithm and adaptive filtering algorithm 从图 4 中可以发现 ,与传统批过滤相比 ,自适 应过滤的性能下降得并不是很大 ,2 条曲线非常接 近. 事实上 , 两者的平均数 值分别是 31. 7 %和 26. 5 % ,下降幅度仅为 16. 4 %. 相比之下 ,在不进行 自适应的情况下 ,大多数主题的准确率均有很大幅度 的下降 ,且平均准确率仅为 17. 5 % ,下降了 45. 8 %. 4 结束语 综上所述 ,文中提出了一种基于向量空间模型 的教育资源自适应过滤算法. 将该算法应用于基于 社区 E2learning 的个性化知识服务系统中 , 能更好 地支持社区教育的开展. 该算法已在实验中得到验 证 ,结果表明是有效的. 希望本文的工作能给相关人 员有所参考. 参考文献 : [1 ]LUO Qi ,XU E Qiang. Research on application of associa2 tion rule mining algorithm in learning community [ C]/ / Proceedings of CAAI211 . Wuhan , 2005. [ 2 ]WU Yanwen ,WU Zhonghong. Knowledge adaptive pres2 entation strategy in E2learning [C]/ / Proceedings of Sec2 ond International Conference on Knowledge Economy and Development of Science and Technology. Beijing , 2004. [3 ] HU Tian , XIA Yingju , HUAN G Xuanjing. A web2based Chinese information filtering system base on VSM [J ]. Computer Engineering , 2003 , 29 (3) :25227. [ 4 ] L I Dun , CAO Yuanda. A new weighted text filtering method [C]/ / Proceedings of International Conference on Natural Language Processing and Knowledge Engineer2 ing. Wuhan , 2005. [5 ] ROBERTSON S , HULL D A. The TREC29 filtering track final report[C]/ / Proceedings of the 9th Text Re2 trieval Conference. Gaithersburg , Maryland , USA , 2001. [6 ] HUAN G X J , WU L D , ISHIZA KI H ,et al. Language independent text categorization [J ]. Journal of Chinese Information Processing , 2000 ,14 (2) :127. [7 ]LAWRENCE R D ,ALMASI G S. Personalization of su2 permarket product recommendations [J ]. Special Issue of the International Journal of Data Mining and Knowledge Discovery , 2001 , 15 (5) :11232. 作者简介 : 罗 奇 ,男 ,1982 生 ,讲师 ,主要研究方 向为情感计算、智能计算| 体育工程等 ,发表 论文多篇. 谈宏华 ,男 ,1963 生 ,博士 ,教授 ,武汉工 程大学电气信息学院院长 ,主要研究方向为 机电一体化、智能控制等 ,曾主持项目 40 余 项 ,发表文章 30 余篇. · 49 · 智 能 系 统 学 报 第 3 卷