正在加载图片...
两个任务:基于内容的网站结构划分与用户行为轮廓的识别68。一个门户网站按照网页的 内容可以被划分为图3所示的层次结构。 图3网站内容层次结构 将根看作0层,将新闻、体育等称为一级项目,相应的将国内、国际等称为二级项目 对每一个节点按照层次+所属类别+位置顺序进行编号,比如足球的编号为221,其中第一个 2表示它位于第二层,第二个2表示它属于体育项目,1表示它位于体育项目子节点的第 个,按照这个规律,电视的编号为232。而第二层的节点的编号只有两位,比如体育的编号 为12,1代表它属于第一层,2代表它属于体育项。在网站中的每个网页都可以根据其内容 将其划到图3中的某一项,即网站中的每一个网页都有一个对应的编号存在。 按照用户在网站中浏览网页的顺序及网页所属项目的不同,可以将用户的行为分为三种 不同的方向,向下浏览、向上浏览、侧向浏览。其中向下浏览、向上浏览动作发生在同一个 项目之中,而跨越不同项目之间的网页浏览都属于侧向浏览。向下浏览的顺序是用户从根(主 页)进入某一项目(比如体育),然后由体育页面又进入关于排球的页面。向上浏览的顺序 与向下浏览的顺序刚好相反。侧向浏览是指用户从一个项目中直接进入另外的一个项目,比 如从排球页面直接进入电视页面,或者直接从国际页面直接进入了娱乐页面。用户浏览网页 方向的示意如图4所示。 图4浏览方向的说明 在集合P中的日志记录中,首先将网页全部更换为与之对应的编码,然后对于每个用 户的页面集合P,按照 Session ld的不同分组,每一个分组标志着用户访问网站的一次会话, 根据网页的编码,将每个用户每个会话中浏览方向为向上的记录删除,只保留浏览方向是向 下与侧向的记录。然后再删除所有非最底层的网页,即删掉所有编号长度只有1和2的记录 经过删除的记录构成了集合PS,被编码替换及清理以后的日志记录如图5所示。 010-092513:0222用户名网站名计算机名2 ASP NET Session Id= - finds45hkz3mh3 I firfywb30 图5清理后的日志记录 根据PS按照下面的步骤计算用户的兴趣度。 (1)对每个用户构建一个二维表T1。表中的每一行表示一个一级项目,每一列表 二级项目。表中每个单元格的初始值为0两个任务:基于内容的网站结构划分与用户行为轮廓的识别[6-8]。一个门户网站按照网页的 内容可以被划分为图 3 所示的层次结构。 根 根 根 根 根 根 根 ... 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 图 3 网站内容层次结构 将根看作 0 层,将新闻、体育等称为一级项目,相应的将国内、国际等称为二级项目。 对每一个节点按照层次+所属类别+位置顺序进行编号,比如足球的编号为 221,其中第一个 2 表示它位于第二层,第二个 2 表示它属于体育项目,1 表示它位于体育项目子节点的第一 个,按照这个规律,电视的编号为 232。而第二层的节点的编号只有两位,比如体育的编号 为 12,1 代表它属于第一层,2 代表它属于体育项。在网站中的每个网页都可以根据其内容 将其划到图 3 中的某一项,即网站中的每一个网页都有一个对应的编号存在。 按照用户在网站中浏览网页的顺序及网页所属项目的不同,可以将用户的行为分为三种 不同的方向,向下浏览、向上浏览、侧向浏览。其中向下浏览、向上浏览动作发生在同一个 项目之中,而跨越不同项目之间的网页浏览都属于侧向浏览。向下浏览的顺序是用户从根(主 页)进入某一项目(比如体育),然后由体育页面又进入关于排球的页面。向上浏览的顺序 与向下浏览的顺序刚好相反。侧向浏览是指用户从一个项目中直接进入另外的一个项目,比 如从排球页面直接进入电视页面,或者直接从国际页面直接进入了娱乐页面。用户浏览网页 方向的示意如图 4 所示。 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 根 图 4 浏览方向的说明 在集合 P 中的日志记录中,首先将网页全部更换为与之对应的编码,然后对于每个用 户的页面集合 Pi,按照 Session_Id 的不同分组,每一个分组标志着用户访问网站的一次会话, 根据网页的编码,将每个用户每个会话中浏览方向为向上的记录删除,只保留浏览方向是向 下与侧向的记录。然后再删除所有非最底层的网页,即删掉所有编号长度只有 1 和 2 的记录。 经过删除的记录构成了集合 PS, 被编码替换及清理以后的日志记录如图 5 所示。 2010-09-25 13:02:22 用户名 网站名 计算机名 211 ASP.NET_Session_Id=fsnvds45hkz3mh31frfvwb30 图 5 清理后的日志记录 根据 PS 按照下面的步骤计算用户的兴趣度。 (1)对每个用户构建一个二维表 Ti。表中的每一行表示一个一级项目,每一列表示一个 二级项目。表中每个单元格的初始值为 0
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有