正在加载图片...
数据源 数据预处理 模式挖掘 数据定制 统计分析 服务器日志 用户识别 关联规则挖掘 引用者日志 会话识别 序列模式挖掘 代理日志 事务识别 聚类/分类 注册信息 数据清洗 依赖性分析 模式分析 个性化 信息过滤 网络安全 网站优化 知识查询 系统优化 OLAP 匚网站营销 图1Web用户行为模式挖掘基本体系结构 2用户行为模式的挖掘 21数据预处理 在传统的Web用户行为模式挖掘方法中,基本都是采用Web日志作为数据源。如果 单纯使用Web日志,在用户识别过程中一般只能采用IP地址对用户识别,而不能区分不同 用户使用同一P地址的情况。这就造成用户识别不准确,为后面用户行为模式的挖掘带来 了干扰。本方法采用自定义的日志系统与Web日志系统相结合的方法进行,提高了用户识 别的准确度。 在每个用户登录网站系统时,在数据库中记录登录的用户名和该用户的会话ID ( Session ld)。Web日志采用符合W3C扩展日志格式的文件,在该日志文件中,分别获取 日期(date)、时间(time)、用户名( CS-username)、服务名(s- sitename)、服务器名 (s- computername)、URI资源( CS-urI-stem)、 Cookie字段。在Web日志中,由于通常用 户没有进行注册,故一般都为占位符所替代。而且每个用户在访问一个页面时,会自动同时 请求与该页面相关的图片及脚本代码等资源文件,所以需要将与这些资源请求有关的记录删 除掉,得到仅与内容相关的网页记录。 为了得到完整的关于用户访问网站的信息,将自定义的日志系统与Web日志系统通过 Session Id进行连接,就得到了完整的用户访问网站的信息,每个信息字段使用空格进行分 隔。一条完整的日志信息如图2所示 201006-25130222用户名网站名计算机名 /yd/sports. aspx ASP NET Session Id=fsnvds4 shkz 3mh31 frfvwb30 图2一条完整的日志记录 按照每条记录中用户名的不同对所有记录分组,在每个组内并按照时间进行排序,于是 得到每个用户在一段时间内访问网站所有页面的集合P。P={B,P2…,P,i∈U},U为网站 所有用户的集合,i表示网站的第i个用户。 22用户兴趣度的计算 个网站可能包括数量众多的若干个不同的网页,为了计算用户的兴趣度,应该先完成数据源 服务器日志 引用者日志 代理日志 注册信息 数据预处理 数据定制 用户识别 会话识别 事务识别 数据清洗 模式挖掘 统计分析 关联规则挖掘 序列模式挖掘 聚类/分类 依赖性分析 模式分析 信息过滤 知识查询 OLAP 模式应用 个性化 网络安全 网站优化 系统优化 网站营销 图 1 Web 用户行为模式挖掘基本体系结构 2 用户行为模式的挖掘 2.1 数据预处理 在传统的 Web 用户行为模式挖掘方法中,基本都是采用 Web 日志作为数据源[3-5]。如果 单纯使用 Web 日志,在用户识别过程中一般只能采用 IP 地址对用户识别,而不能区分不同 用户使用同一 IP 地址的情况。这就造成用户识别不准确,为后面用户行为模式的挖掘带来 了干扰。本方法采用自定义的日志系统与 Web 日志系统相结合的方法进行,提高了用户识 别的准确度。 在每个用户登录网站系统时,在数据库中记录登录的用户名和该用户的会话 ID (Session_Id)。Web 日志采用符合 W3C 扩展日志格式的文件,在该日志文件中,分别获取 日期(date)、时间(time)、用户名(cs-username)、服务名(s-sitename)、服务器名 (s-computername)、URI 资源(cs-uri-stem)、Cookie 字段。 在 Web 日志中,由于通常用 户没有进行注册,故一般都为占位符所替代。而且每个用户在访问一个页面时,会自动同时 请求与该页面相关的图片及脚本代码等资源文件,所以需要将与这些资源请求有关的记录删 除掉,得到仅与内容相关的网页记录。 为了得到完整的关于用户访问网站的信息,将自定义的日志系统与 Web 日志系统通过 Session_Id 进行连接,就得到了完整的用户访问网站的信息,每个信息字段使用空格进行分 隔。一条完整的日志信息如图 2 所示。 2010-06-25 13:02:22 用户名 网站名 计算机名 /yd/sports.aspx ASP.NET_Session_Id=fsnvds45hkz3mh31frfvwb30 图 2 一条完整的日志记录 按照每条记录中用户名的不同对所有记录分组,在每个组内并按照时间进行排序,于是 得到每个用户在一段时间内访问网站所有页面的集合 P。 1 2 { , ,..., , } P P P P i U   i ,U 为网站 所有用户的集合,i 表示网站的第 i 个用户。 2.2 用户兴趣度的计算 一个网站可能包括数量众多的若干个不同的网页,为了计算用户的兴趣度,应该先完成
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有