电子商务与数据挖掘 基于WEB日志的用户访问模式挖掘
电子商务与数据挖掘 基于WEB日志的用户访问模式挖掘
电子商务与数据挖掘——完美结合 ■在电子商务中进行成功的数据挖掘得益于 口电子商务提供海量的数据 如界电子务图韩平均每个小时卖出五件物品,那么它 ¤丰富的记录信息 良好的WEB站点设计将有助于获得丰富的信息 口干净的数据 从电子商务站点收集的都是电子数据,无需人工输入或者是从 历 统进行整 研究成果容易转化 在电子商务中,很多知识发现都可以进行直接应用 口投资收益容易衡量
电子商务与数据挖掘——完美结合 ◼ 在电子商务中进行成功的数据挖掘得益于: ❑ 电子商务提供海量的数据 ◼ 如果一个电子商务网站平均每个小时卖出五件物品,那么它一 个月的平均点击量是160万次。 ❑ 丰富的记录信息 ◼ 良好的WEB站点设计将有助于获得丰富的信息 ❑ 干净的数据 ◼ 从电子商务站点收集的都是电子数据,无需人工输入或者是从 历史系统进行整合 ❑ 研究成果容易转化 ◼ 在电子商务中,很多知识发现都可以进行直接应用 ❑ 投资收益容易衡量
电子商务为数据挖掘提供海量数据 ■“点击流”( Clickstreams)将会产生电子商务挖掘的 大量数据 a Yahoo!在2000年每天被访问的页面数是10亿,如此大的访 问量将会产生巨大的Web日志(记载页面访问的情况),每 个小时产生的Web日志量就达到10GB! 进行数据挖掘所需的大量数参’也会在断时间内产生 务站 口计算一下,如果你的站点一个小时卖出5件物品,一个月会 有多少页面访问 a5件×24小时×30天/%2(转化率,表示访问的人中买东西 的人的比率)×9页面(平均买一件物品要访问9个页面) 1,600,000页面
电子商务为数据挖掘提供海量数据 ◼ “点击流”(Clickstreams)将会产生电子商务挖掘的 大量数据 ❑ Yahoo!在2000年每天被访问的页面数是10亿,如此大的访 问量将会产生巨大的Web日志(记载页面访问的情况),每 个小时产生的Web日志量就达到10GB! ◼ 即便是一个小的电子商务站点,也会在断时间内产生 进行数据挖掘所需的大量数据 ❑ 计算一下,如果你的站点一个小时卖出5件物品,一个月会 有多少页面访问: ❑ 5件×24小时×30天/%2(转化率,表示访问的人中买东西 的人的比率)×9页面(平均买一件物品要访问9个页面)= 1,600,000页面
丰富的记录信息 如果你的电子商务站点设计的好,你将可以获 得各种商务的或者是用户访问的信息: a商品和商品的属性 口商品的归类信息(当同时展示多种商品是,归类信 息是非常有用的) 促销信息 口关于访问的信息(比如:访问计数) 口关于客户额信息(可以通过登陆/注册来获得)
丰富的记录信息 ◼ 如果你的电子商务站点设计的好,你将可以获 得各种商务的或者是用户访问的信息: ❑ 商品和商品的属性 ❑ 商品的归类信息(当同时展示多种商品是,归类信 息是非常有用的) ❑ 促销信息 ❑ 关于访问的信息(比如:访问计数) ❑ 关于客户额信息 (可以通过登陆/注册来获得)
“千净的数据” 信息直接从网站上提取 a无需从历史系统中集成,避免很多错误 ■可以通过良好的站点设计,直接获得跟数据挖掘有关 的数据 口而不是再来分析、计算、预处理要用的数据 直接收集的电子数据——可靠 ¤无需人工数据输入,避免了很多错误 可以通过良好的站点设计,良好的控制数据采样的颗 粒度 ¤颗粒度控制在客户级别或者是 session级别,而不是页面级别
“干净的数据” ◼ 信息直接从网站上提取 ❑ 无需从历史系统中集成,避免很多错误 ◼ 可以通过良好的站点设计,直接获得跟数据挖掘有关 的数据 ❑ 而不是再来分析、计算、预处理要用的数据 ◼ 直接收集的电子数据——可靠 ❑ 无需人工数据输入,避免了很多错误 ◼ 可以通过良好的站点设计,良好的控制数据采样的颗 粒度 ❑ 颗粒度控制在客户级别或者是session级别,而不是页面级别
有趣的“生日现象” 个银行通过对客户数据统计发现,它的5% 的客户都是在同一天出生的(同年同月同日) 为什么? 如何解释?
有趣的“生日现象” ◼ 一个银行通过对客户数据统计发现,它的5% 的客户都是在同一天出生的(同年同月同日)! 为什么? 如何解释?
研究成果容易转化 ■历史上的数据挖掘研究有过许多的知识发现,但是这 些知识发现却很少在实际的商业应用中产生什么效果 ¤要应用这些发现的知识可能意味着要进行复杂的系统更改 流程更改或是改变人们的办事习惯,这在现实中是非常困难 的 在电子商务中,很多知识发现都可以进行直接应用 a改变站点的设计(改变布局,进行个性化设计等) a开始有目标的促销 ¤根据对广告效果的统计数据改变广告策略 ¤可以很容易的提供捆绑销售
研究成果容易转化 ◼ 历史上的数据挖掘研究有过许多的知识发现,但是这 些知识发现却很少在实际的商业应用中产生什么效果 ❑ 要应用这些发现的知识可能意味着要进行复杂的系统更改、 流程更改或是改变人们的办事习惯,这在现实中是非常困难 的。 ◼ 在电子商务中,很多知识发现都可以进行直接应用 ❑ 改变站点的设计(改变布局,进行个性化设计等) ❑ 开始有目标的促销 ❑ 根据对广告效果的统计数据改变广告策略 ❑ 可以很容易的提供捆绑销售
投资收益容易衡量 使用数据挖掘成果的革新带来的收益如何衡量? a在传统的商业中衡量投资收益需要长期的测量和观察,Paco Underh在《购物的科学》一书中提及,一个超市为了衡量 他们的促销策略带来的投资收益,每年要花14,000个小时查 看录像带。 ■在电子商务中,衡量革新的投资收益是非常容易的 ¤销售变化的报表可以自动产生 口客户对电子邮件和电子调查的反馈都可以在几天内得到,而 不必等个几个月 口电子商务乃至整个互联网都是传统商业的理想试验室
投资收益容易衡量 ◼ 使用数据挖掘成果的革新带来的收益如何衡量? ❑ 在传统的商业中衡量投资收益需要长期的测量和观察,Paco Underhill在《购物的科学》一书中提及,一个超市为了衡量 他们的促销策略带来的投资收益,每年要花14,000个小时查 看录像带。 ◼ 在电子商务中,衡量革新的投资收益是非常容易的 ❑ 销售变化的报表可以自动产生 ❑ 客户对电子邮件和电子调查的反馈都可以在几天内得到,而 不必等个几个月 ❑ 电子商务乃至整个互联网都是传统商业的理想试验室
对电子商务网站的Web数据挖掘 通常在一个电子商务网站上应用的数据挖掘技 术是Web数据挖掘。 ■我们可以在一个电子商务网站挖掘些什么东西? 口内容挖掘( Web Content Mining) 口结构挖掘( Web Structure Mining) 口使用挖掘( Web Usage Mining)
对电子商务网站的Web数据挖掘 ◼ 通常在一个电子商务网站上应用的数据挖掘技 术是Web数据挖掘。 ◼ 我们可以在一个电子商务网站挖掘些什么东西? ❑ 内容挖掘 (Web Content Mining) ❑ 结构挖掘 (Web Structure Mining) ❑ 使用挖掘 (Web Usage Mining)
Web Content mining 对Web页面内容进行挖掘,从Web数据中发现 信息 a自动地从数以百万计的Web站点和在线数据库中搜 索和获取信息和资料; ¤尽管人们可以直接从网上通过抓取建立索引,实现 检索服务来获得资源,但是大量的“隐藏”信息只 能通过内容挖掘来自动挖掘
Web Content Mining ◼ 对Web页面内容进行挖掘,从Web数据中发现 信息。 ❑ 自动地从数以百万计的Web站点和在线数据库中搜 索和获取信息和资料; ❑ 尽管人们可以直接从网上通过抓取建立索引,实现 检索服务来获得资源,但是大量的“隐藏”信息只 能通过内容挖掘来自动挖掘