web挖掘基础 赵卫东博士 复旦大学软件学院 wdzhao@fudan.edu.cn ebusiness FUDAN UNIVERSITY
Web挖掘基础 赵卫东 博士 复旦大学软件学院 wdzhao@fudan.edu.cn
提纲 Web挖掘的概念 Web内容挖掘 Web结构挖掘 WWW 知识 Web日志挖据 ebusiness FUDAN UNIVERSITY
提纲 • Web挖掘的概念 • Web内容挖掘 • Web结构挖掘 • Web日志挖掘 WWW 知识
Web挖掘的挑战 Web数据量太庞大: Server level collection、 Client Level Collection/A Proxy Level collection Web数据的复杂性高于传统的文本文档 Web是一个动态性极强的信息源 Web面对的是一个广泛的用户群体 Web上的信息只有很小的一部分是相关的或有用的 ebusiness FUDAN UNIVERSITY
Web 挖掘的挑战 • Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level Collection • Web数据的复杂性高于传统的文本文档 • Web是一个动态性极强的信息源 • Web面对的是一个广泛的用户群体 • Web上的信息只有很小的一部分是相关的或有用的
Web挖掘与R web上的IR是web挖掘的一个方面,仅是对信息有序化。 web挖掘是智能化的IR,IR出现早,技术成熟。 Ofher Users ocal Computer Page Caching Muf ple Users Local Network Dynamic Addressing Proxy Server Page Caching ebusiness Web server FUDAN UNIVERSIT
Web挖掘与IR • Web上的IR是Web挖掘的一个方面,仅是对信息有序化。 • Web挖掘是智能化的IR,IR出现早,技术成熟
Web挖掘概念 Web挖掘是从大量Web文档的集合C中发现隐含的、有用的 模式P的过程:C→P。 Web挖掘主要处理文本、图形和图像等半结构、非结构化的 数据,这些数据分布在Web文档、Web服务器的日志、用户 cookies等。 ebusiness FUDAN UNIVERSITY
Web挖掘概念 • Web挖掘是从大量Web文档的集合C中发现隐含的、有用的 模式P的过程:C→P 。 • Web挖掘主要处理文本、图形和图像等半结构、非结构化的 数据,这些数据分布在Web文档、Web服务器的日志、用户 cookies等
Web挖掘分类 Web挖掘 Web内容挖掘 web结构挖掘 Web使用挖掘 文本挖掘 多媒体挖掘 URL挖掘 内、外部结构挖掘 般访问模式个性化访问模 追踪 式追踪 ebusiness FUDAN UNIVERSITY
Web挖掘分类 Web挖掘 Web内容挖掘 Web结构挖掘 Web使用挖掘 文本挖掘 多媒体挖掘 内、外部结构挖掘 URL挖掘 个性化访问模 式追踪 一般访问模式 追踪
Web挖掘类 项目 Web内容挖掘 Web结构挖掘Web日志挖掘 处理数据 IR方法:无结构数据、半结构数据 Wb结构数据用户访问Wb数据 类型 Serverlog, 主要数据 Web文档内及文档 自由化文本、HTML标记的超文本间的超链 Proxy serverlog, Client log 表示方法词集、段落、概念、|R的三种经典模型 图 关系表、图 处理方法 统计、机器学习、自然语言理解法 机器学习、专有算统计、机器学习、 关联规则 页面权重 主要应用 分类、聚类、模式发现 分类聚类 Web站点重建,商 业决策 模式发现 ebusiness FUDAN UNIVERSITY
Web挖掘类 项目 Web内容挖掘 Web结构挖掘 Web日志挖掘 处理数据 类型 IR方法:无结构数据、半结构数据 Web结构数据 用户访问Web数据 主要数据 自由化文本、HTML标记的超文本 Web文档内及文档 间的超链 Serverlog, Proxy serverlog, Client log 表示方法 词集、段落、概念、IR的三种经典模型 图 关系表、图 处理方法 统计、机器学习、自然语言理解 机器学习、专有算 法 统计、机器学习、 关联规则 主要应用 分类、聚类、模式发现 页面权重 分类聚类 模式发现 Web站点重建,商 业决策
Web内容挖掘 . 基于网页内容或其 描述中抽取知识的 203.30.5,145w. acr.nowe.org·I1/run/199:03;09121-0600]"a/clla/chtm 过程。 Http/1.02003942http://www.lycos.cca/cg1 bn/pursuit?queryradrarts1ng+psyehologynarhts20at=dlr""kz111a/4.5tan)(n9s;I Web内容挖掘主要 203.305.145ww.acr· ncwE. org·1/un/999:03:09:23-0600]"a /cAlls/inages/earthan1.gitBrid/1.0'20010689http://ww.acr-newsarg/calls/okOh.html 包括文本挖据和多 #calla/4. 5 (en)(Mins, I) 203.30.5.145ow,acr.nes.org·Ion/ang:03:0:24-.0600“c/clls/nag/1l.gt 媒体挖掘两类,其 Httd/1.0200190'http://ww.acr-navs.org/ca11s/02cM.htnl'mozi1lay4.5[an]Ix1N98rI) 203. 30. 5. 145 ww. acr-nevs, org.[01/Jun/1999: 03: 09: 25 -0600)"CaT /Calls/Inages/rod. git 挖掘对象包括文本 Httd/1.0200104http://w.acr-noxs.org/cal1s/0ch.htnl'mor11la/4.5[en](in98:I' 图像、音频、视频1 和其他各种类型的-m21mm如出m紫 数据。 203.252.234.33ww. acr.newe.org·0l/u/99:03:32:35-0600"ar/raag/rd.gr Httd/1.0.200104'http://n.acr-naws.org/maz111a/4.6[an](xin95;i) 203.252.24.3ww,acr-news.org·l01/u/199:03:32:35-0600)"ga/mage/ arthan1.g1t Http/1.020010689'http://n.acr-nexs.org/"hbz111a/4.06(en](w1N95:I) 203.252.234.33ww.acr-nwa,org·I0/Ju/19:03:33:11-0600"a/CPbtnlHTTP/1.@"20 3218http://www.acr-nevc.org/hoz11lay4.06[an](win95:i) ebusiness FUDAN UNIVERSITY
Web内容挖掘 • 基于网页内容或其 描述中抽取知识的 过程。 • Web内容挖掘主要 包括文本挖掘和多 媒体挖掘两类,其 挖掘对象包括文本、 图像、音频、视频 和其他各种类型的 数据
日志的预处理 IP Address Time/ Date Method/URI Referrer Agent 202.120.224.4 15:30:01/2-Jan01 GET Index. htm http://ok.edu/link.htm Mozilla/4.0(正E5.0W98) 202.120.224.4 15:30:01/2-Jan01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(正5.0W98) 202.120.224.4 15:30:01/2-Jan01 GET A.htm http://ex.edu/index.ht Mozilla/4.0(I5.0W98) 202.120.224.4 15:33:04/2-an01 GET Index htm http://ok.edu/res.php Mozilla/4.0(IE4.ONT) 202.120.224.4 15:33:042-an01 GET 1.htm http://ex.edu/index.htm Mozilla 4.0(IE4.ONT) 202.120.224.4 15:33:042-an01 GET A. htm http://ex.edu/index.htm Mozilla/4.0(IE4.ONT) 202.120.224.4 15:35:11/2-Jan01 GET C. htm http://ok.edu/a.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:35:11/2-Jan-0 GET B. htm http://ex.edu/a.htm MoZilla/ 4.(IE4.OND) 202.120.224.4 15:37:09/2-Jan01 GET Htm http://ex.edu/c.htm Mozilla /4.0(E5.0W98) ebusiness FUDAN UNIVERSITY
日志的预处理 IP Address Time/Date Method/URI Referrer Agent 202.120.224.4 15:30:01/2-Jan-01 GET Index.htm http://ok.edu/link.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:30:01/2-Jan-01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:30:01/2-Jan-01 GET A.htm http://ex.edu/index.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:37:09/2-Jan-01 GET E.htm http://ex.edu/C.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:33:04/2-Jan-01 GET Index.htm http://ok.edu/res.php Mozilla/4.0(IE4.0NT) 202.120.224.4 15:33:04/2-Jan-01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:33:04/2-Jan-01 GET A.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:35:11/2-Jan-01 GET B.htm http://ex.edu/A.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:35:11/2-Jan-01 GET C.htm http://ok.edu/A.htm Mozilla/4.0(IE5.0W98)
Web文本挖掘 Web文本挖掘针对包括Web页面内容、页面结构和用户访问 信息等在内的各种Web数据,应用数据挖掘方法发现有用的 知识帮助人们从大量Web文档集中发现隐藏的模式。 hn)采集-W文本提取→特征库}挖据- 评价 输出 ebusiness FUDAN UNIVERSITY
Web文本挖掘 • Web文本挖掘针对包括Web页面内容、页面结构和用户访问 信息等在内的各种Web数据,应用数据挖掘方法发现有用的 知识帮助人们从大量Web文档集中发现隐藏的模式。 Internet 采集 Web文本 提取 特征库 挖掘 结果 评价 输出