复旦大学：《商务智能》课程PPT教学课件（商务数据分析）07 Web挖掘基础

• Web挖掘的概念 • Web内容挖掘 • Web结构挖掘 • Web日志挖掘

团购合买资源类别：文库，文档格式：PPT，文档页数：29，文件大小：1.6MB

web挖掘基础赵卫东博士复旦大学软件学院 wdzhao@fudan.edu.cn ebusiness FUDAN UNIVERSITY

Web挖掘基础赵卫东博士复旦大学软件学院 wdzhao@fudan.edu.cn

提纲 Web挖掘的概念 Web内容挖掘 Web结构挖掘 WWW 知识 Web日志挖据 ebusiness FUDAN UNIVERSITY

提纲 • Web挖掘的概念 • Web内容挖掘 • Web结构挖掘 • Web日志挖掘 WWW 知识

Web挖掘的挑战 Web数据量太庞大: Server level collection、 Client Level Collection/A Proxy Level collection Web数据的复杂性高于传统的文本文档 Web是一个动态性极强的信息源 Web面对的是一个广泛的用户群体 Web上的信息只有很小的一部分是相关的或有用的 ebusiness FUDAN UNIVERSITY

Web 挖掘的挑战 • Web数据量太庞大：Server Level Collection、Client Level Collection和 Proxy Level Collection • Web数据的复杂性高于传统的文本文档 • Web是一个动态性极强的信息源 • Web面对的是一个广泛的用户群体 • Web上的信息只有很小的一部分是相关的或有用的

Web挖掘与R web上的IR是web挖掘的一个方面,仅是对信息有序化。 web挖掘是智能化的IR,IR出现早,技术成熟。 Ofher Users ocal Computer Page Caching Muf ple Users Local Network Dynamic Addressing Proxy Server Page Caching ebusiness Web server FUDAN UNIVERSIT

Web挖掘与IR • Web上的IR是Web挖掘的一个方面，仅是对信息有序化。 • Web挖掘是智能化的IR，IR出现早，技术成熟

Web挖掘概念 Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程:C→P。 Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户 cookies等。 ebusiness FUDAN UNIVERSITY

Web挖掘概念 • Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程：C→P 。 • Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据，这些数据分布在Web文档、Web服务器的日志、用户 cookies等

Web挖掘分类 Web挖掘 Web内容挖掘 web结构挖掘 Web使用挖掘文本挖掘多媒体挖掘 URL挖掘内、外部结构挖掘般访问模式个性化访问模追踪式追踪 ebusiness FUDAN UNIVERSITY

Web挖掘分类 Web挖掘 Web内容挖掘 Web结构挖掘 Web使用挖掘文本挖掘多媒体挖掘内、外部结构挖掘 URL挖掘个性化访问模式追踪一般访问模式追踪

Web挖掘类项目 Web内容挖掘 Web结构挖掘Web日志挖掘处理数据 IR方法:无结构数据、半结构数据 Wb结构数据用户访问Wb数据类型 Serverlog, 主要数据 Web文档内及文档自由化文本、HTML标记的超文本间的超链 Proxy serverlog, Client log 表示方法词集、段落、概念、|R的三种经典模型图关系表、图处理方法统计、机器学习、自然语言理解法机器学习、专有算统计、机器学习、关联规则页面权重主要应用分类、聚类、模式发现分类聚类 Web站点重建,商业决策模式发现 ebusiness FUDAN UNIVERSITY

Web挖掘类项目 Web内容挖掘 Web结构挖掘 Web日志挖掘处理数据类型 IR方法：无结构数据、半结构数据 Web结构数据用户访问Web数据主要数据自由化文本、HTML标记的超文本 Web文档内及文档间的超链 Serverlog, Proxy serverlog, Client log 表示方法词集、段落、概念、IR的三种经典模型图关系表、图处理方法统计、机器学习、自然语言理解机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发现页面权重分类聚类模式发现 Web站点重建，商业决策

Web内容挖掘 . 基于网页内容或其描述中抽取知识的 203.30.5,145w. acr.nowe.org·I1/run/199:03;09121-0600]"a/clla/chtm 过程。 Http/1.02003942http://www.lycos.cca/cg1 bn/pursuit?queryradrarts1ng+psyehologynarhts20at=dlr""kz111a/4.5tan)(n9s;I Web内容挖掘主要 203.305.145ww.acr· ncwE. org·1/un/999:03:09:23-0600]"a /cAlls/inages/earthan1.gitBrid/1.0'20010689http://ww.acr-newsarg/calls/okOh.html 包括文本挖据和多 #calla/4. 5 (en)(Mins, I) 203.30.5.145ow,acr.nes.org·Ion/ang:03:0:24-.0600“c/clls/nag/1l.gt 媒体挖掘两类,其 Httd/1.0200190'http://ww.acr-navs.org/ca11s/02cM.htnl'mozi1lay4.5[an]Ix1N98rI) 203. 30. 5. 145 ww. acr-nevs, org.[01/Jun/1999: 03: 09: 25 -0600)"CaT /Calls/Inages/rod. git 挖掘对象包括文本 Httd/1.0200104http://w.acr-noxs.org/cal1s/0ch.htnl'mor11la/4.5[en](in98:I' 图像、音频、视频1 和其他各种类型的-m21mm如出m紫数据。 203.252.234.33ww. acr.newe.org·0l/u/99:03:32:35-0600"ar/raag/rd.gr Httd/1.0.200104'http://n.acr-naws.org/maz111a/4.6[an](xin95;i) 203.252.24.3ww,acr-news.org·l01/u/199:03:32:35-0600)"ga/mage/ arthan1.g1t Http/1.020010689'http://n.acr-nexs.org/"hbz111a/4.06(en](w1N95:I) 203.252.234.33ww.acr-nwa,org·I0/Ju/19:03:33:11-0600"a/CPbtnlHTTP/1.@"20 3218http://www.acr-nevc.org/hoz11lay4.06[an](win95:i) ebusiness FUDAN UNIVERSITY

Web内容挖掘 • 基于网页内容或其描述中抽取知识的过程。 • Web内容挖掘主要包括文本挖掘和多媒体挖掘两类，其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据

日志的预处理 IP Address Time/ Date Method/URI Referrer Agent 202.120.224.4 15:30:01/2-Jan01 GET Index. htm http://ok.edu/link.htm Mozilla/4.0(正E5.0W98) 202.120.224.4 15:30:01/2-Jan01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(正5.0W98) 202.120.224.4 15:30:01/2-Jan01 GET A.htm http://ex.edu/index.ht Mozilla/4.0(I5.0W98) 202.120.224.4 15:33:04/2-an01 GET Index htm http://ok.edu/res.php Mozilla/4.0(IE4.ONT) 202.120.224.4 15:33:042-an01 GET 1.htm http://ex.edu/index.htm Mozilla 4.0(IE4.ONT) 202.120.224.4 15:33:042-an01 GET A. htm http://ex.edu/index.htm Mozilla/4.0(IE4.ONT) 202.120.224.4 15:35:11/2-Jan01 GET C. htm http://ok.edu/a.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:35:11/2-Jan-0 GET B. htm http://ex.edu/a.htm MoZilla/ 4.(IE4.OND) 202.120.224.4 15:37:09/2-Jan01 GET Htm http://ex.edu/c.htm Mozilla /4.0(E5.0W98) ebusiness FUDAN UNIVERSITY

日志的预处理 IP Address Time/Date Method/URI Referrer Agent 202.120.224.4 15:30:01/2-Jan-01 GET Index.htm http://ok.edu/link.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:30:01/2-Jan-01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:30:01/2-Jan-01 GET A.htm http://ex.edu/index.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:37:09/2-Jan-01 GET E.htm http://ex.edu/C.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:33:04/2-Jan-01 GET Index.htm http://ok.edu/res.php Mozilla/4.0(IE4.0NT) 202.120.224.4 15:33:04/2-Jan-01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:33:04/2-Jan-01 GET A.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:35:11/2-Jan-01 GET B.htm http://ex.edu/A.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:35:11/2-Jan-01 GET C.htm http://ok.edu/A.htm Mozilla/4.0(IE5.0W98)

Web文本挖掘 Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。 hn)采集-W文本提取→特征库}挖据- 评价输出 ebusiness FUDAN UNIVERSITY

Web文本挖掘 • Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据，应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。 Internet 采集 Web文本提取特征库挖掘结果评价输出

点击下载完整版文档（PPT格式）

共29页，试读结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录