正在加载图片...
ssue:消除已经访问过的URL 检查某个URL是否已经被抓过了 口在将一个新的URL放到工作池之前 Diving in the crawlers 口要很快,不要在这里形成性能瓶颈(检查将要访问磁盘) Take TsE for ex 口符合条件(即未被访问过)的URLs放到 crawler的任务中 ■优化方法 陈志杰 口可以通过计算并对比(规格化后的)URL的MD5来实现 口利用访问的时空局部性- cache 口高效率的查找表数据结构 a Bloom filter 口空间效率很高,用于判断某元素是否属于某集合 唾 预处理 中文分词简介(1/3 ■对于抓下来的HTML文档,需要解析HTML 胬意忠柰在姗李曾鼙亂黩数钒分或曾暫知的菌达 ■扫描并提取词串 下面的中文断句,来自百度广告宣传片 知我 口 Stemming:提取词根 题我知练不知道 另外中文的具体含义 在具体的前后语言环境中去分析,比 去掉停用词( Stop Words) 口在慈善拍卖会上,世界冠军们夺冠时的「乒乓球拍尝完了」 口"的,“地”,等 口字符串匹配(正序、逆序、最少切分、最大切分等) 机构名、人名等 。王解(同法句法等方式处用) 奮窥趨过染日護毙墅漭翬里 第二种的算 中文分词简介(23) 中文分词简介(23) ■正向最大匹配法MM)从左向右匹配词典 n-gram方法 ■逆向最大匹配法(RMM)从右向左匹配词典 口把单字( unigram)或相邻的两个字( bigram)或更多 口例子 看作一个索引项 口例子:全文索引完成 口 unigram(1-gram):全,文,索,引,完,成 ■全切分 口 bigram(2gram):全文,文索,索引,引完,完成 口利用统计方法训练得到一个概率模型 口3gram:全文索,文索引,索引完,引完成 口根据词典生成各种可能的切分情况 ■简单,P3实习大家可以考虑 bigram分词。 模型计算各种切分的可能性,可能性最大的4 Issue:消除已经访问过的URL „ 检查某个URL是否已经被抓过了 … 在将一个新的URL放到工作池之前 … 要很快,不要在这里形成性能瓶颈(检查将要访问磁盘) … 符合条件(即未被访问过)的URLs放到crawler的任务中 „ 优化方法 … 可以通过计算并对比(规格化后的)URL的MD5来实现 … 利用访问的时空局部性--Cache … 高效率的查找表数据结构 „ 用B-树管理 „ Bloom filter … 空间效率很高,用于判断某元素是否属于某集合 Diving in the crawlers Take TSE for ex. 陈志杰 预处理 „ 对于抓下来的HTML文档,需要解析HTML … Word,PDF….. „ 扫描并提取词串 „ 英文 … Stemming:提取词根 „ 中文 … Segmenting:分词 „ 去掉停用词(Stop Words) … “the”, “a”,etc … “的”, “地”,等 „ 词性标注 „ 命名实体识别 … 日期、数字、机构名、人名等。 中文分词简介(1/3) „ 因为中文本身存在着很大的歧义性,同样一句话,不同的断句,表达 的意思就不一样。这对于计算机去做机器分析,就带来了巨大的困 难。 „ 下面的中文断句,来自百度广告宣传片: … 我知道你不知道我知道你不知道我知道你不知道 我知道,你不知道。我知道,你不知道我知道,你不知道 我知道你,不知道我。知道你不知道我,知道你不知道 我,知道你不知道我知道。你,不知道我知道你不知道 „ 另外中文的具体含义,还必须放在具体的前后语言环境中去分析。比 如: … 在慈善拍卖会上,世界冠军们夺冠时的「乒乓球 拍卖 完 了」 „ 中文分词,在具体的算法实现上分为三种: … 字符串匹配(正序、逆序、最少切分、最大切分等) … 基于理解(词法,句法等方式处理) … 基于统计 „ 在中文搜索引擎中,目前基本上是这三种算法混合使用。第二种的算 法实现起来过于复杂,所以以第一种和第三种算法为主。 中文分词简介(2/3) „ 正向最大匹配法(MM)从左向右匹配词典 „ 逆向最大匹配法(RMM)从右向左匹配词典 … 例子 „ 输入:企业要真正具有用工的自主权 „ MM:企业/要/真正/具有/用工/的/自主/权 „ RMM:企业/要/真正/具有/用工/的/自/主权 „ 全切分 … 利用统计方法训练得到一个概率模型 „ 比如,P(人民|中国) = 0.6 … 根据词典生成各种可能的切分情况 „ 如何枚举?怎么保存结果? … 利用概率模型计算各种切分的可能性,可能性最大的 就是最终结果 中文分词简介(2/3) „ n-gram方法 … 把单字(unigram)或相邻的两个字(bigram)或更多 看作一个索引项 … 例子:全文索引完成 … unigram(1-gram):全,文,索,引,完,成 … bigram(2-gram):全文,文索,索引,引完,完成 … 3-gram:全文索,文索引,索引完,引完成 „ 简单,P3实习大家可以考虑bigram分词
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有