全文索引 基本思想 词索引使用最广泛 把正文看作一个长的字符串 在数据结构中记录的是子字符率的开始位量 一个已经排过序的关键词的列表 查询就可以针对正文中的任何子字符串 其中每个关键词指向一个倒排表 (每限子柔 z符建立索引,从而使查 (posting list) ■需要更大的空间 指向该关键词出现文档集合 在文档中的位置 张陪写 新。■印乡究 北京太 孔稳写 权新有轴命剑究 阿淘城 倒排索引 pm4e饰e 位 建立正文倒排文件 5细断网 a{68 6每 (L3)(44) 1.对文档集中的所有文件都进 行分割处理,把正文分成多条记 6ke(42) 录文档 切分正文记录取决于程序的需要 e(12)(15(22) 定长的块、段落、章节,甚至一组 文档 张铭帖编写 叔所有,轨圆即 孔写 丽中科院计算所汉语词法分新系统 2.给每条记录赋一组关键词 操作选项 一输出格式 ■以人工或者自动的方式从记录中 语切分一级注二根根注‘北大杯准C米速8 抽取关键词 停用词( Stopword) ”,车整上作 空 a抽词干( Stemming ■切词( segmentation) 北京大息学 张铭 权质有,印究7 北京大学信息学院 张铭编写 ©版权所有,转载或翻印必究 Page 37 全文索引 基本思想: 把正文看作一个长的字符串 在数据结构中记录的是子字符串的开始位置 查询就可以针对正文中的任何子字符串 可以对每一个字符建立索引,从而使查 询词不再限于关键词 需要更大的空间 北京大学信息学院 张铭编写 ©版权所有,转载或翻印必究 Page 38 词索引使用最广泛 一个已经排过序的关键词的列表 其中每个关键词指向一个倒排表 (posting list) 指向该关键词出现文档集合 在文档中的位置 北京大学信息学院 张铭编写 ©版权所有,转载或翻印必究 Page 39 倒排索引 1 2 3 4 5 6 7 8 9 10 11 12 13 编号 词语 (文档编号,位置) cold days hot in like nine old pease porridge it pot some the (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (3,2) (2,2) (2,3) (2,4) (2,5) (3,1) (4,6) (3,3) (4,1) (4,2) (4,3) (4,4) (4,5) (4,7) (4,8) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) 北京大学信息学院 张铭编写 ©版权所有,转载或翻印必究 Page 40 建立正文倒排文件 1. 对文档集中的所有文件都进 行分割处理,把正文分成多条记 录文档 切分正文记录取决于程序的需要 定长的块、段落、章节,甚至一组 文档 北京大学信息学院 张铭编写 ©版权所有,转载或翻印必究 Page 41 2. 给每条记录赋一组关键词 以人工或者自动的方式从记录中 抽取关键词 停用词(Stopword) 抽词干(Stemming) 切词(segmentation) 北京大学信息学院 张铭编写 ©版权所有,转载或翻印必究 Page 42