相关文档

中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第3章 词项词典和倒排记录表

如何建立词项词典? 文档解析:格式?语言?编码方式? 词条化:词条(Tokens)/词项(Terms) 停用词:停用词表?查表法 or 基于文档频率 词项归一化:等价类同义词扩展表 词形归并:am, are, is be 词干还原:去除单词两端词缀、Porter算法 如何实现倒排记录表? • 跳表:跳表指针(位置、个数、更新问题) • 短语查询 • 二元词索引扩展的二元词索引:词性标注 • 位置信息索引邻近查询 • 增加倒排记录表 • 混合索引机制
团购合买资源类别:文库,文档格式:PDF,文档页数:73,文件大小:2.17MB
点击进入文档下载页(PDF格式)