正在加载图片...
信息检索与数据挖掘 2019/3/16 7 回顾:词典的建立及扩展的倒排索 引 ●如何建立词项词典? ●文档解析:格式?语言?编码方式? ●词条化:词条(Tokens)/词项(Terms) ●停用词:停用词表?查表法or基于文档频率 ●词项归一化:等价类←→同义词扩展表 ●词形归并:am,are,is→be ●词千还原:去除单词两端词缀、Porter算法 ●如何实现倒排记录表? ·跳表:跳表指针(位置、个数、更新问题) ·短语查询 ·二元词索引→扩展的二元词索引:词性标注 ·位置信息索引→邻近查询 ·混合索引机制信息检索与数据挖掘 2019/3/16 7 回顾:词典的建立及扩展的倒排索 引 如何建立词项词典? 文档解析:格式?语言?编码方式? 词条化:词条(Tokens)/词项(Terms) 停用词:停用词表?查表法 or 基于文档频率 词项归一化:等价类同义词扩展表 词形归并:am, are, is be 词干还原:去除单词两端词缀、Porter算法 如何实现倒排记录表? • 跳表:跳表指针(位置、个数、更新问题) • 短语查询 • 二元词索引扩展的二元词索引:词性标注 • 位置信息索引邻近查询 • 混合索引机制
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有