统计模型中的问题 ■怎样确定文档中哪些词是重要的词? ■怎样确定 一个词在某个文档中或在整个文档集 中的重要程度? ■怎样确定一个文档和一个查询式之间的相似 度? ■在WWW中,什么是文档集(collection),链 接、文档结构以及其它形式特征(如字体、颜 色等)对统计模型有何影响?统计模型中的问题 怎样确定文档中哪些词是重要的词? 怎样确定一个词在某个文档中或在整个文档集 中的重要程度? 怎样确定一个文档和一个查询式之间的相似 度? 在WWW中,什么是文档集(collection),链 接、文档结构以及其它形式特征(如字体、颜 色等)对统计模型有何影响?