正在加载图片...
信息检索与数据挖掘 2019/3/318 二值→计数→权重矩阵(tf-idf值) Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 5.25 3.18 0 0 0 0.35 Brutus 1.21 6.1 0 1 0 0 Caesar 8.59 2.54 0 1.51 0.25 0 Calpurnia 0 1.54 0 0 0 0 Cleopatra 2.85 0 0 0 0 0 mercy 1.51 0 1.9 0.12 5.25 0.88 worser 1.37 0 0.11 4.15 0.25 1.95 ·每个文档可看成一个向量,其中每个分量对于词典 中一个词项,分量值为对于词项的tf-idf值 t「,查询g中词项在文档中出现的频度→词项的概率表征相关性? idf,罕见词的idf高而高频词的ⅰdf低→根据语言学修正词项的概率信息检索与数据挖掘 2019/3/31 8 二值→ 计数 → 权重矩阵( tf-idf值) • 每个文档可看成一个向量,其中每个分量对于词典 中一个词项,分量值为对于词项的tf-idf值 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 5.25 3.18 0 0 0 0.35 Brutus 1.21 6.1 0 1 0 0 Caesar 8.59 2.54 0 1.51 0.25 0 Calpurnia 0 1.54 0 0 0 0 Cleopatra 2.85 0 0 0 0 0 mercy 1.51 0 1.9 0.12 5.25 0.88 worser 1.37 0 0.11 4.15 0.25 1.95 tf,查询q中词项在文档中出现的频度词项的概率表征相关性? idf,罕见词的idf高而高频词的idf低根据语言学修正词项的概率
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有