正在加载图片...
信息检索与数据挖掘 2019/4/28 5 回顾示例3:文档-词项矩阵SVD分解 词项、文档的聚类 奇异值分解就是把上面这样一个大矩阵,分解成三个小矩阵相乘,如下图 所示。比如把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X, 一个一百乘以一百的矩阵B,和一个一百乘以五十万的矩阵Y。这三个矩阵 的元素总数加起来也不过1.5亿,仅仅是原来的三千分之一。相应的存储量 和计算量都会小三个数量级以上。 B X 100·100100*500000 1.Dd0.e0503.c00 100.000·100 三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关 的一类词,其中的每个非零元素表示这类词中每个词的重要性(或者说 相关性),数值越大越相关。最后一个矩阵Y中的每一列表示同一主题 一类文章,其中每个元素表示这类文章中每篇文章的相关性。中间的矩 阵则表示类词和文章之间的相关性。因此,我们只要对关联矩阵A进 行一次奇异值分解,我们就可以同时完成了近义词分类和文章的分类。信息检索与数据挖掘 2019/4/28 5 回顾 示例3:文档-词项矩阵SVD分解 词项、文档的聚类 奇异值分解就是把上面这样一个大矩阵,分解成三个小矩阵相乘,如下图 所示。比如把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X, 一个一百乘以一百的矩阵B,和一个一百乘以五十万的矩阵Y。这三个矩阵 的元素总数加起来也不过1.5亿,仅仅是原来的三千分之一。相应的存储量 和计算量都会小三个数量级以上。 三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关 的一类词,其中的每个非零元素表示这类词中每个词的重要性(或者说 相关性),数值越大越相关。最后一个矩阵Y中的每一列表示同一主题 一类文章,其中每个元素表示这类文章中每篇文章的相关性。中间的矩 阵则表示类词和文章之间的相关性。因此,我们只要对关联矩阵A进 行一次奇异值分解,我们就可以同时完成了近义词分类和文章的分类
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有