正在加载图片...
第6期 陈岳峰,等:基于概念的词汇情感倾向识别方法 ·491· 贬义概念,避开无意义甚至对实验结果有反作用的 缺陷就是很难控制聚类的数量, 概念的方法呢? 综上,借鉴K-MEDOIDS的思路,设计一个基于 在HowNet这种基于世界知识的工具出现之 K-MEDOIDS算法的基准概念获取方法。 前,是不能做到的,因为概念的出现必须以词汇为载 一般的K-MEDOIDS算法过程如下(算法1): 体.但在HowNet出现后,概念可以脱离词汇而独立 输入:原始数据集以及所求的聚类个数k; 存在,使这样的方法变得切实可行. 输出:k个聚类; 此外还需要解决一个问题,即如何沿袭前人的 1)初始化:随机选定n数据点中的k个作为中 研究思路,寻找若干对基准概念.概念之间的相似度 心点(nedoids); 给定之后,可以将相似度看作是距离的反比,利用聚 2)将每一个数据点聚合到最近的中心点; 类的方法寻找出若干个聚合,再从每个聚合中找出 3)For each中心点m 聚类中心的方法来获取基准概念。 For each非中心点o 因此,问题转化为下2个子问题:1)如何利用 交换m和o,计算类内总的距离消耗: 聚类算法寻找基准概念;2)如何利用基准概念进行词 4)选择消耗最低的点作为该聚类的新中心点; 汇语义倾向度分析 5)重复2)~4)直至中心点不再改变, 对以上2个问题的解决方案分别在2.2和2.3章 根据HowNet的特点,利用算法1提出了基于 节进行详细的介绍.大体思路如图2所示,先使用聚类 K-MEDOIDS算法的基准概念获取方法(算法2): 算法在褒义概念空间和贬义概念空间中各找出n个聚 输人: 类中心(如白色图标所示),再通过这些聚类中心来对 concept_pos:全体褒义概念; 候选词的语义倾向进行计算(如虚线箭头所示). concept_neg:全体贬义概,念; n:所求的基准概念数; 袭义概念空间 候选词 贬义概念空间 输出: ref_concept_pos:基准褒义概念; ref_concept_neg:基准贬义概念; 1)初始化:随机选定concept_pos中的n个作为 中心点(medoids); 2)根据相似度,将每一个概念聚合到与其相似 ☐ 度最大的中心点; △褒义概念●O巾性概念■口贬义概念 3)For each中心点m For each非中心点o 图2基于概念的词汇语义倾向计算 交换m和o,计算中心点与类内 Fig.2 Orientation computing based on concepts 非中心点的相似度总和; 2.2利用聚类算法寻找基准概念 聚类分析指的是将一种模式的集合(通常表示为 4)选择相似度总和最高的那个点作为该聚类 向量或者多维空间中的点),基于相似性分成多个组 的新中心点; 别的过程.常用的聚类算法如K-MEANS算法、K- 5)重复2)~4)直至中心点不再改变; 6)输出各聚类中心点作为基准褒义概念ref MEDOIDS算法、CURE算法、DBSCAN算法等. 概念是一个分布在未知高维度空间中的点,无 concept_pos; 法用一系列的属性来表征一个概念.由于K-MEANS 7)将concept-.pos替换为concept_.neg(即全体 贬义概念),重复1)~6),输出基准贬义概念rf 算法在每次迭代中都需要构造新的聚类中心,这个 concept_neg. 聚类中心是严格意义上类内各样本距离最小的点, 2.3利用基准概念进行词汇语义倾向度分析 有可能是之前未出现过的点,然而在概念空间中是 无法构造出之前未出现过的点,因此类似K-MEANS 在获得基准概念对之后,接下来的工作是如何 的算法不适用.相反,K-MEDOIDS算法的聚类中心 利用它们进行词汇的语义倾向度分析.本文沿袭了 是聚类中与每一个类内样本点的相似度总和最高的 前人的研究思路,提出了2个公式: 点,是从已有样本点中选取出来的,因此是适用的 对于一个词汇W和一个概念S,如果W有n个 另一方面,虽然类似于DBSCAN算法这样的基 义项(概念):S,S2,…,Sn,它们之间的相似度是 于密度的聚类算法也能够使用,但存在一个明显的 Sim(W,)Sim(SS)
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有