第6期陈岳峰，等：基于概念的词汇情感倾向识别方法 ·491&#

正在加载图片...

第6期陈岳峰，等：基于概念的词汇情感倾向识别方法 ·491· 贬义概念，避开无意义甚至对实验结果有反作用的缺陷就是很难控制聚类的数量，概念的方法呢？综上，借鉴K-MEDOIDS的思路，设计一个基于在HowNet这种基于世界知识的工具出现之 K-MEDOIDS算法的基准概念获取方法。前，是不能做到的，因为概念的出现必须以词汇为载一般的K-MEDOIDS算法过程如下（算法1）：体.但在HowNet出现后，概念可以脱离词汇而独立输入：原始数据集以及所求的聚类个数k; 存在，使这样的方法变得切实可行. 输出：k个聚类；此外还需要解决一个问题，即如何沿袭前人的 1)初始化：随机选定n数据点中的k个作为中研究思路，寻找若干对基准概念.概念之间的相似度心点(nedoids); 给定之后，可以将相似度看作是距离的反比，利用聚 2)将每一个数据点聚合到最近的中心点；类的方法寻找出若干个聚合，再从每个聚合中找出 3)For each中心点m 聚类中心的方法来获取基准概念。 For each非中心点o 因此，问题转化为下2个子问题：1)如何利用交换m和o,计算类内总的距离消耗：聚类算法寻找基准概念；2)如何利用基准概念进行词 4)选择消耗最低的点作为该聚类的新中心点；汇语义倾向度分析 5)重复2)~4)直至中心点不再改变，对以上2个问题的解决方案分别在2.2和2.3章根据HowNet的特点，利用算法1提出了基于节进行详细的介绍.大体思路如图2所示，先使用聚类 K-MEDOIDS算法的基准概念获取方法（算法2）：算法在褒义概念空间和贬义概念空间中各找出n个聚输人：类中心（如白色图标所示），再通过这些聚类中心来对 concept_pos:全体褒义概念；候选词的语义倾向进行计算（如虚线箭头所示）. concept_neg:全体贬义概，念； n:所求的基准概念数；袭义概念空间候选词贬义概念空间输出： ref_concept_pos:基准褒义概念； ref_concept_neg:基准贬义概念； 1)初始化：随机选定concept_pos中的n个作为中心点(medoids); 2)根据相似度，将每一个概念聚合到与其相似 ☐ 度最大的中心点； △褒义概念●O巾性概念■口贬义概念 3)For each中心点m For each非中心点o 图2基于概念的词汇语义倾向计算交换m和o,计算中心点与类内 Fig.2 Orientation computing based on concepts 非中心点的相似度总和； 2.2利用聚类算法寻找基准概念聚类分析指的是将一种模式的集合（通常表示为 4)选择相似度总和最高的那个点作为该聚类向量或者多维空间中的点)，基于相似性分成多个组的新中心点；别的过程.常用的聚类算法如K-MEANS算法、K- 5)重复2)~4)直至中心点不再改变； 6)输出各聚类中心点作为基准褒义概念ref MEDOIDS算法、CURE算法、DBSCAN算法等. 概念是一个分布在未知高维度空间中的点，无 concept_pos; 法用一系列的属性来表征一个概念.由于K-MEANS 7)将concept-.pos替换为concept_.neg(即全体贬义概念)，重复1)~6)，输出基准贬义概念rf 算法在每次迭代中都需要构造新的聚类中心，这个 concept_neg. 聚类中心是严格意义上类内各样本距离最小的点， 2.3利用基准概念进行词汇语义倾向度分析有可能是之前未出现过的点，然而在概念空间中是无法构造出之前未出现过的点，因此类似K-MEANS 在获得基准概念对之后，接下来的工作是如何的算法不适用.相反，K-MEDOIDS算法的聚类中心利用它们进行词汇的语义倾向度分析.本文沿袭了是聚类中与每一个类内样本点的相似度总和最高的前人的研究思路，提出了2个公式：点，是从已有样本点中选取出来的，因此是适用的对于一个词汇W和一个概念S,如果W有n个另一方面，虽然类似于DBSCAN算法这样的基义项（概念）：S,S2,…,Sn,它们之间的相似度是于密度的聚类算法也能够使用，但存在一个明显的 Sim(W,)Sim(SS)

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于概念的词汇情感倾向识别方法