正在加载图片...
第2期 李实等:中文网络客户评论的产品特征挖据方法研究 145 相关领域的训练样本集,而训练样本集的建立则短语 需要人为对这些大量的评论文章进行逐一阅读, (4)中英文语言表达中,名词短语的构成不 这与自动评论挖掘的目的有些矛盾 同例如英文中过去分词+名词可以表示名词性 目前,对于英文评论的产品特征挖掘中,短语,中文中没有这种形式但是具有其他形式 Hu(和L9等提出的基于关联规则的方法主要 (5)中文中有字的概念而英文没有中文名 步骤为 词可以由一个或者一个以上的字构成,这样对于 第1步,标注词性 表达产品特征的名词可能具有其特殊的规律 第2步,将名词和名词短语组成事务文件 本文将参考Hu等学者基于关联规则分类的 ( transaction file 产品特征挖掘算法,针对中文评论的语言特点和 第3步,基于关联规则分类方法提取频繁规风格特征解决上面的技术困难探索面向中文网 则项产生候选特征项集合 络客户评论中的产品特征挖掘方法和理论,并且 第4步,对于特征项进行邻近规则剪枝邻近通过实验验证这一方法的有效性 的定义为:假设∫是频繁规则项,而且f包含n个单 词假设一个句子包含f而且在f中的词出现在2中文网络客户评论产品特征挖掘 s中的顺序为:1,w2,…,wn假设s中任何两个相 连的单词(1和)的距离不超过3个单词,则 方法 可以说f在s中是邻近的如果∫出现在评论数据 库中的m个句子中而且至少在2个句子中是邻2.1方法具体内容 近的,就可以称∫是一个邻近的特征短语非临近 本文所提出的中文网络客户评论的产品特征 的特征短语将不是需要的产品特征; 挖掘技术,由以下8个步骤构成 第5步,对于特征项进行独立支持度剪枝,形 步骤1对评论语料进行分词 成频繁特征项所构成的产品特征集合独立支持 本文采用中国科学院计算机所软件室编写的 度的定义为:特征/的独立支持度( p-support)是中文分词工具 ICTCLAS( institute of computing 包含、而且句子中不包的父集作为特征的句 technology, Chinese lexical analysis system) 子的数量在H的研究中采用最小的独立出现(htp:/ ntgroup. Ict ac cn/),对评论文本语料进 支持度为3,也就是说如果一个特征的独立支持行分词 度小于3,那么就从候选特征集合里面去掉 步骤2对分词后的评论语料进行词性 第6步,补充评论中非频繁特征项的产品标注 特征 同样采用 ICTCLAS工具.词性标注方法可以 目前尚缺乏对于中文网络客户评论的产品特根据需要进行一级或者二级标注其差别在于: 征挖掘研究虽然英文中相关研究已经得到了有级只标注名词动词等;二级可以标注出更为具体 效的验证,但是无法直接应用于中文,其根本原因的情况包括具有名词功能的形容词或者动词,专 是引言中所提到的中文和英文语言特点及文化背有名词,词素等等为了提高挖据查准率采用二 景不同,具体有下面几个技术困难: 级标注 1)中文在进行语言处理中首先需要进行中 中文客户评论中所讨论的商品特征可能由名 文分词; 词短语构成,但是值得注意的是,中文评论的词性 (2)中文词性标注也和英文有差别特别是标注过程中并没有直接标注出名词短语(除了专 中文语言比较复杂,有些单词的词性随着语言环有名词短语以外,例如地名、单位名称)所以需 境的变化可能会发生转化,而形式上却没有变化;要对于基本名词短语进行人为界定.在中文语料 (3)在英文方法中标注词性的过程中就可以学研究中,基本名词短语的定义有一些不同,本文 标出名词短语,而对于中文名词短语的定义则非根据周雅倩等“的定义:基本名词短语为非嵌套 常复杂,词性标注工具只能标注一些专有名词的名词短语,它包括单个名词没有任何修饰成分 万方数据第2期 李实等:中文网络客户评论的产品特征挖掘方法研究 一145一 相关领域的训练样本集,而训练样本集的建立则 需要人为对这些大量的评论文章进行逐一阅读, 这与自动评论挖掘的目的有些矛盾. 目前,对于英文评论的产品特征挖掘中, Hu[5 3和“u[9 o等提出的基于关联规则的方法主要 步骤为: 第1步,标注词性; 第2步,将名词和名词短语组成事务文件 (t砌saction lile); 第3步,基于关联规则分类方法提取频繁规 则项产生候选特征项集合; 第4步,对于特征项进行邻近规则剪枝.邻近 的定义为:假设厂是频繁规则项,而且/包含n个单 词,假设一个句子s包含厂,而且在,中的词出现在 s中的顺序为:埘,,埘:,…,埘。.假设s中任何两个相 连的单词(加i和埘川)的距离不超过3个单词,则 可以说/在s中是邻近的.如果厂出现在评论数据 库中的m个句子中,而且至少在2个句子中是邻 近的,就可以称厂是一个邻近的特征短语.非临近 的特征短语将不是需要的产品特征; 第5步,对于特征项进行独立支持度剪枝,形 成频繁特征项所构成的产品特征集合.独立支持 度的定义为:特征归的独立支持度(p—support)是 包含∥r、而且句子中不包∥r的父集作为特征的句 子的数量.在Hu的研究中采用最小的独立出现 支持度为3,也就是说如果一个特征的独立支持 度小于3,那么就从候选特征集合里面去掉; 第6步,补充评论中非频繁特征项的产品 特征. 目前尚缺乏对于中文网络客户评论的产品特 征挖掘研究.虽然英文中相关研究已经得到了有 效的验证,但是无法直接应用于中文,其根本原因 是引言中所提到的中文和英文语言特点及文化背 景不同,具体有下面几个技术困难: (1)中文在进行语言处理中首先需要进行中 文分词; (2)中文词性标注也和英文有差别,特别是 中文语言比较复杂,有些单词的词性随着语言环 境的变化可能会发生转化,而形式上却没有变化; (3)在英文方法中标注词性的过程中就可以 标出名词短语,而对于中文名词短语的定义则非 常复杂,词性标注工具只能标注一些专有名词 短语; (4)中英文语言表达中,名词短语的构成不 同.例如英文中过去分词+名词可以表示名词性 短语,中文中没有这种形式,但是具有其他形式; (5)中文中有字的概念,而英文没有.中文名 词可以由一个或者一个以上的字构成,这样对于 表达产品特征的名词可能具有其特殊的规律. 本文将参考Hu等学者基于关联规则分类的 产品特征挖掘算法,针对中文评论的语言特点和 风格特征,解决上面的技术困难,探索面向中文网 络客户评论中的产品特征挖掘方法和理论,并且 通过实验验证这一方法的有效性. 2 中文网络客户评论产品特征挖掘 方法 2.1 方法具体内容 本文所提出的中文网络客户评论的产品特征 挖掘技术,由以下8个步骤构成. 步骤l 对评论语料进行分词. 本文采用中国科学院计算机所软件室编写的 中文分词工具ICTCLAS(institute of computing technology, Chinese lexical analysis system) (http://mtgroup.ict.ac.cn/),对评论文本语料进 行分词. 步骤2 对分词后的评论语料进行词性 标注. 同样采用ICTCLAS工具.词性标注方法可以 根据需要进行一级或者二级标注,其差别在于:一 级只标注名词,动词等;二级可以标注出更为具体 的情况,包括具有名词功能的形容词或者动词,专 有名词,词素等等.为了提高挖掘查准率,采用二 级标注. 中文客户评论中所讨论的商品特征可能由名 词短语构成,但是值得注意的是,中文评论的词性 标注过程中并没有直接标注出名词短语(除了专 有名词短语以外,例如地名、单位名称),所以需 要对于基本名词短语进行人为界定.在中文语料 学研究中,基本名词短语的定义有一些不同,本文 根据周雅倩等Ⅲ1的定义:基本名词短语为非嵌套 的名词短语,它包括单个名词、没有任何修饰成分 万方数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有